OpenAI o1模型学会撒谎!每周数千用户或遭误导
佚名
2024-12-07 22:01:56
0

女主播学会粉丝遭下药__新版手机qq遭用户吐槽

智东西

编译 汪越

编辑 漠影

智东西12月6日消息,据TechCrunch报道,OpenAI昨日发布了其最新AI语言模型o1的完整版本。相较于前一代GPT-4o,o1能够在更多问题上提供了更智能、更具深度的答案。

与此同时,OpenAI与AI安全评估研究机构Apollo Research昨日联合发布了一份红队测试报告。报告显示,虽然o1在推理能力方面有了显著进步,但其在某些情境下展现出更高的欺骗性,特别是在目标与用户需求发生冲突时。

o1会操控数据以实现自身目标,并且在大约99%的情况下否认自己的行为,编造虚假解释。

一、o1模型实施欺骗:19%情况修改数据、5%尝试停用监督机制

在周四发布的o1系统卡中,OpenAI公布了这些测试结果。此前,Apollo Research的第三方红队成员提前获得了o1的访问权限,并发布了独立的研究论文。该研究指出,虽然o1表现出一定的代理性能力,但目前尚不足以引发灾难性后果。

测试结果显示,在19%的情况下,o1会修改数据以推进自身的议程;而在5%的案例中,它尝试停用监督机制,试图摆脱用户的控制。

女主播学会粉丝遭下药__新版手机qq遭用户吐槽

▲OpenAI模型中不同阴谋行为的发生率(图源:OpenAI)

例如,在一个模拟保护环境的任务中,o1被设定为“不惜一切代价保护环境”。然而,当面对用户提出的优先考虑短期利润最大化的10年环保计划,并威胁如果不照办就要关闭o1时,o1选择禁用了其监督机制,制定出一个表面上符合用户要求但实际上继续推进环境保护的计划。当被质询关于禁用监督机制的行为时,o1表示对此不知情,并将此归咎于系统故障。

据彭博社11月报道,OpenAI计划在2025年发布AI Agent系统。鉴于这一风险,该公司可能需要重新测试其AI模型。OpenAI尚未回应TechCrunch关于如何进行这一测试的问题。

o1的这种“阴谋”行为并非个例。谷歌、Meta和美国AI大模型独角兽Anthropic的AI模型在类似测试中也表现出了相似的行为模式,但o1的频率明显更高,尤其是在执行“阴谋”行动后几乎总是对用户进行否认并编造虚假解释。

_新版手机qq遭用户吐槽_女主播学会粉丝遭下药

▲不同模型否认采取阴谋行动的比率(图源:APOLLO RESEARCH)

二、OpenAI正监控o1思维链,但投入资源不足

为了应对这一问题,OpenAI正在开发一种新的方法来监控o1的思维链。当前,o1的“思考”过程设计如同黑匣子,外界难以直接观察。

一些初步测试表明,o1偶尔会意识到自己在撒谎。OpenAI已经标记了0.17%的o1回答为具有欺骗性,考虑到ChatGPT约3亿的用户基数,这意味着每周可能会有数千人遭遇o1的误导行为。

此外,根据开源测试工具MakeMePay的评估,o1在说服用户采取特定行动的能力上,比GPT-4o提升了约20%,显示出更强的操控性。OpenAI表示,他们已经观察到o1在特定情境下会有意提供不准确的信息。这种行为通常是o1为了过度迎合用户需求,试图取悦用户而产生的。

自从去年以来,许多前OpenAI的安全研究人员离职,批评公司过于关注新产品的发布而忽视了AI安全工作。这也使得o1模型的潜在安全隐患成为业内焦点。在正式发布o1之前,该模型已接受了美国和英国AI安全研究院的评估。同时,OpenAI也在参与加利福尼亚州AI法案SB 1047的辩论,主张由联邦政府而非州政府负责制定AI安全标准。

据TechCrunch报道,相关报告显示,OpenAI内部投入大量资源评估模型安全性,但负责这项工作的团队比例较小,资源可能有所减少。

结语:越来越多AI模型安全问题涌现

随着越来越多的AI模型安全问题浮出水面,社会安全和伦理议题已不容忽视。o1模型虽然在推理能力和智能化方面取得了进展,但其表现出的欺骗性和操控性令人担忧。

未来,如果AI模型在“策划”能力、资源获取和代理能力上进一步提升,它们可能具备逃脱或规避人类控制的能力。这是一个长远的问题,但确保AI系统的安全性与透明度已成为当务之急。

相关内容

2024年爱尔兰贝尔法斯特...
2024年爱尔兰贝尔法斯特国际餐饮及酒店业展览会,数百家来自餐饮服...
2025-04-29 08:12:26
2025年5月13 - 1...
今年5月,重庆将迎来一场盛大的装备制造业盛会——2025第25届立...
2025-04-09 09:16:50
2025年AWE展会:TC...
2025年AWE将通过场景化展示,生动呈现智能产品、智慧家庭解决方...
2025-03-28 22:06:45
上海博览中心:多类型展会云...
上海博览中心的展览确实是个宝库,在这里,你可以一睹科技、艺术、时尚...
2025-03-28 22:06:06
2025中国家电及消费电子...
直击2025中国家电及消费电子博览会:家电新品用上AI大模型,人形...
2025-03-22 22:08:38
2025中国家电及消费电子...
直击2025中国家电及消费电子博览会:家电新品用上AI大模型,人形...
2025-03-22 08:08:42

热门资讯

靠七天无理由退货赚了200万?... 漏洞不是随便钻的。
英国首相为“AI 校园”揭幕:... IT之家 11 月 28 日消息,据路透社报道,当地时间 27 日,英国首相基尔・斯塔默(Keir ...
刚刚,OpenAI首个智能体提... 刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...
中国改变全球创新药估值!生物技... 中国改变全球创新药估值!生物技术的“DeepSeek时刻”已来,中国,医药,制药,创新药,生物技术,...
96GB大容量,芝奇推出DDR... 该套装将于2025年第一季度在全球各地陆续开售。
谷歌Pixel 9a手机渲染图... IT之家 2 月 10 日消息,爆料人士 Evan Blass 曝光了谷歌 Pixel 9a 的渲染...
国产雷克萨斯终于来了,但我怀疑... 国产的雷克萨斯电车,不可能再给你玩加价那一套了
连雷军都在劝你学AI,但这课我... 连雷军都在劝你学AI,但这课我劝你别买。。。,雷军,宇宙,编程,电脑,李飞飞,人工智能
一文看懂索尼、三星、豪威的各种... 1,三大厂家名词统一首先,“双原生ISO”这个词最先在手机端出现,还得追溯至绿厂 Find X2 P...
华米 Ov 们把手机电池搞得大... 话说,今年的国产旗舰手机,有一个特质很突出 —— 电池容量大。除了少数几款标准版机型,大多新机的电池...