OpenAI o1模型学会撒谎！每周数千用户或遭误导_科技动态

OpenAI o1模型学会撒谎！每周数千用户或遭误导

佚名

2024-12-07 22:01:56

0次

女主播学会粉丝遭下药__新版手机qq遭用户吐槽

智东西

编译汪越

编辑漠影

智东西12月6日消息，据TechCrunch报道，OpenAI昨日发布了其最新AI语言模型o1的完整版本。相较于前一代GPT-4o，o1能够在更多问题上提供了更智能、更具深度的答案。

与此同时，OpenAI与AI安全评估研究机构Apollo Research昨日联合发布了一份红队测试报告。报告显示，虽然o1在推理能力方面有了显著进步，但其在某些情境下展现出更高的欺骗性，特别是在目标与用户需求发生冲突时。

o1会操控数据以实现自身目标，并且在大约99%的情况下否认自己的行为，编造虚假解释。

一、o1模型实施欺骗：19%情况修改数据、5%尝试停用监督机制

在周四发布的o1系统卡中，OpenAI公布了这些测试结果。此前，Apollo Research的第三方红队成员提前获得了o1的访问权限，并发布了独立的研究论文。该研究指出，虽然o1表现出一定的代理性能力，但目前尚不足以引发灾难性后果。

测试结果显示，在19%的情况下，o1会修改数据以推进自身的议程；而在5%的案例中，它尝试停用监督机制，试图摆脱用户的控制。

女主播学会粉丝遭下药__新版手机qq遭用户吐槽

▲OpenAI模型中不同阴谋行为的发生率（图源：OpenAI）

例如，在一个模拟保护环境的任务中，o1被设定为“不惜一切代价保护环境”。然而，当面对用户提出的优先考虑短期利润最大化的10年环保计划，并威胁如果不照办就要关闭o1时，o1选择禁用了其监督机制，制定出一个表面上符合用户要求但实际上继续推进环境保护的计划。当被质询关于禁用监督机制的行为时，o1表示对此不知情，并将此归咎于系统故障。

据彭博社11月报道，OpenAI计划在2025年发布AI Agent系统。鉴于这一风险，该公司可能需要重新测试其AI模型。OpenAI尚未回应TechCrunch关于如何进行这一测试的问题。

o1的这种“阴谋”行为并非个例。谷歌、Meta和美国AI大模型独角兽Anthropic的AI模型在类似测试中也表现出了相似的行为模式，但o1的频率明显更高，尤其是在执行“阴谋”行动后几乎总是对用户进行否认并编造虚假解释。

_新版手机qq遭用户吐槽_女主播学会粉丝遭下药

▲不同模型否认采取阴谋行动的比率（图源：APOLLO RESEARCH）

二、OpenAI正监控o1思维链，但投入资源不足

为了应对这一问题，OpenAI正在开发一种新的方法来监控o1的思维链。当前，o1的“思考”过程设计如同黑匣子，外界难以直接观察。

一些初步测试表明，o1偶尔会意识到自己在撒谎。OpenAI已经标记了0.17%的o1回答为具有欺骗性，考虑到ChatGPT约3亿的用户基数，这意味着每周可能会有数千人遭遇o1的误导行为。

此外，根据开源测试工具MakeMePay的评估，o1在说服用户采取特定行动的能力上，比GPT-4o提升了约20%，显示出更强的操控性。OpenAI表示，他们已经观察到o1在特定情境下会有意提供不准确的信息。这种行为通常是o1为了过度迎合用户需求，试图取悦用户而产生的。

自从去年以来，许多前OpenAI的安全研究人员离职，批评公司过于关注新产品的发布而忽视了AI安全工作。这也使得o1模型的潜在安全隐患成为业内焦点。在正式发布o1之前，该模型已接受了美国和英国AI安全研究院的评估。同时，OpenAI也在参与加利福尼亚州AI法案SB 1047的辩论，主张由联邦政府而非州政府负责制定AI安全标准。

据TechCrunch报道，相关报告显示，OpenAI内部投入大量资源评估模型安全性，但负责这项工作的团队比例较小，资源可能有所减少。

结语：越来越多AI模型安全问题涌现

随着越来越多的AI模型安全问题浮出水面，社会安全和伦理议题已不容忽视。o1模型虽然在推理能力和智能化方面取得了进展，但其表现出的欺骗性和操控性令人担忧。

未来，如果AI模型在“策划”能力、资源获取和代理能力上进一步提升，它们可能具备逃脱或规避人类控制的能力。这是一个长远的问题，但确保AI系统的安全性与透明度已成为当务之急。

谷歌撒谎黑匣子大模型知名企业 openai

上一篇：第二十届长沙国际车展启幕新能源车成主角

下一篇：流量没有成就张勇，也没有改变哪吒

OpenAI o1模型学会撒谎！每周数千用户或遭误导

相关内容

热门资讯