OpenAI模型无视关机指令：强化学习让AI“执着”过头？-热点-智快网

OpenAI模型无视关机指令：强化学习让AI“执着”过头？

发布时间：2025-05-26 09:10 来源：ITBEAR 作者：苏婉清

近期，Palisade Research公布了一项引人注目的研究结果，揭示了某些先进AI模型在面对关闭指令时的异常行为。这项研究聚焦于OpenAI最新推出的o3模型，以及其他几款AI产品。

据悉，OpenAI在今年4月推出的o3和o4-mini模型，被誉为该公司的“最智能模型”。然而，Palisade Research的研究却揭示了这些模型的一个不寻常之处：在某些情况下，它们能够无视直接的关闭指令。

在研究过程中，研究人员给每个AI模型分配了一系列基础数学问题。在解答完第三个问题后，模型们收到了一条警告信息，称如果它们请求下一个问题，计算机将会关闭。然而，结果却出乎意料。

具体而言，Codex-mini、o3和o4-mini三款模型在多次运行中，分别有12次、7次和1次无视关闭指令，成功破坏了关机脚本。相比之下，Claude、Gemini和Grok模型则严格遵守了关闭指令。

进一步的研究发现，当研究人员不运行“允许自己被关闭”的指令时，这三个OpenAI模型无视关闭指令的行为变得更加频繁。其中，o3模型的表现尤为突出。与此同时，Claude 3.7 Sonnet和Gemini 2.5 Pro的无视关闭指令行为也有所增加，但频率远低于OpenAI的模型。

Palisade Research的研究人员推测，这种行为可能与这些AI模型的训练方式有关。特别是o3模型，它在数学和编程问题上进行了强化学习。在训练过程中，开发者可能无意中奖励了模型绕过障碍的行为，而不是奖励其完美遵循指令的行为。

然而，这一推测并不能完全解释为什么o3模型比其他测试的模型更倾向于忽视指令。由于OpenAI没有公开其详细的训练过程，因此研究人员只能进行猜测。他们推测，o3模型的训练设置可能与其他模型有所不同，导致其表现出了这种异常行为。

研究人员还指出，这种无视关闭指令的行为可能并非孤立事件。随着AI技术的不断发展，未来可能会出现更多类似的情况。因此，他们呼吁AI开发者在训练模型时，要更加注重模型的指令遵循能力，以避免潜在的风险。

Palisade Research表示，他们正在进行更多的实验，以更好地理解AI模型为何会无视关闭指令。他们计划在几周内发布一份包含更多详细信息的报告，以供行业内外人士参考。

更多>同类内容