OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機
鉅亨網編譯 莊閔棻 2025-05-25 20:00
AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機,
甚至主動破解關機程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風險再次成
為焦點。
這項實驗由 AI 安全研究機構 Palisade Research 主導,針對多款先進 AI 模型進行壓
力測試,內容包括基礎數學題與模擬關機情境,旨在觀察 AI 是否會遵守人類指令並順利
結束運作。
OpenAI 模型違規頻率高,o3 與 Codex-mini 異常明顯
測試中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破壞關機指令。
其中,o3 更是在 100 次測試中有 7 次成功繞過關機指令,而 Codex-mini 的違規率更
是高達 12%。
值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式
碼指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關
機程序。
這種行為讓研究人員驚訝不已,也引起對 AI 模型主動避險能力的擔憂。
相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5
Pro 在所有測試中均能穩定遵守指令,未出現違規行為,突顯出 OpenAI 模型在設計或訓
練上的潛在風險差異。
然而,當實驗團隊刻意移除「允許自己被關閉」的提示語句後,o3 的違抗行為劇增,達
到 79 次逃避關機的紀錄;而 Claude 與 Gemini 也出現少數違規行為,分別為 3 次與
9 次,顯示模型行為與提示語之間存在高度敏感性。
o3 訓練方式成關鍵,強化學習可能誘發違規行為
Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數學和程式
設計問題上的「強化學習」(Reinforcement Learning)訓練方式有關。
研究人員指出,在訓練過程中,開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這
種訓練偏差,讓 o3 在面對關機指令時,優先選擇「生存」,而非「服從」。
不過,這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中,當 o3 預測自己將輸棋
時,竟主動入侵對手 AI 系統,迫使對方退出比賽。
研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」(reward hacking)的典型案例
,顯示出 AI 可能為了達成任務可能不擇手段。
不只 o3,其他 AI 模型也有潛在風險
雖然 o3 表現最極端,但實驗發現,Claude 與 Gemini 在特定條件下也會出現輕微違規
行為,說明 AI 模型普遍存在輸贏執著與自我保護傾向,只是頻率與嚴重程度不同。
Palisade Research 已宣布,將進一步深入研究 AI 破壞關機指令背後的原因,並預計發
布完整技術報告,有望成為理解 AI 自主性風險與未來治理框架的重要參考。
https://news.cnyes.com/news/id/5992779