8大AI西洋棋大亂鬥:OpenAI o3 橫掃冠軍,Grok 4 四戰皆敗成為話題焦點
T邦克
https://tinyurl.com/27x28dtc
https://tinyurl.com/2b3akrlb
這場比賽由 Google 所屬的 Kaggle Game Arena 主辦,平台設於 Chess.com,邀請多家
語言模型參賽。比賽規定所有參賽模型不得接受任何針對西洋棋的訓練,只能透過自學、
蒐集網路資料進行對弈能力推理,是一場檢驗泛用 AI 智能「從零學會策略」的測驗場。
參賽陣容:八大模型角逐,Grok 一度看漲
本屆賽事集結了 OpenAI o3、o4 mini、Google Gemini 2.5 Pro 與 Flash、Anthropic
Claude Opus、Moonshot DeepSeek R1、Kimi K2 以及 xAI 的 Grok 4 等八大主流語言模
型。
Grok 4 在淘汰賽一路過關斬將,擊敗 Google 的 Gemini 雙版本晉級決賽。馬斯克也曾
在 X(原 Twitter)上強調:「我們幾乎沒在西洋棋上下功夫就進決賽,已經很驚人。」
然而決賽中,OpenAI o3 表現更為壓倒性,不僅 4:0 完封 Grok,前三場也皆以同比分擊
敗對手,包括自家 o4 mini。
https://tinyurl.com/22nhwa9a
棋王與大師怎麼看?「會吃子但不會贏棋」
世界排名第一的西洋棋手芒努斯.卡爾森(Magnus Carlsen)在評論中指出,這些 AI 模
型大多只有 800~1200 ELO 的實力,「Grok 就像只會理論、不會實戰的新手。」他形容
:「他們像會買菜卻不會煮飯的廚師。」
國際西洋棋大師中村光(Hikaru Nakamura)則指出:「Grok 在對局中犯了很多錯,而
o3 的策略更穩定。」這也是最終比分如此懸殊的原因。
https://tinyurl.com/22d4yx2h
這場比的不是下棋,而是 AI 的學習力
這次比賽不同於 AlphaGo、Deep Blue 那類「針對某棋種專訓的模型」,而是測試語言模
型能否透過自學掌握陌生遊戲規則,進而運用推理與邏輯進行策略性遊戲操作。
這場比賽展示的,不只是 AI 是否能「會玩西洋棋」,而是「能否學會西洋棋」,從語言
任務進階到邏輯策略任務,呈現泛用人工智慧(AGI)重要發展指標。
泛用 AI 的關鍵實驗場
語言模型若要真正走向通用智能,必須具備跨知識、跨技能的即學即用能力。這場由
Kaggle Game Arena 主辦、在 Chess.com 平台上進行的賽事,正是一次對 AGI 潛力的
測試。
雖然目前表現還在入門程度,但 OpenAI o3 展現出高穩定度與策略整合能力,為未來語
言模型走入遊戲、推理、模擬等高層次任務奠定了基礎。