[新聞] DeepMind揭露新一代AI系統MuZero Kowloon PTT批踢踢實業坊

[新聞] DeepMind揭露新一代AI系統MuZero

作者: Kowloon (九龍艦長) 2021-04-04 11:38:47

https://www.ithome.com.tw/news/141845
DeepMind揭露新一代AI系統MuZero：不知遊戲規則也能有效規畫行動
新一代AI系統MuZero能在完全不知規則的情況下，熟悉圍棋、西洋棋、將棋，以及57款
Atari遊戲，且效能大幅超越了現有最佳的DQN、R2D2與Agent57系統，可望用來解決現實
生活中，規則太複雜或完全不知規則的各式難題。
文/陳曉莉 | 2020-12-24發表
Alphabet旗下的人工智慧子公司DeepMind，繼發表了圍棋AI系統AlphaGo，以及同時精通
圍棋、西洋棋與將棋的AlphaZero之後，於本周再度揭露了新一代AI系統MuZero，它能夠
在完全不知規則的情況下，熟悉圍棋、西洋棋、將棋，以及57款Atari遊戲，且效能大幅
超越了現有最佳的DQN、R2D2與Agent57系統，可望用來解決現實生活中，規則太複雜或完
全不知規則的各式難題。
比較DeepMind的幾代產品，2016年的AlphaGo是透過已知的規則、圍棋領域的知識，再加
上人類資料訓練而成，讓它擊敗了全球的圍棋好手；2017年的AlphaGo Zero，則是僅利用
已知規則，自我學習而達到與AlphaGo同樣的境界；2018年的AlphaZero也是僅基於已知規
則，但把挑戰範圍從圍棋擴大到西洋棋與將棋，便能同時精通這3項棋戲；而最新的
MuZero則未被餵入任何的已知規則，在未知的動態環境下就能自動學習規則並作出最佳判
斷，且MuZero系統把挑戰範圍從上述的圍棋/西洋棋/將棋，擴大到Atari出品的57款遊戲
，並取得優秀的成績。
DeepMind團隊說明，規畫是人類智慧的一項重要能力，讓人類能夠解決問題並替未來作出
決策，人類通常很快就可以學到計畫的能力，同時也能延伸到新的場景，而這也是該團隊
期許AI系統能夠達到的。
研究人員最初試著透過兩種作法來解決此一問題，包括超前搜尋（lookahead search）與
基於模型的規畫能力，但前者必須仰賴諸如規則或精確模擬器等環境動態的知識，讓它難
以適用於解決複雜且通常缺乏簡單規則的現實世界問題；後者雖然可藉由學習環境動態的
精確模型來進行計畫，但針對環境的每一方面來建模，則無法滿足視覺豐富的領域，例如
Atari，迄今針對Atari的最佳解決方案為非模型的AI系統，包括DQN、R2D2與Agent57，它
們並非使用學習模型，而是推測下一步的最佳作法。
於是MuZero摒棄了上述兩種方式，採用了截然不同的作法，它只針對系統決策程序的重要
因素來建模。研究人員形容，人類的規畫能力呈現在當看到烏雲時，即推測可能會下雨便
帶了把傘，MuZero的邏輯則在於，了解傘能夠讓人們保持乾燥，比針對空氣中的雨滴進行
建模更有用。
因此，MuZero的模型著重在能夠協助規畫的環境變動因素，包括現在位置的價值、最佳行
動的政策，以及上一個行動的成效，藉由深度神經網路進行學習，以理解當採取特定行動
時所產生的結果，並據此展開規畫。
DeepMind團隊測試了MuZero在圍棋、西洋棋、將棋與Atari遊戲上的效能，發現它替強化
學習演算法設立了全新的水平，不僅於棋戲項目達到與AlphaZero同樣的效能水準，在
Atari遊戲上更凌駕了所有現有的最佳系統。
此外，該團隊也發現，要是賦予MuZero更多的思考（演算）時間，例如原本移動圍棋每個
棋子的時間為1/10秒，在將它拉長至50秒之後，MuZero在圍棋上的技能將增加 1000 Elo
，兩者之間的差距就如同一個厲害的業餘玩家，以及一個世界最強的專業棋手。
同樣的，在Atari其中一款遊戲《小精靈小姐》（Ms Pac-Man）上進行測試時，MuZero在
每個行動上可選擇5~50個數量的規畫模擬，結果顯示所選擇的規畫數量愈多，MuZero就能
學習得更快，也能取得更好的效能；有趣的是，若將MuZero的每個行動限制在只能選擇6
或7個規畫模擬，它同樣能夠達到優秀的效能，透露出MuZero可在情況與行動之間進行歸
納，而不一定要搜尋所有的可能性。
研究人員認為，當MuZero具備學習環境模型的能力，並用它來進行規畫時，呈現的是強化
學習與通用演算法上的重大進步，AlphaZero已被用來解決化學或量子物理等問題，而
MuZero將可用來解決機器人、工業系統或其它未知規則的混亂現實環境中，所存在的新挑
戰。

作者: intointo (櫻花) 2021-04-04 12:04:00

wow

作者: RicFlair (Figure-four Leglock!!) 2021-04-04 15:09:00

終於制霸atari了嗎

作者: staristic (ANSI lover) 2021-04-04 15:11:00

不知道規則也能下？意思是不是有辦法不考慮貼目或配置直接判斷一個局部定式好壞？

作者: abc0922001 (中士abc) 2021-04-04 16:03:00

不用事先輸入規則而已吧

作者: saviora (颶風之翼) 2021-04-04 21:23:00

意思就是他可以自己探索規則

作者: earltyro (伯茶) 2021-04-05 09:14:00

S大應該是沒有說明書一直輸輸到學會的意思啦

作者: rnoro (隼) 2021-04-09 02:05:00

其實應該沒有什麼新東西，只是把規則變成參數的一部分而已

繼續閱讀

[問題]成人想學圍棋Bestintern [問題] 可以線上連線擺譜的網站或程式？mirrorandme [公告] 板規修訂與前篇公告後續處理staristic [新聞] AI正在稱霸圍棋界但我們不必過度悲觀Hikaru Re: [問題] 落子位置好壞的判斷與AI勝率判斷的結合pionlang5566 [棋訊] 第76期日本本因坊戰第七輪(最終輪)Fujitsu [情報] 趙治勳《時代的證言者》16—無冠，那就從頭再來Fujitsu [閒聊] 菜刀鬼手狂虐申真諝～BluffKing [問題] 羋氏飛刀是不是AI時代最常見的大型定石了?Borges [公告] 以上文章處理staristic