[新聞]OpanAI公布Dota AI比賽細節自我對局超人類 qweewqq PTT批踢踢實業坊

[新聞]OpanAI公布Dota AI比賽細節自我對局超人類

作者: qweewqq (é¢¨ä¸€æ¨£çš„ç”·å) 2017-08-18 17:34:52

OpanAI公布Dota AI比賽細節，自我對局讓它超越人類
在攻克了圍棋以後，人工智慧研究者們似乎不約而同地把電子競技遊戲作為了下一個練兵
場。雷鋒網上周報道，在Dota2國際邀請賽TI7上，OpenAI率先展示了自己的成果，在西雅
圖讓AI在1v1比賽中擊敗了職業選手，又一次點燃了關於AI的討論。
雷鋒網對比賽結果也進行了諸多分析，就目前的資料來看，其實1v1比賽可能較圍棋來得
簡單，在1v1比賽中取勝，也不能說明在5v5的完整比賽中能戰勝人類，人類還保有一定的
尊嚴。
經過約一周的時間，OpanAI最終公布了Dota AI的一些細節，不過它還是有所保留，沒有
說明技術細節。最後，他們還說到最終的目的就是在5v5比賽中戰勝人類。
上圖是遊戲AI的TrueSkill評級（類似於國際象棋中的ELO評級）分數變化，計算方式是模
擬AI之間的遊戲對局，並觀察勝率。TrueSkill系統是基於貝葉斯推斷的評分系統，由微
軟研究院開發，主要用於多人遊戲匹配。這套評分系統考慮到了玩家水平的不確定性，綜
合考慮了玩家的勝率和可能的水平漲落，而不是簡單的基於勝率的評分。
圖中顯示的變化趨勢是線性的，這意味著AI的提升水平呈指數級增長。
OpenAI還具體介紹了項目的開發時間表。從某種角度看，15％的玩家低於1.5K MMR，58％
的玩家低於3k，而99.99％低於7.5k。
MMR是比賽匹配分級系統，全稱是match making ranking，簡單理解就是Dota中常說的天
梯分。
3月1日：在簡單的Dota環境中得到了第一個經典強化學習下的結果，AI操作的黑暗遊
俠可以對付神牛了。
5月8日：1.5k MMR水平的測試員說自己的速度比AI要快。
6月初：擊敗1.5k MMR水平的測試者
6月30日：在與3k MMR測試者的比賽中多數會贏
7月8日：對戰7.5K MMR水平的半專業測試者，終於贏了一次。
8月7日：3-0擊敗Blitz（6.2k的前職業選手），2-1擊敗Pajkatt（8.5k的職業選手）
，3-0擊敗CC＆C（8.9k的職業選手），不過大家都認為，系統還是打不過頂尖選手Sumail
。
8月9日：10-0擊敗Arteezy（10k職業選手）10-0，但他還是認為系統搞不定Sumail。
8月10日：6-0擊敗Sumail（8.3k職業選手，頂級1v1玩家），不過在與8月9日版的系
統對戰結果是2-1。
8月11日：2-0擊敗Dendi（7.3k職業選手，前世界冠軍）2-0。這個時候的系統對戰前
一天的版本，勝率是60％。
完整的比賽是5v5版本的，不過1v1也出現在一些錦標賽中。OpenAI寫到，系統是在標準比
賽規則下對戰的，在1v1中沒有為AI做特別的簡化。
系統的操作環境如下：
觀察：使用遊戲的Bot API介面，功能集與視角和人類玩家的一樣，會受英雄，小兵
，信使和附近地形的影響。整個遊戲對AI系統來說是部分可觀察的。
操作：也是調用Bot API，操作頻率被限定在與人類水平相當，這包括移動到某個位
置，攻擊或使用某個物品的頻率。
反饋：系統在贏得比賽後會得到獎勵，其它一些基本指標，如英雄的生命狀態和最後
一擊等，也會影響獎勵。
系統還可以選擇使用的幾十個裝備道具，選擇後會有評估。OpenAI還用了傳統的強化技術
單獨訓練開局前的擋兵，這基本是1v1的標準操作。
OpenAI稱，他們使用的方法結合了少量的「教練」式訓練與自我對戰，每天都能有很大的
提升。比如在TI比賽的那段時間，周一晚上的時候Pajkatt還打贏了系統，當時他使用了
一個不尋常的裝備，即在早期購買了魔棒。後來OpenAI將這種操作加到了培訓當中。
星期三下午OpenAI再次測試了最新的系統。比賽中AI在第一波攻擊中就掉了一大半血，正
當研究人員覺得要把系統回復了原先版本的時候，他們注意到了驚人的發展，原來第一波
攻擊是在誘使對方採用更激進的攻擊方式。系統進一步的自我對局逐漸解決了這個問題，
並學會了抵制引誘策略。
在與Arteezy的比賽之後，OpenAI更新了擋兵模型，讓系統的TrueSkill分增加了一點。然
後在與Sumail比賽之前又進行了進一步訓練，把TrueSkill分增加了兩點。Sumail比完后
說，AI甚至學會了在敵方的視線之外壓影炮，這樣可以打斷敵人在視野之外的回復。
Arteezy還與OpenAI的7.5k評級半專業測試員打了一場比賽。Arteezy贏了比賽，但測試人
員用了從AI系統那學的一招，著實讓人吃驚。Arteezy後來說，這是他以前與Paparazi比
賽時對方用過的招數，很少有人會用。
這種情況在圍棋中也曾出現過，當AlphaGo戰勝李世石后，再到它與柯潔的比賽，人類棋
手也越來越多地開始學習它的布局與下法。
Sumail在對戰後說，AI系統是「不可戰勝的」，但它仍然會在與之前遇到過的狀況非常不
同的情況下不知混所措。在TI的比賽那段時間，OpenAI還設了一次區域網比賽讓很多人參
加進來，以各種方式與AI系統對戰，總共收集了1000多次比賽數據。最終還是發現了不少
系統的破綻，可以戰勝它，主要有三類：
引兵：當小兵進攻的時候，可以不斷攻擊它們吸引火力，讓他們跟著你跑，這樣可以
導致AI一方的防衛塔被小兵消耗而亡。
淬毒之珠+風靈之紋：買這兩個裝備可以在1級的時候帶來很大的移動速度優勢，這樣
可以快速拿AI的一血。有了這樣好的開始戰勝電腦就很容易了。
1級影壓：用這一條戰勝電腦需要不少技巧，不過根據OpenAI的說法，有幾個6-7k水
平的玩家能夠在較短時間內壓3-5記影炮，在1級的時候就殺死AI系統。
以上都是在1v1比賽中的小bug，很容易修復錯誤。但是對於5v5比賽來說，這樣的問題根
本就不是漏洞了，這時候需要的是一個可以處理突發且怪異情況的系統。
最後，OpenAI表示還沒有準備好對外公布開發的AI代理的具體構造，團隊的重點是首先解
決5v5比賽。如果說1v1比賽很複雜，那5v5比賽就是複雜的集合，而解決這一問題會進一
步推動AI的進步。
OpenAI認為，一個比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽，這些
比賽的重播數據會被存儲在Valve的伺服器上兩周。雷鋒網了解到，自去年11月以來，
OpenAI一直在下載每位專家級別玩家的重播數據，已經收集了580萬局遊戲的數據（每局
都是10人參與的45分鐘遊戲）。
OpenAI的Dota 2系統表明，如果有充分的計算，自我對局可以將機器學習系統的性能從遠
低於人類的水平提高到超越人類。在一個月的時間裡，它們的系統就從比不上高水平玩家
，發展到了擊敗頂級職業選手，而且還在繼續提升。有監督深度學習系統只能與培訓數據
集一樣好，但在自我對局系統中，隨著代理越來越好，可用數據會自動提升。
https://www.xcnnews.com/kj/375152.html

作者: koexe (獨酌) 2017-08-18 19:48:00

從不同服務器收集數據練成的AI互相PK一定會是大爆點(?)

作者: deathtouch (太極) 2017-08-18 19:58:00

該不會遇到的bot是openai在練兵吧

作者: iouhsu (éµç›¤ç¥žæŽ¢-ç™½ç¾…) 2017-08-18 19:59:00

求bot carry我

作者: cockpuncher (丁丁終結者) 2017-08-19 01:13:00

自我學習的人工智能...怎麼想都不應該研發啊！大家都忘了天網了嗎！

作者: BadGame (人生歡樂易忘卻執著痛苦) 2017-08-19 01:38:00

DOTA2 最近更新了之後跟BOT對戰 AI 多了好幾個版本

作者: ice76824 (不成熟的紳士) 2017-08-19 11:29:00

只會打DOTA的天網就這樣誕生惹

作者: hinenak (Flaming June) 2017-08-19 14:15:00

宅網

繼續閱讀

[討論] 關於交換帕吉的黃金蜈蚣手dino11531 [閒聊] TI7 Final 現場觀賽照片影片minchu0647 [新聞] DOTA2第1中單奇跡哥談Faker:他是誰? qweewqq [問題] 關於總冠軍賽erosha [賽事] The International 7 Final StageXreay [新聞] Open人工智慧1v1勝Dota2最強玩家將開5vs5zkow [情報] 兩隻新英雄！bloodrance [情報] OPENAI +Dota2Jotarun [賽事] The International 7 主賽事 Day5Xreay [自介]孤單寂寞覺得冷想要陪人一起玩koexe

[新聞]OpanAI公布Dota AI比賽細節 自我對局超人類

[新聞]OpanAI公布Dota AI比賽細節自我對局超人類