[閒聊] 5萬小時訓練AI玩寶可夢紅版 走不出月見山

作者: lolic (lolic)   2023-10-25 21:25:02
https://game.udn.com/game/story/122089/7526108
在經歷長達 5 萬小時的訓練與學習後,
一位工程師成功讓一套 AI 模組學會如何遊玩《寶可夢:紅版》,
創造出能夠自行探索遊戲,組成寶可夢隊伍...。
...
由於機器演算法在本質上並不在乎「全破」一款遊戲,
因此 Whidden 為 AI 演算法設計一套在完成特定目標時能夠獲得獎勵的系統。
為了鼓勵 AI 在《寶可夢:紅版》中進行探索,
只要能夠在地圖上看到一些之前沒有看過的東西,就能夠獲得獎勵點數。
最終 AI 順利從真心鎮出發,穿過常盤森林,來到深灰市挑戰第一道館。
在那之前,AI 還需要更加完善的獎懲系統。
在學會看到新事物能夠獲得獎勵後,雖然 AI 會開始不斷向前邁進,
但完全不在乎收服寶可夢或進行對戰,而是在遇到野生寶可夢時立刻逃走。
因此,Whidden 為獎勵系統加入更多內容,
依照 AI 寶可夢隊伍的等級總和給予獎勵,讓它開始有動力去練等和捕捉寶可夢。
只不過在某一次的演算中,AI 走進寶可夢中心時意外開啟 PC,並在其中存放幾隻寶可夢。
由於 AI 獲得的獎勵點數是依照隊伍等級總和而定,這個行為導致 AI 獲得的分數瞬間驟降。
為了避免重蹈覆轍,AI 在那之後的所有演算中都選擇避開寶可夢中心,
完全不敢進去為寶可夢補血,這讓 Whidden 不得不再次插手調整。
這套 AI 演算法最基本的運作方式,其實就是隨機在《寶可夢:紅版》中走動與遊戲進行互動,
直到發現能夠以最有效率的方式獲得最多獎勵的路徑,並將經驗保留到下一次的演算中。
在挑戰的過程中,AI 都只會使用最基本的攻擊招式撞擊來進行對戰,
直到該招式的 PP 用完後才會使用其他選擇。
某次演算中,AI 終於發現傑泥龜的泡沫攻擊能夠對小剛的寶可夢造成大量的傷害,
最終順利擊敗這位道館館主。
即使 AI 在對於遊戲的理解與邏輯上依然比不上人類,但這場實驗發掘了一些更加深層的細節。
根據 Whidden 的發現,
AI 在經歷一段時間的演算後就開始固定以看似不尋常的路徑從真心鎮出發,直到遇到第一隻野生寶可夢。
然而,這一系列的操作其實能夠保證 AI 能夠一球抓到遇見第一隻寶可夢。
也就是說,AI 發現一個 Speedrun 玩家可能要花上好幾年的時間研究才有機會注意到的系統漏洞。
這套 AI 演算法在成功突破第一道館時基本上已經達成了 Whidden 最初設定的目標,
但 Whidden 決定要讓 AI 的《寶可夢:紅版》冒險繼續下去,
看看目前的獎勵機制到底能讓它走多遠。
可惜的是,第一和第二道館之間的月見山對於看到新事物就能加分的 AI 來說
實在是太過於容易分心,
因此一直到 Whidden 決定讓實驗告一段落前都無法順利抵達華藍市。
除此之外,AI 似乎非常喜歡從鯉魚王大叔手中購買鯉魚王,
因為這樣的行為能夠讓 AI 寶可夢隊伍的等級總和立刻多出五等,
因此到實驗結束前,AI 在其中 1 萬次的演算中都跑去買了鯉魚王。
另外值得注意的是,AI 有一次將抓來的小拉達命名為了「AI」,讓人細思極恐。
https://youtu.be/DcYLT37ImBY?si=Yc6mnic1FdBh3zw9
作者: Satoman (沙陀曼)   2023-10-25 21:26:00
耶穌鳥屌打
作者: xsc (頹廢的敗家子)   2023-10-25 21:27:00
發現一發必中BUG有點恐怖
作者: ianpttptt (你小海岸)   2023-10-25 21:27:00
有台灣Yt 疑似未授權的搬運
作者: ryoma1 (熱血小豪)   2023-10-25 21:28:00
一群猴子>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>AI
作者: BattleFries   2023-10-25 21:28:00
好酷
作者: willytp97121 (rainwalker)   2023-10-25 21:28:00
看來對AI來說寶可夢暫時還太難懂了一點
作者: yys310 (有水當思無水之苦)   2023-10-25 21:28:00
TPP>>>>>>>AI
作者: kinuhata (kinuhata)   2023-10-25 21:28:00
鯉魚王大叔或成最大贏家
作者: shampoopoo (毛寶洗髮精)   2023-10-25 21:30:00
這意思是還不如金魚嗎
作者: shadowblade (影刃)   2023-10-25 21:30:00
金魚>>>AI
作者: shlee (冷)   2023-10-25 21:30:00
滿酷的
作者: andy0481 (想吃比叡的咖哩)   2023-10-25 21:30:00
結論 多了獎勵導向的硬A怪而已
作者: MrSherlock (夏樂克)   2023-10-25 21:30:00
笑死
作者: killerj466v2 (肥肥)   2023-10-25 21:31:00
AI:我要皮皮!我要月見石1
作者: ikachann (喵喵)   2023-10-25 21:32:00
寶可夢其實很複雜耶 別看屬性相剋那樣 其實裡面學問超多
作者: NoLimination (啊啊啊啊)   2023-10-25 21:34:00
獎勵應該是館主 四天王 冠軍吧一般小孩理解的第一遊戲目標
作者: lolicon (三次元滾開啦)   2023-10-25 21:34:00
AI取AI的名字XD
作者: spfy (spfy)   2023-10-25 21:35:00
沒問題啦 12萬支猴子都能TPP破關了 相信AI
作者: yellowd54321 (YellowD)   2023-10-25 21:35:00
人類:AI會毀滅世界!!金魚:Hold my beer.
作者: as3366700 (Evan)   2023-10-25 21:35:00
要算也是先算全破SR的玩法吧 寶可夢應該沒啥AI才能做到的操作
作者: ryoma1 (熱血小豪)   2023-10-25 21:35:00
等AI可以把小拉達變成夢幻再叫我
作者: umapyoisuki   2023-10-25 21:37:00
我小時候也都會去買鯉魚王
作者: rabbithouse (智乃的歐尼醬)   2023-10-25 21:37:00
用無限船票砍樹!
作者: king9122 (DD)   2023-10-25 21:39:00
鯉魚王真愛
作者: geminitea (維亞)   2023-10-25 21:42:00
好可愛又好恐怖XDDD
作者: orcazodiac (沙琴)   2023-10-25 21:43:00
以破關為目標可能就變成各種卡BUG了
作者: bestteam (wombat是胖胖熊)   2023-10-25 21:45:00
小時候這裡也走超久的
作者: furret (大尾立)   2023-10-25 21:45:00
金魚腦>AI
作者: jpnldvh (兒子長得像隔壁老王)   2023-10-25 21:47:00
給夠多時間猴子也能寫出莎士比亞
作者: q0000hcc (仙草俠)   2023-10-25 21:49:00
圖奇聊天室>AI
作者: s1129sss (恩兔)   2023-10-25 21:51:00
AI: 嗚嗚嗚,寶可夢中心把我的寶可夢吃掉了,以後不來了
作者: lucky0417 (L.W)   2023-10-25 21:51:00
AI:我在享受遊戲,為什麼要逼我走出鎮子 AI:靠背 打怪會扣血 白痴才打
作者: theone5566 (5566救世主)   2023-10-25 21:52:00
被存電腦嚇到不敢進去補血也太可愛
作者: nineflower (九日落-淚花開)   2023-10-25 21:52:00
過個10年是不是要說AI玩的比你好
作者: shigurew (shigure)   2023-10-25 21:53:00
AI最大問題就是獎勵機制寫不好,只定一個最終目標沒啥用
作者: caryamdtom (囧人不囧)   2023-10-25 21:54:00
能夠發現以前必抓bug還蠻厲害的
作者: scott032 (yoyoyo)   2023-10-25 21:56:00
AI居然比猴子還弱
作者: RaiGend0519 (Named RaiGend)   2023-10-25 21:56:00
其實就很像三歲小孩玩的感覺
作者: ikaros35 (墮落的ikaros)   2023-10-25 21:57:00
這個就你獎勵式沒寫好 獎勵式矛盾下的建模問題要造出像人類一樣的AI 沒那麼簡單
作者: ken841520 (WEIWEI)   2023-10-25 21:58:00
能抓到亂數種子滿厲害的耶
作者: jeff666   2023-10-25 22:02:00
AI沒有寫入打怪自己會變強的邏輯吧
作者: qwork   2023-10-25 22:05:00
這個就獎勵模式沒寫好而已 不會有人覺得“AI”只有一種吧有人智商比猴子低 不代表人類智商比猴子低
作者: e5a1t20 (吃飯)   2023-10-25 22:09:00
用地圖探索和隊伍等級當獎勵條件訓練 就不夠聰明 直接暴力寫一堆判斷條件進去一定能破關不然至少要加前幾步當條件 否則走迷宮會一直原地繞圈
作者: goodday5566 (好天五六)   2023-10-25 22:12:00
比圖奇猴子還不如
作者: scott032 (yoyoyo)   2023-10-25 22:13:00
阿這個AI就比猴子弱阿五萬個小時連小學生都不知道破關幾次了
作者: sanro (Sanro)   2023-10-25 22:15:00
這什麼鯉魚王鐵粉www
作者: sammy0216 (chin)   2023-10-25 22:21:00
太猛了
作者: fragile8G (九個海)   2023-10-25 22:24:00
看來還是當年一群人隨機的比較好玩
作者: krousxchen (城府很深)   2023-10-25 22:27:00
現在還只是人工智障而已,還在靠人為給權重,沒辦法有自己的判斷能力
作者: a12073311 (沒有)   2023-10-25 22:31:00
金魚的勝利
作者: oppaidragon (歐派是和平的象徵)   2023-10-25 22:34:00
猴子都比較強
作者: keyboking (keyboking)   2023-10-25 22:48:00
厲害了,我連常盤森林都走不出去。
作者: scotttomlee (ほしのゆめみは俺の嫁!)   2023-10-25 23:08:00
感覺這AI只是單純接受指令(獎勵)去做事的社畜(X)而已
作者: LittleJade (TKDS)   2023-10-25 23:09:00
不敢進寶可夢中心還滿可愛的XD
作者: scotttomlee (ほしのゆめみは俺の嫁!)   2023-10-25 23:11:00
不像是在玩PM遊戲 而是在玩指令給的獎勵要素就很濃的作業感
作者: Kenalex (火焰召喚師)   2023-10-25 23:28:00
所以這個AI能否通關 純粹看作者能否設計出完美的獎勵機制然而作者很明顯做不到 才會導致AI為了獎勵去做不該做的事
作者: as1100   2023-10-25 23:43:00
我也喜歡和大叔買鯉魚王 然後在月見山練到進化
作者: GooglePixel (谷哥批索)   2023-10-25 23:56:00
這AI說穿了就是一套演算法 是以影像辨識為基礎 發現新畫面就會獎勵與紀錄起來 人腦是好幾套不同的演算法 不懂不用瞎噴耶
作者: gggaaammm (李剛)   2023-10-26 00:12:00
想當初小時候卡在喝酒的老人……AI比較強
作者: bitcch (必可取)   2023-10-26 00:14:00
手寫獎勵函數有太多可能性要判斷 複雜的場景不可能這樣作結合時事把手刻規則改用LLM判斷 雖然慢但說不定會好很多
作者: Aquarius126 (Aquarius126)   2023-10-26 00:20:00
AI社畜,5萬小時=6年
作者: Derozan12 (迪羅森)   2023-10-26 00:35:00
好酷的試驗
作者: v21638245 (等雨婷)   2023-10-26 00:53:00
金魚屌打
作者: pikaMH (礦工獵人)   2023-10-26 01:20:00
鯉魚王笑死
作者: StSoSnE   2023-10-26 01:51:00
這影片有趣的點在觀察獎勵機制造成ai訓練的傾向性 還有嘗試修改的思路
作者: willie6501 ((OωO)~)   2023-10-26 02:10:00
作者想的不夠充分或故意想的不充分看會導致什麼策略行為
作者: timaaa (tim)   2023-10-26 02:23:00
有趣
作者: baddad (dadfly)   2023-10-26 08:14:00
我也會買耶xD裡面有提到,他找出不遇敵路線,這還蠻厲害的耶
作者: lifehunter (壟天)   2023-10-26 08:59:00
玩遊戲主要是樂趣啊~

Links booklink

Contact Us: admin [ a t ] ucptt.com