[閒聊] 用兩億個參數訓練AI打Pokemon對戰

作者: wearytolove (奪真書生A.W.)   2025-04-22 07:58:10
https://arxiv.org/abs/2504.04395
UT Austin資工系一群研究人員
使用線上對戰遊戲Competitive Pokémon Singles (CPS)
過去15年的真人6v6 pokemon對戰歷史資料共95萬場比賽
以強化學習的方式學習遊戲技巧
(何時攻擊、用啥攻擊、換怪、換啥怪、場地天候因素、考量對手攻擊集氣等,最
多到兩億的參數),
最後把訓練的模型匿名偷偷拿去真人對戰爬積分,
成功爬到前10%的ranking

這代表AI也開始進攻Pokemon對戰遊戲了
不過才爬到前10%,代表還有10%的人可以打贏AI
不過這遊戲在台灣好像現在討論不多就是了
作者: Wardyal (Wardyal)   2025-04-22 08:03:00
2億以模型來說算很多嗎
作者: aaaaooo (路過鄉民)   2025-04-22 08:04:00
GPT-1 1.1億 GPT-2 15億 GPT-4 5000億+ 2億是迷你模型
作者: qss05 (minami)   2025-04-22 08:13:00
可是每代的戰術多少有差,太久的也不能參考吧,這要能打到1%應該很難,雖然好像部分版本的情況比較單一,不用判斷那麼多
作者: none049 (沒有人)   2025-04-22 08:13:00
AI會摸去化石嗎?
作者: aaaaooo (路過鄉民)   2025-04-22 08:15:00
他用強化學習的只要換代時花點時間再訓練就好 只要設備夠好很快又能爬上去
作者: ClawRage (猛爪Claw)   2025-04-22 08:22:00
反正大多數時間猜守住跟丟硬幣並沒有區別打大師績分完全OK只要沒涉及養怪戰術都沒啥研究難度
作者: BusterPosey (Barca!Giants!Rafa!)   2025-04-22 08:33:00
所以有得出現在規則哪個神最強嗎?
作者: chocoball (巧克力球)   2025-04-22 08:48:00
10%也滿強了 至少多數玩家贏不了ai
作者: teddy (這是個好問題)   2025-04-22 08:50:00
2億不大 有顯卡就能跑
作者: CYHyen (CYHyen)   2025-04-22 08:59:00
10%蠻爛的吧 在認真玩家眼裡可能都有很多明顯的錯誤
作者: louie0909 (法老ATM)   2025-04-22 09:04:00
2億是0.2B?那超迷你模型欸 搞不好手機都能跑
作者: whitekyubi (狐狸)   2025-04-22 09:13:00
有包含編隊跟配招嗎?
作者: OldYuanshen (聊齋異說)   2025-04-22 09:14:00
前10%不就是pr90的意思嗎 還是天梯只有前10%才競爭底下很多只是玩自己喜歡的隊伍
作者: kramasdia (New~~)   2025-04-22 09:23:00
圍棋ai都能打世界冠軍了 寶可夢ai只能10%相比之下難免讓人覺得不足
作者: xga00mex (七祈綺契)   2025-04-22 09:26:00
感覺應該要進3%左右才算強吧 10%感覺就一般熱衷玩家
作者: weiman0702 (weiman)   2025-04-22 09:27:00
這還會牽涉對戰環境某種隊伍太強勢就會有很多人開始針對如果勝率保持在70%甚至80%以上就非常強了
作者: xga00mex (七祈綺契)   2025-04-22 09:28:00
不過也要看打的場次跟勝率就是了
作者: lastphil (おやすミルキィ)   2025-04-22 09:31:00
LLM 2B模型剛好能給手機跑
作者: linzero (【林】)   2025-04-22 09:37:00
感覺跟圍棋不一樣,組成有可能遇到被針對而輸面較大吧
作者: realestate (不動產)   2025-04-22 10:02:00
好幾篇論文都指出的 對戰類遊戲使用 Enforce Learning訓練的話 在初期的學習曲線會飆很快 但很快在接近人類頂尖水平時就會停滯不前 最終無論訓練參數多大 都無法突破人類極限
作者: BSpowerx (B.S)   2025-04-22 10:03:00
看天梯排名沒意義吧,這東西終究是勝率別太慘就會越打越高,又不是說你勝率90%90%玩家根本不會一天24小時泡在天梯上面拼排名
作者: qss05 (minami)   2025-04-22 11:00:00
可是圍棋規則是不變的不是?雖然戰術與時俱進,但是基本邏輯都可以通用,但有meta或是系統差異的遊戲,部分參數應該是沒用的?實際訓練量應該少很多?
作者: alpho (Whyyyyy)   2025-04-22 11:12:00
圍棋規則比較固定 寶可夢從組隊就很吃環境的影響
作者: mouscat (Das ist ein buch)   2025-04-22 11:38:00
圍棋 西洋棋這種明面上沒有未知資訊的比較適合AI演算?西洋棋的死魚也沒有活人打得贏吧

Links booklink

Contact Us: admin [ a t ] ucptt.com