[閒聊] 用兩億個參數訓練AI打Pokemon對戰 wearytolove PTT批踢踢實業坊

[閒聊] 用兩億個參數訓練AI打Pokemon對戰

作者: wearytolove (奪真書生A.W.) 2025-04-22 07:58:10

https://arxiv.org/abs/2504.04395
UT Austin資工系一群研究人員
使用線上對戰遊戲Competitive Pokémon Singles (CPS)
過去15年的真人6v6 pokemon對戰歷史資料共95萬場比賽
以強化學習的方式學習遊戲技巧
(何時攻擊、用啥攻擊、換怪、換啥怪、場地天候因素、考量對手攻擊集氣等，最
多到兩億的參數)，
最後把訓練的模型匿名偷偷拿去真人對戰爬積分，
成功爬到前10%的ranking

這代表AI也開始進攻Pokemon對戰遊戲了
不過才爬到前10%，代表還有10%的人可以打贏AI
不過這遊戲在台灣好像現在討論不多就是了

作者: Wardyal (Wardyal) 2025-04-22 08:03:00

2億以模型來說算很多嗎

作者: aaaaooo (路過鄉民) 2025-04-22 08:04:00

GPT-1 1.1億 GPT-2 15億 GPT-4 5000億+ 2億是迷你模型

作者: qss05 (minami) 2025-04-22 08:13:00

可是每代的戰術多少有差，太久的也不能參考吧，這要能打到1%應該很難，雖然好像部分版本的情況比較單一，不用判斷那麼多

作者: none049 (沒有人) 2025-04-22 08:13:00

AI會摸去化石嗎?

作者: aaaaooo (路過鄉民) 2025-04-22 08:15:00

他用強化學習的只要換代時花點時間再訓練就好只要設備夠好很快又能爬上去

作者: ClawRage (çŒ›çˆªClaw) 2025-04-22 08:22:00

反正大多數時間猜守住跟丟硬幣並沒有區別打大師績分完全OK只要沒涉及養怪戰術都沒啥研究難度

作者: BusterPosey (Barca!Giants!Rafa!) 2025-04-22 08:33:00

所以有得出現在規則哪個神最強嗎?

作者: chocoball (巧克力球) 2025-04-22 08:48:00

10%也滿強了至少多數玩家贏不了ai

作者: teddy (這是個好問題) 2025-04-22 08:50:00

2億不大有顯卡就能跑

作者: CYHyen (CYHyen) 2025-04-22 08:59:00

10%蠻爛的吧在認真玩家眼裡可能都有很多明顯的錯誤

作者: louie0909 (法老ATM) 2025-04-22 09:04:00

2億是0.2B？那超迷你模型欸搞不好手機都能跑

作者: whitekyubi (狐狸) 2025-04-22 09:13:00

有包含編隊跟配招嗎？

作者: OldYuanshen (聊齋異說) 2025-04-22 09:14:00

前10%不就是pr90的意思嗎還是天梯只有前10%才競爭底下很多只是玩自己喜歡的隊伍

作者: kramasdia (New~~) 2025-04-22 09:23:00

圍棋ai都能打世界冠軍了寶可夢ai只能10%相比之下難免讓人覺得不足

作者: xga00mex (七祈綺契) 2025-04-22 09:26:00

感覺應該要進3%左右才算強吧 10%感覺就一般熱衷玩家

作者: weiman0702 (weiman) 2025-04-22 09:27:00

這還會牽涉對戰環境某種隊伍太強勢就會有很多人開始針對如果勝率保持在70%甚至80%以上就非常強了

作者: xga00mex (七祈綺契) 2025-04-22 09:28:00

不過也要看打的場次跟勝率就是了

作者: lastphil (おやすミルキィ) 2025-04-22 09:31:00

LLM 2B模型剛好能給手機跑

作者: linzero (【林】) 2025-04-22 09:37:00

感覺跟圍棋不一樣，組成有可能遇到被針對而輸面較大吧

作者: realestate (不動產) 2025-04-22 10:02:00

好幾篇論文都指出的對戰類遊戲使用 Enforce Learning訓練的話在初期的學習曲線會飆很快但很快在接近人類頂尖水平時就會停滯不前最終無論訓練參數多大都無法突破人類極限

作者: BSpowerx (B.S) 2025-04-22 10:03:00

看天梯排名沒意義吧，這東西終究是勝率別太慘就會越打越高，又不是說你勝率90%90%玩家根本不會一天24小時泡在天梯上面拼排名

作者: qss05 (minami) 2025-04-22 11:00:00

可是圍棋規則是不變的不是？雖然戰術與時俱進，但是基本邏輯都可以通用，但有meta或是系統差異的遊戲，部分參數應該是沒用的？實際訓練量應該少很多？

作者: alpho (Whyyyyy) 2025-04-22 11:12:00

圍棋規則比較固定寶可夢從組隊就很吃環境的影響

作者: mouscat (Das ist ein buch) 2025-04-22 11:38:00

圍棋西洋棋這種明面上沒有未知資訊的比較適合AI演算？西洋棋的死魚也沒有活人打得贏吧

繼續閱讀

[奶子] 摔進瑪修的懷裡k300plus [閒聊] 不記得自己幫助過的人到底是加分還是扣Mayfly [母雞] 英文官推：野餐時間ElfFail [閒聊] GSC fgo saber 玉藻前玩偶black80731 [25春] 男女之間存在純友情嗎？越看越躁ANDORLESS [母雞] "開~玩笑的"yankeefat [公告] 水桶公告black80731 [閒聊] 真實的女間諜是否賣弄性感?tomhawkreal [閒聊] 網飛的狂賭之淵真人版jeff860109 Re: [閒聊] 哈利綴歌-破釜咖啡廳Vinygli

筋肉美ボディな陸上部顧問の女教師を中出し精子ブリブリ逆流レ○プした夏休み。竹内有紀

超美脚ミニスカ誘惑エステティシャンの極上密着リップサロン星宮一花

年下の男の子にお願いされたら中出しセックスにもノーと言えないおばさん家政婦05 優しさにつけこんで突撃生ハメドキュメント

絶妙なハンドテクと舌技でチ○ポ感度MAX！何度も最高の射精に導いてくれる子種ナマ搾り回春エステ星宮一花

陸上マニアに狙われて…粘着ストーカーの猟奇的な盗撮映像を晒された制服少女槙いずな

Contact Us: admin [ a t ] ucptt.com