[閒聊] AI訓練到可以在Minecraft自己挖到鑽石 wearytolove PTT批踢踢實業坊

[閒聊] AI訓練到可以在Minecraft自己挖到鑽石

作者: wearytolove (奪真書生A.W.) 2025-04-05 04:28:39

這篇學術文章剛才發上了Nature
https://www.nature.com/articles/s41586-025-08744-2
這個演算法完全不參考玩家的網路影片
而是把挖到鑽石的步驟分成12步 (熔爐、挖石頭、挖鐵、砍木頭....)
每完成一步就給電腦獎勵然後讓演算法強化學習
大概9天就讓AI成功的可以從誕生到挖到第一顆鑽石
這也代表AI的智慧更前進一步
由Google Deepmind研發

作者: hankiwi (_han_) 2025-04-05 04:30:00

人類離駭客任務的世界線又更進了一步

作者: error405 (流河=L) 2025-04-05 04:31:00

呵接著訓練蓋巨大老二

作者: ak47123121 (小忍) 2025-04-05 04:32:00

ai玩麥塊，vedal不是實現了嗎，那代表更早之前應該就有了吧

作者: shadowdio 2025-04-05 04:35:00

什麼時候能幫我打每日

作者: White77 (白色月月) 2025-04-05 04:47:00

Neuro之前沒有自己挖到鑽石過嗎？

作者: b05605019 (只是好奇) 2025-04-05 04:49:00

我也希望有ai帕魯幫我玩遊戲

" target="_blank" rel="noreferrer noopener nofollow">

作者: xrdx (rd) 2025-04-05 04:57:00

neuro會挖鑽石了嗎

作者: tyifgee (pttnoob) 2025-04-05 05:44:00

什麼時候能幫我工作

作者: wild2012 (世界末日) 2025-04-05 06:43:00

這樣也可以上期刊 vedal就不知道能上幾次了

作者: kuninaka 2025-04-05 07:14:00

可以預料其實PTT很多機器人了例如樓下

作者: hongsiangfu (不可褻玩焉) 2025-04-05 07:23:00

主人您好，需要挖鑽石嗎？

作者: j147589 ((joyisbitch)) 2025-04-05 07:42:00

不會中途被苦力怕還是其他怪殺掉嗎

作者: dodomilk (豆豆奶) 2025-04-05 07:42:00

不太懂，為什麼這樣可以上期刊？以前的AI做不到嗎？

作者: bobogei81123 (bobogei) 2025-04-05 07:52:00

沒很仔細看完但應該是從頭到尾沒有用任何人類的資料類似 Alphago Zero 那樣全部是靠自己學的

作者: conqueror507 (冷箭) 2025-04-05 07:55:00

這很難吧因為minecraft的選擇很多

作者: aaaaooo (路過鄉民) 2025-04-05 08:00:00

訓練方法不同吧以前的是教師學習直接餵正解下去訓練這個

作者: y124421473 (ˊ_>ˋ) 2025-04-05 08:01:00

有包含渡過晚上的部分嗎

作者: aaaaooo (路過鄉民) 2025-04-05 08:02:00

是運用獎勵函數的強化學習

作者: welkin0105 (實驗與料理的旅行者) 2025-04-05 08:06:00

差別在以前有給AI人類資料學，現在可以自己摸索應該就是玩遊戲看攻略和自己摸索最佳解的差別

作者: yurian 2025-04-05 08:23:00

聽起來就像訓練狗一樣用誘導的方式讓他去做到你想要的而不是先跟他說哪些是對的？比如現在比較面向一般大眾的ai 其實沒有自己搜尋正解的能力問他新一點的事情都只會跟你說他的db太舊了沒訓練過的事情他都不會問遊戲要怎樣玩是完全不行

作者: b160160 (HG Life is Foo~~~) 2025-04-05 08:27:00

上期刊的比較舊，model based RL dreamer 的論文已經是四年前的論文了他有一個世界模型可以預測未來，也就是某種程度把麥塊的遊戲學起來

作者: Yan239 (彥) 2025-04-05 08:35:00

給ai獎勵？怎麼個獎勵法== 又不是狗給零食就好

作者: uohZemllac (甘草精華雄沒醉) 2025-04-05 08:49:00

看來我快要能夠玩到多人遊戲了

作者: befaithful (觀察者) 2025-04-05 08:51:00

neuro: ??

作者: kaj1983 2025-04-05 08:51:00

說獎勵你就想一下自己做哪些事比較優先啊機制設計邏輯不難理解

作者: jaspergood 2025-04-05 08:55:00

做對事情+分，做錯事情-分，這樣就算一種獎勵機制，但你如果還要問什麼這樣ai就會聽話喔之類的，那我也是沒辦法

作者: pony666 (不要踩到我) 2025-04-05 09:14:00

獎勵可以有十秒鐘的運作歷程不會被人類記錄

作者: guogu 2025-04-05 09:32:00

牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了獎勵很簡單啊就是對了加分不然要給機油嗎...看說明這個就是只給目標不教它玩讓它自己摸出玩法

作者: PayKuo (柚子) 2025-04-05 09:36:00

獎勵：可以看記憶體插入主機板的影片十秒

作者: salamender (banana king) 2025-04-05 09:57:00

看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始魚骨挖法

作者: guogu 2025-04-05 09:57:00

對了要說懲罰也行因為低分的通常會被消滅只留高分的繼續讓他演化

作者: WindSucker (抽風者) 2025-04-05 10:01:00

vedal屌打

作者: h0103661 (路人喵) 2025-04-05 10:37:00

牛肉一堆人寫的腳本拿來跟自我學習ai比喔

作者: crazy6341556 (power_spike) 2025-04-05 11:26:00

給獎勵就是讓他的損失函式有正回饋呀然後他依照這個函式預估自己之後的動作對於任務是優的還是劣的這種模式叫做RL 原本預想強ai可能要靠這種形式實現結果最常用到的是玩遊戲哈哈

作者: linliu0624 (kawa) 2025-04-05 14:19:00

任務比較大的強化學習（？

繼續閱讀

Re: [鳴潮] 中韓官方因尊敬的中國玩家而公開道歉anpinjou [閒聊] 大家對Bethesda是不是太苛刻了ak47123121 [萌夯] 操蟲棍-近戰對白熾龍優勢大ruiun Re: [問題] 白鷹格里菲斯為什麼還要虐菜?ultmisia Re: [閒聊] 為什麼只有小黃遊沒有大黃遊啊？zxcmoney [閒聊] 荒野滾桶有沒有教學 sky093851248 [荒野] 白熾龍……只是想要保護大家而已Mayfly [閒聊] 真假啦這是AI圖喔XLcock [閒聊] 陶德之後會怎麼宣傳上古卷軸6？LouisLEE Re: [母雞] 大家能共情喵夢嗎aos005432

顔出しMM号女子大生限定ザ・マジックミラー勝てば100万円！負ければ即ハメ！日米対抗野球拳！海外デカち○ぽをぶち込まれ何度イってもやめてくれないガン突きピストン！全員生中出し！！

働く美熟女のうっとりチ○ポ鑑賞SP 熟練の手業口業に大量精子搾取！！ 1050分 10枚組

【VR】目の前の爆乳に挟まれたい…アナタはそのパイズリに我慢できない。チ●ポをトロットロにするおっぱいビッチVR 夢乃あいか

汗だくで絶頂を繰り返す健康的でエッチな身体…一心不乱に没頭する濃密体液SEX 星乃莉子

制服・貧乳・巨乳の美少女たち2262分