[閒聊] AI訓練到可以在Minecraft自己挖到鑽石

作者: wearytolove (奪真書生A.W.)   2025-04-05 04:28:39
這篇學術文章剛才發上了Nature
https://www.nature.com/articles/s41586-025-08744-2
這個演算法完全不參考玩家的網路影片
而是把挖到鑽石的步驟分成12步 (熔爐、挖石頭、挖鐵、砍木頭....)
每完成一步就給電腦獎勵 然後讓演算法強化學習
大概9天就讓AI成功的可以從誕生到挖到第一顆鑽石
這也代表AI的智慧更前進一步
由Google Deepmind研發
作者: hankiwi (_han_)   2025-04-05 04:30:00
人類離駭客任務的世界線又更進了一步
作者: error405 (流河=L)   2025-04-05 04:31:00
呵 接著訓練蓋巨大老二
作者: ak47123121 (小忍)   2025-04-05 04:32:00
ai玩麥塊,vedal不是實現了嗎,那代表更早之前應該就有了吧
作者: shadowdio   2025-04-05 04:35:00
什麼時候能幫我打每日
作者: White77 (白色月月)   2025-04-05 04:47:00
Neuro之前沒有自己挖到鑽石過嗎?
作者: b05605019 (只是好奇)   2025-04-05 04:49:00
我也希望有ai帕魯幫我玩遊戲" target="_blank" rel="noreferrer noopener nofollow">
" target="_blank" rel="noreferrer noopener nofollow">
作者: xrdx (rd)   2025-04-05 04:57:00
neuro會挖鑽石了嗎
作者: tyifgee (pttnoob)   2025-04-05 05:44:00
什麼時候能幫我工作
作者: wild2012 (世界末日)   2025-04-05 06:43:00
這樣也可以上期刊 vedal就不知道能上幾次了
作者: kuninaka   2025-04-05 07:14:00
可以預料其實PTT很多機器人了例如樓下
作者: hongsiangfu   2025-04-05 07:23:00
主人您好,需要挖鑽石嗎?
作者: j147589 ((joyisbitch))   2025-04-05 07:42:00
不會中途被苦力怕還是其他怪殺掉嗎
作者: dodomilk (豆豆奶)   2025-04-05 07:42:00
不太懂,為什麼這樣可以上期刊?以前的AI做不到嗎?
作者: bobogei81123 (bobogei)   2025-04-05 07:52:00
沒很仔細看完 但應該是從頭到尾沒有用任何人類的資料 類似 Alphago Zero 那樣 全部是靠自己學的
作者: conqueror507 (冷箭)   2025-04-05 07:55:00
這很難吧 因為minecraft的選擇很多
作者: aaaaooo (路過鄉民)   2025-04-05 08:00:00
訓練方法不同吧 以前的是教師學習直接餵正解下去訓練這個
作者: y124421473 (ˊ_>ˋ)   2025-04-05 08:01:00
有包含渡過晚上的部分嗎
作者: aaaaooo (路過鄉民)   2025-04-05 08:02:00
是運用獎勵函數的強化學習
作者: welkin0105 (實驗與料理的旅行者)   2025-04-05 08:06:00
差別在以前有給AI人類資料學,現在可以自己摸索應該就是玩遊戲看攻略和自己摸索最佳解的差別
作者: yurian   2025-04-05 08:23:00
聽起來就像訓練狗一樣 用誘導的方式讓他去做到你想要的而不是先跟他說哪些是對的? 比如現在比較面向一般大眾的ai 其實沒有自己搜尋正解的能力 問他新一點的事情都只會跟你說他的db太舊了 沒訓練過的事情他都不會 問遊戲要怎樣玩是完全不行
作者: b160160 (HG Life is Foo~~~)   2025-04-05 08:27:00
上期刊的比較舊,model based RL dreamer 的論文已經是四年前的論文了他有一個世界模型可以預測未來,也就是某種程度把麥塊的遊戲學起來
作者: Yan239 (彥)   2025-04-05 08:35:00
給ai獎勵?怎麼個獎勵法== 又不是狗給零食就好
作者: uohZemllac (甘草精華雄沒醉)   2025-04-05 08:49:00
看來我快要能夠玩到多人遊戲了
作者: befaithful (觀察者)   2025-04-05 08:51:00
neuro: ??
作者: kaj1983   2025-04-05 08:51:00
說獎勵你就想一下自己做哪些事比較優先啊機制設計邏輯不難理解
作者: jaspergood   2025-04-05 08:55:00
做對事情+分,做錯事情-分,這樣就算一種獎勵機制,但你如果還要問什麼這樣ai就會聽話喔之類的,那我也是沒辦法
作者: pony666 (不要踩到我)   2025-04-05 09:14:00
獎勵可以有十秒鐘的運作歷程不會被人類記錄
作者: guogu   2025-04-05 09:32:00
牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了獎勵很簡單啊 就是對了加分 不然要給機油嗎...看說明這個就是只給目標 不教它玩 讓它自己摸出玩法
作者: PayKuo (柚子)   2025-04-05 09:36:00
獎勵:可以看記憶體插入主機板的影片十秒
作者: salamender (banana king)   2025-04-05 09:57:00
看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始魚骨挖法
作者: guogu   2025-04-05 09:57:00
對了 要說懲罰也行 因為低分的通常會被消滅只留高分的繼續讓他演化
作者: WindSucker (抽風者)   2025-04-05 10:01:00
vedal屌打
作者: h0103661 (路人喵)   2025-04-05 10:37:00
牛肉一堆人寫的腳本拿來跟自我學習ai比喔
作者: crazy6341556 (power_spike)   2025-04-05 11:26:00
給獎勵就是讓他的損失函式有正回饋呀 然後他依照這個函式預估自己之後的動作對於任務是優的還是劣的這種模式叫做RL 原本預想強ai可能要靠這種形式實現結果最常用到的是玩遊戲哈哈
作者: linliu0624 (kawa)   2025-04-05 14:19:00
任務比較大的強化學習(?

Links booklink

Contact Us: admin [ a t ] ucptt.com