這篇學術文章剛才發上了Nature
https://www.nature.com/articles/s41586-025-08744-2
這個演算法完全不參考玩家的網路影片
而是把挖到鑽石的步驟分成12步 (熔爐、挖石頭、挖鐵、砍木頭....)
每完成一步就給電腦獎勵 然後讓演算法強化學習
大概9天就讓AI成功的可以從誕生到挖到第一顆鑽石
這也代表AI的智慧更前進一步
由Google Deepmind研發
作者:
hankiwi (_han_)
2025-04-05 04:30:00人類離駭客任務的世界線又更進了一步
ai玩麥塊,vedal不是實現了嗎,那代表更早之前應該就有了吧
作者:
White77 (白色月月)
2025-04-05 04:47:00Neuro之前沒有自己挖到鑽石過嗎?
作者:
xrdx (rd)
2025-04-05 04:57:00neuro會挖鑽石了嗎
作者: tyifgee (pttnoob) 2025-04-05 05:44:00
什麼時候能幫我工作
作者: hongsiangfu (不可褻玩焉) 2025-04-05 07:23:00
主人您好,需要挖鑽石嗎?
作者:
j147589 ((joyisbitch))
2025-04-05 07:42:00不會中途被苦力怕還是其他怪殺掉嗎
不太懂,為什麼這樣可以上期刊?以前的AI做不到嗎?
沒很仔細看完 但應該是從頭到尾沒有用任何人類的資料 類似 Alphago Zero 那樣 全部是靠自己學的
作者:
aaaaooo (路過鄉民)
2025-04-05 08:00:00訓練方法不同吧 以前的是教師學習直接餵正解下去訓練這個
作者:
aaaaooo (路過鄉民)
2025-04-05 08:02:00是運用獎勵函數的強化學習
差別在以前有給AI人類資料學,現在可以自己摸索應該就是玩遊戲看攻略和自己摸索最佳解的差別
作者:
yurian 2025-04-05 08:23:00聽起來就像訓練狗一樣 用誘導的方式讓他去做到你想要的而不是先跟他說哪些是對的? 比如現在比較面向一般大眾的ai 其實沒有自己搜尋正解的能力 問他新一點的事情都只會跟你說他的db太舊了 沒訓練過的事情他都不會 問遊戲要怎樣玩是完全不行
作者:
b160160 (HG Life is Foo~~~)
2025-04-05 08:27:00上期刊的比較舊,model based RL dreamer 的論文已經是四年前的論文了他有一個世界模型可以預測未來,也就是某種程度把麥塊的遊戲學起來
作者:
Yan239 (彥)
2025-04-05 08:35:00給ai獎勵?怎麼個獎勵法== 又不是狗給零食就好
作者: uohZemllac (甘草精華雄沒醉) 2025-04-05 08:49:00
看來我快要能夠玩到多人遊戲了
說獎勵你就想一下自己做哪些事比較優先啊機制設計邏輯不難理解
作者: jaspergood (爵士裴古德) 2025-04-05 08:55:00
做對事情+分,做錯事情-分,這樣就算一種獎勵機制,但你如果還要問什麼這樣ai就會聽話喔之類的,那我也是沒辦法
作者:
pony666 (不要踩到我)
2025-04-05 09:14:00獎勵可以有十秒鐘的運作歷程不會被人類記錄
作者:
guogu 2025-04-05 09:32:00牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了獎勵很簡單啊 就是對了加分 不然要給機油嗎...看說明這個就是只給目標 不教它玩 讓它自己摸出玩法
作者:
PayKuo (柚子)
2025-04-05 09:36:00獎勵:可以看記憶體插入主機板的影片十秒
看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始魚骨挖法
作者:
guogu 2025-04-05 09:57:00對了 要說懲罰也行 因為低分的通常會被消滅只留高分的繼續讓他演化
給獎勵就是讓他的損失函式有正回饋呀 然後他依照這個函式預估自己之後的動作對於任務是優的還是劣的這種模式叫做RL 原本預想強ai可能要靠這種形式實現結果最常用到的是玩遊戲哈哈