[討論] 為何機器人AI不透過強化式學習訓練？ seal46825 PTT批踢踢實業坊

[討論] 為何機器人AI不透過強化式學習訓練？

作者: seal46825 (Vanish) 2024-10-16 23:54:43

剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作例如分類物品
然後就可以透過這些動作訓練模型
但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強
同樣道理我讓一顆球放在一個發射平台
會自動彈出然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線如何最佳應用他的身體
然後快速把球撿起來放回發射平台
這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練一年365天24小不停歇
這樣就能產生大量數據快速精進機器人AI模型
同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢？
還是其實有在做了？

作者: peter3354152 (阿瑋) 2024-10-17 00:25:00

上網搜尋robotic deep reinforcement learning 應該會有一堆paper

作者: DarkIllusion (′・ω・‵) 2024-10-17 01:54:00

用RL做機器人策略有獎勵稀疏、sim2real gap問題，有人類展示當訓練資料是最好的

作者: gogogogo3333 (gogogogo33333) 2024-10-17 12:25:00

llm/vlm is based on RLHF for long time.

繼續閱讀

[新聞] 繼微軟、Google 後亞馬遜也擁核！簽了「Angels5566 [請益] 30歲轉讀資工所合適嗎?astrid5636 [請益] 台亞設備工程師civil318402 [新聞] 大陸台資晶合集成衝刺28奈米qazxc1156892 [新聞]何時出手併英特爾？傳高通想等美國總統大pl132 [新聞] 郭智輝：將在菲國建綠電廠hvariables [請益] 台郡除了薪水有其他的獎金嗎？xa66 [新聞] 英特爾、AMD破天荒組團迎戰Arm！　基辛jeff0025 [討論] offer 有趣但又遠又少一些錢afablueeye 問卷]主管與部屬互動onestone