PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Tech_Job
[討論] 為何機器人AI不透過強化式學習訓練?
作者:
seal46825
(Vanish)
2024-10-16 23:54:43
剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作 例如分類物品
然後就可以透過這些動作訓練模型
但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇 為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強
同樣道理 我讓一顆球放在一個發射平台
會自動彈出 然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線 如何最佳應用他的身體
然後快速把球撿起來 放回發射平台
這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練 一年365天24小不停歇
這樣就能產生大量數據 快速精進機器人AI模型
同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢?
還是其實有在做了?
作者:
peter3354152
(阿瑋)
2024-10-17 00:25:00
上網搜尋robotic deep reinforcement learning 應該會有一堆paper
作者:
DarkIllusion
(′・ω・‵)
2024-10-17 01:54:00
用RL做機器人策略有獎勵稀疏、sim2real gap問題,有人類展示當訓練資料是最好的
作者: gogogogo3333 (gogogogo33333)
2024-10-17 12:25:00
llm/vlm is based on RLHF for long time.
繼續閱讀
[新聞] 繼微軟、Google 後 亞馬遜也擁核!簽了「
Angels5566
[請益] 30歲轉讀資工所合適嗎?
astrid5636
[請益] 台亞設備工程師
civil318402
[新聞] 大陸台資晶合集成 衝刺28奈米
qazxc1156892
[新聞]何時出手併英特爾?傳高通想等美國總統大
pl132
[新聞] 郭智輝:將在菲國建綠電廠
hvariables
[請益] 台郡除了薪水有其他的獎金嗎?
xa66
[新聞] 英特爾、AMD破天荒組團迎戰Arm! 基辛
jeff0025
[討論] offer 有趣但又遠又少一些錢
afablueeye
問卷]主管與部屬互動
onestone
Links
booklink
Contact Us: admin [ a t ] ucptt.com