Re: [問卦] 口說講解影片是不是快被AI完全取代了? sxy67230 PTT批踢踢實業坊

Re: [問卦] 口說講解影片是不是快被AI完全取代了?

作者: sxy67230 (charlesgg) 2023-01-08 12:14:39

※ 引述《horseorange ()》之銘言
: 網路上會滑到的口說講解影片
: 光講話的部份之前就被微軟雲希搶了一半以上的工作
: 至於其他的部份
: 剛剛在看別人貼的教學
: 現在文本也可以用AI寫
: 甚至你覺得影片沒有人
: 也可以叫個AI人像在前面講話
: 文本、口說、影像AI都能做到了
: 這樣看來口說講解影片被AI完全取代剩沒多久了吧?
阿肥外商碼農阿肥啦！認真說，這幾年口說上字幕甚至翻譯，還有有字幕上語音這幾年都獲
得不錯的進展，包含openAI、Google、Amazon、Meta實驗室都有不錯的產出，而且這些都是
依靠當前所謂的多模態零樣本學習的大力進步，很多轉換錯誤或是機器音都減小很多，不
過偶爾還是會有出槌需要人工修正的部分。
所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來
完成，但是這樣的成本往往都非常高，而我們其實人類原始的數據來源是很大只是雜訊很高
，往往在傳統機器學習會認為是很難學習的，不過現在就是透過大量GPU大力出奇蹟，反正
先訓練一個夠大夠強的模型不管他是不是有偏數據，然後再利用這樣的大模型我們透過有限
監督來微調，這邊有很多方法，包含把多模態(圖像、語意、文字)來結合再一起，或是透過
主動學習、強化學習來監督新模型輸出結果。
這樣就不需要落入我們一定要先有標注資訊才能做，像openAI的新模型whisper就能不須要
傳統做音訊前處理直接把環境音加人聲一起喂入，直接給出人聲轉文字結果，這種做法在很
多實驗跟研究中也發現你只要夠大模型的魯棒性越高，加上用所謂的對比方式來學習那要達
到不須要額外新樣本就可以在新樣本上達到SOTA越容易。
差不多4醬

繼續閱讀

Re: [問卦] 30歲女老師結婚條件:婚前先過戶兩千萬房blessbless [問卦] 常吃火鍋到底健不健康呀kgppra [問卦] 對岸掃黑,判一堆死刑是否正確？CrazyKill Re: [問卦] 沒人發現台灣房價不課持有稅根本不會跌！lovehandle Re: [新聞] 高雄武館格鬥賽選手被打進加護病房songgood [問卦] 南霸天碳佐麻里有誰打得贏嗎howard24 [問卦] 住宿女大生家人問她為何不回家ikoy [新聞] 領中央失業子女就學補貼新北再加碼1萬8000元whitefox [問卦] 女同事說要介紹隔壁部門的女生給我認識BrandonRoy7 [問卦] 驚！一個割包已經漲到50了嗎？johnson2726