Re: [閒聊] ChatGPT是語言模型不是搜尋引擎 arrenwu PTT批踢踢實業坊

Re: [閒聊] ChatGPT是語言模型不是搜尋引擎

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 18:19:39

※ 引述《onionandy (Kayou)》之銘言：
: "目前的"chatGPT最主要的目標是跟使用者達成對話目的
: 至少他現在受限於資料庫的關係
: 你問他他給你百分之百正確答案這點是做不到的
: 還會一本正經胡說八道
: 但目前的chatGPT的語言能力已經很強了
: 對於你給他必要的資料他就寫出一篇文章給你這類工作
: chatGPT至少可以做到8~90分的成績
: 現在早已有餵他資料、文章編寫方向、目的、需要什麼內容之類的
: 就可以寫出一篇語言使用程度很不錯的論文初稿的實例在
: 在已公開的範圍來說
: 我個人認為
: chatGPT對於那些利用手邊題材寫文章的工作已經是個活生生的威脅了
: 歐美媒體也早已提出利用chatGPT來寫新聞的論點
: 說到這邊
: 有沒有人對"利用手邊題材寫文章的工作"聯想到什麼了？
: 我想到的就是翻譯
關於這個，最近騰訊的AI Lab在1/31有篇technical report
Link: https://arxiv.org/abs/2301.08745
這篇文章是想要比較 ChatGPT, Google翻譯，DeepL，騰訊(Tencent)翻譯的翻譯表現
他們用的測試來源有這四樣
https://i.imgur.com/mZEyC0G.jpg
因為ChatGPT只能手動操作的關係，他們並沒有整套全部跑，
而是從每一樣來源各選出50個句子來比較
評分適用個叫做 BLEU的分數 (這個我不太清楚是啥，反正是就是常用的評分)
一開始他們還先討論了一下再ChatGPT裡面用什麼用的文句請他翻譯比較好
他們有3個覺得比較適合的選擇
https://i.imgur.com/yrDEObi.jpg
他們用 Flores-101 的中->英來決定哪種問法最好
https://i.imgur.com/XZ9zUaM.jpg
雖然看起來結果差不是太多，不過第三種問法好像至少比第一種好，
所以就選了第三種，也就是
Please provide the <目標語言> translation for these sentences
好啦，進入正題
多國語言翻譯大比拚
https://i.imgur.com/GTmCHlX.jpg
De = 德文
En = 英文
Ro = 羅馬尼亞文
Zh = 中文
圖片裡面那些 + - 是拿 Google翻譯當基準的比較。
ChatGPT 的表現雖然大致上是比較差，但是跟羅馬尼亞文有關的算是特爛
文章覺得這跟文本資源量的多寡有關，比如德文<->英文這種大家覺得資源很多的，
ChatGPT 就表現得比Google略差而已。
(附帶一提，DeepL在這組測資的表現相當強悍)
這邊騰訊AiLab的研究人員發現似乎用個樞紐語言的問話技巧對ChatGPT有影響。
比如羅馬尼亞文->中文的翻譯，如果換成
請先把文章(羅馬尼亞文)翻譯成英文，然後再翻譯成中文
這個問法對於翻譯品質是有影響的
https://i.imgur.com/vZdtT90.jpg
理論是羅馬尼亞文 -> 中文資料量很少，
但羅馬尼亞文 -> 英文和英文 -> 中文資料比較優良
分領域測試
這邊有三組資料來源
WMT19 Bio: 生醫領域
WMT20 Rob2: Reddit (這部分資料會比較亂，拼字錯誤、文法錯誤、省略、網路用語等)
WMT20 Rob3: 一群人的語音內容
結果如下
https://i.imgur.com/mQCOqzK.jpg
欸！ChatGPT很難得地在一個項目(WMT20 Rob3)獲勝了！
總結
所以，ChatGPT在文本資料很豐富的語言轉換(ex. 德<->英)可以跟這些商用翻譯器打，
不過在某些部分就表現得很差 (好像廢話)
有些很大差距的情況(ex. 羅馬尼牙->中文)，可能可以透過使用一個樞紐語言來減緩。
但是就只是稍微拉近，Flores-101這組general的測資裡面，還是不敵商用翻譯器
然後，從分領域的測試結果來看，ChatGPT在講話內容的翻譯表現較佳，
在生醫(很專門領域?)和 Reddit(社群網絡?) 的表現就無法跟這些商用翻譯器打
不過就像這篇文章的標題一樣，這還只是個早期初步評估。
而且還有很多的限制會影響這文章的可靠性，比如重現性的問題。
ChatGPT不像其他翻譯器重現性很大
: 在翻譯這一塊
: 未來可能真的只剩校對，不需要第一手的翻譯工作
: 或者是說
: 第一手的翻譯工作會轉變成
: 告知chatGPT這類工具需要定義的名詞後
: 按下請翻譯這顆按鈕
現在翻譯不就是這樣了嗎？

作者: lsd25968 (cookie) 2023-02-26 18:21:00

看來是當年被老闆殘害太深報paper報習慣了==

作者: MikoSakura35 2023-02-26 18:26:00

樞紐語言也太酷

作者: BruceChang (=A5e) 2023-02-26 18:26:00

翻英再翻比較好是每個都這樣啊

作者: tsubasawolfy (悠久の翼) 2023-02-26 18:43:00

生醫領域有專門爬PubMed的BioGPT，不過還是用3.0版本。那東西如果成熟….期刊跟Reviewer會煩惱一陣子。下關鍵字跟限定範圍後就自動產生它從資料庫學到的，再順便幫你加文獻索引。

作者: LastAttack (與我無關~~) 2023-02-26 19:03:00

最後一句笑死原原po翻譯軟體用雲的樞紐語言應該不是新玩意道聽塗說google日翻中就是日翻英再翻中

作者: laechan (揮淚斬馬雲) 2023-02-26 19:24:00

一般人只需要一般的翻譯，透過適當的前置文引導，翻譯很強的，圖片型內含文字的遊戲方公告，先轉成文字，再貼去chatgpt，翻譯出來的東西，可閱讀性高多了