Re: [爆卦] 中央研究院詞庫小組大型語言模型 primeman PTT批踢踢實業坊

Re: [爆卦] 中央研究院詞庫小組大型語言模型

作者: primeman (精華) 2023-10-09 13:05:58

※ 引述《xdbx (羊阿兵)》之銘言：
: ※ 引述《dean1990 (狄恩院長)》之銘言：
: : 本魯也很好奇問了一些問題，
: : 首先是比較基礎的：
: : https://i.imgur.com/zKhx1A2.jpg
: 現在上不去了只截到這個
: https://imgur.com/a/evMNmWM
: 你現在問它台灣總統是誰它會說蔡英文了
: 問它台灣是不是國家也說會
: 問它簡單的問題都會覺得台灣來的
: 但是電腦不會說謊轉個彎套它話
: 就會發現資料都是被竄改過了
: 它的根源就是個阿六仔
這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫
其中中文占的比例很少
中文當中繁體中文的資料更少
因此訓練起來中文其實都不像樣
同時間訓練台灣的內容資料又更少之又少
可以看下圖
https://i.imgur.com/zSPlmC5.jpg
繁體中文只有 0.05% 簡體中文有16%
如果真的要避免繁體中文被消滅
應該要正確的選擇我們要在語言AI模型要貢獻那些資料跟模型
不然再幾年對話機器人都內建中國話
台灣就沒有什麼立場了

繼續閱讀

[問卦] 外交部編18億挺烏，要編多少挺以？hyperdunk [問卦] 那一天空襲警報大響到處都是爆炸聲你會ꬱqadc [問卦] 沒人發現海峽兩岸根本就很安全嗎！nobody0303 [問卦] 反對囤房稅結果建商囤房變兩倍？R3hab Re: [問卦] 臺男不生小孩把錢拿去自己爽會怎樣？biorgan [問卦] 以色列根本是恐怖份子吧？dean1990 [問卦] 哥革（俄羅斯）什麼時候要打以色列magiccello Re: [問卦] 讓日本改善台灣的交通需要多久的時間?HuangJC [問卦] 蝦皮上的黃遊是土製的黃油嗎？iLeyaSin365 [問卦] youtube一直出現疑似詐騙廣告怎辦a6000200