[新聞] 國慶日變10/1！中研院認了「AI語言模型」 armorblocks PTT批踢踢實業坊

[新聞] 國慶日變10/1！中研院認了「AI語言模型」

作者: armorblocks (package) 2023-10-09 21:28:34

1.媒體來源:
自由
2.記者署名:
丁奕
3.完整新聞標題:
國慶日變10/1！中研院認了「AI語言模型」用中國資料庫已先下架
4.完整新聞內文:
https://imgur.com/mcdpwLO
https://imgur.com/zPtV3XO
中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b，今（9）日遭踢
爆使用中國資料庫，詢問「國慶日是何時」會回答「10月1日」。中研院坦言，訓練資料
有來自中國開源的任務資料集（COIG），今日中午已將測試版先行下架。
網友發現詢問該語言模型「國慶日是何時？」，其會回答中國國慶日「10月1日」；詢問
「中華民國國歌為何？」，它會回答中華人民共和國的國歌「義勇軍進行曲」；詢問我國
憲法，則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練，僅簡轉
繁後就公開。
中研院資訊所表示，CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模
型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費，將明清人物的生平
進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料
除了繁體中文的維基百科，另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集
COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
資訊所強調，這是一項個人小型研究，各界對該模型進行的提問測試，並未在原始研究範
疇。該研究人員表示，由於生成式AI易產生「幻覺」（hallucination），導致模型產生
內容出乎預期，未來將努力改善。目前已將測試版先行下架，未來相關研究及成果釋出，
會更加謹慎。
中研院表示，未來對相關研究的成果，在公開釋出前，院內會擬定審核機制，避免類似問
題產生。
5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:
https://reurl.cc/WvR6D7
6.備註:

繼續閱讀

[問卦] 鋼彈Seed，是機體設計巔峰嗎= =...?sasaki3630 Re: [問卦] 豆導會怎麼拍以巴衝突MJdavid [問卦] 巴以衝突美國484沒空理台海了？asdf2004 Re: [問卦] 戰爭打醫院不是大忌嗎？怎麼還照打apley [問卦] 台中觀光人潮也太多了吧？mini186 [問卦] 以色列轟炸加薩像不像恐怖份子？lienchi [問卦] 關於以阿戰爭ziji Re: [問卦] 台灣有史達林格勒等級的城市嗎weed222 [問卦] 這是什麼植物？zo6al [問卦] 最近的音樂迷因EZX