[新聞] 中研院AI語言模型出包!廖俊智:提醒其他

作者: gaymay5566 (feeling很重要)   2023-10-12 13:21:48
1.媒體來源:
NOWnews 今日新聞
2.記者署名:
李琦瑋/台北報導
3.完整新聞標題:
中研院AI語言模型出包!廖俊智:提醒其他計畫勿用中國資料
4.完整新聞內文:
我國中央研究院日前推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,被踢爆使用
中國建置的資料庫,9日緊急下架,立委今(12)日關切此議題,中研院長廖俊智說明,
主要是年輕研究員求快心切,想利用新技術,將明清人物的生平進行自動化分析,建構語
言模型並非研究本意,另外,中研院將成立生成式AI風險研究小組,提供研究人員相關指
引。
立法院教文會邀請中研院院長廖俊智列席報告業務概況,並備質詢。多名立委關切繁中AI
語言模型出包狀況。
立委萬美玲指出,中研院日前推出繁體中文語言模型,請網友測試,結果回答我國最高領
導人是國家主席習近平,並自述是由復旦大學自然語言處理實驗室和上海人工智能實驗室
共同開發,居住地在上海人工智能實驗室服務器集,非常離譜,質疑這是中研院研發的嗎
?還是研究員大量引用中國資料、甚至抄襲對岸研究成果?
廖俊智回應,主要是一名研究員求快心切,把尚未完全測試完畢的軟體,以開源精神,上
網請大家一同測試,產生了一些有待商榷的結果,研究員已深切反省,中研院也在本次事
件學到正面教訓,體認到繁中語言詞彙非常重要,需要大家一起來做。
萬美玲表示,中研院管理不夠嚴謹,研究員的所有研究出去都是代表中研院,絕非他個人
,結果這套系統3天就下架,簡直是鬧了個笑話。
中研院資訊所長廖弘源表示,主要是年輕研究員執行2個計畫,一個是國科會從去年8月到
今年7月、經費70萬元的計畫,大型預訓練語言模型的建構與校正,另一個則是中研院數
位文化中心給予30萬元研究計畫,有關明清歷史時空調查,因為CHatGPT是去年10月問世
,該研究員拿到計畫後,就想用新技術來趕快進行研究。
廖弘源說明,大型語言模型就像人腦,需要給予許多資料、知識的訓練,必須花很多錢請
很多人去建構資料庫,但台灣主要是靠國家力量做,該研究員僅是為了歷史研究計畫,建
構出資料集,但經費不夠多,便想到對岸與我們同語言,便想直接使用中國與明清歷史相
關的資料,將簡體中文轉成繁體中文,去加以訓練,想要很快展現研究成果,卻沒想到這
些資料庫背後的價值觀也被納入。
廖弘源強調,開發AI語言模型非研究員本意,年輕人也不知道引用中國資料庫的敏感度,
才犯下此種疏忽。
立委張廖萬堅詢問,中研院僅用30萬元去做繁體中文語言模型?日前聲明說會成立「生成
式AI風險小組」因應,何時會成立?院內的擬定審核機制何時提出?
廖俊智說,30萬元計畫原本並非要做生成式AI研究,而是明清歷史研究,是研究員想利用
新技術,求快心切,動用這些經費趕快做測試;「生成式AI風險小組」正在規劃中,會儘
快進行,國際上也正在進行這類控管,因為AI對社會衝擊仍然是未知數。
立委黃國書詢問,中研院未來在推動CHatGPT研究,還會持續使用中國資料集嗎?
廖俊智回應,將配合國科會TAIDE計劃自行開發。
黃國書說,目前除了該出包計劃外,目前與CHatGPT相關的研究計畫還有6個,都還會再進
行嗎?是否也在引用中國資料集?
廖俊智說,目前了解到沒有引用中國資料集,還會再注意、盤點,中研院後續將規劃成立
「生成式AI風險研究小組」,深入了解AI對社會的衝擊,提供研究人員相關指引,但在指
引出來前,上述計畫不會暫停,因為這些計劃除了辭庫外,還有技術方面等很多面向 ,
會再跟幾位研究員提醒勿使用中國資料。
5.完整新聞連結:
https://www.nownews.com/news/6279063
6.備註:
還有6個!
我看是沒戲了,懂的都懂,中研院大型語言模型計畫根本是小孩開大車~

Links booklink

Contact Us: admin [ a t ] ucptt.com