Re: [問卦] 聽說中研院AI花300萬？ Uizmp PTT批踢踢實業坊

Re: [問卦] 聽說中研院AI花300萬？

作者: Uizmp (黑袍法師) 2023-10-10 18:11:41

※ 引述《sxy67230 (charlesgg)》之銘言：
: ※ 引述《Fortran (Fortran)》之銘言：
: : 如題
: : 本肥好奇，若這樣簡轉繁中，直接套用中國模型，應該不用花到300萬吧
: : 頂多就換個皮，簡轉繁中，連一個工作天都不用，1~5萬就夠了
: : 剩下的經費都....？
: : 有卦？
: 阿肥外商碼農阿肥啦！
: 推廣一下微軟Azure服務，這邊試算開一張A100機器折合台幣差不多8萬台幣/月，平均一
: 天3000不到，中研院應該夠划算了，也算是現在市場公道價，反正都用開源簡中數據了，
: 放Azure訓練也沒什麼資安問題，而且要撈90GB的模型檔案不到十五分鐘就載完了，Azure
: 又快又好用。
: Llama現在一堆微軟、Nvidia都有釋出開源訓練框架，無腦載套件下來照教學拉下訓練con
: fig就可以開始跑，推論也直接用Nvidia的inference框生成2048個字不到0.7秒不到，最
: 多給你開發Gradio的介面框三天好了，這樣一天給研究人員一人五萬/天，十五萬加上Azu
: re 8萬就二十萬不到耶！
: 三百萬真羨慕，我們政府很有錢吶！
: 嘻嘻
https://ppt.cc/fZf2Sx
中研院聲明專區
本院資訊所表示，CKIP-Llama-2-7b 並非中研院官方或所方發表的研究成果，而是個別研
究人員公佈的階段性成果。此非臺版chatGPT，且跟國科會正在發展的 TAIDE 無關。
CKIP-Llama-2-7b 的研究目標之一是讓 meta 開發的 Llama 2 大型語言模型具備更好的
繁體中文處理能力。這項小型研究僅用了大約30萬元的經費，將明清人物的生平進行自動
化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料除了繁體
中文的維基百科，另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集 COIG（
CHINESE OPEN INSTRUCTION GENERALIST）、詩詞創作、文言文和白話文互相翻譯等閱讀
理解問答；在github網頁上也據實說明。
由於這是一項個人小型的研究，各界對該模型進行的提問測試，並未在原始的研究範疇。
該研究人員表示，由於生成式AI易產生「幻覺」（hallucination），模型產生內容出乎
預期，也是未來要努力改善的地方，研究人員今（9）日已將測試版先行下架，未來相關
研究及成果釋出，會更加謹慎。對相關研究的成果，公開釋出前，院內也會擬定審核機制
，避免類似問題產生。
==
原來只值 3 秒鐘啊。

繼續閱讀

[問卦] 您希望我國租借左國哪一省呢？became [新聞] 桃園女租鐵皮屋開賭場牆上還寫「小聲點」gotopark [問卦] 30幾歲退休是不是蠻無聊的PrettyOdd [問卦] 爲何日本沒進貢妃子給中國皇帝？？judas666 [問卦] 以色列484不懂no means noWingedHussar [問卦] 我朋友在FB好像崩潰了，要怎麼安慰啊？gaymay5566 [問卦] 李多慧屌打三上悠亞對吧？WaWa3 [問卦] 七年了有什麼漂亮成績能說嘴？kinve1014 [問卦] 吳京、成龍去加薩走廊救人質會怎麼拍?syearth [問卦] 白天不看三軍閱兵只等煙火是？？mini186