[閒聊] 赤松健：國圖全書籍光學字元建置和AI辨識 LABOYS PTT批踢踢實業坊

[閒聊] 赤松健：國圖全書籍光學字元建置和AI辨識

作者: LABOYS (洛城浪子) 2022-07-14 21:57:45

https://twitter.com/KenAkamatsu/status/1547567317894463488
https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜訪了(株)モルフォＡＩソリューションズ株式會社
我曾經闡述我的夢想是
「國會圖書館的全書籍都以光學字元辨認技術來建置，並且可以進行全文檢索為目標」
沒想到負責該技術的就是這間公司。
古文書的圖像→文本轉化，以現在的技術已經非常高水準，
以後期待能朝著利用人工智慧的領域，
利用到AI來判斷前後的文字脈絡或用字遣詞，這樣的目標邁進。
如果這個夢想成真，那麼其益處將是無法計量的。

作者: spfy (spfy) 2022-07-14 21:58:00

GOOGLE：為什麼要花錢?

作者: gox1117 (月影秋楓) 2022-07-14 21:58:00

錢哪來

作者: mattc123456c (Matt Zhuang) 2022-07-14 21:59:00

掃描還要去比對吧？

作者: medama ( ) 2022-07-14 21:59:00

他這裡的古文書指的是古代日本的手寫草書字體，以前都要人工辨認，非常費時，現在技術已經可以用電腦辨認，

作者: LLSGG (西西西瓜) 2022-07-14 21:59:00

大圖書館計畫，

作者: medama ( ) 2022-07-14 22:00:00

今後的目標是用電腦靠前後文來提升字體辨認率不是單純舊書籍的意思

作者: LLSGG (西西西瓜) 2022-07-14 22:00:00

抓一下古文抄襲

作者: majohnman (麻醬麵) 2022-07-14 22:02:00

先不論這件事的必要程度，畢竟將書本電子化的確可以以防萬一未來發生什麼事，但是全書的數字很龐大吧，要去哪生錢來搞這種事，政府也不會輕易撥款在這種事上吧

作者: bestteam (wombat是胖胖熊) 2022-07-14 22:02:00

GOOGLE能做到判別古文書????

作者: mattc123456c (Matt Zhuang) 2022-07-14 22:03:00

對於1樓，免費OCR服務不夠理想

作者: a71085 (iii) 2022-07-14 22:03:00

中文有一個老外發起的網站叫做中國哲學書電子化計劃

作者: cat05joy (CATHER520) 2022-07-14 22:07:00

OCR只是合標準的字體字體一歪很容易辨識不到

作者: spfy (spfy) 2022-07-14 22:08:00

GOOGLE以前是用reCAPTCHA叫大家幫他辨識不是指用免費OCR免費OCR連標準英文字體都會認錯

作者: Bugquan (靠近邊緣) 2022-07-14 22:10:00

不會掃描後，做成驗證碼

作者: qazxswptt (...) 2022-07-14 22:17:00

有點跑太多的感覺不如先數位化辨識以後再說

作者: bladesinger 2022-07-14 22:22:00

google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶來進行人肉訓練AI

作者: hinajian (☆小雛☆) 2022-07-14 22:22:00

免費的最貴

作者: Bugquan (靠近邊緣) 2022-07-14 22:24:00

不過最大的問題還是錢

作者: reccalin (DJ) 2022-07-14 22:27:00

這個真的成功會很棒一堆古早論文都只有圖檔

作者: inte629l 2022-07-14 22:32:00

之後會有古文書的圖片來辨別50音嗎XD

作者: discoveryray (chih) 2022-07-14 22:34:00

研究生福音

作者: michaelfat19 2022-07-14 22:47:00

選上議員就是要爭取用政府的錢做這件事啊==

作者: jasonchangki (阿特拉斯聳聳肩) 2022-07-14 23:07:00

這種就是整理期超苦但一旦成型超方便

作者: nalthax (書蟲一枚) 2022-07-14 23:13:00

耶

作者: newasus (我是蘿莉控我自豪) 2022-07-14 23:51:00

OCR技術需求太高先不論單純掃描的話不會花到非常多錢吧應該幾千萬台幣內能搞定？

作者: TsaiPC (Never say never.) 2022-07-15 00:18:00

日本國會圖書館目前一直有在做絕版書數位化，只是目前要看電子檔還是要到國會圖書館才行

作者: nilr 2022-07-15 07:47:00

推

作者: abucat (阿布貓) 2022-07-15 09:01:00

這個推

繼續閱讀

[閒聊] 久美子頭髮那兩搓看起來很好吸maple2378 Re: [閒聊] 地下城第三季窮的好好笑takashi001 [22夏] 組長女兒與保姆 02SaberTheBest [情報] 漫畫家 2022日本北九州市駐村交流計畫Qorqios Re: [綴歌] 破釜咖啡廳安科紀錄----魔法少女艾比蓋爾Vinygli Re: [閒聊] 灌籃高手的神奈川四強,武里高校到底出來幹嘛的?njnjy [法米通]《MHR:破曉》2連冠！《風之少年》也熱銷ryoma1 Fw: [BGD] BanG Dream! Morfonication 動畫主視覺YuiiAnitima [閒聊] 平蔵是在玩KOF嗎？slamblock15 [情報] 寶可夢新無印 117.118 劇透wl760713

ピンク乳首美少女のショートカット義娘とイタズラ温泉旅行

女子大生ラウンジ嬢と性に溺れた相部屋ホテルNTR おじさんの私は綺麗な美女との店外デートで何度もハメまくってしまった。白上咲花

【最初の男VS最後の男】新郎がみたら気絶モノ。花嫁ほのかちゃん（25）結婚前最後の浮気SEX映像。ウェディングドレスで新郎の親友と最後の生中出しSEXに乱れまくるハメ撮り動画

爆乳ボディを担保に金貸しおやじのひととき融資で34発種付け輪●されキメセク堕ちした借金妻田中ねね

女子陸上部員が1cmハメ空気椅子ケツ肉プルプルあわや合体の下半身強化合宿で膣奥打ち抜かれピストン騎乗位に溺れた2泊3日10発天川そら

Contact Us: admin [ a t ] ucptt.com