[新聞] 機器學習如何破譯早已消亡的古老語言?

作者: falomu (法蘿暮)   2019-04-06 21:45:52
機器學習如何破譯早已消亡的古老語言?
蘇菲·哈達克
Sophie Hardach
2019年 4月 5日
在大英博物館(British Museum)的柔光照射下,人們只能勉強看到鎸刻在這些古老泥板上
的密密麻麻的楔形標記。這些細小的標記是世界上最古老的書寫系統——楔形文字的遺跡

楔形文字起源於5000多年前的美索不達米亞,位於底格里斯河和幼發拉底河之間,也就是
現在的伊拉克。楔形文字捕捉了一個長達3000年之久的、複雜而迷人的文明。從王室兄弟
姐妹之間憤怒内鬥的信件,到安撫一個任性嬰兒的儀式,這些石碑讓人們可以從另一個獨
特的視角了解歷史初期的社會。
它們記錄了阿卡德、亞述和巴比倫帝國的興衰,這是世界上第一個帝國。據估計,人們已
經挖掘出了約50萬塊楔形文字板,但還有很多仍深埋地下。
約150年前,學者首次破譯楔形文字。然而,只有一小部分能讀懂這種文字的人才了解其
中的秘密。目前,仍有約90%的楔形文字未被翻譯出來。
但是,這種情況可能會有所改變,這都要歸功於現代工具——機器翻譯。
"人們並不了解美索不達米亞文明對自身文化的影響,"多倫多大學亞述學研究員佩龍
(Emilie Page-Perron)說。美索不達米亞文明孕育了車輪、天文學、一小時60分鐘的計時
制、地圖、洪水和方舟的故事、以及第一部文學作品——《吉爾伽美什史詩》。這本詩集
主要是用蘇美爾語和阿卡德語寫成的,能讀懂這些語言的學者少之又少。
佩龍現在正在進行的一個項目,是用機器翻譯公元前21世紀以來美索不達米亞文明的行政
記錄,數量多達69000份,其目的之一是為新的研究發掘過去。
佩龍說:"我們雖然已經獲得了關於美索不達米亞人生活的信息,但卻沒有真正從(美索
不達米亞)不同領域專業人士的知識中獲益,比如經濟和政治領域。如果有渠道(了解這
些知識),我們能更好地了解那些古老的社會。"
除了石碑,還有5萬多枚美索不達米亞雕刻印章散落在世界各地。幾千年來,美索不達米
亞人使用由雕刻石頭製成的印章,這些印章被壓入潮濕的粘土中,用來標記門、罐子、石
板和其他物品。這些刻章中只有十分之一被編入目錄,更不用說翻譯了。
牛津大學亞述學教授達爾(Jacob Dahl)表示:"我們所獲得的關於美索不達米亞文明的資料
比希臘、羅馬和古埃及的加起來還要多,但真正的挑戰在於找到能讀懂它們的人。"
佩龍和她的團隊正在對一個數字化數據庫中的4000個古代行政文本樣本編寫算法。這些行
政文本包括交易和運輸記錄,比如把羊、蘆葦束或啤酒運到寺廟或個人手中的記錄。這些
文字最初是用蘆葦筆刻在粘土上的,現在,學者已經把它們音譯成了我們的字母表。例如
,蘇美爾語中表示"大"的詞可以寫成楔形文字,也可以寫成英文字母表中的"gal"。
這些行政文書的措辭很簡單。例如,"第15天,廚房有11隻母山羊"。這種特點使得它們特
別適合被自動化處理。一旦算法學會了將樣本文本翻譯成英語,它們就能自動翻譯其他經
過音譯的石碑。
佩龍表示:"如果單獨看我們正在研究的文本,它並沒有那麼有趣。但如果你把它們當作一
組文本來看,就有意思多了。"她預計英文版平台將在明年內上線。這些記錄向我們展示
了古代美索不達米亞人的日常生活,包括權力結構和貿易網絡,同時還展示了社會歷史的
其他方面,如女工的角色。平台上可被檢索的翻譯,將使不同地方的研究人員都能探索到
古代生活的豐富面向。
佩龍解釋說:"這些人與我們是如此不同,但他們也面對著和我們一樣的基本問題。理解美
索不達米亞文明,能夠幫助我們理解生而為人的意義。"
她希望機器分析也能弄清蘇美爾人的一些特徵,這是至今仍困擾著現代學術界的難題。這
種已經滅絶的語言與任何現代語言都沒有聯繫,但卻保存在以楔形文字書寫的碑文中。這
可能是我們與更古老,甚至沒有歷史記載的社會之間最後的聯繫。
"蘇美爾語可能是數千年前的語言大家庭中的最後一個成員,"芬克爾(Irving Finkel)說
。"文字及時地出現在這個世界上,拯救了蘇美爾語……幸運的是,在蘇美爾語與其他文
字一起消失之前,我們及時地開始學習這種語言。"
芬克爾是世界上頂尖的楔形文字專家之一。他在大英博物館堆滿書的辦公室裏講解了手稿
是如何慢慢被破譯的,這多虧了一位國王的多語種銘文,就像羅塞塔石碑幫助研究人員理
解了埃及象形文字一樣。
他說:"當你與千年前的靈魂進行交談時你會驚訝地發現,這簡直太有趣了,彷彿在和他們
打電話。認識他們是世界上最令人興奮的事情。"
觸碰古老寶藏
只有少數人能接觸到擁有5000年歷史的石碑,但多虧了先進的成像技術,現在任何人只要
能上網就能接觸到這些寶藏。比如,世界上現存最古老的皇家圖書館,人們正在將它數字
化。這座圖書館位於尼尼微,由亞述國王亞述巴尼帕(Ashurbanipal)建造。大英博物館
展出了圖書館裏倖存的一些碑文,是亞述巴尼帕專題展覽的一部分。雖然早在公元前612
年,尼尼微遭遇洗劫時,這些碑文被火烤得又黑又硬,但上面得文字仍可辨認。
新的成像技術讓人們在處理這些古老且破損嚴重的文本時更加輕鬆。有了精細的圖像,人
們就有可能找出那些肉眼看不見的模糊標記。
達爾和他的同事一直在進行一個名為"楔形文字數字圖書館倡議"(Cuneiform Digital
Library Initiative)的項目,將儲存在德黑蘭、巴黎和牛津館藏中的碑文及印章進行數
字化處理。這個龐大的在線數據庫已經包含了世界上約三分之一的楔形文字,以及一些未
被破譯的書面語言,如古伊朗的原始埃蘭語。如果沒有這樣龐大的數字資源,讓機器進行
翻譯幾乎是不可能的。
數字化還幫助研究者們將散落在世界各地的文本拼湊起來。達爾與南安普頓大學及巴黎南
泰爾大學的研究者一同對美索不達米亞的200多枚石印的3D圖像進行了數字化處理。在試
點項目中,他們使用了人工智能算法校驗了6塊碑文,並識別出在世界其他地方發現的與
之匹配的石印。算法凖確地挑選出了兩塊現存於意大利和美國的石碑,這兩塊石碑上蓋的
石印是一樣的。
在過去,想要將石印和印痕匹配起來困難重重,因為許多石印儲存在數千英里之外的地方
。達爾預計,五年內可以將所有的印章進行數字化處理,這樣就可以追蹤其他方面的信息
。比如說,有跡象表明,某種石頭更受到女性的青睞。
達爾說:"要得出這種結論必須擁有大量經過處理的石印圖像,並運用算法和機器學習等
技術。"他希望,人工智能的發展能幫助探索世界各地收藏品中蘊藏的豐富信息。
"亞述研究涵蓋了人類歷史的一半,是一種瀕臨滅絶的文化遺產。我希望亞述學能走在這
方面的前沿。"
破譯古人的語言
成像技術也改變了對於未破譯文本的研究。對於數量少、具創造性文本的破譯,人類往往
比機器做得更好,人類有著對生活和組織方式的深入理解,以及高度的靈活性。
例如,早期的楔形文字符號並不是線性排布的,而是簡單地與畫在周圍的方框排在一起。
原始埃蘭語是三維立體的,一個圓印的深淺不同意義也不同。但是,技術可以放大、分享
和比較圖片的細節,加快了破譯進程。
一直致力於破譯神秘文本的達爾說:"獲得正確的圖像是問題的核心。原始埃蘭語研究缺
乏的正是這個。"
這些進步已經超越了亞述學領域。劍橋大學高級研究員斯蒂爾(Philippa Steele)是研
究古克里特和希臘早期文字系統的專家。其中包括"線形文字A"(一種未破譯的文字)和"線
形文字B"(一種古代希臘語的書寫形式)。
歸功於成熟的成像技術,古代石碑上的文字被很好第呈現,斯蒂爾才在其中發現了新的細
節。
她說:"你可以辨認出肉眼很難辨認的特徵。"這些特徵通常與撰寫文本的人與文本交互的
方式相對應。例如,對於線性B,你可以分辨出更改的痕跡。有時你可以判斷出撰寫這份
文件的人是什麼時候想出來了什麼,然後又在上面寫了什麼。
佩龍希望機器最終能夠翻譯更複雜的蘇美爾語石碑和其他語言,比如阿卡德語。她說:"關
於古代文化,還有很多東西有待發現。"
也許有一天,我們將能夠閲讀所有古老文字的翻譯版本,儘管當我們去世時,美索不達米
亞的許多未解之謎還未解開,尤其是現在許多缺失的楔形文字碎片仍深埋地下,等待挖掘

古代美索不達米亞的國王們深深地思考著過去和未來。他們崇敬前朝的楔形文字,將記錄
著他們的名字和成就的銘文埋藏地下,寄望後世的統治者會將榮耀歸於自己。
在某種程度上,他們的願望已經實現。他們的經歷過的戰爭和征服可能已經被大多數人遺
忘,但是他們最強大的發明——文字——在過去的幾千年裏助力了人類思想和技術的發展
。而現在,人類開始訓練機器從過去中學習。
https://www.bbc.com/ukchina/trad/vert-fut-47823166
作者: deepdish (Keep The Faith)   2019-04-06 21:46:00
古代廢文要被翻譯出來惹
作者: calance (一代一代一代)   2019-04-06 21:48:00
嗯嗯
作者: evilaffair (外遇對象)   2019-04-06 21:49:00
忽類嘎嘎嘰
作者: s860134 (s860134)   2019-04-06 21:54:00
沒有DATA要怎麼學習 空器學習ㄇ

Links booklink

Contact Us: admin [ a t ] ucptt.com