※ [本文轉錄自 Eng-Class 看板 #1TDTTUZS ]
作者: unknow3121 (alex) 看板: Eng-Class
標題: [請益] 將英文文章 軟換成單字的程式.軟體
時間: Mon Jul 22 23:33:48 2019
本人最近欲學習某一領域英文,若手邊有數篇該領域文章的話,請問有沒有
“軟體/程式/APP”可以直接自動“轉換or分類or排序or解析”文章內出現的所有單字?
抱歉! 講得有點攏統,實在不知道該怎麼描述... 以下用條列的方式簡單敘述:
1. 一篇上千字的某領域文章
2. 直接將該篇文章貼至需求的"軟體"
3. 該軟體自動將文章內出現的所有單字依序排列(例如從a-z)
4. 排列完後,將這些單字解析成 (a)中文 (b)詞性 (c)音標 ...等等
例如:
<文章>
I have a pen
I have an apple
Ugh
Apple pen
I have a pen
I have pineapple
Ugh
Pineapple pen
<解析> a-z排序
a 一個 冠詞 該字音標
an 一個 冠詞 該字音標
apple 蘋果 名詞 該字音標
have 擁有 及物動詞 該字音標
I 我 代名詞 該字音標
pen 筆 名詞 該字音標
pineapple 鳳梨 名詞 該字音標
Ugh 呃 詞性 該字音標
作者:
jack0204 (Jarbar王朝)
2019-07-24 08:00:00想學就自己寫啊,這用chrome套件寫就行了
作者:
Hsins (翔)
2019-07-22 23:46:00簡單的字串處理跟爬蟲啊,整篇文章去掉標點符號之後根據空格做 split 出單字,根據單字去爬意思、詞性跟音標,最後排序。就算不用程式語言,單純用 Excel 或 Google Spreadsheet 也能做到。
作者:
enthos (影斯作業系統)
2019-07-23 00:50:00作者:
xiangying (xiangying)
2019-07-23 07:17:00google斷詞系統
作者:
BlacksPig (Black Handsome s Pig)
2019-07-23 12:58:00推二樓
作者:
remmurds (Stronghold)
2019-07-23 13:18:00連標題都打不好
作者:
alihue (wanda wanda)
2019-07-23 13:37:002f 還需要再多做 Stemming/Lemmatization
作者:
weiber82 (weiber)
2019-07-23 16:02:00jieba
作者: windclara (null) 2019-07-23 18:19:00
2F已給答案。這真的不難QQ
作者:
sxy67230 (charlesgg)
2019-07-26 10:36:00請搜索Spacy或是nltk tool,翻譯可以用wiktionary api
作者:
jennya (Jennya)
2019-07-27 01:30:00反推二樓,這其實並不簡單。蠻好奇推二樓的人是否真的有做過。事實上字串處理部分就有一堆細節,包含大小寫、時態轉換、專有名詞(get/gets/got)(Joe,Joe's)(don't) 等等等非常多無法備載。再來你還要去抓字典檔、把斷詞後的單字套用上去。總之這不是一個五小時內能做完的簡單的東西,如果二三十小時可能可以吧。不過如果有好用的library就另當別論。總之反推二樓。
作者:
Hsins (翔)
2019-07-29 15:55:00如果說要考慮到 morphology 當然就麻煩許多了,我說的做法只是陽春的處理。我會這樣推文是針對於這篇發文者可能要做到的成果。其中比如你提到的大小寫跟時態轉換,甚至我說的構詞方法,目前部分的網路字典所提供的 API 是可以處理的。以這篇他所要的結果來說,我的推文應該是可以 fit 他需求的。至於是要做成一個實際的產品要考慮到的東西,應該不是發文者要的吧?