[請益]請問中文,無語義的二字詞頻資料哪兒有?

作者: ddqueen (ddqueen)   2018-07-20 22:24:26
大家好,
我知道中研院的「搜詞尋字」可以找到中文的詞頻資料。如下網站
http://words.sinica.edu.tw/sou/sou.html
可是我心血來潮,想要找「無語義」的二字詞的詞頻資料,請問哪兒會有呢?
在中研院的「搜詞尋字」的網站中,可以找二字詞的詞頻。
可是「二字詞」都是有意義的。
我所謂的「無語義」,就是任二字組合起來,常在文章中出現的頻率。
當然,我只要找頻率高的較好了,不然太多了。
只是好奇,哪些二個字連在一起出現的頻率較高而已。
像中研院之類的詞頻分析,我相信也是把資料用電腦分析後,
在所有二個字連在一起出現的結果中,把沒有詞義的部分去掉後,所整理出來的資料。
我就是想看看那些因為沒有詞意而被去掉的部分。
請問有人有辦法嗎?
作者: HotDesert (熱啊!)   2018-07-21 16:39:00
你的意思是不成詞的任兩個字組合嗎?如果是,你找不。到的。因為做這個沒意義。你可以自己寫個像bigram的程式,找個沒斷詞的語料庫,跑跑看。
作者: annisat   2018-07-22 16:37:00
同樓上,跑bigram去掉詞庫的entry~暴力解 XD中研院的詞頻分析應該是先斷詞過了 所有結果都是有意義的要不然你找最常共現的兩個詞 前詞後字跟後詞前字不成詞的話 大概就會是無意義任二字組合比較高的那些了?XD
作者: CCY0927 (只是個暱稱罷了)   2018-07-24 02:25:00
Google Ngram corpus V2 http://bit.ly/2JOkHd1資料量很大,缺點是簡體中文。
作者: annisat   2018-07-27 16:21:00
跟中研院買(欸

Links booklink

Contact Us: admin [ a t ] ucptt.com