[問題] 容錯字串搜索

作者: yoco (眠月)   2016-11-16 18:08:37
有問題想要請教資料結構演算法們的大大 <(_ _)>
最近無聊,想要作個 personal project:search engine
我知道怎麼在字串裡面作快速的精準搜索,比方說 KMP、BM、 suffix tree 之類
但我不知道怎麼作快速的模糊搜索 @@
想請各位前輩給一些資料、方向、關鍵字,感謝萬分。
ps. 如果能順便有如何在硬碟上有效率的保存 index 的相關資料那就更好了 XD
作者: FRAXIS (喔喔)   2016-11-16 22:08:00
你要先定義什麼叫做模糊k-mismatch 容許k個字元錯k-difference: edit distance 小於 k
作者: pttworld (批踢踢世界)   2016-11-16 23:53:00
多年前修課使用foxpro,也沒發揮真正的威力。
作者: DJWS (...)   2016-11-17 05:12:00
bloom filter硬碟保存就 B-tree 吧 剛剛谷歌一下還有啥 CPS-tree
作者: yoco (眠月)   2016-11-18 02:57:00
感謝各位 XD
作者: tonytonyjan (南洋大兜蟲)   2016-11-20 02:25:00
限英文的話可用 soundex,pg、mysql 都有支援
作者: DJWS (...)   2016-11-20 06:30:00
聲紋比對的話 實務上比較常見到 hidden markov model^^^^^^^^發音比對 更正一下
作者: yoco (眠月)   2016-11-28 02:14:00
聲音比對現在主流不是 LSTM-RNN 了嗎 XD
作者: DJWS (...)   2016-11-28 09:05:00
LTSM-RNN 實驗室才剛做出來沒多久 應該還沒普及?
作者: yoco (眠月)   2016-12-01 23:34:00
這個領域三個月就翻兩翻了...
作者: DJWS (...)   2016-12-02 06:52:00
這麼快?可以請你提供統計數據來源嗎?

Links booklink

Contact Us: admin [ a t ] ucptt.com