[請益] Elastic Search結果慘烈怎麼修

作者: DOC (鍛鍊的還不夠)   2024-01-15 17:47:05
小弟是網路公司的PM,負責一個跟景點圖資有關的產品,目前服務內有個進50萬的POI資
料庫,但是讓用戶搜尋時,跑出來的結果非常糟糕,而且負責此項目的同事說能優化的都
做了,已經無法再調整。想問問看版上的大神能不能開示怎麼處理比較好
被檢索的欄位
poiNameCN:晴空塔
poiNameEN:Tokyo Skytree
nickname1:天空樹
nickname2:新東京鐵塔
adminDivisionCN:日本/東京都/東京都心/墨田區
adminDivisionEN:Japan/Tokyo/Special wards/Sumida
原本理想的情況是,不管用戶是輸入景點的中文或英文名稱、或是輸入別名,或是輸入名
稱加上行政區劃內的某一層(例如輸入:東京 天空樹),都可以用這些欄位來找出關連,
可是實測之後的結果卻很糟
想問問有沒有大神有這種讓elsatic search同時比同一個物件的多個欄位,再排關聯度的
經驗,能給小PM一點建議,讓我可以再去爭取重開這個優化的需求
感謝!
作者: srwhite (魯蛇阿白)   2024-01-15 17:55:00
50萬筆聽起來沒有很大(? 你們是用like去查嗎
作者: kewang (652公車)   2024-01-15 18:06:00
是同行嗎 xd https://techblog.funliday.com 裡面我有寫一些可以參考,但都是舊版的方式了,有空再寫新版的方式
作者: B0988698088 (廢文少女小円♥)   2024-01-15 18:23:00
怎麼個糟法?連舉例都不會不要當pm害人好嗎 另外官方不是有sup嗎?官方對於這case給的回應是什麼
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2024-01-15 18:25:00
發現k旺?
作者: Lordaeron (Terry)   2024-01-15 18:26:00
我認為B0988698088 應該有SOLUTION的,出一篇吧。
作者: alihue (wanda wanda)   2024-01-15 18:31:00
你要先釐清是 recall 還是 ranking 問題。換句話說是搜尋結果沒有命中還是單純排序太後面。此外對 input 拆詞後是採用什麼樣語法搜尋,以及需要檢查拆詞後的結果符不符合預期。然後同義詞機制要重新設計,通常是在 query time先展開比較單純好維護。然後地點看你是想要真的依照經緯度找還是單純用關鍵字,演算法差很多
作者: johnny9144 (Johnny)   2024-01-15 18:34:00
如果是你這需求,從 schema design 就錯了,不如說說你們做了什麼優化好了XD
作者: alihue (wanda wanda)   2024-01-15 18:35:00
排關聯度就單純很多,同常就命中的詞 + BM25 + 設欄位權重。雖然進階的應該要用使用者 log 去用 ML 做 ranking,不過看起來你們的進度連初階 elasticsearch 功能都還沒正確使用,也就是我前面說的你們可能連 recall 都不好
作者: johnny9144 (Johnny)   2024-01-15 18:36:00
其次,你們的需求&量級用到 elasticsearch 感覺有點殺雞用牛刀了,可以試試 Meilisearch 這種小型的,你們應該會快樂很多,也不用懂那麼多
作者: alihue (wanda wanda)   2024-01-15 18:37:00
其實你可以善用 chatGPT 應該可以有簡單的理解。也可以嘗試自己架 elasticsearch,應該還不需要寫到 code,除了匯大量資料以外
作者: layer0930 (皇室御漬梨子醬)   2024-01-15 19:00:00
這是pm責任嗎?
作者: johnbill (cj鐘鐘)   2024-01-15 19:07:00
連問題都說不清楚 這PM
作者: pvq212 (pvq212)   2024-01-15 19:37:00
看你說明是想要用天空樹也搜尋到晴空塔之類的,那就是同義詞然後再來針對搜尋的關鍵字去做中文、英文分詞,資料入庫時就會去做索引,再加上個英文大小寫或是簡繁的 filter,後面再記錄一下搜尋熱門關鍵字,去維護 dict 或是 synonym
作者: qazwsx12 (SexAnimal)   2024-01-15 21:00:00
這問題有說不好嗎?好奇
作者: ku399999   2024-01-15 21:26:00
感覺也沒到不好 就不足以判斷問題在哪裡吧
作者: internetms52 (Oaide)   2024-01-15 22:04:00
用json dsl組full text search理論上會得到你要的東西才對,如果還是不行,那就是分詞問題,比較不好處理喔
作者: layer0930 (皇室御漬梨子醬)   2024-01-15 23:46:00
他問題不是同義詞,而是搜尋的結果差強人意這東西很主觀這不太適合新手寫..
作者: guanting886 (Guanting)   2024-01-16 06:17:00
你家工程師該煩惱的事丟給你在煩惱快跑ㄅ
作者: jigfopsda (jigfopsda)   2024-01-16 08:08:00
先定義一個分數來表示「糟糕程度」再來根據分數做調整這個分數要跟你們商業上的需求一致
作者: DrTech (竹科管理處網軍研發人員)   2024-01-16 08:10:00
這發文,大概連怎樣評價搜尋引擎的指標都不懂吧,只靠感覺。做PM啊,先去了解一下怎麼樣量化自己產品的品質水準。1.先學搜尋引擎常見評價指標。2. 根據自己產品,選擇適合的指標(別硬抄網路上的)3. 設計一個上線前,必需測過的多個測試案例。評價測試案例得到的分數。4.針對沒過的案例,再來與技術人員討論,這個案例怎麼改善。沒這流程,只會造成搜尋引擎改了A,卻產生新的Bug或副作用而已。不要靠"感覺"或"單一case"來決定好壞。硬是解決了一個case,只常會造成其他case變差。
作者: jigfopsda (jigfopsda)   2024-01-16 09:01:00
推樓上,做任何事情前最重要的就是先把 metric 訂好
作者: ZakuSIN (SIN)   2024-01-16 10:07:00
實作結果與需求不符,怎不直接打回去重弄就好了?能優化的都做了 => 結果很爛 = 沒做
作者: sw12 (專注.幽默)   2024-01-16 11:12:00
....我覺得語氣沒不好。大家壓力好大...
作者: DarkIllusion (′・ω・‵)   2024-01-16 11:39:00
遇到鳥PM大家火氣都很大
作者: untitled (Causality)   2024-01-16 12:41:00
先確認一下,是 ElasticSearch 7 還是 8 呢?
作者: ns1234 (FAR)   2024-01-16 18:56:00
expalin看看分數吧,搞不好你們有動到排序他會完全不吃scor
作者: peter98 (新兵)   2024-01-16 23:50:00
ES...好久沒聽到這個詞了 都是說OS惹拔
作者: bitcch (必可取)   2024-01-17 22:16:00
好奇你的糟是指搜尋速度慢 還是達不到想要的效果
作者: darkMood (瞬間投射)   2024-01-17 22:36:00
嘻嘻,終於有讀書人的問題了,不是碼工的問題了。
作者: FXW11314 (soukai)   2024-01-18 21:15:00
噓射後不理
作者: ashlikewing   2024-01-19 00:21:00
連mapping都沒放上來也想問ES問題喔

Links booklink

Contact Us: admin [ a t ] ucptt.com