[心得] 我做了一個輕量語義搜尋引擎 galaxy4552 PTT批踢踢實業坊

[心得] 我做了一個輕量語義搜尋引擎

作者: galaxy4552 (無聞) 2025-11-19 09:00:56

PipOwl：可嵌入任何 Python 專案的輕量語義搜尋引擎（核心約 10KB）
PipOwl 是從我大型語義專案中抽離出來的
最安全、最不敏感、最容易被整合的一層。
它的定位是：
輕量語義搜尋引擎（Mini Semantic Engine）
純 Python 實作，不含 C/C++ 原生模組
額外依賴皆為常見 NLP 套件（numpy / sentence-transformers）
可用於 CLI / API / Chatbot / IME本地即時執行（接近輸入法候選速度）
適合做：語句相似度、意圖比對、快速原型開發
安裝方式：pip install pipowl
GitHub：https://github.com/galaxy4552/Pipowl
PyPI：pip install pipowl
如果你對中文語義系統、向量表示、或極簡的 semantic engine 有興趣，歡迎一起討論。

作者: oopFoo (3d) 2025-11-19 09:33:00

all-MiniLM-L6-v2?有試過EmbeddingGemma-300m?現在中文那個embedding model是最推薦的？

作者: lchcoding 2025-11-19 10:36:00

上次-新酷鷹的事，有沒有後續...？

作者: galaxy4552 (無聞) 2025-11-19 10:40:00

我比較偏向做語義引擎 / pipeline 的研究所以沒有大量 benchmark 各種模型。PipOwl 把 embedding layer 抽掉，想塞哪顆MODEL都行回lchcoding 謝謝你記得這個就是後續目前還在開發

作者: lchcoding 2025-11-19 10:59:00

理解，晚上看

作者: DrTech (竹科管理處網軍研發人員) 2025-11-19 19:16:00

依賴sentence-transformers，強調核心 10KB有意義嗎。直接用sentence-transformers不就好了。認真看了一下，就是sentence-transformers再包一層，有必要嗎。預設模型，還是中文能力特別差的all-MiniLM-L6-v2，真的蠻外行，又多餘的套件。結論：套殼 sentence-transformers。

作者: galaxy4552 (無聞) 2025-11-19 19:31:00

其實 pipowl 的重點不在重造 Sentence-Transformers本體還是用 sentence-transformers 沒錯但我的目標是把整條 embedding pipeline （前處理、向量化normalization、top-k、API 統一化…）都包成應用層能直接用的三行程式all-MiniLM-L6-v2 當預設只是demo用不是核心設計謝謝你深挖也很感謝你花時間看程式碼速度這塊我自己實測過體感會比一般直接寫SBERT順很多

作者: DrTech (竹科管理處網軍研發人員) 2025-11-19 19:43:00

你把實務上需要根據需求，需要調整的部分，例如怎麼清洗文字，相似度怎麼算，都包起來了，不能直接調整，確實很難用。sentence-transformers 不封裝這些東西，就是為了實務上方便調整。如果是直接砍掉 sentence-transformers，從pytorch層級，輕量封裝，取代sentence-transformers，對我會比較有幫助。

作者: galaxy4552 (無聞) 2025-11-19 19:49:00

理解你的需求，這裡的定位真的不太一樣。pipowl-open 是做「開箱即用的語意搜尋」目標是讓工程師不用碰到清洗、相似度公式encode cache 等細節快速把 SBERT pipeline接進應用程式。你說的那確實是另一種方向 pipowl 不是瞄準那一塊定位不太一樣而已，完全理解你的 point

作者: DrTech (竹科管理處網軍研發人員) 2025-11-19 19:54:00

謝謝友善回應

作者: galaxy4552 (無聞) 2025-11-19 19:57:00

您剛剛分析的細節，其實能感受到您真的很有能力。我後面其實還有做一些更底層的向量技術等更穩定後會開放

作者: yunf 2025-11-20 04:43:00

講到關鍵字大神要從美國跳出來了

繼續閱讀

[討論] 91APP買下iCHEF，為什麼新創界歡天喜地？jason2641668 [心得] 2025鐵人賽心得：AWS 系統設計哲學vansama Re: [討論] 為什麼比較像樣的公司一堆是博弈?Breve [討論] AI對軟體工程師的影響scitamehtam Re: [請益] 自製工具無償讓內部使用，竟被公司禁掉？kurtsgm Re: [請益] 自製工具無償讓內部使用，竟被公司禁掉？dream1124 Re: [請益] 自製工具無償讓內部使用，竟被公司禁bxc Re: [請益] 自製工具無償讓內部使用，竟被公司禁brucetu [請益] 自製工具無償讓內部使用，竟被公司禁掉？ericjc [群組] Coding Love 程式群Breve