[發案] Python data pipeline 改善與測試(已結案)

作者: oNeChanPhile   2021-12-26 03:19:42
[發案] Python data pipeline 改善與測試
發案人:曾先生
聯絡方式1:站內信
聯絡方式2:
所在地區 :海外(UTC+1時區)
有效時間:徵到為止。2022-01-02前完成,額外加給20%。
專案說明:
現有 data pipeline 包含三個獨立運行的docker service:
Common Crawl data retriever, GDELT data retriever 與 data preprocessor。
程式語言為 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中間資料集與結果皆以 MongoDB 儲存。
資料處理邏輯與 docker 封裝已基本完成,小資料集測試OK。
但推上測試環境爬取真實資料時,發生諸多問題例如
- 各種data bugs除之不盡
- 無法測試並確認scheduler的正確性與可靠性
- 不知道要如何應付網路中斷、資料重抓錯抓、系統停機重啟等各種狀況。
主要的requirement就是解決上面的問題,讓程式達到可以上線的品質。
接觸洽談流程如下:
發案人會先做一次live demo,
展示目前的code如何運作,解釋功能設計與問題瓶頸。
決定接案後,發案人會與接案者共同 refine 一次具體的 requirement spec,
並開放 GitLab private repo 給接案者作業。
預算:NTD 15k
- 2022-01-02前完成,額外加給20%。
- 如須使用AWS等付費服務,事先與發案人討論即可。費用由發案人負擔。
接案者要求:
- 一般 Python 3 服務之開發、測試與維護經驗
- 熟悉此類連續運行服務之可靠性設計
- 熟悉 docker 環境調試
- 能夠有紀律的執行一般 Git DevOps,例如每個 commit 盡量只做一件事;
commit message 與 changelog 簡明清楚等
- (加分項)熟悉平行化程式之設計與除錯
- (重要加分項)具相似data pipeline與服務的架設經驗
附註:保密義務
作者: oNeChanPhile   2021-12-27 17:46:00
已加價徵到
作者: ok963963ok (冷月無痕)   2021-12-27 13:45:00
發案方自己懂技術還開這種價格真的不行
作者: dogppatrick (沒梗)   2021-12-27 12:13:00
這預算真得可憐
作者: gsrr (下五子棋)   2021-12-26 09:28:00
效能優化, 200K, OK的話可以與我聯繫.
作者: broodstare (交給C4就對了)   2021-12-26 13:31:00
15k? You must be kidding me
作者: howfeeling (行)   2021-12-27 00:17:00
效能優化, 250K, OK的話可以與我聯繫.

Links booklink

Contact Us: admin [ a t ] ucptt.com