Re: [請益] 資料科學與網頁後端領域的選擇

作者: pelicanper (派立肯)   2019-09-21 18:46:40
現實生活中Data Scientist/Engineer/Analyst的界線很模糊
事實上據統計Data Scientist有60%的時間都在做Data Cleaning
這並不表示DE沒有做好自己的工作,DE的功能像是比較進階的BI
但是舉例來說在不同資料庫裡面可能對性別的標註不一樣
DS做Feature Engineering的時候可能要花很多時間去把很多來自不同來源的資料標準化
另外,只會做研究的DS是無法在現實生活中生存,很多專案都是有迫切性的問題要處理
建模型是一回事,如何說服決策者模型可以解決問題是一回事,
把模型Productionize到即時系統裡面又是另一回事,
一個好棒棒的DS用了很酷的R/Python做了一個超屌的Model結果前端系統跑在C#上面
請問接下來該怎麼處理,丟給SE然後說這不關DS的事?
一個ML的Life Cycle裡面有很多事情如果拆開來給太多不同人來做並不會比較快
因為光是溝通就會花掉大半的時間,所以不要對DS抱有太高的期待
除非你待的是研究走向而不是要求產出的部門
不過這也是一種商機,台灣不知道有沒有公司用DataRobot
這家公司就是專門提供機器學習自動化的解決方案,也就是說當資料準備好了
DataRobot可以自己跑上百的不同的模型,分析並以Performance來建議最好的模型
當你選擇好模型之後可以自動產生API,所以前端只需要套API就可以用
當然細節上還有很多可以微調,DataRobot還可以自動產生技術文件
尤其是對一些有金融規範審查需要的公司就很方便,我們公司這兩年導入
Snowflake資料庫和DataRobot做機器學習,整個部門包括我只有三個人
從ETL到ML/Tableau全做,事實上沒有人說自己專門做甚麼
可是也是因為這樣做起來很有效率,東西在三個人手上大家都知道甚麼是甚麼
參考一下...
作者: king22649   2019-09-21 18:55:00
這API是落地的?
作者: b10130402C (WinJamison)   2019-09-21 20:57:00
謝謝p大的分享,p大這份工作前是什麼領域的啊?
作者: wilson85771 (HOW)   2019-09-22 02:28:00
推,非常接地氣的回文
作者: neo5277 (I am an agent of chaos)   2019-09-22 03:29:00
C# 不好嗎?
作者: laba5566 (最愛56家族 啾咪)   2019-09-22 09:40:00
不想花錢請人做模型用datarobot還挺方便的
作者: kuan07   2019-09-22 10:41:00
現在可以用的工具太多了 工作上 從清理資料到建模產生api都一條龍了

Links booklink

Contact Us: admin [ a t ] ucptt.com