Re: [請益] 機器學習在台灣的出路 popo14777 PTT批踢踢實業坊

Re: [請益] 機器學習在台灣的出路

作者: popo14777 (草草) 2017-08-28 13:22:43

以前碩士有做過機器學習，用的語言是Matlab(LIBSVM)、Python(scikit-learn)
都是用監督式學習來做預測(y's=實數)，
演算法大多都用SVR、隨機森林、迴歸樹、整體式學習等
資料學習的步驟是以下這樣子
讀取資料→資料前處理→分訓練資料和測試資料→選取特徵→建模→預測新資料
→畫圖或計算指標→分析結果
若預測不好，就返回修改演算法參數，再建模，直到找出最佳模型
看到版上有人說機器學習數學要很強，還要自已寫ML演算法
不是都有人寫好了嗎?直接應用不是嗎?
也許是小弟對於ML領域還未深入了解，只是想提出自已的問題
另外，若要往上述內容的工作(資料學習與分析)，需要具備什麼樣的專業知識或門檻呢?
謝謝

作者: hsnuyi (羊咩咩~) 2017-08-28 13:28:00

說一下前處理和選取特徵是如何達成的吧

作者: dddddd67 (斷水流大師兄) 2017-08-28 13:32:00

只會用現成的套件，這樣很多人都可以快速入門，替代性高

作者: Jasonnor (Jasonnor) 2017-08-28 13:41:00

自然是看你走的方向，理論模型和實際應用兩者不盡相同，前者良好的數學基礎會讓你的模型簡潔高效，後者更重視個人經驗（包含模型選用、調參技巧和防止overfitting等），當然兩者兼具的人會更有競爭力，這就看個人規劃了

作者: f496328mm (為什麼會流淚) 2017-08-28 13:42:00

修參數不好吧，你不能保證，下次新的data，同樣參數還能實用，應該要做feature engineering，從這去下手數學方面，起碼要統計，而且你也說迴歸樹了，不懂迴歸很難做，況且svm還有kernel要選，RF背後也一堆數學，起碼要懂，不然參數根本亂調

作者: ericrobin 2017-08-28 13:49:00

實際上台灣也沒什麼產業需要人創新ML演算法吧多數精力

作者: f496328mm (為什麼會流淚) 2017-08-28 13:49:00

數學的程度，起碼要懂model背後的概念

作者: ericrobin 2017-08-28 13:50:00

大概都會是在資料清理跟特徵選取

作者: f496328mm (為什麼會流淚) 2017-08-28 13:52:00

創新還是好的，拿XGB舉例，paper還沒發就超多人用，這就是價值而且不只是數學，這些方法都出來很久了，要靠資工去實作，例如GPU運算，這就是很大的突破，不只是DL，ML也在往這方向走

作者: hsnuyi (羊咩咩~) 2017-08-28 13:56:00

資料如果是自行取得的還要懂survey sampling呢科科

作者: chter ((分身別查了XD)) 2017-08-28 13:56:00

套別人的演算法誰都會，但也就沒甚麼價值

作者: justben (BEN) 2017-08-28 14:00:00

現在是雷聲大雨點小的狀態，但兩三年後不知道

作者: f496328mm (為什麼會流淚) 2017-08-28 14:08:00

兩三年? 可是這些國外已經發展超過10年了光是 kaggle 就超過6年了

作者: senjor (哞哞) 2017-08-28 14:27:00

我覺得重點是在於，台灣業界真的有這種需求嗎 www

作者: Argos (Big doge is watching u) 2017-08-28 17:32:00

所以搞自己的演算法就有價值？你也要看是在哪裡搞阿廠廠

作者: ericrobin 2017-08-28 18:08:00

調參模型選擇資料處理之類的看起來沒什麼技術不過在工程上經驗上就是價值許多應用說穿了也沒多深奧

作者: Murasaki0110 (麥當勞歡樂送) 2017-08-28 19:03:00

只會這樣結果大概是你的model70%別人95%，差別就在這

作者: senjor (哞哞) 2017-08-28 19:17:00

我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選Kernel帶來的效益反而不是重點，他們更想看見有效的vector跟資料處理流程怎麼被不同的kernel驗證是有效的。生物資訊

作者: physheepy (~羊~乘著風中的羽翼) 2017-08-28 19:25:00

因為你的資料都被整理好了其實整理資料才是最難的部分

作者: Kazimir (Kazimir) 2017-08-28 19:35:00

feature engineering 的效果遠遠超過你選什麼模型DL相對來說更自動化不過人工選變數仍然有正面影響

作者: f496328mm (為什麼會流淚) 2017-08-28 19:44:00

data cleaning 就苦工最少人做，大家都想做data scientist

作者: physheepy (~羊~乘著風中的羽翼) 2017-08-28 19:54:00

data cleaning才是data science的精髓所謂 garbage ingarbage out 演算法已經滿街都是 api簡化到阿罵都會用市面上可以找到的database 沒有一個可直接拿來做應用不過如果哪天G社把database都搞定上雲端那大家真的可以洗洗睡了（煙

作者: f496328mm (為什麼會流淚) 2017-08-28 20:23:00

研究所部分，其實台灣學術圈就是這樣，跟風騙經費的太多了，原PO可能不是，但太多教授根本不懂就在做計畫，反正學術圈做的很爛也沒人care

作者: purpleboy01 (紫喵) 2017-08-29 01:37:00

我也是正在用SVR於預測雖然scikit-learn很方便但能不能了解SVR的原理然後去改它我想比較重要這也是很常被老師提醒的部份(不過還沒自幹出來啦...

作者: ppc ( ) 2017-09-02 18:35:00

玩kaggle的心得是 feature engineering真的很重要這方面又沒經驗只好在網路上找課程上了

繼續閱讀

[徵才] 雲發科技 Frontend Engineer 60~90/YrDeDanann [請益] Intel HR email address 2000Phowareyounow [討論] 怎麼跟主管反應broo Re: [請益] 智能機器人知識庫編輯的未來發展....Longness [請益] 研究所選擇miniear [請益] 智能機器人知識庫編輯的未來發展....hikaru2046 [閒聊] 這個也要costdown了!?Mozar [心得] 直播切版，切一個 LINE 聊天的版型！Linux [徵才] 新加坡 ShopBack 徵台灣技術經理/工程師dolinian Re: [徵才] PicCollage 徵 Rails/前端/演算法工程師dolinian