Re: [請益] 機器學習在台灣的出路

作者: popo14777 (草草)   2017-08-28 13:22:43
以前碩士有做過機器學習,用的語言是Matlab(LIBSVM)、Python(scikit-learn)
都是用監督式學習來做預測(y's=實數),
演算法大多都用SVR、隨機森林、迴歸樹、整體式學習等
資料學習的步驟是以下這樣子
讀取資料→資料前處理→分訓練資料和測試資料→選取特徵→建模→預測新資料
→畫圖或計算指標→分析結果
若預測不好,就返回修改演算法參數,再建模,直到找出最佳模型
看到版上有人說機器學習數學要很強,還要自已寫ML演算法
不是都有人寫好了嗎?直接應用不是嗎?
也許是小弟對於ML領域還未深入了解,只是想提出自已的問題
另外,若要往上述內容的工作(資料學習與分析),需要具備什麼樣的專業知識或門檻呢?
謝謝
作者: hsnuyi (羊咩咩~)   2017-08-28 13:28:00
說一下前處理和選取特徵是如何達成的吧
作者: dddddd67 (斷水流大師兄)   2017-08-28 13:32:00
只會用現成的套件,這樣很多人都可以快速入門,替代性高
作者: Jasonnor (Jasonnor)   2017-08-28 13:41:00
自然是看你走的方向,理論模型和實際應用兩者不盡相同,前者良好的數學基礎會讓你的模型簡潔高效,後者更重視個人經驗(包含模型選用、調參技巧和防止overfitting等),當然兩者兼具的人會更有競爭力,這就看個人規劃了
作者: f496328mm (為什麼會流淚)   2017-08-28 13:42:00
修參數不好吧,你不能保證,下次新的data,同樣參數還能實用,應該要做feature engineering,從這去下手數學方面,起碼要統計,而且你也說迴歸樹了,不懂迴歸很難做,況且svm還有kernel要選,RF背後也一堆數學,起碼要懂,不然參數根本亂調
作者: ericrobin   2017-08-28 13:49:00
實際上台灣也沒什麼產業需要人創新ML演算法吧 多數精力
作者: f496328mm (為什麼會流淚)   2017-08-28 13:49:00
數學的程度,起碼要懂model背後的概念
作者: ericrobin   2017-08-28 13:50:00
大概都會是在資料清理跟特徵選取
作者: f496328mm (為什麼會流淚)   2017-08-28 13:52:00
創新還是好的,拿XGB舉例,paper還沒發就超多人用,這就是價值而且不只是數學,這些方法都出來很久了,要靠資工去實作,例如GPU運算,這就是很大的突破,不只是DL,ML也在往這方向走
作者: hsnuyi (羊咩咩~)   2017-08-28 13:56:00
資料如果是自行取得的 還要懂survey sampling呢 科科
作者: chter ((分身別查了XD))   2017-08-28 13:56:00
套別人的演算法誰都會,但也就沒甚麼價值
作者: justben (BEN)   2017-08-28 14:00:00
現在是雷聲大雨點小的狀態,但兩三年後不知道
作者: f496328mm (為什麼會流淚)   2017-08-28 14:08:00
兩三年? 可是這些國外已經發展超過10年了光是 kaggle 就超過6年了
作者: senjor (哞哞)   2017-08-28 14:27:00
我覺得重點是在於,台灣業界真的有這種需求嗎 www
作者: Argos (Big doge is watching u)   2017-08-28 17:32:00
所以搞自己的演算法就有價值?你也要看是在哪裡搞阿 廠廠
作者: ericrobin   2017-08-28 18:08:00
調參 模型選擇 資料處理之類的看起來沒什麼技術 不過在工程上經驗上就是價值 許多應用說穿了也沒多深奧
作者: Murasaki0110 (麥當勞歡樂送)   2017-08-28 19:03:00
只會這樣結果大概是你的model70%別人95%,差別就在這
作者: senjor (哞哞)   2017-08-28 19:17:00
我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選Kernel帶來的效益反而不是重點,他們更想看見有效的vector跟資料處理流程怎麼被不同的kernel驗證是有效的。生物資訊
作者: physheepy (~羊~乘著風中的羽翼)   2017-08-28 19:25:00
因為你的資料都被整理好了 其實整理資料才是最難的部分
作者: Kazimir (Kazimir)   2017-08-28 19:35:00
feature engineering 的效果遠遠超過你選什麼模型DL相對來說更自動化 不過人工選變數仍然有正面影響
作者: f496328mm (為什麼會流淚)   2017-08-28 19:44:00
data cleaning 就苦工最少人做,大家都想做data scientist
作者: physheepy (~羊~乘著風中的羽翼)   2017-08-28 19:54:00
data cleaning才是data science的精髓 所謂 garbage ingarbage out 演算法已經滿街都是 api簡化到阿罵都會用市面上可以找到的database 沒有一個可直接拿來做應用不過如果哪天G社把database都搞定上雲端 那大家真的可以洗洗睡了 (煙
作者: f496328mm (為什麼會流淚)   2017-08-28 20:23:00
研究所部分,其實台灣學術圈就是這樣,跟風騙經費的太多了,原PO可能不是,但太多教授根本不懂就在做計畫,反正學術圈做的很爛也沒人care
作者: purpleboy01 (紫喵)   2017-08-29 01:37:00
我也是正在用SVR於預測 雖然scikit-learn很方便但能不能了解SVR的原理然後去改它我想比較重要這也是很常被老師提醒的部份(不過還沒自幹出來啦...
作者: ppc ( )   2017-09-02 18:35:00
玩kaggle的心得是 feature engineering真的很重要 這方面又沒經驗 只好在網路上找課程上了

Links booklink

Contact Us: admin [ a t ] ucptt.com