Re: [問題] R語言在Data mining 的應用

作者: celestialgod (天)   2016-03-04 10:30:28
不專業的回一下
※ 引述《SangoDragon (SANGO)》之銘言:
: 本人之前都是用 SQL + Mining tools (例如MS-SQL Analysis service , SPSS Modeler)
: 之前大部分是用 SQL 整理資料
: 之後再用 mining Tools run mining (包含調參數等等)
: 例如我們做一個羅吉斯回歸,去預測信用卡客戶是否會變呆卡
: 或用 CART 去做回應率分析
: 現在關於 R 我有一些問題:
: 1. R的mining 函數支援到那些演算法?
: 例如:分群,類神經網路,CART 等等?
分群的話有數種方法,大多數R都有,從k-means, hierarchical clustering到
一些模型假設的分群如EMClust提供Finite Mixture Gaussian Distribution的分群手法
分幾群都會有參數在控制,或是hierarchical clustering怎麼切都有參數控制。
NN,我不太熟,但是CART的話,R至少兩個套件支援,tree跟rpart,參數可調的不少,
這部分可以自己讀一下manual,也有randomForest的套件支持
: 2. R有辦法調參數嗎?
: 例如分群時分幾群,CART的切點,等等 (這部分在mining tools 都有很強的支援)
如1回答
: 3. R怎樣做Mining前的資料處理?
: SQL 強的地方在於下語法可以做很多資料預處理
: 例如:資料中只有生日要轉換成年齡,還有一些更複雜要套公式轉換的部份等等
: SQL 的資料可以存很多資料
: R 在預處理部分的強度如何?
: 總不能一直讀EXCEL的資料吧?
: 我要表達的是,在資料面SQL 資料庫有很強大的SQL語法,跟儲存面
: R 的方式?
R使用dplyr整理資料就很快了,可以看我的資料整理套件介紹系列文 (簽名檔)
: 4. 這張圖 http://i.imgur.com/iMTOAoG.jpg
: 是否過譽?
: 以MS-SQL mining 而言,建構好一個預測模型,可以利用MDX等等
: 去對這個Model 做一些處理,例如輸入資料做預測等等
: 而且也有很多圖形介面的輸出
我認為R比SAS跟SPSS好用很多,這些比較都合情合理。
: 以上幾點問題
作者: psinqoo (零度空間)   2016-03-04 13:21:00
在R計算完後能回寫SQL~也能夠透過shiny圖示~很多的package是需要研究 然後也能調參數~現在我是從SQL資料 撈資料透過R運算後 回寫導SQL資料庫R 還能作機器學習
作者: carl090105 (Jing)   2016-03-04 18:40:00
R接資料庫是蠻容易的,處理資料就看你要在SQL就處理好還是用dplyr+data.table來處理,個人是覺得比python的pandas好用多了~
作者: JackBaska (Baska)   2016-03-08 23:20:00
同意樓上,dplyr推出是R單在資料處理上勝python的關鍵
作者: Ouranos (å—¨)   2016-03-13 10:31:00
大推系列文!謝謝原po~!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com