[問題] Variable selection

作者: yun611 (芸芸)   2016-08-26 18:08:06
小妹現在正在做data mining相關的project
但是遇到一個問題
我的data裡面有categorical 和numeric variable
如果是在迴歸裡
我知道要把分類變量轉換成factor
然後迴歸會幫我跑出dummy variables來解釋結果
但是如果是用lasso在variable selection這個步驟的時候
分類變量要怎麼去解讀呢?
(因為可能變量選擇完後,部分dummy variable有係數部分沒有)
另外如果是要分析這樣的數據集,
是不是只有特定的variable selection方法才能做?
謝謝!
作者: JX660 (JX)   2016-08-26 18:46:00
以4類3欄設成dummy的變數為例 應該是視為一個變數來看所以只有三欄全拿掉或三欄全加入兩種 就算有一欄的係數是0
作者: yun611 (芸芸)   2016-08-26 18:57:00
那要怎麼決定全拿掉還是全留下呢?如果全留下的話,建立模型的時候要用原始變量還是dummy variable來做預測?
作者: celestialgod (天)   2016-08-26 20:03:00
用group lasso
作者: yun611 (芸芸)   2016-08-26 22:12:00
能不能把變量當成continuous做變量選擇後建立模型的時候再把分類變量設成factor

Links booklink

Contact Us: admin [ a t ] ucptt.com