[問題] categorical & continuous variable

作者: yun611 (芸芸)   2016-08-27 00:18:06
之前在做project的時候
沒有多想就沒有把分類變量設成factor
所以在做變量選擇和建立模型的時候
都是把分類變量默認成continuous
像是Race分成5種(1.2.3.4.5用這五個數字代替)
但是因為現在所剩時間不多...
所以可能沒辦法再從頭改整個data mining過程
如果直接默認成continuous做出來的結果是可以的嗎?
會不會有很大的問題出現...
查了一些國內國外資訊
沒有特別講到這塊
然後好像也有人是直接就默認成continuous
想問版上各位強者有什麼想法?
謝謝!
作者: andrew43 (討厭有好心推文後刪文者)   2016-08-27 18:20:00
非常不恰當,建議還是轉factor。
作者: yun611 (芸芸)   2016-08-27 18:46:00
請問一下轉factor之後,有哪些方法可以用來variable selection的嗎?大多數找到都是continuous情況的有查過group lasso但是一直做不出來.....或是說在有dummy的情況下,有沒有什麼選擇變量的原則?
作者: andrew43 (討厭有好心推文後刪文者)   2016-08-27 20:34:00
我不熟lasso,但建議你先給一段具體的程式碼請再大家修至少要知道你用什麼function之類的,不然難回應。
作者: Wush978 (拒看低質媒體)   2016-08-30 00:45:00
continuous的變數在處理時常常假設 1與2的差距和2與3相同所以以race為例,如果你設定為continuous很容易處理時出問題factor的缺點在資料量不夠時,會有模型不穩定的問題但是通常作法是小類合併成大類,而非轉成continuous你必須要確保我剛剛講的假設是正確的,才用continuous處理會比較好

Links booklink

Contact Us: admin [ a t ] ucptt.com