[問題] 機器學習sklearn模型與特徵處理問題 wavek PTT批踢踢實業坊

[問題] 機器學習sklearn模型與特徵處理問題

作者: wavek (狗貓貓 m(OvO)m) 2019-02-19 18:02:03

大家好~
最近在學習sklearn的過程中遇到了一點小問題
來這邊請教各位大神們
1.問題一
最近有一個問題是監督式分類問題
譬如鐵達尼號乘客生存率好了
給的train data 裡面就一堆特徵
然後目標值y是0跟1 (1表示生存) 這樣
這樣我訓練的模型丟進test的特徵predict後
出來的結果也會是0跟1
可是要上傳的評分結果是要0~1之間也就是生存的機率
這樣的情況... 我應該要怎麼做才正確?
目前是用sklearn的隨機森林模型
我目前是有用predict_proba達到目的
但不確定predict_proba這樣用法是否正確
還是有其它更正確模型或方法
2. 問題二
train的資料有y值
test的資料沒有y值
想問問大家是怎麼同時處理這兩個的特徵值
我在做特徵處理的時候
是train的特徵處理完
像是填補缺失值標準化等等...
接著
test的特徵值
我是把前面處理train特徵的code
複製一遍, 然後改成對test做處理
這樣感覺有點怪
還是先把特徵值合併,然後全部一起處理會比較好?

作者: st1009 (前端攻城師) 2019-02-19 18:56:00

DataScience板會是你的好朋友^^

作者: jiyu520 (不要鯽魚我) 2019-02-19 19:22:00

可以看看kaggle的幾個學習案例噢～

作者: jasonfghx (工人) 2019-02-19 19:43:00

test 沒Y 那是要你自己預測出答案?

作者: Raymond0710 (雷門) 2019-02-19 21:45:00

train & test data 做同樣的預處理呀你指的一起和分開是什麼意思

作者: OnePiecePR (OPPR) 2019-02-19 22:39:00

0~1 問題就變成regression要換麻豆，但是找找，應該有 predition的possibility輸出。不過你會這樣問應該是回歸跟分類的意義還要多看紮實一點比較好test 跟 train 的特徵要一起處理，用 pd.concat 串啊，你有找到predict_proba，我多嘴了

作者: Luluemiko (露露) 2019-02-20 00:01:00

為何填空缺值的結果會不同?

作者: os653 2019-02-20 04:01:00

例如你拿該特徵的平均值填缺值，有沒有test算出來當然有差

作者: karco (karco) 2019-02-20 10:19:00

標準化時對訓練資料用fit_transform測試資料用transform這樣測試資料就會套用訓練資料標準化時所用的參數，這樣應該可以一致

繼續閱讀

[問題] 用Django製作可以用滑鼠框選截取圖片jasonfghx Re: [問題] 請問想查詢高鐵時刻表的問題chaotic0307 [教學] 互動式圖片 - Annotationbrad0315 [問題] 天氣api資料處理一問yuseke [心得] 分享台鐵驗證碼辨識/轉文字 packagef496328mm [問題] wxformbuilder增加listctrl的columnbrucetaco [問題] pd.pivot_table轉換規則Laviathan [問題] package安裝問題jacks90126 [折讓] 巨匠電腦課程Ghamu Re: [問題] python 如何呼叫VB .Net的DLLa9202507