[問題] 新手關於labelencoder的一些疑問

作者: oo855050 (阿偉)   2019-11-04 23:55:55
版上各位好
小弟近期正在學機器學習
目前想用一些dataset來做練習
而我有一個疑問想問
如果data中有文字資料,那應該需要先用
labelencoder去把文字轉數字資料
但是如果今天我訓練完了
想用testing data來做驗證
那testing data的那些文字也需要轉成數字
才能丟進去驗證
那麼testing data中文字轉為數字的時候會不會有可能和在training data轉出來的不同
(例如training data上的apple對應到0
會不會在 testing data上的 apple對應到5之類的,
如果會那麼應該如何處理才好呢?)
感謝版上大大不吝賜教
作者: numpy (那麼拍)   2019-11-05 00:29:00
所以一開始要連同 testing data 一起餵給 labelencoder
作者: littlebo1990 (Bo)   2019-11-05 01:00:00
之前做的做法是做出一個dictionary 在0位置放unknown. Test和training用同一個dict轉test中沒在trainin出現過的都丟到unknown
作者: oo855050 (阿偉)   2019-11-05 11:48:00
numpy大感謝你的建議little大 請問要如何比較兩組資料中有哪些是對方沒有出現的 並且將那些資料的位置找出來呢
作者: littlebo1990 (Bo)   2019-11-06 01:07:00
先各自轉成token (or數字), 然後把token 存成dict再用set取出unique的字, 再用set的methodDifference or Symmetric differencenote:數字的話要確保 字到數字 是 one to one
作者: oo855050 (阿偉)   2019-11-06 19:28:00
好的感謝little大的教學 我再試試看^_^

Links booklink

Contact Us: admin [ a t ] ucptt.com