作者:
Sixigma (六西格瑪)
2023-05-14 01:29:57看到下面有篇大神有討論到這次 Dcard ML 實習作業,因為沒有收到團隊的具體反饋
想和大家討論作業的狀況
題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
來預測發文後 24 小時的愛心數
因為當時是期中,我只大概花了五天約二十個小時來做
我的作法大致如下
首先先用 XGBoost LightGBM 把量化資料做出 baseline
但沒辦法處理最重要的標題資訊
所以就直接拿 Huggingface BERT 來做
直接把資料餵進去的訓練是無法收斂的
後來也嘗試一些 Emsemble 和 training tricks
但也都沒辦法收斂,甚至達不到 baseline 的效果
認為是資料量的問題
到這邊沒什麼特別想法就直接寫報告了
我一直都主要是做 CV ,碩論跑去做 3D
對 NLP 非常不熟悉,不知道是否有漏掉關鍵操作
想請同有拿到作業的大神指點
謝謝
作者:
Tommnny (Tommynofinger)
2023-05-14 10:49:00這邊跪等神人分享 我們實驗室沒有人上
作者:
Bujo (部長)
2023-05-14 12:01:00這個案例建議使用LSTM序列
作者: cilovwx (卡卡繆) 2023-05-14 13:05:00
雖然我也沒上,但我自己還有另外萃取出判斷個版跟標題是否有分類之類的feature,這兩項做關聯度分析,相關性也不低
作者:
DrTech (竹科管理處網軍研發人員)
2023-05-14 14:36:00你這樣 concatenate bert出來的維度那麼大,變成嚴重主導預測結果。但實際上但標題實際上根本不太會影響愛心與評論數。光看這點,就覺得你沒有從最基本的業務理解business understanding來解了。對了,資料量有多打? 資料量少,用複雜的模型根本沒用。資料量少的話,例如少於幾萬筆,對標題做任何處理可能都沒太大意義。這題,愛心數,評論數的特徵,相較於標題,標題絕對是雜訊。HuggingFace tokenizer出來的標題維度很大的,只會讓標題雜訊主導一切。當然沒辦法收斂,很正常。資料量確實是問題。但人是否會根據標題就評論或點愛心,是你優先需要思考到的。
作者: cilovwx (卡卡繆) 2023-05-14 16:44:00
我自己對於標題的作法是單純直接用snownlp去做sentimentpolarity 而已,因為我自己認為標題其實只是吸引大家點進去的機率,但按愛心的數量跟內容比較有相關。我的model部分,我記得我一開始用xgboost效果不是很好,所以我後來改用SVR跟一個我自己建的NN模型。但是我那時候也在準備其他事情,所以好像也沒有fine-tuned 得很好
作者: hsuchengmath (AlbertHSU) 2023-05-14 17:01:00
遇到這種 一定是先做基本的統計分析啊,先看 24小時愛心數的分佈,然後分成 多愛心數 和 少愛心數的,然後看哪些特徵 是有用的,最後才建模啊,別在直接套膜了,不會進步的xdd
作者:
DrTech (竹科管理處網軍研發人員)
2023-05-14 17:54:00謝謝你,長文那麼仔細回應互動喔
直接使用BERT做預測的確是個挑戰,原因有很多就不展開了,但你可以考慮換個用法,例如把BERT基於文字所預測的分數當成你主要預測模型的其中一項特徵,這樣也算是引入文字資訊了。
作者:
Matz (妹妹C吸)
2023-05-14 21:13:00去鴻海第一年150沒問題
作者: email81227 (雨落田) 2023-05-15 03:09:00
好奇用哪個BERT Pre-Training的版本?
作者: nistik84114 (nistik) 2023-05-15 06:11:00
中文如果沒在你用的bert的tokenizer裡會直接被忽略喔 確認一下
話一堆時間寫作業還不給回饋 這間很像挺看得起自己的lul 只能說 沒上是好事
作者: T160 (晴雨) 2023-05-15 22:35:00
我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這project 結果就一封罐頭感謝函 好歹也給個排名吧真的很沒誠意-_-
根據之前看同學打比賽 我猜可能有人自己去抓dcard的額外資料來訓練 資料量比一般人多很多的情況下隨便丟個模型都贏大家
作者:
aacs0130 (æ¹›éˆ)
2023-05-27 13:44:00推hsuchengmath跟DrTech