Re: [討論] 關於 Dcard ML 實習作業

作者: EvilSD (邪星暗(Usagi))   2023-05-15 21:35:24
: 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
: 來預測發文後 24 小時的愛心數
來雲一下我可能會怎麼做
如果假設我沒理解錯誤題目的話,應該基於給予的前六小時的資料,
去預測未來24小時候的愛心數吧?
首先這題目我可能就不會考慮用NLP來做處理,主要是資料量可能不足
再加上中文NLP來做除了麻煩外效果可能也不會太好
想法是有了1~6小時的愛心數跟評論量,預測未來24小時的愛心數
基本上標題文字的意義其實可能就不是那麼重大,有強烈特徵的可能只是一兩個關鍵字
而且有了前六小時的數據,基本上不用標題也能夠推估未來的數字
所以覺得這題比較難的是,你沒有6小時之後的資料,所以很難預估一個趨勢
(除非有給完整趨勢資料)
因此我會將看板資訊轉成單純數字的Label,
或是可以取得與看版相關的人氣值正規化後做代替
將標題做關鍵字提取,並且做文字雲把重複的強烈關鍵字與留言愛心數做對應,
重新建一個特徵值
接下來就有完整的特徵值資料,做一下特徵值的關聯性或是強度分析
挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以)
(應該用LSTM效果比較好)
基本上能簡單做就不會想太複雜處理,單純一個想法也確定可不可行,供大家討論參考
作者: hsuchengmath (AlbertHSU)   2023-05-16 07:55:00
為啥會沒有24小時後的資料,dcard文章不是一大堆,隨便爬都有啊
作者: oopFoo (3d)   2023-05-16 07:56:00
我也覺的是這個方向,但關鍵字應該也是重要,但關鍵字如何提取,應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵字,不然有6小時的資料應該很容易預測24小時的愛心數。而且給time series的資料,應該就是想用transformer
作者: DrTech (竹科管理處網軍研發人員)   2023-05-16 11:10:00
5萬筆資料用transformer 去over-fitting? 資料量那麼少,模型用那麼複雜,效果好也是運氣沒有對錯,純個人不同看法。
作者: ekids1234 (∵:☆星痕╭☆)   2023-05-16 12:27:00
transformer 一般來說要到哪個數量級才勉強及格 ?
作者: oopFoo (3d)   2023-05-16 13:01:00
我猜現在所有人都在用bert/gpt,找intern應該也是想要延續公司正在做的,transformer也許不是最適合這題,但可能是dcard想找的人。只是盲猜,提出來聊聊。面試,考題,機運蠻重要的。這種"標題"對"星星"的decoder應該很簡易訓練,反正資料少
作者: h920032 (王者迪西)   2023-05-16 13:38:00
用BOW就夠了吧
作者: penniless   2023-05-17 13:58:00
挑一個預訓練的中文模型,五萬條fine tune transformer很夠了... 2023了沒人在train from scratch
作者: brucetu (sec)   2023-05-18 00:00:00
你在講什麼 自己改題目? 還沒發文哪來的前六小時?
作者: DrTech (竹科管理處網軍研發人員)   2023-05-18 00:05:00
用transformer,尤其是直接標題放進去train就是準備 over-fitting啊,ML基本常識。 BERT Embedding+ 下游小模型,我還覺得稍微有點ML常識。這吳恩達的deep learning或各種ML經典教科書都有寫吧。資料量少要用小模型。或者把 transformer或BERT的layer抽掉幾層成為較小模型也可。用小模型是為了降低模型的Variance,這基本常識吧。
作者: oopFoo (3d)   2023-05-18 08:49:00
這就是很詭異的地方,現在用LLMs,用少少的data fine tune效果奇異的好。也許LLMs裡的"知識"夠多,adaptation效果奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣,說以後不用研究了
作者: brucetu (sec)   2023-05-18 20:04:00
這也不是今年才這樣 沒人在from scratch了
作者: DrTech (竹科管理處網軍研發人員)   2023-05-21 13:46:00
你們都來亂的吧,你去看各種task排行榜,paperwithcode排行榜,有哪個top-3 solution是LLM+fine-tune?完全沒有。身為工程人員,講科學證據吧。不要靠幻想感受。而且LLM跑一個完整預測結果,正常機器,要數秒。用怎麼可能上正常有流量的產品。效果好要講科學證據啦,公開資料集測一下,不要靠猜測或個人感受。

Links booklink

Contact Us: admin [ a t ] ucptt.com