[問卦] 八卦版資料結構化有沒有搞頭?

作者: daviden (daviden)   2018-11-22 03:56:15
最近看到越來越多用八卦版做資料分析的例子。
像先前的異常爆文統計器,或是更早以前的推文時段分析
我就在想,不知道做八卦版資料結構化有沒有搞頭?
所謂資料結構化,就是把PO文、推文從人類可讀的格式
轉成機器可讀的格式。例如表格。
下面是我用手邊現有的程式爬取的資料
https://imgur.com/mYGzaKp.jpg
用網址做ID,紀錄文章分類(tag),標題、作者、發文IP、日期、文章內文
程式也順便統計了推、噓、箭頭的數量。
推文部分,則記錄在另一個表格
https://imgur.com/t3IvHlf.jpg
用網址連接到文章(foreign key)。
我現在的想法是,做一個自動化的流程,每天定時更新。
更新的資料自動上傳到Dropbox,讓有需要的人下載。
目前的困難有:
1. 需要一台固定的電腦/伺服器。
這種例行的程式,用我的筆電執行太不穩定了。
家裡斷網、出門旅行都會影響資料的收集。
我先前是用一個雲端伺服器(Scrapy cloud),但他們最近開始收費了,一個月9鎂。
2. 不知道output哪一種格式,對大家比較方便。
目前是用csv,因為最簡單,也可以用excel開啟。
但如果要整合長時間的資料,csv就不方便。可能用資料庫會比較好。
總之,就是想問問這樣做有沒有搞頭,有沒有人想使用?
如果有,我再來想怎麼解決上述的問題。
如果沒有,嗯...我還是會把程式放在Github,讓有需要的人使用。
以上

Links booklink

Contact Us: admin [ a t ] ucptt.com