[請益] 取得大量數據的管道?

作者: dharma (達)   2019-01-18 09:20:40
一般人能拿到的大數據資料
除了股市、政府公開資訊(例如氣象)
還有自己爬蟲爬網頁
之外可能還有什麼門路取得大量有品質的數據?
且不用花什麼錢的
一般人指的是沒有身在什麼學術/研究單位
或相關的職場單位
thanks
作者: pelicanper (派立肯)   2019-01-18 09:24:00
你這種問法的答案就是沒有,最少給個領域吧
作者: william81615 (別這樣玩我)   2019-01-18 09:32:00
有品質 = 花錢整理過,你覺得對方為什麼要無償提供
作者: neo5277 (I am an agent of chaos)   2019-01-18 09:32:00
國外是很多不過也都是本來就開放的,其他就要看相關社群有沒有人放,剩下就是自己紀錄
作者: novterm (Gcup小女孩)   2019-01-18 09:43:00
kaggle啊
作者: IhateOGC (我討厭)   2019-01-18 09:45:00
健保資料庫花錢就有摟台灣醫療資料連整個家族都有紀錄
作者: deniel367 (dann)   2019-01-18 09:46:00
Microsoft Research
作者: vfgce (小兵)   2019-01-18 09:47:00
內行人都知道健保資料庫和垃圾沒兩樣...一個一天看上百個患者的醫生,你認為他的診斷碼會多正確?更不用說為了開藥而硬加上去的診斷碼..診斷都有問題了,做出來搞笑的結論也不意外..........
作者: kokolotl (nooooooooooo)   2019-01-18 10:01:00
美國官方很多問卷資料庫可以抓 以前玩過brfss
作者: ChungLi5566 (中壢56哥)   2019-01-18 10:18:00
嘉實資訊 20年前就開始賣金融資料庫
作者: alihue (wanda wanda)   2019-01-18 10:29:00
想要有品質又不想花錢,去自己爬自己整理
作者: abc0922001 (中士abc)   2019-01-18 10:32:00
現在滿多資料政府都有開放OpenData了
作者: sean50301 ( (づ′・ω・)づ)   2019-01-18 10:37:00
我們系上教授很愛用健保資料庫發論文欸XD
作者: vi000246 (Vi)   2019-01-18 11:59:00
跟詐騙集團買
作者: kyrc (橘子)   2019-01-18 12:01:00
作者: purpleboy01 (紫喵)   2019-01-18 12:16:00
曾經遇過期刊審稿意見說不要再用台灣健保資料庫了
作者: lsk200000   2019-01-18 12:17:00
github trending
作者: kerkercheng (✂✂✂✂✂✂✂✂✂)   2019-01-18 13:19:00
花錢crowd sourcing呀
作者: PoloHuang (黃保羅)   2019-01-18 14:25:00
舊金山好像有opendata?
作者: chocopie (好吃的巧克力派 :))   2019-01-18 16:45:00
健保資料庫就是個聊勝於無的source問卷資料又比健保資料更難處理
作者: chuegou (chuegou)   2019-01-18 19:33:00
阿不就open data
作者: bean0917   2019-01-18 20:49:00
九樓V大說這些有證據嗎?剛好小弟也是這行的您真的知道健保審查過程跟作法?或許真的有這狀況但絕對是少數中的少數不要以偏概全,不懂裝懂
作者: chocopie (好吃的巧克力派 :))   2019-01-18 20:59:00
他可能分不清甚麼是診斷碼跟醫囑
作者: mathrew (Joey)   2019-01-18 21:42:00
有品質就是有人整理過 所以...
作者: viper9709 (阿達)   2019-01-19 00:59:00
推一二樓
作者: rocking5566 (搖滾56)   2019-01-19 02:20:00
Imagenet
作者: vfgce (小兵)   2019-01-19 07:59:00
呵呵,bean大,本人接觸到跟這方面看到的絕對不比你少....
作者: superpai (超級白)   2019-01-19 07:59:00
GitHub
作者: vfgce (小兵)   2019-01-19 08:00:00
就曾有健保審查委員自己親口說看不懂就刪了再說...然後健保局還規定要刪一定比例.所以都先刪再說..反正醫院一定會回覆...至於健保一堆規範才是造就出亂給診斷碼的禍源...真正有用的資料根本不會在健保資料庫...醫學方面的研究,很多都是從自己醫院的資料庫再另外拉資料但對於其他領域的人,根本摸不到也不懂,只好從健保資料庫去玩一下皮毛...
作者: ap954212 (death is like the wings)   2019-01-19 14:00:00
中國政府
作者: angusyu (〒△〒)   2019-01-19 14:11:00
要馬兒好又要馬兒不吃草。你要不要當那隻馬
作者: asa121 (秋風之痕)   2019-01-19 15:21:00
請問有人知道製造業的資料要去哪邊找嗎? 需要自費的也可以謝謝
作者: f496328mm (為什麼會流淚)   2019-01-19 23:52:00
vfgce 刪資料有好有壞,好是提高品質壞是,刪 data 等於在挑 data,資料跟實際狀況會不同政府有 opendata 但品質堪慮除非醫院真正想研發 DATA 這塊不然資料庫都外包,品質真的很爛製造業的話,kaggle 有生產線分析的比賽真的要玩 DATA ,選國外的絕對比台灣好
作者: q10242 (黑田祐司)   2019-01-20 12:42:00
政府有 open data 你是說這個嗎
作者: asa121 (秋風之痕)   2019-01-20 16:33:00
已找到製造業數據,感謝f49提供相關資訊。
作者: OhNo386 (OhNo386)   2019-01-20 22:11:00
你說的都是 google 一直做的呀做免費軟體或服務再從裡面撈你要的
作者: vfgce (小兵)   2019-01-21 10:19:00
健保資料庫頂多用於流病公衛,而且其中的labeling是有問題的請小心服用....很多真正的醫學研究,用醫院的資料庫是因為真正有用的病人資訊是存在醫院端的資料庫,不會上傳到健保資料庫去資料庫的內容有沒有用,是看存的是怎樣的資料,跟外包沒有很大關係..再差的醫院端資料庫,有用的東西可能還比健保資料庫有用.健保資料庫其實比較像流水帳,除了資料量超大,跨院區外,並沒有比醫院端資料庫好
作者: taliao (雲淡風清)   2019-01-21 21:23:00
AWS Public Dataset.

Links booklink

Contact Us: admin [ a t ] ucptt.com