Re: [問卦] 大數據到底多大才算大數據

作者: Sixigma (六西格瑪)   2018-03-12 13:27:56
大數據與否,重點絕非在大小
或是說,不是絕對在大小
重點是,你無法用傳統的方法處理的數據,就叫大數據
譬如說健保資料庫
會使用的 ML 方法其實很好想像
最基本是線性回歸,再來是 D-tree or Random Forest or SVM
或者你可能會用 Clustering 等等
以上這些較傳統的 ML 演算法
如果你使用 Python ,個人單機電腦大概處理數十 GB 的資料可能就是極限了
但是如果資料是圖片
你使用的是 Python Tensorflow
因為 Google 自己本身做了一大堆的優化
包含資料輸入的形式、Tensorflow 本身的圖運算
以及拜 SGD , BackPropagation 這類演算法所賜
在 ILSVRC2017 的 155 GB 之下
我們還是有可能在個人單機下訓練 Mobilenet , Inception 甚至 VGG 模型
所以是不是大數據,應取決於你的資料集、演算法
如果無法使用傳統的運算方法處理,包括你必須要引入分散式架構
使用 NoSQL 或 Cloud 等等
就能夠被稱為大數據了
※ 引述《omc (魯蛇第一名)》之銘言:
: 早安各位Monday blue的魯宅們~
: 不知道曾幾何時出現大數據這個名詞後,
: 三不五時都會聽到這數據出現
: 在科技、醫療、農業、等等各類產業中
: 例如行之有年的長期紀錄正常人跟癌症病患的
: 某些特定的基因,來交叉比對是否特定癌症跟
: 特定的基因有相關聯...
: 可是勒,類似這種建立資料庫長期追蹤的實驗或分析
: 行之有年阿....最近卻都被冠上大數據分析
: 那本魯就有疑問了阿,阿到底多大的資料才能稱作大數據
: 還是從現在開始,所有資料都是大數據?
: 本魯D槽也是大數據,長期追蹤車子油耗也是大數據?
: 有這方面的八卦嗎?
作者: jjba310 (走走吧)   2018-03-12 13:29:00
4個V
作者: dodomilk (豆豆奶)   2018-03-12 13:32:00
嗯嗯 跟我想的一樣
作者: aaaba (小強)   2018-03-12 13:32:00
認真問,台灣有大數據嗎?職缺有超過50個嗎?
作者: buper (ymsrc)   2018-03-12 13:36:00
五樓褲襠大數據
作者: gg7965977 (吸血鬼的茶包)   2018-03-12 13:38:00
嗯嗯 跟我想的一樣

Links booklink

Contact Us: admin [ a t ] ucptt.com