我是覺得大家都講得太複雜
還有講到 Machine Learning , Data Mining , AI 的
統計說到底,就是由微觀看巨觀、由樣本看母體
既然你現在數據很大,那推論這件事情就變的單純的多
因為你樣本多嘛,多到可以直接抓母體了,
不用很高深的機率推論、不用滿足前提假設、不用在意實驗設計
所以大數據重點就是你要怎麼算的快、省資源
舉個例子來說,
統計有太多太多實例要求你在 10 - 100 個樣本之間
做最佳化、參數估計、分布估計嘛
但是做 Big Data 第一件發現的事情就是
幹,資料塞不進記憶體
就算你塞進去了
幹,Computing Power 不夠
所以你就看到很多分散式運算、Cuda啊之類的
這邊就比較像 ML 或 DM
AI 的事情,譬如說 Computer Vision 吧
不但要快、省,還要找到他媽的機掰的 Loss Function Minimum
那就更北爛了
跟 Big Data 不是同一件事情