Re: [討論] 會用Hadoop == 具備大數據處理能力?

作者: longlyeagle (長鷹寶寶實驗室)   2016-07-06 22:49:03
你好
小弟我在外商軟體公司也是負責跟資料相關的東西
架構spark cluster跟公司的ML library
平常除了寫程式還有一個興趣是問別人奇怪的問題
剛好也問過許多同事對大數據的看法
分析過之後發現可以把大家對大數據的觀點分為兩種
1. 大數據可以為我們帶來什麼?
2. 大數據會造成什麼問題?
大數據可以為我們帶來什麼?
基本上就是在講紀錄了大量資料之後
可以利用Data Mining來達到的好處
像是可以發現現象的相關性
並且利用這些Data Mining Insight來
改進產品 改進流程 改進宣傳目標 等等
大數據會造成什麼問題?
資料大到10T硬碟裝不下怎麼辦?
計算動不動就爆Memory怎麼辦?
算個簡單的模型算到天荒地老怎麼辦?
Query資料電腦就死給你看怎麼辦?
Hadoop算是業界廣泛使用的
針對第二點問題的解決方案
其他還有Mesos Storm等等
針對不同資料形式跟分析模型
大家採用的軟體架構也不一樣
同時
採用的軟體架構通常會伴隨相關的分析工具
像是Hive就是Hadoop生態鏈裡面很常見的一員
或是利用Spark在Hadoop上跑ML
雖然Spark因為也可以跑在Mesos上
我覺得已經不單純是屬於Hadoop了
相關的工具其實也限縮了一些ML發揮的空間
當然
因應不同的資料採用不同的數學模型
或是特化現有的數學模型還是必要的
所以還是有很多ML可以玩的地方
回到Hadoop
你可以想像當一間公司已經用了Hadoop
而且當那間公司要找的是即戰力的時候
可以快速的利用Hadoop及其生態鏈裡面的工具
來達成目標的人
就是他們要找的人
如果是大公司
對即戰力的需求沒有那麼高而且分工更細
不熟架構只做分析的人也有發揮的空間
※ 引述《deo2000 (800IM)》之銘言:
: 最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力,
: 甚至會看研究所做的題目是不是Hadoop?
: 例如這篇
: https://goo.gl/0cTk60
: 還有這篇
: https://www.facebook.com/thank78/posts/630689647078714
: 但我對這種現象感到疑惑。
: 我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法,
: 以及相關應用(例如挖掘特定領域的資訊)。
: Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義,
: 但我們都知道data無用,information才有用,
: 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義,
: 而不是單純的資料管理。
: 更何況論文研究出來的知識,不應該綁定在特定工具。
: 或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。
: 但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。
: 或許因為我非資訊本科系、也不熟資料庫,
: 請問,是不是我對 Hadoop 或 Big Data 有什麼誤解?
: 為什麼 Big Data 的核心能力會是某種工具,而不是方法?
作者: MOONY135 (談無慾)   2016-07-06 22:54:00
分析跟做架構要分工才對

Links booklink

Contact Us: admin [ a t ] ucptt.com