Re: [討論] 會用Hadoop == 具備大數據處理能力? dryman PTT批踢踢實業坊

Re: [討論] 會用Hadoop == 具備大數據處理能力?

作者: dryman (dryman) 2016-07-06 23:04:31

我前兩份工作也是用Hadoop。我負責的是data stack tech lead
公司日資料量300TB
「大數據」這名詞真的很模糊
不過這不是台灣的問題，因為美國這邊很多人也都是這麼搞
我自己是這麼觀察啦...
把大數據當做資料科學技術來看的，大都沒有大資料
把大數據當作「大型資料工程」問題來看的，由於問題複雜度太高
所以很難作為資料科學問題來處理
這什麼意思？
大多數的資料科學演算法動輒O(N^2)以上
數據量一大複雜度馬上就飆到上萬台機器都算不動的情況
而一般的「大數據」工程師
就是要解決因應數據量上升而需要重新設計演算法的工程問題
hadoop就是為了解決這樣的工程問題而生
* * *
傳統資料庫提供的是高階的SQL抽象層
你只要處理集合間的連結即可
底層真正的演算法，不論是透過hash table, sort, b-tree
很多人一般根本不需要接觸到
但是當你數據量大到一定程度後
由資料庫引擎自動幫你決定的演算法就再也不適用了
Hadoop 的設計就是讓你可以把資料問題轉換成 sort (map reduce shuffle phase)
sort也是一般資料庫要解決大型資料查詢的最佳演算法
（例如group by, join, or diff）
一些高富雜度的問題，經過使用hadoop來客製演算法，就變得算得動了
我第一份工作就是將一個要算五個小時的PostgreSQL ETL
重寫成map reduce，變得只有二十分鐘
這個效率應該是用hive/pig都做不到的。因為要客製化演算法
這只是在數據量變大後其中一個變困難的問題
資料蒐集、處理（上述的ETL就是問題之一）、儲存、查詢
每件事都變得困難許多
通常資料科學家會拿去作分析的，大都是縮小很多的資料集了
他們的第一步，通常就是怎麼把資料變得更小，不然算不動XD
* * *
我最近試著把一些之前所學知識整理成部落格
不定期更新 :P
https://medium.com/@fchern
其中一篇是
「那些大數據書不會教的資料工程」
http://tinyurl.com/hvrt7s8
主要在講如何進行資料清理
有空可以看看
* * *
最後...不要寄信給我（包含職涯建議之類）
有問題請在版上發問 :)

作者: now99 (陳在天) 2016-07-06 23:07:00

推

作者: longlyeagle (長鷹寶寶實驗室) 2016-07-06 23:10:00

推不過Map Reduce限制真得很大很多演算法為了可以利用Map Reduce來運算改得面目全非明明還是用一樣的一樣的名子 Performance跟裡面真正的算法都不一樣了

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-07-06 23:14:00

使用 Rhadoop SparkR ~~

作者: dryman (dryman) 2016-07-06 23:23:00

包含spark，都無法解決當你的資料集比記憶體還大時該怎麼辦

作者: htc812 (大帥) 2016-07-06 23:29:00

spark 怎麼會不能解決資料集大過記憶體的情況...

作者: longlyeagle (長鷹寶寶實驗室) 2016-07-06 23:29:00

至少有好的scalability可以用加機器解決算不錯了吧?

作者: SuM0m0 (Part Time Player) 2016-07-06 23:36:00

會spill to disk啊

作者: longlyeagle (長鷹寶寶實驗室) 2016-07-06 23:36:00

其實現在同時submit多支還是會炸吧? 還是2.0有解決?

作者: dryman (dryman) 2016-07-06 23:37:00

現在spark對於超大資料處理效能我不熟。我還在做data時它在處理超大資料的效能評估一直沒有達到我們的標準

作者: SuM0m0 (Part Time Player) 2016-07-06 23:39:00

這類題目可能得跟storage一起討論不然case by case落差大

作者: daniel54088 (daniel54088) 2016-07-06 23:57:00

推這版真的很多神人

作者: bowin (盡其在我) 2016-07-07 00:16:00

推

作者: laject (hanks) 2016-07-07 00:27:00

推

作者: king4647 (發呆) 2016-07-07 00:30:00

推 map reduce 不好寫QQ

作者: sonicnaru (披者狼皮的羊) 2016-07-07 00:58:00

有神到..

作者: h310713 (虎虎虎) 2016-07-07 01:10:00

Data pre process 才是重點

作者: htc812 (大帥) 2016-07-07 01:41:00

推

作者: vn509942 (如履薄冰) 2016-07-07 07:51:00

感謝分享

作者: Argos (Big doge is watching u) 2016-07-07 09:51:00

推

作者: coronach (...) 2016-07-07 09:56:00

之前就看過分享文了，推

作者: Baudelaire (起坐不能平。) 2016-07-07 11:56:00

這篇寫的好

作者: ken9527k (來韓老師這邊) 2016-07-07 12:22:00

謝謝分享

作者: PolarGG (PolarGG) 2016-07-07 17:46:00

推

作者: Gladstone (Austin) 2016-07-10 01:37:00

推

繼續閱讀

Re: [討論] 會用Hadoop == 具備大數據處理能力?longlyeagle Re: [請益] 研究所VS作品derekhsu Re: [討論] 會用Hadoop == 具備大數據處理能力?pelicanper Re: [請益] 請問我還欠缺了什麼? G4321 Re: [請益] 請問我還欠缺了什麼? wax207 [徵才] iStaging誠徵R&D工程師shayuron Re: [請益] 研究所VS作品walao81 Re: [請益] 請問我還欠缺了什麼? Dovelpc Re: [請益] 請問我還欠缺了什麼? skyyen999 [徵才] 數據科技徵才前端工程師roninn