[問題] Spark雲端平台的運用? jgj12321 PTT批踢踢實業坊

[問題] Spark雲端平台的運用?

作者: jgj12321 (Creat yourself) 2019-01-10 21:08:59

[問題類型]:
請把以下不需要的部份刪除
意見調查(我對R 有個很棒的想法，想問問大家的意見)
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
效能諮詢(我想讓R 跑更快)
[軟體熟悉度]:
新手(沒寫過程式，R 是我的第一次)
[問題敘述]:
請問整理百萬筆的資料用Spark有比用原本Rstudio還快嗎?
看很多中文網頁都說Spark可以加快速度，有沒有人實作過能分享經驗的><
用筆電跑資料好慢/_\

作者: Luluemiko (露露) 2019-01-10 21:45:00

看實際資料是多少，百萬筆應該是不太能感受到有無spark的差別我猜測的，沒實際比過data.table跟spark的差異我的看法是可以更詳細描述一下使用的情境比方說效能瓶頸是卡在哪一個步驟的計算

作者: celestialgod (å¤©) 2019-01-11 12:23:00

百萬筆的話 data.table還是比較快spark主要是連到server 串接多台server才會快但是網路傳輸的速度遠慢於計算完全划不來....

作者: cywhale (cywhale) 2019-01-11 17:23:00

就是因計算速度>網路傳輸，所以效能會卡在傳輸，除非你你資料大到必須靠多台運算而且傳輸損失的時間已可以忽略

作者: f496328mm (為什麼會流淚) 2019-01-12 21:22:00

真的要玩分散式，網路是重點，GOOGLE在這方面有優勢他有自己的海底電纜，自己有網路100M的網路很慢，你看看你硬碟、記憶體傳輸多快分散式，多台之前怎麼聯繫?就是靠網路網路慢，算得快也沒用，終究會被網速限制然後，不是一定要多台才能SPARK他就是分散式系統，你單機就違背當初概念跑很慢，主要原因可能是code寫法、筆電弱同一種資料整理，不同R寫法，速度可差到10倍以上這樣講好了，1TB data 要建模，單一設備玩不了所以分散給100台電腦，去建 modeldata就是要靠網路傳輸

作者: celestialgod (å¤©) 2019-01-14 08:44:00

更正樓上說的，單台不見得很慢啦，原po的資料量用不太到spark，多台電腦的話，比較能夠用上spark的power，但是多台就是會有網路速度跟運算速度問題，運算太快剩下就會變成都在等傳輸。至於雲端平台的話，傳輸可能要更久，因為要經過滿多層才能到你的電腦，當然還是實際測試比較準還是建議原po把要解決的問題po上來，看看是不是可以用其他方法解決。

作者: evilove (願意感動就是一種享受) 2019-01-15 12:36:00

如果只是整理資料不考慮用SQL做嗎?

作者: f496328mm (為什麼會流淚) 2019-01-16 02:52:00

SQL能做的有限

SQL有時候要做到程式只要幾行的邏輯可能要寫很久而且不見得有比較好的performance但是SQL在處理相對簡單的資料前處理還是比較方便

作者: h88129 (SPARROW) 2019-03-29 12:26:00

資料大到記憶體裝不下才需要資料庫吧@@ 如果記憶體夠其實用核心去做分散運算就好了可以嘗試foreach+doparallel , 真的不行在用MPI的方式去做串接

繼續閱讀

[問題] 計算天數(非日期差)daybreakya [問題] 迴圈存圖 quantmod rockken [問題] RMySQL in a function不正常dreler1 [問題] 定義運算符號函數問題wheado [問題] for 迴圈問題gujason9511 [問題] celestialgod [問題] 農曆陽曆轉換il0306 Re: [問題] ggsave cairo family與儲存路徑的問題hanglong [問題] strptime 與 ggsave 的問題hanglong [問題] R<>Arcgis Rbridge 套件的問題assxass