[情報] AMD 與 HPE 聯手打造效能達 2 exaFLOPS

作者: hn9480412 (ilinker)   2020-03-05 20:35:11
比 Frontier 快了 10 倍,AMD 與 HPE 聯手打造效能達 2 exaFLOPS 的全球最快超級電

作者 Evan | 發布日期 2020 年 03 月 05 日 12:45
AMD 與慧與科技(HPE;Hewlett Packard Enterprise)於週三表示將聯手打造主要用來
測試核子武器的全球最快超級電腦。這台名為「El Capitan」的美國能源部(
Department of Energy,DOE)超級電腦將會安裝在勞倫斯利佛摩國家實驗室(Lawrence
Livermore National Laboratory,LLNL),運算速度可達每秒 2 百萬兆次浮點運算(2
exaFLOPS),比當前效能最強大的超級電腦快了 10 倍,預計 2023 年正式上線服役。
早在去年 8 月,美國能源部和克雷公司(Cray,現屬 HPE 的一部分)就宣布了名為 El
Capitan 的第三台美國百萬兆級(Exascale)超級電腦計畫。該系統預定於 2023 年初安
裝在 LLNL 實驗室中,主要供美國國家核子安全總署(National Nuclear Security
Administration,NNSA)使用,該單位將超級電腦用於核子武器建模。
DOE 和 HPE 週三下午宣布了這台超級電腦的架構細節,表明 AMD 將同時提供 CPU 和加
速器(GPU),並對這台超級電腦的效能估計進行修正。7 個月前,「El Capitan」原本
的效能估計為 1.5 exaFLOPS,如今因為一些配置變更,DOE 預估該系統在完全安裝後將
能達到 2 exaFLOPS,成為美國當前最快的百萬兆級系統。
El Capitan 是 Frontier 的衍生物,但青出於藍勝於藍
整體而言,El Capitan 是 DOE 旗下 CORAL-2 超級電腦計畫的第二套系統。與類似的
Frontier 系統一樣,El Capitan 價格也高達 6 億美元,其目的是為了確保美國在百萬
兆級時代之超級電腦的領先地位。LLNL 實驗室將使用該系統來取代他們目前的 IBM
Power 9 + NVIDIA Volta 超級電腦 Sierra。在效能上,El Capitan 將比其所取代的系
統快 16 倍。LLNL 實驗室將它主要用在核子武器建模上(以取代真槍實彈的實際測試)
,同時也會應用到其他領域研究系統之「再利用」(Secondary Use)上,特別是會應用
到機器學習的領域上。
El Capitan 是 AMD 成功拿下第二回百萬兆級超級電腦大單的代表作,該公司還為橡樹嶺
國家實驗室(Oak Ridge National Laboratory,ORNL)提供了 1.5 exaFLOPS 「
Frontier」系統的 CPU 和 GPU。實際上,從硬體的角度來看,高水準的 El Capitan 看
起來與 Frontier 非常相似。Cray 是 El Capitan 和 Frontier 這兩個系統的主要承包
商,兩者皆屬 Cray Shasta 系統,採用 AMD 處理器、Cray 機櫃和 Slingshot 互連技術

在 CPU 方面,AMD 將提供標準版的 Zen 4 架構 Genoa EPYC 處理器,由於它是比當前
AMD 產品還要晚兩代的最新處理器,所以目前相關技術細節仍然很少,但可以確定的是
,該處理器將支援 Infinity Fabric 3 次世代記憶體,並承諾能提供更前瞻的單執行緒
與多執行緒效能。
在 GPU 方面,AMD 和 Cray 仍在繼續密切合作,雖然確定將支援採用新架構的次世代
AMD GPU,但目前仍然沒有新 GPU 名稱及其他技術細節的資訊。目前可以確定的是,該
GPU 將支援次世代高頻寬記憶體(High Bandwidth Memory,HBM)技術,並支援混合式
精確運算(Mixed Precision Computing),以提高深度學習效能。
支援採用統一記憶體架構的 IF 3.0 及 Cray Slingshot 互連技術
在互連性上,和 Frontier 一樣的,El Capitan 將以 4:1 的配置運行,每顆 CPU 連接
4 顆 GPU。透過 Infinity Fabric 3.0(IF 3.0)的支援,AMD 承諾將進一步改善晶片
間頻寬與延遲。然而,最有趣的聲明莫過於 IF 3.0 裝置節點將支援跨 CPU 與 GPU 的統
一記憶體架構(Unified Memory),其不僅能促進系統程式設計效益,還能在運行異質工
作負載時提升系統效能。
如同前述的,Cray 自家的 Slingshot 互連技術能將節點串聯在一起。不僅如此,
Slingshot 並支援自適性路由、擁塞管理和服務品質(QoS)功能。其互連速度可達每埠
200Gb / s 的效能表現,透過個別刀鋒伺服器為刀鋒上每顆 GPU 提供合併的單一連接埠
,其他節點便能直接對 GPU 記憶體進行資料的讀寫。此外,在系統布局上,El Capitan
預計使用的電力不到 40 百萬瓦(MW),DOE 透露屆時的實際耗電量將會更低。
整體而言,El Capitan 標誌著 AMD 在百萬兆級超級電腦訂單爭奪戰中的第二回重大勝利
,AMD 去年才剛剛憑藉 Frontier 首次拿下超級電腦大單,而 Cray 則同時涉足美國 3
項百萬兆級系統的建置作業。因此,這對兩家供應商來說都是展現並宣傳自己堅強實力與
品牌的巨大勝利。
https://technews.tw/2020/03/05/el-capitan/
HPE是哪間冷門公司?

Links booklink

Contact Us: admin [ a t ] ucptt.com