Component

使用 Solidigm™ SSD 與GIGABYTE伺服器最佳化 AI 訓練

by Solidigm
了解 Solidigm 與GIGABYTE如何透過尖端儲存與系統整合,重新定義 AI 訓練效能。立即升級您的 AI 基礎架構,實現更高水準的效率與可擴充性。
客戶挑戰
隨著人工智慧 (AI) 應用程式日趨複雜,企業在最大化 GPU 利用率及維持 AI 訓練叢集的高效資料吞吐量方面,面臨越來越多的挑戰。儘管儲存系統在快速傳送訓練資料,跟上高效能 GPU 的腳步方面扮演重要角色,但整體系統架構(包括網路、記憶體階層架構及資料前處理管道)也嚴重影響訓練效率。全面解決這些挑戰,對於減少瓶頸、最佳化硬體利用率以及降低營運成本非常重要。
對於想要擴展 AI 效能的企業而言,合作夥伴關係有助於克服挑戰,充分利用硬體投資,並將訓練效能發揮到極致。有了 GIGABYTE 伺服器與 Solidigm SSD 的整合方案,客戶可以找到新的改善方法,確保實現 AI 訓練的目標。


GIGABYTE 伺服器解決方案
我們與 Solidigm 合作,透過整合高效能的 Solidigm D7-PS1010 與高容量的 D5-P5336 來解決這些挑戰。利用 SSD 的優勢,使 GPU 利用率和整體訓練效率上都有顯著提升。
GIGABYTE和 Solidigm 使用 MLPerf Storage v1.0 基準(評估 AI 工作負載儲存效能的業界領先標準),在一系列 AI 模型中進行測試,包括 Unet3D、ResNet50 和 CosmoFlow。具體而言,此次測試基於 GIGABYTE 伺服器搭配 Solidigm D7-PS1010 PCIe 5.0 SSD 以及 Solidigm D5-P5336 PCIe 4.0 SSD 與市場其他品牌進行比較。
使用的基準
MLPerf 是一個標準化基準,用來評估儲存系統如何有效地向 GPU 提供 AI/ML 管道訓練資料。MLPerf 由 MLCommons 開發和維護,MLCommons 是一個由學術界、業界領袖和 AI 研究人員組成的合作組織。

在 MLPerf 套件中,我們使用 MLPerf Storage v1.0 為測試基準,評量儲存解決方案如何在運算過程有效地提供資料,維持 GPU 等加速器在 ML 模型訓練期間的有效利用。該標準包括加速器的運算模擬,並著重於以下三種工作負載:
  • Unet3D :專為體積分割所設計的模型,常用於醫療影像中以勾畫 3D 掃描內的結構。
  • ResNet50:包含 50 層的深度殘差網路,廣泛應用於影像分類任務。
  • CosmoFlow:應用於宇宙學資料的 3D 卷積神經網路,旨在從模擬資料中預測宇宙的物理參數。

這些工作負載包含各種資料大小和存取模式,為評估不同 ML 應用的儲存效能提供了穩健的架構。透過模擬加速器的「思考時間」,這項測試可以精確模擬儲存需求,而無需使用實際的 GPU,從而可用於評估各種儲存解決方案。
AI 模型 用途 AU(加速器利用率)
Unet3D 醫療 - 影像分割 > 90%
ResNet50 視覺 - 影像分類 > 90%
CosmoFlow 科學 - 宇宙學參數預測 > 70%

效能與效率提升
提升 GPU 利用率
在所有 AI 模型中,採用 Solidigm SSD 的測試單元能顯著增加 AI 訓練期間所支援的 GPU 數量。例如,在 ResNet50 的範例中,Solidigm D7-PS1010 的加速器利用率 (AU) 達 92.68%,能在 NVIDIA H100 系統上支援 70 個 GPU 資料讀取,而他牌的加速器利用率只有 90.33%,僅支援 58 個 GPU。Solidigm SSD 可確保昂貴的 GPU 資源得到充分利用,減少閒置時間,加速模型訓練。

優異的吞吐量與讀取效能
GIGABYTE 伺服器與 Solidigm SSD 的結合,提供了優異的吞吐量與讀取速度。舉例來說,Solidigm D7-PS1010 搭配 NVIDIA H100 GPU,在 ResNet50 上實現 115,805 樣本/秒和 12,663 MB/s 的吞吐量,模擬 70 個 GPU。優於他牌近 24%效能。這些結果可轉化為更快的資料處理模型訓練。
ResNet50
提升多種 AI 模型的效率
無論是訓練醫療影像的 Unet3D 或是宇宙學模擬的 CosmoFlow,Solidigm SSD 的表現都始終優於他牌的解決方案。例如,在 ResNet50 工作負載中,Solidigm D5-P5336 SSD 的吞吐量比他牌產品提升了 22% 的資料量。
Unet3D
CosmoFlow
使用第五代 SSD 迎接未來發展
對於以容量為重點的網路儲存伺服器而言,目前 Solidigm D5-P5336 PCIe 4.0 SSD 的效能令人刮目相看。這表明 Solidigm 在不斷壯大的產品系列中,持續利用其對 AI 的深入了解最佳化產品,在產品組合中實現解決方案的價值。最近推出的 Solidigm D7-PS1010 PCIe 5.0 SSD 系列可在需要時降低延遲,並改善直連式儲存需求中的資料流,為更高效的 AI 訓練叢集奠定基礎。而透過此次合作,用戶能透過 GIGABYTE 伺服器搭配 Solidigm SSD 的優勢在AI 應用領域中領先對手。而其所展現的效能提升業已吸引 BeeGFS、Mangoboost 和國家高速網路計算中心等組織的關注。
更多資訊
欲了解此次合作的詳細資訊,以及探索 Solidigm 和技鋼科技如何增強您的 AI 基礎架構,請造訪:
Solidigm:solidigm.com
技鋼科技: gigacomputing.com
MLPerf 基準詳情:mlcommons.org
關於 Solidigm
Solidigm 是全球領先的創新 NAND 快閃記憶體解決方案供應商。Solidigm 技術致力於助力客戶激發資料的無限潛力,推動人類的進步和發展。Solidigm 源自 Intel 出售的 NAND 和 SSD 業務,於 2021 年 12 月成為半導體領導者 SK hynix 在美國的獨立子公司。Solidigm 總部設於加州 Rancho Cordova,在全球 13 個地區設有辦事機構,各地的團隊成員共同為 Solidigm 提供創新動力。欲了解更多資訊,請造訪 solidigm.com,並在 Twitter 和 LinkedIn 上關注我們。「Solidigm」是 SK hynix NAND Product Solutions Corp. (經營別稱 Solidigm)的商標。
附錄
依照 MLPerf Storage v1.0 基準所需指標進行測量。
吞吐量 (MB/s):從儲存裝置載入資料集的速率。
資料集大小 (GB):所用資料集的總大小。
加速器利用率 (%):模擬加速器所用時間佔總基準執行時間的百分比。越高越好。
AU(百分比)= (總運算時間/總基準執行時間) * 100
他牌效能運算結果所使用的伺服器和調整方式與 Solidigm + 技嘉科技的設定不同。他牌的效能評測結果可通過以下網址找到: Optimizing AI Systems With Micron's NVMe SSDs
伺服器 GIGABYTE R163-Z35
中央處理器 AMD EPYC™ 9555P - 64 core x1
記憶體 M321R8GA0BB0-CQKMG - Samsung - 64 GB DDR5 x 12
OS 磁碟 Intel 1.6 TB x 2, U.2
測試目標 SSD 1 Solidigm D5-P5336
測試目標 SSD 2 Solidigm D7-PS1010
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報