AI-AIoT

DCIM x AIOps:助力AI持續翻新的關鍵趨勢

by GIGABYTE
目前人工智慧(AI)發展出現明顯的新趨勢,就是「AI硬體」蓬勃成長的同時,促進運算平台發揮最大效能,使生態系接近完整的「AI軟體」也備受矚目。業界先驅特別注重DCIM(資料中心基礎設施管理)及AIOps(人工智慧IT維運)兩類別軟體,相信能帶給企業強大的競爭力,引領AI浪潮再創巔峰。技嘉科技發表全新趨勢介紹文章,解析DCIM與AIOps的運作原理,並推薦你可導入的技嘉軟體產品。

趨勢分析:DCIM與AIOps化身AI發展的成長推進器

人工智慧(AI)的快速成長,不僅刺激先進AI硬體(例如技嘉科技全系列AI伺服器)陸續問世,也造就了「輔助硬體加速運算」的軟體,透過資源控管、工作流程優化等各種方式讓AI更快改善人類世界。研調數據佐證我們的趨勢觀察:顧能Gartner預測在2028年,IT維運管理(ITOM)軟體支出將高達810億美元,年均複合成長率(CAGR)達10.3%,IDC也在名為「Worldwide IT Operations Management Software Forecast, 2023–2027」報告中估計,2027年ITOM總營收將達284億美元,CAGR碰巧也是10.3%。IDC進一步指出,AIOps(人工智慧IT維運)有潛力幫助企業達成重大商業目標,麥肯錫認定AIOps是企業集中投資的「基礎AI服務」之一,而BCG則預測AIOps能將IT運維成本減少兩至三成,同時提升使用者滿意度,釋放IT工作者的時間。

DCIM(資料中心基礎設施管理)軟體是另一個焦點,IBM將DCIM視為生成式AI盛行的當下,資料中心脫穎而出、全面升級的重要管道,DCIM大廠施耐德電機則將DCIM軟體定義為能夠協助克服IT挑戰的關鍵工具。

什麼是DCIM和AIOps?顧名思義,DCIM管理資料中心的整體設備,透過監測、控管與遠端遙控,確保IT設施與設備達到最高效率及可用性。AI時代,串聯數十台、甚至數百台伺服器運算叢集持續進行垂直擴充水平擴充,以便處理「兆級」參數的龐大AI模型,用戶急需便利且直覺性的中央控管軟體,確保超級電腦可發揮最大算力和維持營運穩定性。

AIOps延伸機器學習作業(MLOps)樹立的典範,為AI產品在生命週期不同階段創造理想的作業環境,容納標準化框架、流程管道、典範實務(best practice)及資料中心整體營運的各項微調和改善,讓經營者從開發AI(即進行AI訓練)到部署AI(即進行AI推論)各階段都有充足的資源和充分的支援。AIOps的最新趨勢,就是利用AI工具持續優化環境,可想像是透過AI協助,以更智能、更有效率的方式開發新AI。

技嘉集團轉投資事業邁爾凌科技MyelinTek Inc.創辦人兼總經理陳明江博士說:「業界走向AI硬體包軟體,整套出貨給客戶的概念。」邁爾凌專門從事開發AI及 機器學習(ML) 軟體產品


「這裡所謂的AI軟體,並非生成式AI,而是DCIM和AIOps的軟體平台,能夠提升硬體效能,加速產出造福人類的AI產品與服務」,陳博士補充。

技嘉科技走在趨勢尖端,提供獨特DCIM與AIOps加值軟體解決方案,其中GIGABYTE POD Manager (GPM)是次世代 DCIM 軟體產品,協助用戶完全掌控資料中心硬體的「資源池」,並且追加工作負載排程與管理功能。MLSteam是技嘉的AIOps平台,不只創造AI開發與部署的理想環境,還可扮演使用者的智慧助理,驅使AI願景從構想一步步邁向現實,從AI的發想與設計到創作與推廣,從頭到尾都是順暢且無痛的歷程。

了解更多:

GIGABYTE Pod Manager:次世代DCIM軟體的嶄新蛻變

GPM整合在GIGAPOD解決方案中,GIGAPOD是技嘉的可擴充人工智慧資料中心運算叢集,結合32台高效能GPU協同運算伺服器當中的256顆AI加速器,互相連接形成統一單位的AI加速運算平台,此環境架構是目前AI與高效能運算(HPC)領域最具競爭力的解決方案之一。GPM扮演GIGAPOD管理中樞,不但能掌控叢集內的伺服器,還能往上控管資料中心基礎設施,讓資源運用最佳化並提升營運效率,動態且靈活應對AI與HPC工作負載需求。GPM具備完善DCIM功能,叢集管理工具包含NVIDIA Base Command人工智慧工作負載和叢集管理平台,追加技嘉獨門研發的「Cluster Manager」模組協助彈性配置硬體,更有效率調度資源進行AI模型開發訓練。從使用者觀點來看,GPM是掌控資料中心所有節點與元件的單一窗口,可以監測基礎設施每一個環節,還可依照特殊需求,調整硬體資源配置。

打開GPM,你會看到即時性的遠端操控平台,便於監測運算叢集或資料中心的整體概況,例如硬體設備的健康狀況和使用率,還附加智慧警示機制、事件管理和主動式問題排除功能,進一步確保運算設備符合高可用性的標準。透過GPM,IT團隊能統一控管不同廠牌提供的異質運算資源,還有網路交換器與儲存設備,實現硬體資源池的完整中央監控。GPM還能自動偵測新設備並簡化安裝流程,透過視覺化管理工具大幅改善日常維運效率,「Infrastructure Management」模組等擴充功能則讓用戶掌控資料中心的供電、散熱及資料安全。

當你沒有

GIGABYTE POD Manager…
  • 無法 統一管理不同廠牌IT設備

  • 無法 優化資源或電力使用效率

  • 無法 進行遠端監控、開通與更新

  • 無法 進行資料中心溫度控制

  • 無法 確保資料安全

當你掌控

GIGABYTE POD Manager…
  • 單一平台 控管所有節點與元件

  • 優化 資源與能源使用效率

  • 遠端即時 監控、開通與更新

  • 完全掌握 資料中心冷卻系統與資料安全

  • 特殊功能! 工作負載管理客製作業環境配合使用需求

技嘉GPM勝過市面上其他DCIM軟體之處,就是除了提供叢集管理功能之外,還追加工作負載管理功能,使用者藉此橫跨不同節點進行工作編程、資源分配與負載管理,讓運算資源的投報率最佳化。這之所以重要,因為AI訓練需要動用大量運算資源,開發大型語言模型(LLM)是透過多台伺服器進行平行運算處理兆級參數大數據,為不同產業開發AI也得面對不同性質的資料,例如智慧醫療的運算需求不可能和智慧交通的需求一樣。GPM的強項就是已為不同屬性的工作負載做好準備,不僅支援NVIDIA AI Enterprise (NVAIE)等主流軟體套件,還整合技嘉精心研發的AIOps軟體平台MLSteam,此項產品將在下一章節進一步介紹。使用者可運用GPM貼心準備的Apache Hadoop管理大數據並進行分散式運算,用Kubernetes整理和部署容器化應用程式,用Slurm進行HPC工作編程。GPM提供預設和可自訂的快速作業系統部署,可分批次部署韌體更新,還可遠端進行伺服器開通,也就是架設好軟體環境,為伺服器指派工作。

陳明江博士說:「我們做個比喻,假設GPM叢集管理為超級運算架設好了舞台,讓用戶能掌控資料中心的基礎設施,那GPM工作負載管理就是舞監,指揮資料中心所有資源讓它們拿出最好表現,全力投入LLM開發或是大量的AI推論工作。」


見證技嘉運算叢集實用案例:

MLSteam:技嘉AIOps平台伴你開發和部署AI發明

MLSteam包裝在GPM工作負載管理中,可針對多元使用情境架設智能環境,伴開發者從AI訓練到AI推論,一步步走過AI產品的生命週期。MLSteam安裝在作業系統上,無需GPM也能獨立運作,在AI的開發與部署階段都扮演不可或缺的角色。不論是用在資料中心或是網路邊緣的邊緣運算裝置,MLSteam都是開拓AI疆界的得力助手。

創造AI模型時,MLSteam提供的開發環境有如設備齊全又附贈顧問服務的工作室,因為MLSteam統整AI訓練所使用的主流軟體套件,例如前述的NVAIE,然後搭配詳細的資料庫,充滿業界常用的典範實務和標準化框架,當作開發者的參考對象。假如銀行想利用深度學習自然語言處理(NLP)技術開創金融科技服務,MLSteam準備好完整的工具包和模板資料庫,包括信用評分系統、合約解析、客服自動化等相關AI產品的現成範例。或是說,如果醫院想運用電腦視覺實現醫療影像解析和疾病偵測等智慧醫療服務,MLSteam也有提供卷積神經網路(CNN)模型,可直接選用。若沒有MLSteam,光是籌備作業環境就要搜尋各種開源軟體資源,前後可能有十幾個準備步驟,MLSteam把這一切整合成便利使用、可客製化的圖形化操作介面,讓使用者能輕易上手,馬上開始工作,不但省時省力,還有助於提升AI模型的準確率。

當你沒有

GIGABYTE MLSteam…
  • 沒有 現成資源支援AI開發

  • 沒有 智慧助理優化作業環境

  • 無法 快速從遠端部署AI產品

  • 無法 確保智慧財產安全

當你掌控

GIGABYTE MLSteam…
  • 完整資料庫 提供現成開發工具、標準化架構、現實參考範例

  • 智慧優化 作業環境幫你省時省力

  • 遠端部署 AI產品,快速滲透市場

  • 獨門內建功能 保護AI模型不被盜取

開發AI模型告一段落,MLSteam的工作還沒結束,因為它能協助遠端部署AI產品到網路邊緣的運算平台,例如邊緣運算伺服器、智慧物聯網(AIoT)的嵌入式系統和工業電腦(IPC)。用戶可透過MLSteam遠端監控AI運作,即時提供支援與維運服務,還可利用技嘉獨家推出的智慧財產權保護機制,確保辛苦開發的創新AI產品不被盜用。

陳明江博士指出,「GPM和MLSteam不光是解決AI資料中心常見的痛點,我們等於是把技嘉AI硬體的性能、效能與穩定性,移轉到AI軟體,再和硬體打包成解決方案一併提供給客人。」


「我們聆聽客人心聲,精心打造total solution,相信運用技嘉的GIGAPOD和AI伺服器硬體,並且搭配GPM和MLSteam軟體平台的使用者,會發現自己的AI競爭力大幅提升」,陳博士說。

謝謝你閱讀技嘉科技解析DCIM和AIOps的趨勢文。若對於GIGABYTE Pod Manager (GPM)和MLSteam軟體產品有任何疑問,歡迎透過marketing@gigacomputing.com聯絡我們,我們將協助你挑選合適的軟硬體解決方案。

想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報