AMD Instinct

極致效能、成本效率與全開放資源生態

AMD Instinct™ MI350 系列

AMD 於 2025 年 6 月正式推出 AMD Instinct™ MI350 系列 GPU，為資料中心運算帶來重大躍進，專為生成式 AI 與高效能運算工作負載而設計。此系列採用先進的第 4 代 AMD CDNA™ 架構，並以台積電 3 奈米製程打造，提供卓越的效能與能源效率，能以高速完成大型 AI 模型訓練、高速推論以及複雜的 HPC 工作負載，如科學模擬與資料處理。MI350X 與 MI355X GPU 皆配備 288GB HBM3E 記憶體、高達 8TB/s 的頻寬，在 AI 運算效能上較前一代提升最高 4 倍，推論效能更達 35 倍的突破，奠定其在 AI 與 HPC 市場中強大的競爭地位。

AMD Instinct
MI355X GPU	MI350X GPU	型號	MI325X GPU
TSMC N3P / TSMC N6		製程技術 (XCD / IOD)	TSMC N5 / TSMC N6
AMD CDNA4		GPU 架構	AMD CDNA3
256		GPU 運算單元	304
16,384		串流處理器	19,456
1,850 億		電晶體數	1,530 億
10.1 PFLOPS	9.2 PFLOPS	MXFP4 / MXFP6	N/A
5.0 / 10.1 POPS	4.6 / 9.2 POPS	INT8 / INT8 (稀疏性)	2.6 / 5.2 POPS
78.6 TFLOPS	72.1 TFLOPS	FP64 (向量)	81.7 TFLOPS
5.0 / 10.1 PFLOPS	4.6 / 9.2 PFLOPS	FP8 / OCP-FP8 (稀疏性)	2.6 / 5.2 PFLOPS
2.5 / 5.0 PFLOPS	2.3 / 4.6 PFLOPS	BF16 / BF16 (稀疏性)	1.3 / 2.6 PFLOPS
288 GB HBM3E		專用記憶體大小	256 GB HBM3E
8 TB/s		記憶體頻寬	6 TB/s
PCIe Gen5 x16		匯流排類型	PCIe Gen5 x16
被動式 & 液冷	被動式	散熱	被動式 & 液冷
1400W	1000W	主機板功耗	1000W
支援最多 8 個分區		虛擬化支援	支援最多 8 個分區

AMD Instinct™ MI300 系列

概覽規格

百萬兆次運算時代的加速核心

專為最嚴苛工作負載打造的 AMD Instinct™ MI325X GPU，具備 256GB 記憶體與每秒 6 TB 頻寬，結合卓越效能與高能源效率，並支援矩陣稀疏運算（Matrix Sparsity），以最佳化 AI 訓練與推論效能。

全球首款資料中心級整合加速處理單元（APU），AMD Instinct™ MI300A，突破 CPU 與 GPU 之間的效能瓶頸，消除程式設計負擔並簡化資料管理流程。

由 AMD EPYC™ 處理器與 AMD Instinct™ GPU 與 APU 驅動的全球最快超級電腦 El Capitan 與 Frontier，不僅在 TOP500 榜單名列前茅，同時於 GREEN500 榜上展現傑出的能源效率，充分展現 AMD 在高效能運算與 AI 加速領域的領導地位。

技嘉科技為百萬兆次運算時代推出先進伺服器方案，將 AMD Instinct™ MI325X 與 MI300X GPU 以開放加速模組（OAM）型式安裝於通用基板（UBB），搭載於 GIGABYTE G 系列伺服器中。整合 CPU 與 GPU 的 AMD Instinct™ MI300A APU 則配置於 GIGABYTE G383 系列，支援四組 LGA 插槽設計。此系列系統兼具高運算密度、卓越擴充性與冷卻效率，協助企業與研究機構推進 AI 與 HPC 的創新發展。

MI325X GPU	MI300X GPU	型號	MI300A APU
OAM 模組	尺寸外型	APU SH5 插槽
-	AMD 「Zen 4」處理器核心數	24
304	GPU 運算單元	228
19,456	串流處理器	14,592
163.4 TFLOPS	峰值 FP64/FP32 矩陣	122.6 TFLOPS
81.7/163.4 TFLOPS	峰值 FP64/FP32 矩陣	61.3/122.6 TFLOPS
1307.4 TFLOPS	峰值 FP16/BF16	980.6 TFLOPS
2.61 PFLOPS	峰值 FP8	1.96 PFLOPS
256 GB HBM3E	192 GB HBM3	專用記憶體大小	128 GB HBM3
6.0 GHz	5.2 GHz	記憶體時脈	5.2 GHz
6 TB/s	5.3 TB/s	記憶體頻寬	5.3 TB/s
PCIe Gen5 x16	匯流排類型	PCIe Gen5 x16
8	Infinity Fabric™ Links	8
1000W	750W	主機板功耗	550W / 760W (峰值)
支援最多 8 個分區	虛擬化支援	支援最多 3 個分區

以 AMD ROCm™ 7.0 開創新世代極致效能

AMD ROCm™ 7.0 軟體堆疊是讓 AMD Instinct™ MI350 系列發揮極致效能的關鍵差異化技術。開發者能在幾乎不需修改程式碼的情況下，進行高效能 AI 與 HPC 應用開發。MI350 系列 GPU 已針對主流框架如 PyTorch、TensorFlow、JAX、ONNX Runtime、Triton、vLLM 進行全面最佳化，並透過自動核心生成與持續驗證，提供零時差的模型支援。
廣泛硬體與平台支援：ROCm 7 完整支援 AMD Instinct™ MI350 系列 GPU（包含 MXFP6/MXFP4 精度格式），同時延伸至特定 AMD Radeon™ GPU 與 Windows 環境，確保從雲端到邊緣運算都能穩定發揮效能。專為大型 AI 與 LLM 優化：ROCm 7 聚焦於大型 AI 模型與 LLM 部署，內建預先最佳化的 Transformer 架構（OCP-FP8 / MXFP8 / MXFP6 / MXFP4），並整合 vLLM v1、llm-d、SGLang 等分散式推論框架，同時強化「flash attention」與通訊函式庫，以發揮多 GPU 的峰值運算效率。效能大幅提升：根據測試結果，ROCm 7 預覽版在 AI 推論上比 ROCm 6 最快達 3.5 倍，訓練速度也提升 3 倍。此效能增長來自低精度數據格式與進階核心融合技術（kernel fusion），可最大化 GPU 效能並減少記憶體與 I/O 負載。^[1]	提升開發者生產力：全新的 ROCm Enterprise AI Suite 提供簡化的模型微調與部署流程，只需輸入 pip install rocm 即可安裝。套件內含模型量化（quantization）函式庫與整合化開發工具，協助開發者更快速完成 AI 服務部署並提升執行效能。擴大的生態系與開源合作：ROCm 7 與主流 AI/HPC 框架深度整合，支援 PyTorch、TensorFlow、JAX、ONNX 等工具，並可原生運行超過 200 萬個預訓練模型。開放式架構與社群協作確保平台在穩定性、相容性與未來工作負載的擴充性上保持領先水準。
^[1]（MI300-080）AMD 於 2025 年 5 月 15 日進行測試，測量 ROCm 6.x（搭配 vLLM 0.3.3）與 ROCm 7.0 預覽版（搭配 vLLM 0.8.5）在推論效能上的差異。測試環境採用 8 組 AMD Instinct MI300X GPU，運行 Llama 3.1-70B（TP2）、Qwen 72B（TP2）及 Deepseek-R1（FP16）等模型，批次大小介於 1 至 256 、序列長度為 128 至 204 。所述效能提升以三個 LLM 模型的平均每秒字元處理數（Tokens Per Second, TPS）計算。實際結果可能因系統設定與工作負載而異。

AMD ROCm™ 7.0 軟體堆疊是讓 AMD Instinct™ MI350 系列發揮極致效能的關鍵差異化技術。開發者能在幾乎不需修改程式碼的情況下，進行高效能 AI 與 HPC 應用開發。MI350 系列 GPU 已針對主流框架如 PyTorch、TensorFlow、JAX、ONNX Runtime、Triton、vLLM 進行全面最佳化，並透過自動核心生成與持續驗證，提供零時差的模型支援。

廣泛硬體與平台支援：ROCm 7 完整支援 AMD Instinct™ MI350 系列 GPU（包含 MXFP6/MXFP4 精度格式），同時延伸至特定 AMD Radeon™ GPU 與 Windows 環境，確保從雲端到邊緣運算都能穩定發揮效能。
專為大型 AI 與 LLM 優化：ROCm 7 聚焦於大型 AI 模型與 LLM 部署，內建預先最佳化的 Transformer 架構（OCP-FP8 / MXFP8 / MXFP6 / MXFP4），並整合 vLLM v1、llm-d、SGLang 等分散式推論框架，同時強化「flash attention」與通訊函式庫，以發揮多 GPU 的峰值運算效率。
效能大幅提升：根據測試結果，ROCm 7 預覽版在 AI 推論上比 ROCm 6 最快達 3.5 倍，訓練速度也提升 3 倍。此效能增長來自低精度數據格式與進階核心融合技術（kernel fusion），可最大化 GPU 效能並減少記憶體與 I/O 負載。^[1]

提升開發者生產力：全新的 ROCm Enterprise AI Suite 提供簡化的模型微調與部署流程，只需輸入 pip install rocm 即可安裝。套件內含模型量化（quantization）函式庫與整合化開發工具，協助開發者更快速完成 AI 服務部署並提升執行效能。
擴大的生態系與開源合作：ROCm 7 與主流 AI/HPC 框架深度整合，支援 PyTorch、TensorFlow、JAX、ONNX 等工具，並可原生運行超過 200 萬個預訓練模型。開放式架構與社群協作確保平台在穩定性、相容性與未來工作負載的擴充性上保持領先水準。

^[1]（MI300-080）AMD 於 2025 年 5 月 15 日進行測試，測量 ROCm 6.x（搭配 vLLM 0.3.3）與 ROCm 7.0 預覽版（搭配 vLLM 0.8.5）在推論效能上的差異。測試環境採用 8 組 AMD Instinct MI300X GPU，運行 Llama 3.1-70B（TP2）、Qwen 72B（TP2）及 Deepseek-R1（FP16）等模型，批次大小介於 1 至 256 、序列長度為 128 至 204 。所述效能提升以三個 LLM 模型的平均每秒字元處理數（Tokens Per Second, TPS）計算。實際結果可能因系統設定與工作負載而異。