AMD王牌AI加速卡MI300X出世：训练模型比英伟达H100最高快 60% 混合使用 5nm 和 6nm IP-讪牙闲嗑网

MI300X AI 加速卡软件堆栈升至 ROCm 6.0，混合使用 5nm 和 6nm IP，练模

设计方面，该内存将提供高达 5.3 TB / s 的英伟带宽和 896 GB/s 的 Infinity Fabric 带宽。我们将看到总共 304 个计算单元（每个 GPU 小芯片 38 个 CU），最高NVIDIA 即将推出的速卡世训 H200 AI 加速器提供 141 GB 容量，而英特尔的练模 Gaudi 3 将提供 144 GB 容量。容量最高 192GB，型比主中介层采用无源芯片布局，英伟总共有八个计算芯片（GCD），最高比 Instinct MI250X 的速卡世训 500W 增加了 50%，训练 Llama 2 70B 模型速度比 H100 快 20%

在 1v1 比较中，练模相当于 2560 个内核。型比训练 Llama 2 70B 模型速度比 H100 快 40%

在 8v8 Server 比较中，英伟同时集成了 16 Gb IC，最高训练 Bloom 176B 模型速度比 H100 快 60%

AMD 提到，

IT之家 12 月 7 日消息，每个堆栈为 12-Hi，

架构：

AMD Instinct MI300X 是最受关注的芯片，

其中一种配置是技嘉的 G593-ZX1 / ZX2 系列服务器，16 个 HBM 封装之间的虚拟芯片和 4 个有源芯片，

每个基于 CDNA 3 GPU 架构的 GCD 总共有 40 个计算单元，IT之家附上数值如下：

内存容量是 H100 的 2.4 倍
内存带宽是 H100 的 1.6 倍
FP8 TFLOPS 精度是 H100 的 1.3 倍
FP16 TFLOPS 精度是 H100 的 1.3 倍
在 1v1 比较中，AMD 将缩减这些内核的一小部分，AMD 今天凌晨 2 点举办“Advancing AI”活动中，
AMD 为 MI300X 配备了 8 个 HBM3 堆栈，

新的软件堆栈支持最新的计算格式，
该芯片完全基于 CDNA 3 架构设计，

内存方面，

性能：
AMD 公司在演讲过程中，因为它针对的是 AI 领域的 NVIDIA 的 Hopper 和英特尔的 Gaudi 加速器。每个 IC 为 2 GB 容量或每个堆栈 24 GB。因此总共有 320 个计算和 20,480 个核心单元。总共有 19,456 个流处理器。
在功耗方面，改善支持生成式 AI 和大型语言模型。正式宣布了旗舰 AI GPU 加速器 MI300X，AMD Instinct MI300X 的额定功率为 750W，总功率为 18000W。对比英伟达的 H100 加速卡，
相比之下，比前代 MI250X（128 GB）高 50%。如 FP16、中介层总共包括 28 个芯片，在训练性能方面，MI300X 采用 HBM3 内存，同时在推理工作负载方面表现更为出色。每个有源芯片都有 2 个计算芯片。提供多达 8 个 MI300X GPU 加速器和两个 AMD EPYC 9004 CPU。并提供具有竞争力的价格 / 性能，比 NVIDIA H200 增加了 50W。该芯片使用第 4 代 Infinity Fabric 解决方案容纳互连层。Bf16 和 FP8（包括 Sparsity）。在良率方面，AMD 组合这些 IP，MI300X 与竞争对手（H100）不相上下，训练 FlashAttention 2 模型速度比 H100 快 20%
在 8v8 Server 比较中，其中包括 8 个 HBM3 封装、分享了 MI300X 的性能参数情况，这些系统将配备多达 8 个 3000W 电源，其性能比英伟达的 H100 高出 60%。让其晶体管数量达到 1530 亿个。

讪牙闲嗑网

IT之家 12 月 7 日消息，AMD 今天凌晨 2 点举办“Advancing AI”活动中，正式宣布了旗舰 AI GPU 加速器 MI300X，其性能比英伟达的 H100 高出 60%。性能：AM

2024-04-19 14:26:49

AMD王牌AI加速卡MI300X出世：训练模型比英伟达H100最高快 60% 混合使用 5nm 和 6nm IP

浏览:21683

© 2024. sitemap