AMD宣布本能MI100 GPU，CDNA打破10 TFLOPS屏障

（图片信用：AMD）

AMD今天发布了7纳米的Instinct MI100 GPU，同时还发布了一系列来自戴尔、惠普和Supermicro的设计成果。MI100标志着AMD专注于计算的CDNA GPU架构的第一次迭代。新架构提供高达11.5 TFLOPS的FP64峰值吞吐量，使Instinct MI100成为FP64中第一个突破10 TFLOPS的GPU，比上一代MI50提高了3倍。它在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量，在这两个类别中都击败了英伟达的糟糕的A100 GPU，尽管它在其他数字格式中滞后。

正如人们对数据中心GPU的预期，PCIe 4.0卡是为AI和HPC工作负载而设计的，还支持AMD的第二代Infinity Fabric，使卡之间的点对点(P2P) I/O带宽翻倍。这种结构允许卡与CPU共享一个统一的内存地址空间，这对AMD来说是一个关键优势，因为它充分利用了其作为目前唯一提供数据中心级gpu的CPU供应商的地位。这些卡在三个Infinity Fabric链路上拥有高达340 GB/s的总吞吐量，并被设计成部署到四核蜂巢(每个服务器最多两个)，每个蜂巢支持高达552 GB/s的P2P I/O带宽。

本能MI100还支持AMD的新矩阵核心技术，提高单精度和混合精度矩阵操作的性能，如FP32, FP16, bFloat 16, INT8和INT4。该技术将FP32的性能提升至46.1 TFLOPS。

这些存储卡配有32GB的HBM2内存，分布在四个堆栈上，提供总计高达1.23 TB/s的带宽。AMD声称，与英伟达的A100 gpu相比，这款显卡的峰值性能每美元可提高1.8到2.1倍。

AMD公司还宣布，其开源的ROCm 4.0开发软件现在拥有的OpenMP 5.0，HIP，PyTorch和Tensorflow一个开源编译器和统一的支持。

图7中的图1

图2 (7)

图片3的7

图片4的7

图片5的7

图6 / 7

图片7的7

该卡具有300W的TDP，并采用标准的PCIe插件卡(AIC)形式，带有两个8针电源连接器。考虑到数据中心的重点，卡缺乏显示输出，而被动冷却卡有一个大网格的后I/O屏蔽，以有效的气流。

	峰时钟	流处理器	计划书	HBM2记忆	内存带宽	PCIE接口
7纳米本能MI100	1502兆赫	7680（120 CU）	300 w	32 gb	1.23 TB /秒	4．0
7纳米本能MI50	1725兆赫	3840(60铜)	300 w	32 gb	1.024 TB /秒	4．0
7nm Nvidia A100 (PCIe)	1410兆赫	6912	250 w	40GB.	1.555 TB /秒	4．0
7nm Nvidia A1000 (HGX)	1410兆赫	6912	400 w	40GB.	1.555 TB /秒	4．0

AMD将MI100的峰值时钟频率从上一代MI50的1725 MHz降至1502 MHz，但将计算单元数量增加了一倍，达到120台。该公司还将内存带宽提高到1.23 TB/s。

	FP64	FP32	矩阵FP32	矩阵FP16	INT4 / INT8	bFloat16
7纳米本能MI100	11.5 TFLOPs	23.1 TFLOPS	46.1 TFLOPS	184.6万亿次	184.6	92.3
7纳米本能MI50	6.6 TFLOPS	13.3 TFLOPS	13.3 TFLOPS	26.5 TFLOPS	-	-
7nm Nvidia A100 (PCIe)	9.7 TFLOPS	19.5 TFLOPS	156 TFLOPS(张量)	312年TFLOPS	624 / 1248(张量核心)	624 / 1248(张量核心)
7nm Nvidia A1000 (HGX)	9.7 TFLOPS	19.5 TFLOPS	156 TFLOPS(张量)	312年TFLOPS	1248(张量的核心)	1248(张量的核心)

的改进，向CDNA架构（我们将在下面介绍）的净效应提供了一个1.74X的增益峰值FP64和FP32吞吐量，高达3.46X改善矩阵FP32和6.97X的增益矩阵FP16。这些收益来AMD的新的Matrix核心技术的礼貌与混合数据类型优化的新基质芯引擎增强的CU。

AMD的MI100击败了Nvidia A100峰值FP64和FP32吞吐量〜15％，但在矩阵FP32，FP16和INT4 / INT8和bFloat16工作量Nvidia的A100仍然提供了远远优于吞吐量。

AMD称MI100可以与6兆瓦的ASCI White竞争，后者是2000年世界上速度最快的超级计算机，重达106吨，性能为12.3 TFLOPS。相比之下，MI1000将功率降至300W，重量仅为2.56磅，性能为11.5 TFLOPS。

AMD本能MI100 CDNA架构

图7中的图1

图2 (7)

图片3的7

图片4的7

图片5的7

图6 / 7

图片7的7

AMD分拆其图形架构到RDNA平台的计算负载图形重点工作（游戏）和cDNA（HPC / AI负载），因此它可以提供有针对性的改进每个相应的架构。自然地，该装置的设计CDNA来没有许多所需图形的工作，如光栅化，镶嵌，图形缓存，混合和显示引擎传统的固定的功能块。该CDNA架构确实保留HEVC，H.264和VP9解码一些逻辑，这是机器学习的工作负载重要的焦点上的物体检测。

7nm的Instinct MI100标志着CDNA架构的第一次迭代，并带有PCIe 4.0接口，支持16gt /s连接到CPU (32gb /s双向)。AMD并没有分享7纳米芯片的尺寸，也没有分享晶体管的数量，但我们知道120个增强CUs被分成4个计算引擎。每个CU都有一个矩阵核心引擎，可以提高各种数字格式的计算吞吐量，AMD将其描述为:

“经典GCN计算核心含有多种用于标量和向量指令优化管道等。特别地，每个CU包含一个标量寄存器文件，标量执行单元，和一个标量数据高速缓存来处理指令，其跨越所述波前共享，例如作为共同的控制逻辑或地址运算。类似地，CU的也包含四个大向量寄存器文件，它们为FP32优化4个向量执行单元，和一个矢量数据的高速缓存，通常，载体管道是16宽，并且每个64宽波阵面在四个周期中执行“。

AMD的CDNA架构建立在GCN的标量和矢量基础上，并添加矩阵作为一级公民，同时增加了对机器学习的新数字格式的支持，并保留了为GCN架构编写的任何软件的向后兼容性。这些矩阵核心引擎增加了一个新的波前级指令家族，矩阵融合乘加或MFMA。MFMA家族使用四种不同类型的输入数据:8位整数(INT8)、16位半精度FP (FP16)、16位脑FP (bf16)和32位单精度(FP32)，执行混合精度算术并对KxN矩阵进行操作。所有MFMA指令要么产生32位整数(INT32)，要么产生FP32输出，这减少了矩阵乘法最后积累阶段溢出的可能性。”

矩阵执行单元处理MFMA指令并减少寄存器文件读取的数量，因为许多矩阵乘法输入值被重用。

共享8MB的L2高速缓存在物理上分割为32片（两次多达MI50）和是16路组相联。总体而言，32片提供高达6TB / s的总吞吐量。存储器控制器支持ECC HBM2的4或8高堆垛在2.4 GT /秒，具有1.23 TB的集合体理论吞吐量/秒。这比前根型号快20％。

AMD第二代Infinity Fabric

图1 / 2

图2中的图2

AMD的cpu到gpu的Infinity Fabric已经被证明是一个关键的进步，帮助公司赢得了许多百亿亿次级合同。该技术支持cpu和gpu之间的共享内存/缓存一致性，通过减少系统内的数据移动量来减少延迟、提高性能并降低功耗。

第二根无限面料链接在23 GT操作/秒和16位宽的，就像以前的根，但最新的版本支持第三连接，使四GPU配置。这种新的设计最适合在四GPU荨麻疹，具有典型的双插槽服务器支持两个蜂箱 - 每个CPU之一。

这些蜂箱在全连接的拓扑结构中运行，而之前的加速器使用的是环形拓扑结构。新的拓扑在所有的减少和分散/聚集操作中提高了性能。

总的来说，AMD的第二代Infinity Fabric提供了两倍的点对点(P2P) I/O带宽，每张卡(有三个链路)增加了两个340 GB/s的吞吐量。一个四gpu的蜂箱提供了高达552 GB/s的P2P I/OP吞吐量，表明这种结构不是线性伸缩的。

完全连接的拓扑结构和共享地址空间是AMD相对于Nvidia的关键优势并导致几个显着的exascale超级合同。值得注意的是，Nvidia公司尚未公布的百亿亿次超级计算机的合同，但AMD的加速器已经开始享受超级计算和高性能计算领域广泛的摄取。

图7中的图1

图2 (7)

图片3的7

图片4的7

图片5的7

图6 / 7

图片7的7

AMD还宣布，到今年年底，Dell、Gigabyte、HPE和联想等主要OEM厂商将提供搭载Instinct MI100的完全合格OEM系统。

Paul Alcorn.

保罗·奥尔康(Paul Alcorn)是Tom's Hardware usa的副总编辑。他撰写有关cpu、存储和企业硬件的新闻和评论。

主题

图形

4评论论坛评论

卡门骑手叶片

我不知道他们将永远做120 CU GPU的消费者？
回复
thGe17

首先，A100的值有点混乱。
张量的核心:
bfloat16 or FP16 = 312 TFlops (与稀疏高达624万亿次）
TF32.= 156 TFlops (其稀疏性可达312 TFlops）
(用于训练的“类似fp32 /精度等效”矩阵操作)
INT8 = 624个TOPS（与稀疏高达1248个TOPS）

另外定期基地FP64 TFlops性能是9.7,但是另外安培可以计算FP64 MMA-ops通过张量全部核心精度和延长他们的CUDA-X库,以方便处理,因此产生的FP64对于很多(甚至大部分?)工作负载应远高于9.7 TFlops FP64。

最后，它似乎MI100是敌不过安培，特别是没有关于AI的工作量。
回复
tca_chinchin.

thGe17说:
首先，A100的值有点混乱。
张量的核心:
bfloat16 or FP16 = 312 TFlops (与稀疏高达624万亿次）
TF32.= 156 TFlops (其稀疏性可达312 TFlops）
(用于训练的“类似fp32 /精度等效”矩阵操作)
INT8 = 624个TOPS（与稀疏高达1248个TOPS）

另外定期基地FP64 TFlops性能是9.7,但是另外安培可以计算FP64 MMA-ops通过张量全部核心精度和延长他们的CUDA-X库,以方便处理,因此产生的FP64对于很多(甚至大部分?)工作负载应远高于9.7 TFlops FP64。

最后，它似乎MI100是敌不过安培，特别是没有关于AI的工作量。
我猜，但它仍然基于张量的使用，除了原始的FP性能。如果你追求原始的FP性能，mi100似乎有更高的数字在纸上。FP的数量可以增加了特定的工作负载使用CUDA和Nvidia的各种毫升库似乎很多,但这仍然是个体公司/研究员来确定其有用所以比较“基地”FP64/32仍然有用的结果。

好像AMD的大踏步前进，但Nvidia将仍占上风自己多年的投资到CUDA和各种ML学习工作负载。这是要花AMD更多的只是具有不俗的硬件来弥补差额。
回复
thGe17

是的，这样看来。Additonally nVidia的宣布其升级A100 80吉布HBM2E与2 TB / s的带宽和额外的Infiniband 400G。看起来好像他们只是在等待AMD做出了先机。;-)

所以希望AMD的新卡比上一代有更多的运气，上一代看起来也很有希望。
回复