英特尔在2021年的英特尔架构日发布了大量新信息,你可以查看我们的其他文章来深入了解桤木cpu湖蓝宝石激流,炼金术士GPU弧,等等。最后一个与我们将在这里讨论的Intel的Ponte Vecchio和Xe HPC架构特别相关。它是大的。注意:它的巨大的,特别是在8个gpu一起工作的最大配置中。即将推出的极光超级计算机将使用Sapphire Rapids和Ponte Vecchio,以成为美国第一个百亿亿次级超级计算机,美国能源部选择使用英特尔即将推出的硬件是有充分理由的。
和专为游戏设计的Xe HPG一样,Xe HPC的基本构建块始于Xe-core。在Xe-core中仍然有8个矢量引擎和8个矩阵引擎,但这个Xe-core从根本上与Xe HPG非常不同。向量引擎使用512位寄存器(用于64位浮点数),XMX矩阵引擎已经扩展到4096位数据块。这是矢量引擎潜在性能的两倍,是矩阵引擎FP16吞吐量的四倍。L1缓存大小和负载/存储带宽也同样增加,以满足引擎的需求。
除了更大之外,Xe HPC还支持额外的数据类型。Xe HPG MXM只适用于FP16和BF16数据,但Xe HPC也支持TF32(张量浮点32),这已经在机器学习社区获得了流行。向量引擎还增加了对FP64数据的支持,尽管其速率与FP32数据相同。
对于每个Xe-core 8个向量引擎,单个Xe-core的总潜在吞吐量是256个FP64或FP32操作,或512个FP16操作。对于矩阵引擎,每个Xe-core每个时钟可以执行4096个FP16或BF16操作,8192个INT8操作,或2048个TF32操作。但当然,维琪奥桥不止有一个x核。
Xe HPC将16个Xe-core单元分成一个单元,而消费者Xe HPG最多只有8个单元。这里有趣的一点是,不同于英伟达的GA100架构,Xe HPC包括射线跟踪单位(rtu)。我们不知道RTU相对于Nvidia的RT内核有多快,但对于专业的射线追踪应用程序来说,这是一个巨大的潜在性能提升。
Ponte Vecchio上的每个Xe-core还包含一个512KB的L1缓存,这与消费级gpu相比是相当大的。所有的xe核在一个切片功能下,在一个单一的硬件环境。但这仍然只是切片水平。
Xe HPC的主计算核心分为四块,由一个巨大的144MB L2缓存和内存结构连接在一起,有8个Xe Link连接器,4个HBM2e堆栈和一个媒体引擎。但英特尔还没有完成,因为Xe HPC也可以作为2堆栈配置,通过EMIB连接到一起,使所有这些值翻倍。
Xe Link是Xe HPC的重要组成部分,在多gpu配置之间提供高速一致的统一fabric。它可以在2路、4路、6路和8路拓扑中使用,每个GPU直接链接到每一个其他GPU。把它们放在一起,你就得到了一个巨大的计算量!
英特尔还没有透露时钟速度,但我们预计每个时钟最高可达32,768个FP64操作。假设它运行速度介于1.0和2.0 GHz,这意味着任何地方从8.2到16.4 TFLOPS FP64计算单个Xe HPC GPU,和一群131 TFLOPS 8,把我们带到了第二个话题,旧桥,产品化Xe HPC的现实。
维奇奥桥将是包装和集成的重要一步。整个SOC由超过1000亿个晶体管组成,分布在47个活动磁片上,由5个不同的工艺节点制造。这都是通过英特尔的3D芯片堆叠技术实现的。我们之前已经介绍了很多细节,但这对英特尔来说仍然是一个令人印象深刻的杰作。
维琪奥桥的核心计算瓦将使用台积电的N5工艺制造,每个芯片有8个x核。这些链接到一个Intel fooveros基块(构建在新命名的Intel 7进程上),它还包含Rambo缓存、HBM2e和一个作为PCIeGen5接口。Xe Link采用的是台积电N7芯片。
英特尔已经有A0硅(基本上是早期硅,尚未最终生产),在FP32上运行超过45 TFLOPS, HBM2e带宽超过5TBps。连接速度也超过了2TBps。
Aurora超级计算机将运行在6路配置中,使用Xe Links将东西连接在一起,你可以在上面的Aurora Blade中看到。它还配备了两个蓝宝石Rapids处理器——当然,所有处理器都是液冷的,以保持运行的凉爽。
显然,这不会是我们最后一次见到维琪奥桥。凭借其强大的性能和功能,加上可扩展到数百或数千个节点的设计,庞特维奇奥桥无疑将在未来几年出现在更多的安装中。这也是Xe HPC硬件的第一轮,未来还会有更多的迭代,提供更多的性能和功能。