Intel Ponte Vecchio and Xe HPC Architecture: Built for Big Data

(图片来源:英特尔)

英特尔在2021年的英特尔架构日发布了大量新信息，你可以查看我们的其他文章来深入了解桤木cpu湖蓝宝石激流,炼金术士GPU弧,等等。最后一个与我们将在这里讨论的Intel的Ponte Vecchio和Xe HPC架构特别相关。它是大的。注意:它的巨大的，特别是在8个gpu一起工作的最大配置中。即将推出的极光超级计算机将使用Sapphire Rapids和Ponte Vecchio，以成为美国第一个百亿亿次级超级计算机，美国能源部选择使用英特尔即将推出的硬件是有充分理由的。

Intel Ponte Vecchio和Xe HPC架构 — (图片来源:英特尔)

和专为游戏设计的Xe HPG一样，Xe HPC的基本构建块始于Xe-core。在Xe-core中仍然有8个矢量引擎和8个矩阵引擎，但这个Xe-core从根本上与Xe HPG非常不同。向量引擎使用512位寄存器(用于64位浮点数)，XMX矩阵引擎已经扩展到4096位数据块。这是矢量引擎潜在性能的两倍，是矩阵引擎FP16吞吐量的四倍。L1缓存大小和负载/存储带宽也同样增加，以满足引擎的需求。

除了更大之外，Xe HPC还支持额外的数据类型。Xe HPG MXM只适用于FP16和BF16数据，但Xe HPC也支持TF32(张量浮点32)，这已经在机器学习社区获得了流行。向量引擎还增加了对FP64数据的支持，尽管其速率与FP32数据相同。

对于每个Xe-core 8个向量引擎，单个Xe-core的总潜在吞吐量是256个FP64或FP32操作，或512个FP16操作。对于矩阵引擎，每个Xe-core每个时钟可以执行4096个FP16或BF16操作，8192个INT8操作，或2048个TF32操作。但当然，维琪奥桥不止有一个x核。

Xe HPC将16个Xe-core单元分成一个单元，而消费者Xe HPG最多只有8个单元。这里有趣的一点是，不同于英伟达的GA100架构，Xe HPC包括射线跟踪单位(rtu)。我们不知道RTU相对于Nvidia的RT内核有多快，但对于专业的射线追踪应用程序来说，这是一个巨大的潜在性能提升。

Ponte Vecchio上的每个Xe-core还包含一个512KB的L1缓存，这与消费级gpu相比是相当大的。所有的xe核在一个切片功能下，在一个单一的硬件环境。但这仍然只是切片水平。

图1 / 3

图2 / 3

图3中的3

Xe HPC的主计算核心分为四块，由一个巨大的144MB L2缓存和内存结构连接在一起，有8个Xe Link连接器，4个HBM2e堆栈和一个媒体引擎。但英特尔还没有完成，因为Xe HPC也可以作为2堆栈配置，通过EMIB连接到一起，使所有这些值翻倍。

Xe Link是Xe HPC的重要组成部分，在多gpu配置之间提供高速一致的统一fabric。它可以在2路、4路、6路和8路拓扑中使用，每个GPU直接链接到每一个其他GPU。把它们放在一起，你就得到了一个巨大的计算量!

英特尔还没有透露时钟速度，但我们预计每个时钟最高可达32,768个FP64操作。假设它运行速度介于1.0和2.0 GHz,这意味着任何地方从8.2到16.4 TFLOPS FP64计算单个Xe HPC GPU,和一群131 TFLOPS 8,把我们带到了第二个话题,旧桥,产品化Xe HPC的现实。

图1 (9)

图2 (9)

图3 (9)

图4 / 9

图5 / 9

图6 / 9

图7 / 9

图8 / 9

图9 / 9

维奇奥桥将是包装和集成的重要一步。整个SOC由超过1000亿个晶体管组成，分布在47个活动磁片上，由5个不同的工艺节点制造。这都是通过英特尔的3D芯片堆叠技术实现的。我们之前已经介绍了很多细节，但这对英特尔来说仍然是一个令人印象深刻的杰作。

维琪奥桥的核心计算瓦将使用台积电的N5工艺制造，每个芯片有8个x核。这些链接到一个Intel fooveros基块(构建在新命名的Intel 7进程上)，它还包含Rambo缓存、HBM2e和一个作为PCIeGen5接口。Xe Link采用的是台积电N7芯片。

英特尔已经有A0硅(基本上是早期硅，尚未最终生产)，在FP32上运行超过45 TFLOPS, HBM2e带宽超过5TBps。连接速度也超过了2TBps。

Aurora超级计算机将运行在6路配置中，使用Xe Links将东西连接在一起，你可以在上面的Aurora Blade中看到。它还配备了两个蓝宝石Rapids处理器——当然，所有处理器都是液冷的，以保持运行的凉爽。

显然，这不会是我们最后一次见到维琪奥桥。凭借其强大的性能和功能，加上可扩展到数百或数千个节点的设计，庞特维奇奥桥无疑将在未来几年出现在更多的安装中。这也是Xe HPC硬件的第一轮，未来还会有更多的迭代，提供更多的性能和功能。

震动沃尔顿

jared Walton(高级编辑)对电脑的热爱可以追溯到黑暗时代，当时他的父亲带回家一台DOS 2.3 PC，而他却留下了自己的C-64电脑。他最终在1990年用286 12MHz建造了他的第一台定制PC，但当几个月后Wing Commander发布时，他发现它已经过时了。他拥有杨百翰大学(Brigham Young University)的计算机科学学士学位，自2004年以来一直担任技术记者，为AnandTech、Maximum PC和PC Gamer撰写文章。从第一个S3 Virge的“3D减速器”到今天的gpu, Jarred紧跟所有最新的图像趋势，是一个询问游戏性能的人。

主题

图形

3评论来自论坛的评论

Intel999

也许，如果维琪奥桥在2018年就准备好了，也就是它应该准备好的时候，它就会运送第一台百亿亿次级计算机。

然而，由于AMD证实MI200加速器在第二季度开始出货，用于百亿亿次级计算机，看来庞特维奇奥可能会出现在第二台百亿亿次级计算机上，而且仍然比第一代慢。

“第一台百亿亿次级计算机”的评论可能来自英特尔的旧宣传手册。这整篇文章听起来就像是英特尔的反话。

如果你要吹嘘英特尔的8路GPU与GPU连接，为什么不将FP64、BF16等性能与英伟达已经上市两年的8路通信GPU进行比较呢?等到庞特维奇奥上市的时候，英伟达的选择已经过时3年了。更糟糕的是，英伟达将推出一个更新版本。

典型的英特尔，看看我们!也许在未来。
回复
JayNor

奇怪的是，Xe-Link负责今天演讲的连贯性。我记得讨论过CXL保持一致性是一个特性，但是今天没有讨论CXL。
回复
waltc3

让我们希望英特尔不会尝试和纹理作为PCIe总线作为i7xx gpu与纹理蹒跚在AGP总线——如果是这样,那么这些不会产生真正的竞争(与3 dfx i7xx gpu不是竞争或nVidia gpu,谁都变形从他们更快的板载内存)。这是在开玩笑，因为我真的不希望英特尔再犯这样一个根本性的错误，但我认为这确实值得评论。
回复