跳过主要内容

Intel Ponte Vecchio and Xe HPC Architecture: Built for Big Data

Intel Arc Alchemist和Xe HPG架构
(图片来源:英特尔)

英特尔在2021年的英特尔架构日发布了大量新信息,你可以查看我们的其他文章来深入了解桤木cpu湖蓝宝石激流,炼金术士GPU弧,等等。最后一个与我们将在这里讨论的Intel的Ponte Vecchio和Xe HPC架构特别相关。它是大的。注意:它的巨大的,特别是在8个gpu一起工作的最大配置中。即将推出的极光超级计算机将使用Sapphire Rapids和Ponte Vecchio,以成为美国第一个百亿亿次级超级计算机,美国能源部选择使用英特尔即将推出的硬件是有充分理由的。

(图片来源:英特尔)

和专为游戏设计的Xe HPG一样,Xe HPC的基本构建块始于Xe-core。在Xe-core中仍然有8个矢量引擎和8个矩阵引擎,但这个Xe-core从根本上与Xe HPG非常不同。向量引擎使用512位寄存器(用于64位浮点数),XMX矩阵引擎已经扩展到4096位数据块。这是矢量引擎潜在性能的两倍,是矩阵引擎FP16吞吐量的四倍。L1缓存大小和负载/存储带宽也同样增加,以满足引擎的需求。

(图片来源:英特尔)

除了更大之外,Xe HPC还支持额外的数据类型。Xe HPG MXM只适用于FP16和BF16数据,但Xe HPC也支持TF32(张量浮点32),这已经在机器学习社区获得了流行。向量引擎还增加了对FP64数据的支持,尽管其速率与FP32数据相同。

对于每个Xe-core 8个向量引擎,单个Xe-core的总潜在吞吐量是256个FP64或FP32操作,或512个FP16操作。对于矩阵引擎,每个Xe-core每个时钟可以执行4096个FP16或BF16操作,8192个INT8操作,或2048个TF32操作。但当然,维琪奥桥不止有一个x核。

(图片来源:英特尔)

Xe HPC将16个Xe-core单元分成一个单元,而消费者Xe HPG最多只有8个单元。这里有趣的一点是,不同于英伟达的GA100架构,Xe HPC包括射线跟踪单位(rtu)。我们不知道RTU相对于Nvidia的RT内核有多快,但对于专业的射线追踪应用程序来说,这是一个巨大的潜在性能提升。

Ponte Vecchio上的每个Xe-core还包含一个512KB的L1缓存,这与消费级gpu相比是相当大的。所有的xe核在一个切片功能下,在一个单一的硬件环境。但这仍然只是切片水平。

图1 / 3

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图2 / 3

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图3中的3

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)

Xe HPC的主计算核心分为四块,由一个巨大的144MB L2缓存和内存结构连接在一起,有8个Xe Link连接器,4个HBM2e堆栈和一个媒体引擎。但英特尔还没有完成,因为Xe HPC也可以作为2堆栈配置,通过EMIB连接到一起,使所有这些值翻倍。

Xe Link是Xe HPC的重要组成部分,在多gpu配置之间提供高速一致的统一fabric。它可以在2路、4路、6路和8路拓扑中使用,每个GPU直接链接到每一个其他GPU。把它们放在一起,你就得到了一个巨大的计算量!

(图片来源:Tom’s Hardware)

英特尔还没有透露时钟速度,但我们预计每个时钟最高可达32,768个FP64操作。假设它运行速度介于1.0和2.0 GHz,这意味着任何地方从8.2到16.4 TFLOPS FP64计算单个Xe HPC GPU,和一群131 TFLOPS 8,把我们带到了第二个话题,旧桥,产品化Xe HPC的现实。

图1 (9)

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图2 (9)

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图3 (9)

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图4 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图5 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图6 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图7 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图8 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)
图9 / 9

Intel Ponte Vecchio和Xe HPC架构

(图片来源:英特尔)

维奇奥桥将是包装和集成的重要一步。整个SOC由超过1000亿个晶体管组成,分布在47个活动磁片上,由5个不同的工艺节点制造。这都是通过英特尔的3D芯片堆叠技术实现的。我们之前已经介绍了很多细节,但这对英特尔来说仍然是一个令人印象深刻的杰作。

维琪奥桥的核心计算瓦将使用台积电的N5工艺制造,每个芯片有8个x核。这些链接到一个Intel fooveros基块(构建在新命名的Intel 7进程上),它还包含Rambo缓存、HBM2e和一个作为PCIeGen5接口。Xe Link采用的是台积电N7芯片。

(图片来源:英特尔)

英特尔已经有A0硅(基本上是早期硅,尚未最终生产),在FP32上运行超过45 TFLOPS, HBM2e带宽超过5TBps。连接速度也超过了2TBps。

(图片来源:英特尔)

Aurora超级计算机将运行在6路配置中,使用Xe Links将东西连接在一起,你可以在上面的Aurora Blade中看到。它还配备了两个蓝宝石Rapids处理器——当然,所有处理器都是液冷的,以保持运行的凉爽。

显然,这不会是我们最后一次见到维琪奥桥。凭借其强大的性能和功能,加上可扩展到数百或数千个节点的设计,庞特维奇奥桥无疑将在未来几年出现在更多的安装中。这也是Xe HPC硬件的第一轮,未来还会有更多的迭代,提供更多的性能和功能。

震动沃尔顿

jared Walton(高级编辑)对电脑的热爱可以追溯到黑暗时代,当时他的父亲带回家一台DOS 2.3 PC,而他却留下了自己的C-64电脑。他最终在1990年用286 12MHz建造了他的第一台定制PC,但当几个月后Wing Commander发布时,他发现它已经过时了。他拥有杨百翰大学(Brigham Young University)的计算机科学学士学位,自2004年以来一直担任技术记者,为AnandTech、Maximum PC和PC Gamer撰写文章。从第一个S3 Virge的“3D减速器”到今天的gpu, Jarred紧跟所有最新的图像趋势,是一个询问游戏性能的人。

  • Intel999
    也许,如果维琪奥桥在2018年就准备好了,也就是它应该准备好的时候,它就会运送第一台百亿亿次级计算机。

    然而,由于AMD证实MI200加速器在第二季度开始出货,用于百亿亿次级计算机,看来庞特维奇奥可能会出现在第二台百亿亿次级计算机上,而且仍然比第一代慢。

    “第一台百亿亿次级计算机”的评论可能来自英特尔的旧宣传手册。这整篇文章听起来就像是英特尔的反话。

    如果你要吹嘘英特尔的8路GPU与GPU连接,为什么不将FP64、BF16等性能与英伟达已经上市两年的8路通信GPU进行比较呢?等到庞特维奇奥上市的时候,英伟达的选择已经过时3年了。更糟糕的是,英伟达将推出一个更新版本。

    典型的英特尔,看看我们!也许在未来。
    回复
  • JayNor
    奇怪的是,Xe-Link负责今天演讲的连贯性。我记得讨论过CXL保持一致性是一个特性,但是今天没有讨论CXL。
    回复
  • waltc3
    让我们希望英特尔不会尝试和纹理作为PCIe总线作为i7xx gpu与纹理蹒跚在AGP总线——如果是这样,那么这些不会产生真正的竞争(与3 dfx i7xx gpu不是竞争或nVidia gpu,谁都变形从他们更快的板载内存)。这是在开玩笑,因为我真的不希望英特尔再犯这样一个根本性的错误,但我认为这确实值得评论。
    回复