跳过主要内容

AMD Big Navi和RDNA 2 GPU:我们所知道的一切

AMD RDNA2架构
(图片来源:AMD)

AMD大Navi, RX 6000, Navi 2x, RDNA 2。不管名字是什么,AMD最新的gpu承诺会有巨大的性能和效率提升,并在光线追踪支持方面与Nvidia不相上下。红队终于在我们的比赛中发起了激烈的竞争GPU基准层次结构,并提供了几个最好的显卡,和那个英伟达安培架构

AMD正式推出了Big Navi包括RX 6900 XT、RTX 6800 XT和RTX 6800规格。的Radeon Rx 6800 XT和RX 6800首先发射,然后是Radeon RX 6900 XT.在2021年3月,AMD发布了Radeon RX 6700 XT,以及最近的Radeon RX 6600 XT.到目前为止,我们还没有看到一个精简的Navi 22变体(移动设备除外),AMD选择了创建Navi 23,这是迄今为止最小的“大Navi”GPU,其大小不到Navi 21的一半。我们已经用修改后的细节更新了这篇文章,尽管未来仍有RDNA2产品有待公布。

根据我们所看到的情况,Big Navi终于将AMD置于高位图形卡功耗在它后面。至少,Big Navi并不比Nvidia的RTX 30系列卡差,因为3080和3090是Nvidia有史以来单gpu最高的tdp。让我们从顶部开始,使用RX 6000 / Big Navi / Navi 2x的新RDNA2架构。以下是我们对AMD Big Navi的了解,包括RDNA 2架构、规格、性能、价格和可用性。

大Navi / RDNA2一览

  • 最多80°CUS / 5120着色器
  • 每瓦性能提高50%
  • 11月18日发布(RX 6800系列)和12月8日发布(RX 6900 XT)
  • RX 6600 XT至RX 6900 XT的定价为379至999美元
  • 完全DirectX 12的终极支持

(图片来源:AMD)

大Navi中的RDNA2体系结构

每一代gpu都是由一个核心架构构建而成的,而且每个架构都对上一代gpu进行了改进。这是一个永远不会结束的迭代和添加过程。AMD的GCN架构从2012年的HD 7000卡的第一代到2017-2019年的Vega和Radeon VII卡的第五代。为AMD RX 5000系列gpu提供动力的RDNA架构于2019年年中发布,在效率和整体性能方面带来了重大改进。在2020年底,RDNA2加倍致力于这些改进。

首先,a快速回顾RDNA 1正常。RDNA 1对GCN的最大变化涉及资源的重新分配和指令处理方式的改变。在某些方面,RDNA似乎与GCN没有太大区别。指令集是相同的,但这些指令的调度和执行方式有所改进。RDNA还增加了对原始着色器,存在于Vega GCN体系结构中,由于复杂性而从未启用。

也许最值得注意的更新是wave - fronte(执行的核心工作单元)已经从64线程宽(包含4个SIMD16执行单元)变成了32线程宽(包含一个SIMD32执行单元)。SIMD是单指令多数据;它是一个向量处理元素,用于优化需要在大块数据上运行相同指令的工作负载,这在图形工作负载中很常见。

这种波前尺寸与SIMD尺寸的匹配有助于提高效率。GCN每四个周期发出一条指令;RDNA在每个周期发出一条指令。GCN使用64个线程的波前(工作项目);RDNA支持32和64线程波阵面。GCN拥有64个GPU内核的计算单元(CU), 4个纹理映射单元(tmu)和内存访问逻辑。RDNA实现了一个新的工作组处理器(WGP),它由两个CU组成,每个CU仍然提供相同的64个GPU核和4个tmu加上内存访问逻辑。

当涉及到实际的性能和效率时,这些变化有多重要?最能说明这一点的是另外七世,AMD最后一款GCN GPU,并将其与RX 5700 XT.Radeon VII拥有60辆CU,3840 GPU核心,16GB的HBM2内存,带宽1 Tbps,GPU时钟速度高达1750 MHz,以及13.8 TFLOPS的理论峰值性能等级。RX 5700 XT有40辆CUS,2560 GPU核心,8GB GDDR6内存,带宽448 Gbps,以及高达1905 MHz的时钟,峰值性能为9.75 TFLOPS。

理论上,Radeon VII看起来应该会轻松取胜。实际上,在我们测试的十几款游戏中,RX 5700 XT在1080p游戏时略快,在1440p游戏时略慢。只有在4K模式下,Radeon VII才有7%的领先优势,这无疑得益于其内存带宽。总的来说,Radeon VII只有1-2%的性能优势,但它使用300W,而RX 5700 XT的225W。

简而言之,AMD能够提供与上一代大致相同的性能,内核减少了三分之一,内存带宽不到一半,功耗减少了25%。这是一个非常令人印象深刻的展示,虽然台积电的7纳米FinFET制造工艺肯定有一定的功劳(特别是在功率方面),性能的提升主要归功于RDNA架构。

(图片来源:AMD)

这是很多关于RDNA的讨论,但它很重要,因为RDNA2通过几个主要的新添加将所有这些都向前推进。首先是支持光线追踪,可变速率着色(VRS),以及其他一切DirectX 12终极规范.另一个大的增加是,字面上,大:一个128MB的无限缓存,帮助优化内存带宽和延迟。(Navi 22有一个96MB的无限缓存,而Navi 23有一个32MB的无限缓存。)

在架构上还有其他一些调整,但AMD在大Navi / RDNA2 / Navi 2x每瓦性能方面做了一些大的声明。具体来说,AMD说RDNA2将提供50%以上的性能每瓦与RDNA 1相比,这是一个巨大的跳跃——与RDNA 1相对于GCN看到的相同的巨大跳跃。更重要的是,AMD基本上成功了。最终,RX 6600 XT的整体性能略高于RX 5700 XT,而耗电量减少了30%。另外,RX 6700 XT与RX 5700 XT拥有相同的40 CUs,在耗电量相同的情况下,其速度比旧卡快约30%。

RDNA2的另一个主要变化涉及调整整个GPU管道以达到更高的时钟速度。上一代AMD GPU的运行时钟往往比Nvidia的低得多,当RDNA开始缩小差距时,RDNA2以我们在GPU上见过的最快时钟翻过了Nvidia。整个RX 6000范围内的游戏时钟都在2.1GHz以上,RX 6700 XT和RX 6600 XT等卡在游戏时的平均速度约为2.5GHz。时钟速度并不是一切,但在其他条件相同的情况下,时钟越高越好,典型时钟中>20%的提升在我们看到的RDNA2与RDNAGPU的性能改进中占了很大一部分。

图1/3

AMD RDNA2架构

(图片来源:AMD)
图2/3

AMD RDNA2架构

(图片来源:AMD)
图3中的3

AMD RDNA2架构

(图片来源:AMD)

RDNA2/Big Navi/RX 6000 GPU通过DirectX 12 Ultimate或VulkanRT支持光线跟踪。这使AMD的功能与Nvidia不相上下。AMD使用与Nvidia相同的BVH方法进行光线跟踪计算(因为它是API的一部分,所以必须这样做)。如果您不熟悉术语BVH,它表示边界体积层次,用于高效地查找光线和三角形交点;您可以在我们的Nvidia的图灵架构及其射线跟踪算法。

AMD的RDNA2芯片每个CU包含一个Ray Accelerator,这与英伟达的RT内核类似。尽管AMD采取了与英伟达相同的策略,但AMD和英伟达之间的对比并不明显。BVH算法既依赖于射线/框交计算,也依赖于射线/三角形交计算。AMD的RDNA2架构每个时钟每个CU可以做4个射线/盒交叉,或者每个时钟每个CU可以做1个射线/三角形交叉。

根据我们的理解,英伟达的安培架构每个时钟每个RT核心最多可以实现两个射线/三角形交叉,外加一些额外的功能,但不清楚射线/盒速率是多少。在测试中,大Navi RT的性能通常无法与安培匹配,但它通常可以跟上图灵RT的性能。这可能是由于安培的RT核心在每个时钟上做更多的射线/盒和射线/三角形交叉。

大Navi模具射击,Navi 21

AMD渲染Navi 21芯片的图像。无限缓存是GPU内核上方和下方的绿色区域。 (图片来源:AMD)

无限缓存可能是最有趣的变化。通过包含一个巨大的128MB缓存(L3,但带有AMD品牌),AMD应该能够保持基本所有的framebuffer缓存,以及z-buffer和一些最近的纹理。这将大大减少内存带宽的使用和延迟,AMD声称无限缓存允许相对温和的GDDR6 16gbps内存提供比原始数据高2.17倍的有效带宽。

无限缓存也有助于光线追踪计算。我们已经在英伟达的gpu上看到,内存带宽会影响像RTX 2060这样的低端卡的RT性能,但这也可能是内存延迟的原因。我们不能在RT上测试AMD大Navi的性能没有然而,我们所知道的是RT的性能往往落后于Nvidia。

无限缓存向下传播到底层RDNA2芯片,但容量不同。128MB是非常大的,根据AMD对该芯片的图像,它大约占Navi 21芯片总面积的17%。相比之下,CUs仅占芯片面积的31%,内存控制器、纹理单元、视频控制器、视频编码器/解码器硬件和其他元素占据了芯片的其余部分。Navi 22和Navi 23有更低的CU计数,以及更少的无限缓存。Navi 22有一个96MB的L3缓存,而Navi 23将其削减到只有32MB。有趣的是,即使只有四分之一的无限缓存,RX 6600 XT仍然在1080p和1440p的性能上超过了RX 5700 XT,尽管其原始带宽要低43%。

AMD和英伟达的一个巨大区别是,英伟达在其安培和图灵架构中也有张量核,用于深度学习和人工智能计算dls(深度学习超级抽样)。AMD没有张核心等价物,虽然它FidelityFX超分辨率确实提供了一些类似的功能,并且适用于任何GPU。与此同时,英特尔的未来电弧炼金术士建筑也将有张量处理元素,XeSS将有一个使用DP4a代码在其他gpu上运行的后退模式。

AMD已经拥有多个Navi 2x产品,尽管可能仍然可能发生更多的变体。RDNA2架构也用于一些即将推出的智能手机芯片三星Exynos 2100在美国,可能没有任何无限缓存,而且在性能方面有非常不同的功能。目前,AMD的RX 6000卡已经跨越了中档到极限性能的范畴,但即使是最低的RX 6600 XT也仍然是高端价格。

(图片来源:AMD)

RX 6000 / Big Navi / Navi 2x规格

它负责所有核心架构更改。现在让我们把所有这些放在一起,看看目前宣布的RDNA2 / RX 6000 / Big Navi gpu。当涉及到CUs和着色器时,AMD基本上在Navi 10上增加了一倍,在最大的Navi 21 GPU上将两者的数量都增加了两倍。与此同时,Navi 10相对较小,只有251毫米见方,而Big Navi的最大尺寸是它的两倍多。我们将包括RX 5700 XT和Navi 10在下面的规格表中作为参考点。

AMD Radeon RX 6000/Big Navi/Navi 2x规格
显卡 RX 6900 XT RX 6800 XT RX 6800 RX 6700 XT RX 6600 XT RX 5700 XT
体系结构 纳21 纳21 纳21 纳22 纳23 纳10
制程技术 台积电N7 台积电N7 台积电N7 台积电N7 台积电N7 台积电N7
晶体管(十亿) 26.8 26.8 26.8 17.2 11.1 10.3
模大小(毫米^ 2) 519 519 519 336 237 251
他因 80 72 60 40 32 40
GPU核心 5120 4608 3840 2560 2048 2560
雷加速器 80 72 60 40 32 N/A
基本时钟(MHz) 1825 1825 1700 2321 1968 1605
提高时钟(MHz) 2250 2250 2105 2581 2589 1755
VRAM速度(Gbps) 16 16 16 16 16 14
VRAM (GB) 16 16 16 12 8 8
VRAM总线宽度 256 256 256 192 128 256
罗普 128 128 96 64 64 64
材质贴图单元 320 288 240 160 128 160
TFLOPS FP32(提高) 23 20.7 16.2 13.2 10.6 9
带宽(GBps) 512 512 512 384 256 448
TDP(瓦特) 300 300 250 230 230 225.
发布日期 2020年12月 2020年11月 2020年11月 2021年3月 2021年8月 2019年7月
发行价 999美元 649美元 579美元 479美元 $379 399美元

最高规格的部件都使用相同的Navi 21 GPU,只是启用的功能单元数量不同。Navi 21有80 CUs和5120 GPU内核,是RX 5700 XT中使用的上一代Navi 10的两倍多(519mm square)。但是大芯片意味着低产量,所以AMD也有72和60单位的部件。

Radeon RX 6900 XT的出货量似乎更有限,但所有的RDNA2 gpu (RX 6700 XT和RX 6600 XT可能除外)都很难获得。看看我们的GPU价格指数你可以看到在过去的几个月里,每一张卡片在eBay上卖出(转售)了多少。简短的总结是,Nvidia RTX 30系列gpu的销量要高得多。

有趣的是模具尺寸和其他特征是如何排列的。大Navi / RDNA2增加了对射线跟踪和其他DX12的终极特性的支持,这需要相当多的晶体管。非常大的无限缓存也将占用大量的die区域,但它也有助于克服潜在的带宽限制,因为在Navi 21上有点窄的256位总线宽度。最终,Navi 23的模具比Navi 10略小,但具有相似的性能和额外的新功能。

除了已经发布的卡片,我们还可以注意到一些仍然存在的缺口。RX 6700 XT仍然是唯一的卡使用Navi 22(除了一些移动版本),并且RX 6600 XT是目前唯一的卡使用Navi 23。我们可能会在未来看到更多的卡模型,比如非xt RX 6600,甚至可能是RX 6700,但AMD可能会等到其gpu和其他组件的供应改善后再尝试推出更多卡。

纳10

(图片来源:AMD)

RDNA2真正让人印象深刻的是它的无限缓存。AMD不仅为不同的型号提供了大量的VRAM(好吧,除了RX 6600 XT,这款8GB的RX 380美元卡感觉有点薄),而且无限缓存确实有助于提高真实世界的性能。以RTX 6700 XT为例,它的带宽比RTX 3060 Ti要少,但在游戏性能上仍然与RTX 3080保持一致,RX 6800 XT与RTX 3080也是如此。

在某些情况下,我们可能还会看到RX 6500 XT,尽管在这一点上追求较低层次的GPU可能不值得。如果有一个6GB的96位接口的卡和一个32MB的无限缓存会很有趣,但除非AMD能以低于200美元的价格生产和销售这样的卡,我们不会特别感兴趣。

至于真正预算的Navi 2x卡,还没有人发布任何真实的信息。在接下来的一年里可能会有Navi 24或者其他什么,最大只有20-24个CUs。这将使它达到Xbox系列S的水平,在这点上我们不确定是否真的值得包括射线追踪支持。不过,我们还得看看接下来几个月的发展情况,因为1080p和FSR可能会在这样的GPU上运行良好。

大Navi / Navi 2倍性能

图1/3

AMD Big Navi vs.Nvidia安培性能图表

(图片来源:Tom’s Hardware)
图2/3

AMD Big Navi vs.Nvidia安培性能图表

(图片来源:Tom’s Hardware)
图3中的3

AMD Big Navi vs.Nvidia安培性能图表

(图片来源:Tom’s Hardware)

随着正式发布的完成,我们已经使用我们自己的13款游戏套件创建了上述图表,这些游戏以三种分辨率运行。所有测试都是在CoreI9-9900K设置上完成的,BIOS上启用了可调整大小的条支持。RDNA2和RX6000卡在光栅化游戏中的性能非常好,但AMD在光线跟踪工作负载方面通常无法与之竞争。

在顶部,RX 6900 XT上升对抗RTX 3090和RTX 3080 Ti。AMD领先于1080p,这是Infinity Cache的最大优势,而3090领先于1440p和3080 Ti也领先于AMD最好的4K。RX 6800 XT同时取下RTX 3080, RX 6800击败RTX 3070 Ti。进一步下降的图表,RX 6700之间的RTX 3060 Ti和RTX 3070,和RX 6600 XT一般击败了RTX 3060(除了4K)。

当然,这只是在传统的栅格化游戏中。我们使用了支持光线追踪的不同游戏套件,并为过去一年的主要GPU发布运行了基准测试。这10款游戏与RX 6600 XT的发布评论相同(光明记忆无限控制2077年网络朋客污垢5.FortniteGodfall地铁外流我的世界古墓丽影看狗军团).以下是1440p和1080p的整体总结图表,原生运行(没有DLSS)。

图1/2

AMD Big Navi vs.Nvidia安培射线跟踪性能图表

(图片来源:Tom’s Hardware)
图2中的图2

AMD Big Navi vs.Nvidia安培射线跟踪性能图表

(图片来源:Tom’s Hardware)

那个对AMD来说不太好。当然,有几个游戏(Godfall污垢5.),其中AMD的性能更接近我们在早期栅格化性能图表中看到的。然而,这些游戏只使用了一种RT效果,光线跟踪阴影,坦白地说,图像质量的差异是非常小的,就像在古墓丽影.另外,这是两款AMD的促销游戏Godfall至少有一些值得怀疑的设计决策(例如,它在小于12GB的VRAM下运行得很差)。

随着更多RT效果的使用,英伟达的安培gpu往往会扩大其性能优势。在我们的RT测试套件中,RX 6900 XT是最快的RDNA2卡,它最终只是稍微领先于RTX 3070 Ti,而RX 6800 XT仅落后于RTX 3070 Ti。RX 6800现在在RTX 3070和RTX 3060 Ti之间,和RX 6700 XT跟踪RTX 3060 Ti和来在RTX 3060的10%左右。与此同时,RX 6600 XT显然也有问题,要么是由于缺少VRAM,要么是由于无穷大缓存较小,或者可能是由于驱动程序——或者可能是由于以上所有原因。我们以后会再讨论这个问题的,也许就一次Windows 11被释放。

大Navi和RX 6000的总结

图1 (18)

AMD RDNA2架构

(图片来源:AMD)
图2 (18)

AMD RDNA2架构

(图片来源:AMD)
图3 (18)

AMD RDNA2架构

(图片来源:AMD)
图4 (18)

AMD RDNA2架构

(图片来源:AMD)
图5 (18)

AMD RDNA2架构

(图片来源:AMD)
图6 (18)

AMD RDNA2架构

(图片来源:AMD)
图7/18

AMD RDNA2架构

(图片来源:AMD)
图8/18

AMD RDNA2架构

(图片来源:AMD)
图9 (18)

AMD RDNA2架构

(图片来源:AMD)
图10 (18)

AMD RDNA2架构

(图片来源:AMD)
图18中的图11

AMD RDNA2架构

(图片来源:AMD)
图12 / 18

AMD RDNA2架构

(图片来源:AMD)
图13 / 18

AMD RDNA2架构

(图片来源:AMD)
图14/18

AMD RDNA2架构

(图片来源:AMD)
图15/18

AMD RDNA2架构

(图片来源:AMD)
图16/18

AMD RDNA2架构

(图片来源:AMD)
图17 / 18

AMD RDNA2架构

(图片来源:AMD)
图18中的18

AMD RDNA2架构

(图片来源:AMD)

AMD在热筹码2021中提供了更深入的潜水进入RDNA2架构。我们在最新更新中使用了几个幻灯片,但全套套件是在上面的库中供参考。

AMD在Big Navi、RDNA2和Radeon RX 6000系列上有很多优势。在过去几代中,AMD一直是Nvidia的第二梯队,现在,AMD正在向高端进军。不过,AMD需要担心的不仅仅是PC图形卡。RDNA2是为下一代控制台提供动力的GPU体系结构,而下一代控制台的寿命往往更长比PC显卡的保质期更长。看看PS4和Xbox One:它们都是在2013年底推出的,至今仍在使用。

如果你希望AMD在所有游戏和渲染api上取得明显的胜利,那就没有实现。大Navi在很多情况下表现很好,但通过光线追踪,它看起来很平庸。在今天,不使用光线追踪的游戏的更高性能可能更重要,但一两年后,情况可能会发生改变。然而,主机有AMD的gpu,更有可能看到AMD特定的优化,所以AMD还没有停止运行。

不过,与性能和价格一样重要的是,我们需要出售实际的卡。显然,市场对新性能水平的需求很大,到目前为止,每一个安培GPU和Big Navi GPU在产品上市时就已经售罄。可悲的是,可分配的硅只有这么多。三星显然无法满足对安培gpu的需求,而台积电有更多的需求——它每个月只能生产这么多N7芯片!基于我们在GPU价格指数和最新的蒸汽硬件调查,Nvidia销售的安培GPU数量可能是AMD销售RDNA2卡数量的十倍。

底线是,如果你正在寻找一个新的高端显卡,大Navi是一个很好的竞争对手。但如果你想要在4K和60帧每秒的最大设置下运行每款游戏,即使是光线追踪?即使是RTX 3090也无法做到这一点,这意味着即使我们在当前所有gpu上都存在短缺,我们已经在展望未来的下一代gpu了。

救救我们,Lovelace和RDNA3。你是我们唯一的希望!值得庆幸的是,Ethereum矿业明年将不再是一个东西(尽管一个不同的硬币可能取而代之)。

震动沃尔顿

jared Walton(高级编辑)对电脑的热爱可以追溯到黑暗时代,当时他的父亲带回家一台DOS 2.3 PC,而他却留下了自己的C-64电脑。他最终在1990年用286 12MHz建造了他的第一台定制PC,但当几个月后Wing Commander发布时,他发现它已经过时了。他拥有杨百翰大学(Brigham Young University)的计算机科学学士学位,自2004年以来一直担任技术记者,为AnandTech、Maximum PC和PC Gamer撰写文章。从第一个S3 Virge的“3D减速器”到今天的gpu, Jarred紧跟所有最新的图像趋势,是一个询问游戏性能的人。

127条评论 来自论坛的评论
  • animalosity
    除非我的数学是错的;80个计算单元* 96个光栅运算* 1600 Mhz时钟= 12.28 TFLOPS of single precision floating point (FP32)。

    不坏AMD。不坏。让我们看看在现实世界中会发生什么,不过随着DX12的进步和Vulkan的实现,我预计AMD将与高端英伟达处于一个更加平等的竞争环境中。我可能倾向于回到红队,特别是如果价格合适的话。
    回复
  • JarredWaltonGPU
    animalosity说过:
    除非我的数学是错的;80个计算单元* 96个光栅运算* 1600 Mhz时钟= 12.28 TFLOPS of single precision floating point (FP32)。

    不坏AMD。不坏。让我们看看在现实世界中会发生什么,不过随着DX12的进步和Vulkan的实现,我预计AMD将与高端英伟达处于一个更加平等的竞争环境中。我可能倾向于回到红队,特别是如果价格合适的话。
    你的数学错了。:-)

    FLOPS简单地说就是每秒FP操作。它是按照“最佳情况”计算的,所以FMA指令(融合乘加)算作两个操作,而AMD和Nvidia GPU的每个核心在每个时钟上可以做一个FMA(峰值理论性能)。FLOPS的结果是:
    GPU核心2 *时钟

    表:
    80 CUs * 64 cores/CU * 2 * clock (1600 MHz) = 16,384 GFLOPS。

    罗普和材质贴图单元和其他一些功能元素的gpu可能做那种看起来像一个FP操作工作,但他们并不是可编程或访问一样罗普的gpu,所以任何指令运行或材质贴图单元通常不算作FP32性能的一部分。
    回复
  • animalosity
    JarredWaltonGPU说过:
    你的数学错了。:)

    FLOPS简单地说就是每秒FP操作。它是按照“最佳情况”计算的,所以FMA指令(融合乘加)算作两个操作,而AMD和Nvidia GPU的每个核心在每个时钟上可以做一个FMA(峰值理论性能)。FLOPS的结果是:
    GPU核心2 *时钟

    表:
    80 CUs * 64 cores/CU * 2 * clock (1600 MHz) = 16,384 GFLOPS。

    啊,是的,我知道我忘记了纹理映射单位。谢谢你的纠正。我想你说的是16.3 TFLOPS或者GigaFLOPS。我知道你想表达什么。不管怎样,这些都是相当令人印象深刻的理论计算性能。很高兴看到这将如何转化为现实世界的性能,而不是一些无意义的综合基准测试。
    回复
  • JamesSneed
    说到FLOPS,我们还应该注意到AMD掏空了大部分GCN,特别是那些帮助计算的部分。我完全期待同样数量的FLOPS从这个架构转换成更多的FPS,因为他们不再制作普通游戏和计算GPU,而是专门的游戏GPU。
    回复
  • JarredWaltonGPU
    animalosity说过:
    啊,是的,我知道我忘记了纹理映射单位。谢谢你的纠正。我想你说的是16.3 TFLOPS或者GigaFLOPS。我知道你想表达什么。不管怎样,这些都是相当令人印象深刻的理论计算性能。很高兴看到这将如何转化为现实世界的性能,而不是一些无意义的综合基准测试。
    16384 GFLOPS和16.384 TFLOPS是一样的。我更喜欢GFLOPS稍微高一点的精度,而不是舍入到最近的0.1 TFLOPS,但如果你想走那条路,它将是16.4 TFLOPS。
    回复
  • JarredWaltonGPU
    JamesSneed说过:
    说到FLOPS,我们还应该注意到AMD掏空了大部分GCN,特别是那些帮助计算的部分。我完全期待同样数量的FLOPS从这个架构转换成更多的FPS,因为他们不再制作普通游戏和计算GPU,而是专门的游戏GPU。
    我不确定这是否完全正确。如果您正在编写高度优化的计算代码(不是游戏代码或通用代码),那么您应该能够相对接近理论计算性能。或者至少,GCN和Navi在理论计算中所占的比例应该是相对相似的。这意味着:

    Rx 5700 xt = 9,654 gflops
    RX Vega 64 = 12,665 GFLOPS
    Radeon VII = 13,824 GFLOPS

    对于使用更通用方法的游戏代码,新的双CU工作组处理器设计和从1 SIMD16(4周期延迟)到2 SIMD32(1周期延迟)的更改显然有帮助,因为RX 5700 XT在我所看到的每个测试中都很容易优于Vega 64。但如果计算量合适,Vega 64的速度仍应提高30%。同时,拥有80个CUs的Navi 21在纯计算方面至少比Vega 64快30%,而且可能比游戏中快得多。
    回复
  • JamesSneed
    JarredWaltonGPU说过:
    我不确定这是否完全正确。如果您正在编写高度优化的计算代码(不是游戏代码或通用代码),那么您应该能够相对接近理论计算性能。或者至少,GCN和Navi在理论计算中所占的比例应该是相对相似的。这意味着:

    Rx 5700 xt = 9,654 gflops
    RX Vega 64 = 12,665 GFLOPS
    Radeon VII = 13,824 GFLOPS

    对于使用更通用方法的游戏代码,新的双CU工作组处理器设计和从1 SIMD16(4周期延迟)到2 SIMD32(1周期延迟)的更改显然有帮助,因为RX 5700 XT在我所看到的每个测试中都很容易优于Vega 64。但如果计算量合适,Vega 64的速度仍应提高30%。同时,拥有80个CUs的Navi 21在纯计算方面至少比Vega 64快30%,而且可能比游戏中快得多。


    “与此同时,拥有80 CUs的Navi 21在纯计算方面的速度至少比Vega 64快30%,在游戏方面可能会比这个速度更快。”

    我想说的是,我们将在游戏中看到比失败告诉我们的更多的FPS。这不是一个失败是30%以上,所以我们可以期待更多的游戏性能,它不会是线性的这一次。
    回复
  • JarredWaltonGPU
    JamesSneed说过:
    “与此同时,拥有80 CUs的Navi 21在纯计算方面的速度至少比Vega 64快30%,在游戏方面可能会比这个速度更快。”

    我想说的是,我们将在游戏中看到比失败告诉我们的更多的FPS。这不是一个失败是30%以上,所以我们可以期待更多的游戏性能,它不会是线性的这一次。
    我同意这部分,尽管从你最初的帖子中并不清楚你是这么说的。具体来说,“AMD掏空了GCN的大部分,尤其是那些帮助计算的部分”这句话并不准确。AMD没有“内脏”任何东西——它增加了硬件,并重组了东西,以更好地利用硬件。最终,这会在几乎所有的工作负载中带来更好的表现。

    有趣的想法:
    如果AMD真的做了一个80 CU Navi 2x部件,接近我列出的规格,性能应该比RX 5700 XT大约高60%。考虑到RTX 2080 Ti只比RX 5700 XT快30%,这实际上是一个非常强大的GPU。我猜想首先会是一个数据中心的部分,如果它存在的话,也许AMD最终会有机会制造一个泰坦杀手。除了Nvidia可能会通过移动到7纳米并增加更多的核心而获得比图灵40-50%的性能提升,所以我想我们还是拭目以待吧。
    回复
  • 杰里米尤83
    JarredWaltonGPU说过:
    我同意这部分,尽管从你最初的帖子中并不清楚你是这么说的。具体来说,“AMD掏空了GCN的大部分,尤其是那些帮助计算的部分”这句话并不准确。AMD没有“内脏”任何东西——它增加了硬件,并重组了东西,以更好地利用硬件。最终,这会在几乎所有的工作负载中带来更好的表现。

    有趣的想法:
    如果AMD真的做了一个80 CU Navi 2x部件,接近我列出的规格,性能应该比RX 5700 XT大约高60%。考虑到RTX 2080 Ti只比RX 5700 XT快30%,这实际上是一个非常强大的GPU。我猜想首先会是一个数据中心的部分,如果它存在的话,也许AMD最终会有机会制造一个泰坦杀手。除了Nvidia可能会通过移动到7纳米并增加更多的核心而获得比图灵40-50%的性能提升,所以我想我们还是拭目以待吧。
    看看这些数字,如果AMD的性能/瓦数可信的话,他们可以得到一个150瓦的RX 5700XT性能部件。在GTX 1660的功率范围内拥有1440p的GPU将是一个杀手级产品。
    回复
  • JamesSneed
    我预计INT8的性能与RX5700XT相比不会有太大的变化。将看到,尽管他们确实需要处理光线追踪。
    回复