安培架构将为GeForce RTX 3090,GeForce RTX 3080,GeForce RTX 3070,以及其他即将推出的英伟达gpu。它代表了绿色团队的下一个重大升级,并承诺在性能上有一个巨大的飞跃。基于目前的细节(卡将在本月晚些时候和10月发布3070),这些gpu应该会很容易地移动到我们的顶部GPU的层次结构,敲了几下最好的显卡放低姿态。让我们深入了解关于Ampere架构的详细信息,包括规范、特性和其他性能增强。
[注:我们已经更新了有关CUDA内核及其如何影响性能的一些信息,提供了准确的管芯尺寸和晶体管计数,以及DLSS 2.1和光线跟踪改进的其他详细信息。]
安培架构标志着Nvidia的一个重要转折点。这是该公司首款7nm GPU,或用于消费类零件的8nm GPU。无论哪种方式,工艺收缩都允许将更多的晶体管封装到比以前更小的区域中。它也是第二个生成消费者射线追踪和第三生成深度学习硬件。较小的进程为英伟达提供了一个巨大的机会,从根本上改进以前的RTX 20系列硬件和技术。
我们知道安培架构将在即将到来的GeForce RTX 3090, RTX 3080和RTX 3070显卡中找到它的方式,我们预计明年看到RTX 3060和RTX 3050。这也是Nvidia A100数据中心gpu,这是一个完全独立的硬件类别。在这里,我们将分解安培架构的消费者和数据中心变体,并深入研究其中的一些差异。
Nvidia的安培GPU的发布感觉就像2016年的Pascal和2018年的图灵GPU的混合。英伟达首席执行官黄延森公布了专注于数据中心的A100在5月14日,让我们第一次正式体验了即将到来的东西,但A100不是为GeForce卡设计的。它是Volta GV100(取代了GP100)的替代品。消费型有一个不同的特性集,由独立的图形处理器(如GA102、GA104等)提供动力。消费卡也使用GDDR6X/GDDR6,而A100使用HBM2。
除了底层的GPU架构,英伟达还改进了核心显卡设计,重点关注冷却和功率。作为一个英伟达视频记录“每当我们谈论GPU性能时,这都取决于你能给予和消耗的能量越多,你就能获得越多的性能。”重新设计的冷却解决方案、风扇和PCB(印刷电路板)都是改善英伟达安培gpu整体性能的一部分。当然,第三方设计可以自由地偏离英伟达的设计。
随着台积电的12nm FinFET节点向台积电N7和三星8N节点的转变,许多人预计安培将在更低的功率水平上提供更好的性能。取而代之的是,英伟达把所有额外的晶体管和效率都拿走了,只是简单地提供更多的,至少在产品堆栈的顶部。例如GA100有540亿个晶体管和826平方毫米的模具尺寸。这比GV100增加了156%的晶体管数量,而芯片尺寸只增加了1.3%。消费级gpu也增加了晶体管数量,同时大大减少了模具尺寸。
虽然7nm/8nm的确可以在相同的性能下获得更好的效率,但它也可以在相同的功率下获得更高的性能。英伟达采取了中间路线,在更高的功率级别上提供更高的性能。V100是数据中心模型的300W部件,而新的Nvidia A100将其推到了400W。我们在消费者模型上也看到了同样的情况。GeForce RTX 2080 Ti是一个250/260W的部件,Titan RTX是一个280W的部件。RTX 3090带有350W单GPU的历史最高TDP(显然不包括A100),而RTX 3080拥有320W TDP。
这对最终用户意味着什么?除了可能需要升级电源和使用12-pin电源连接器在英伟达自己的机型上,这意味着一堆指标的性能。这是我能回忆起Nvidia在性能上最大的单代飞跃。结合架构上的更新(我们马上就会讲到),Nvidia表示RTX 3080已经具备了双RTX 2080的性能。如果这些工作量包括射线追踪和/或DLSS,那么差距可能会更大。
谢天谢地,取决于您希望如何比较定价,定价不会比上一代GPU差太多。GeForce RTX 3090将以1499美元的价格首次亮相,这是单GPU GeForce卡的纪录,有效地取代了Titan系列。与此同时,RTX 3080的售价为699美元,RTX 3070的售价为499美元,与上一代RTX 2080 Super和RTX 2070 Super的定价相同。安培结构是否证明了定价的合理性?我们还需要再等一段时间才能亲自测试硬件,但至少规格看起来非常有希望。
让我们快速解决效率问题。在他的演讲中,Jensen说安培的每瓦特性能是图灵的1.9倍。这听起来令人印象深刻,但这似乎更像是理论上的性能提升,而不是我们将在最初的gpu石板上看到的。
以RTX 3080为例。它拥有320W的TDP,比RTX 2080的215W TDP高出近50%。即使它的性能确实是RTX 2080的两倍,每瓦特的性能也只提高了35%。
Nvidia获得1.9X的数据不是基于fps/W,而是基于达到与Turing相同的性能水平所需的能量。如果你在某些未指定的游戏中使用图灵GPU并将性能限制在60帧/秒,而在安培上也这样做,Nvidia声称安培可以节省47%的电量。
这并不奇怪。我们已经在笔记本电脑上看到功耗有限的GPU设计很长时间了。例如,RTX 2080笔记本电脑可以从理论上讲时钟几乎和桌面部分一样高,但它们被限制在一个低得多的功率水平,这意味着实际的时钟和性能更低。当您接近设计的极限时,性能降低10%通常可以带来30%的效率提高。
AMD的R9 Nano是另一个例子,说明在功率和电压限制下,效率会严重下降。R9 Fury X是一款275W TDP部件,4096个着色器的频率为1050 MHz。R9 Nano采用了相同的4096个着色器,但最大频率为1000 MHz,并应用了175W TDP限制。在实际应用中,性能通常接近925MHz,但功率仍减少了三分之一。
Nvidia安培体系结构规范
除了用于数据中心的GA100,英伟达还将在2020年推出至少三款安培gpu。在接下来的一年里,可能会有多达3个额外的安培解决方案,尽管这些方案尚未得到确认(也不在这个表中)。下面是高层次的概述。
GPU | GA100 | GA102 | GA102 | GA104 |
显卡 | 英伟达A100 | GeForce RTX 3090 | GeForce RTX 3080 | GeForce RTX 3070 |
过程(nm) | 台积电N7 | 三星8N | 三星8N | 三星8N |
晶体管(十亿) | 54 | 28.3 | 28.3 | 17.4 |
模大小(毫米^ 2) | 826 | 628.4 | 628.4 | 392.5 |
GPC配置 | 8乘16 | 7x12 | 6 x12 | 6×8 |
短信 | 108 | 82 | 68 | 46 |
CUDA核心 | 6912 | 10496 | 8704 | 5888 |
RT核 | 没有一个 | 82 | 68 | 46 |
张量核 | 432 | 328 | 272 | 184 |
提高时钟(MHz) | 1410 | 1700 | 1710 | 1730 |
VRAM速度(Gbps) | 2.43 | 19.5 (GDDR6X) | 19 (GDDR6X) | 14 (GDDR6) |
VRAM (GB) | 40(48马克斯) | 24 | 10 | 8 |
总线宽度 | 5120 (6144 max) | 384 | 320 | 256 |
ROPs | 128 | 112 | 96 | 96 |
材质贴图单元 | 864 | 656 | 544 | 368 |
GFLOPS FP32 | 19492 | 35686 | 29768 | 20372 |
RT TFLOPS | N/A | 69 | 58 | 40 |
张量TFLOPS FP16(稀疏性) | 312 (628) | 143 (285) | 119 (238) | 81 (163) |
带宽(GB / s) | 1555 | 936 | 760 | 448 |
真沸点(瓦特) | 作为PCIe) 400 (250 | 350 | 320 | 220 |
上市日期 | 2020年5月 | 2020年9月24日 | 2020年9月17日 | 2020年10月15日 |
推出价格 | $199K for DXG A100 (with 8xA100) | 1499美元 | 699美元 | 499美元 |
最大和最差的GPU是A100。它有多达128条短信和6个8GB的HBM2堆栈,其中只有108条短信和5个HBM2堆栈目前在Nvidia A100中启用。未来的版本可能会有完整的GPU和RAM配置。然而,GA100不会像之前的GP100和GV100一样,成为消费者的一部分,仅仅用于数据中心和工作站。如果没有射线追踪硬件,GA100作为GeForce卡是远远不可行的,更不用说巨大的芯片、HBM2和硅插入器的成本了。
英伟达转向了消费模式,并做出了一些重大改变。英伟达显然将每个SM的FP32 CUDA核数量增加了一倍,这导致了着色器性能的巨大提升。在GA102中,英伟达总共有7个GPC集群,每个集群有12条短信,最多配置84条短信。其中,82在RTX 3090中启用,而RTX 3080只有68启用。HBM2和硅插入器也消失了,取而代之的是24个GDDR6X芯片,每个芯片运行于3090的16位半宽接口上,或10个GDDR6X芯片运行于3080的32位接口上。
每SM两倍的CUDA核,相当于10496个CUDA核,每SM两个FP64 CUDA核。换句话说,FP64性能是FP32性能的1/64。英伟达去掉了FP64剩余的功能,取而代之的是增加了第二代RT核心。还有4个第三代张量核,每个都是前一代图灵张量核每时钟吞吐量的4倍。
1700 MHz的boost时钟提供FP32的潜在35.7 TFLOPS计算性能,19.5 Gbps的GDDR6X提供936 Gbps的带宽。如果这还不清楚,潜在的RTX 3090将有超过两倍的性能的RTX 2080 Ti。
考虑到RTX 3090几乎是一个完整的GA102芯片,现在没有太多的空间来做任何更快的事情。未来的泰坦卡会完全启用GA102吗?当然,但如果是在3090的时钟上,它只会快2.4%。也许21 Gbps的内存会有帮助,但实际上我们并没有看到英伟达为安培做泰坦卡。相反,RTX 3090是一款以用户为中心的性能非常出色的卡片,现在它面向第三方提供定制设计(不像上一代的Titan卡片)。
然而,这不仅仅是简单的CUDA核的两倍。具体来说,Nvidia针对消费级gpu的安培架构现在有一组CUDA核可以处理FP32和INT指令,另一组CUDA核只能处理FP32指令。
为了理解这是如何影响性能的,我们需要回到图灵架构,在这个架构中英伟达添加了并发FP32 + INT支持。如果你认为安培现在可以并行FP32 + FP32 + INT,那是不正确的。相反,它是并发FP32 + (FP32或INT)。这意味着,虽然理论上的TFLOPS大幅增加,但我们不会直接看到TFLOPS的游戏性能规模。
英伟达表示,在许多游戏中,大约35%的CUDA核心计算是整数工作负载。内存指针查找就是一个典型的例子。如果这个比例仍然保持不变,那么游戏中所有GPU计算的三分之一将是INT计算,这可能会占据SMs中FP32+INT部分的一半以上。
英伟达自己的业绩数据反映了这一点。相比RTX 3080和RTX 2080, RTX 3080的性能提高了2倍,但如果你只看TFLOPS, RTX 3080几乎是理论性能的3倍。但现实是,RTX 2080可以做FP32 + INT大约10万亿ops,而RTX 3080有近30万亿ops的FP32可用,只有15万亿ops的INT可用。使用上面提到的三分之二思想,这意味着它最终可能在一组核心上执行10个INT TOPS,在FP32核心上执行15+5个FP32 TFLOPS。
尽管计算性能仍然得到了巨大的提高,但同样需要注意的是,带宽并没有增长得那么多。RTX 3080具有三倍的FP32电位,1.5倍的INT电位,以及约1.5倍的带宽(确切地说,1.53X)。内存压缩方面的改进可能会提高有效带宽,但总的来说,我们可能永远不会看到FP32性能有近3倍的提高,除非有人能做一个纯粹的FP32理论测试。
令人惊讶的是,RTX 3080还使用了与3090相同的GA102芯片,只是这次启用了68条短信。Nvidia表示,安培的产量非常高,但显然其中的一部分是能够使用部分启用的GPU。这使得RTX 3080仍然具有令人印象深刻的8704 CUDA内核。两个内存通道也被禁用,为其提供10GB的GDDR6X内存。
与前几代不同,所有三个RTX 30系列gpu上的时钟相对相似:1700-1730MHz。在理论性能方面,RTX 3080可以做29.8 TFLOPS和760 GBps的带宽,Nvidia说两次与输出的RTX 2080一样快。
正如我们上面提到的,这并不完全合理。理论上,FP32的TFLOPS性能提高了近三倍,但FP32与FP32/INT在核心上的分离,以及内存带宽等其他元素,意味着总体上,FP32的性能将提高2倍。
RTX 3070切换到GA104 GPU,并继续相对于GA102进行微调。GA102有7个gpc,每个gpc有12条短信,GA104有6个gpc,每个gpc有8条短信,最多48条短信。RTX 3070,类似于3090,有两个短信禁用,以提高产量,留下46活跃短信和5888 CUDA核。当然,它的尺寸更小,晶体管数量也更少:174亿个晶体管和392.5mm方形模具尺寸。
与3090/3080不同,RTX 3070使用GDDR6,在256位总线上有8个通道,8GB内存。GA104是否同时支持GDDR6和GDDR6X?我们不知道。奇怪的是,GDDR6的内存速度保持在14Gbps,与图灵gpu相同,这意味着它可能在某些工作负载中遇到带宽瓶颈。然而,它也具有与3080相同的96 rop,比上一代RTX 2070 Super多50%的rop。RTX 3070将于10月15日发布,所以我们将在未来几天收到更多细节。
RTX 3070提供20.4 TFLOPS和448 GBps带宽。英伟达表示,RTX 3070最终也会比RTX 2080 Ti更快,尽管也有11GB vs. 8GB VRAM的情况,让前重量级冠军胜出。同样,体系结构增强肯定会有所帮助,因此,我们不再赘言,转而讨论Ampere体系结构。
英伟达GA100安培架构
与GA100和Nvidia A100公告GeForce RTX 30系列揭示了我们的背后,我们现在对预期有了一个很好的想法。Nvidia将继续拥有两条独立的GPU生产线,一条专注于数据中心和深度学习,另一条专注于图形和游戏。使用数据中心GA100所做的一些更改会传播到消费者产品线,但这不会扩展到针对FP64的tensor core增强功能。以下是我们对安培结构的了解,从GA100开始。
首先,GA100包在一个很多的新东西。在高水平上,GPU从GV100的80个SMs / 5120 CUDA核增加到GA100的128个SMs / 8192 CUDA核。这意味着核心数量增加了60%,而GA100使用的晶体管数量是GA100的2.56倍。所有这些额外的晶体管都用于架构增强。如果你想了解更多细节,可以去看看英伟达A100架构白皮书,我们在这里简单总结一下。
GA100的张量核心得到了最重要的升级。上一代GV100张量核心在两个4x4 FP16矩阵上操作,可以计算两个矩阵的4x4x4融合乘加(FMA),每个循环使用第三个矩阵。这相当于每个张量核心每个周期128个浮点运算,Nvidia为FP16的GV100设定了125 TFLOPS峰值吞吐量。
相比之下,GA100张量核可以在每个时钟完成8x4x8 FMA矩阵运算,这是每个张量核总共256 FMA或512 FP运算——吞吐量的4倍。即使每个SM有一半的张量核,它的性能仍然是每个SM的两倍。
GA100还增加了张量核的稀疏性支持。这个想法是,许多深度学习操作最终会得到一堆不再重要的加权值,所以随着训练的进行,这些值基本上可以被忽略。利用稀疏性,张量核心吞吐量有效地增加了一倍。Nvidia A100在FP16上的额定TFLOPS为312,但稀疏性为624 TFLOPS。
除了大幅提高原始吞吐量外,GA100张量核心还增加了对更低精度的INT8、INT4和二进制张量操作的支持。INT8允许624个TOPS, 1248个TOPS有稀疏性,而INT4则加倍到1248 / 2496个TOPS。二进制模式不支持稀疏性,可能使用有限,但A100可以在该模式下执行4992个TOPS。
另一方面,A100中的张量核心也支持FP64指令。在19.5 TFLOPS时,FP64的性能远低于FP16。但是,对于FP64工作负载,这仍然比GV100的最大FP64吞吐量快2.5倍。
最后,A100增加了两个新的浮点格式。BF16 (Bfloat16)已经被其他一些深度学习加速器使用(如谷歌的TPUv4)。它使用16位,就像FP16一样,但它使用8位指数和7位尾数,匹配FP32的8位指数范围,同时降低精度。这已经被证明可以提供比常规FP16格式更好的训练和模型精度。第二种格式是英伟达的张量浮点32 (TF32),它保持8位指数,但将尾数扩展到10位,将FP16的精度与FP32的范围相匹配。TF32的性能与FP16相同,所以深度学习模拟的额外精度基本上是“免费的”。
这是很多张量核心增强,这应该会告诉你Nvidia在GA100上的重点。深度学习和超级计算工作负载的性能得到了巨大的提升。GA100还有一些其他的架构更新,我们将在这里简要介绍。SM晶体管的数量增加了50-60%,所有这些晶体管都必须去别的地方。
多实例GPU (MIG)是一个新特性。这允许单个A100被划分为多达7个独立的虚拟gpu。每一个虚拟gpu(使用运行推断工作负载的张量操作)都可能匹配单个GV100的性能,极大地增加了云服务提供商的扩展机会。
每个SM的A100 L1缓存增加了50%,为192KB,而V100上为128KB。L2缓存增加得更多,从V100上的6MB增加到A100上的40MB。它还有一个新的分区交叉结构,提供了GV100 L2缓存2.3倍的读带宽。注意,总的HBM2内存“仅仅”从GV100上的16GB或32GB增加到GA100上的40GB,但是增加的L1和L2缓存有助于更好地优化内存性能。
NVLink的性能也几乎翻了一番,从GV100的25.78 Gbps到GA100的50gbps。A100中的单个NVLink在每个方向上提供25gbps,这与GV100类似,但每个链路的信号对只有GV100的一半。链路总数也增加了一倍,达到12条,与V100的300 GBps相比,A100的NVLink总带宽为600 GBps。还提供了PCIe Gen4支持,使x16连接的带宽几乎翻倍(从15.76 GBps到31.5 GBps)。
最后,A100添加了新的异步复制、异步屏障和任务图形加速。异步复制提高了内存带宽效率,降低了寄存器文件带宽,并且可以在SM执行其他工作时在后台完成。硬件加速屏障为CUDA开发者提供了更多的灵活性和性能,任务图加速有助于优化向GPU提交的工作。
还有其他架构增强,如NVJPG解码,加速JPG解码,以进行基于图像的算法的深度学习训练。A100包括一个5核硬件JPEG解码引擎,它可以胜过基于cpu的JPEG解码,并缓解PCIe拥塞。同样,A100增加了5个NVDEC (Nvidia Decode)单元,以加速常见视频流格式的解码,这有助于与视频相关的深度学习和推理应用程序的端到端吞吐量。
以上就是GA100和Nvidia A100架构,现在让我们进入消费型GeForce RTX卡的安培架构更改。
Nvidia GA102/GA104安培架构
与GV100相比,GA100做了大量的更改,消费者方面的更新也同样重要。上面对张量核心的许多更改都延续到了消费者模型中——当然是减去FP64的部分。GA102/GA104张量核仍然支持Bfloat16或Tfloat32操作,以及稀疏性(这里的零元素实际上被忽略)。然而,张量核是8x4x4,所以每安培张量核的性能仅是图灵张量核的两倍(并且在稀疏性下达到两倍)。
GA102还增加了对新的支持来自美光的GDDR6X内存.毫不奇怪,消费卡坚持使用GDDR6/GDDR6X而不是HBM2。GDDR6X实现PAM4信令,允许使用四数据速率。(当空闲时,它也可以在较低的速度下使用NRZ信号来节省电力。)
通过GA10x gpu,英伟达还在内存子系统中添加了EDR(错误检测和重放)技术。这意味着,如果内存子系统在传输中检测到错误,它将重试,直到成功传输发生。这对于超频特别有用,但这意味着实现更高的超频可能并不会真正提高性能。在某些情况下,EDR将发挥作用,并防止GPU由于内存错误而崩溃,但性能将下降。我们将在我们的评论中对此进行更多的研究。
随着tensor核和内存的升级,光线跟踪和CUDA核还有其他重大变化。让我们从光线跟踪开始。
2018年,Nvidia使用图灵体系结构和GeForce RTX 20系列GPU,在光线跟踪方面制造了大量噪音。两年后。。。老实说,游戏中的光线追踪并没有真正发挥它的潜力。战场上V最好反思,古墓丽影:暗影和使命的召唤得到改进的阴影,地铁出埃及记使用RT全局照明,在每个实例中,性能都急剧下降,在视觉上有一个相对较小的改进。到目前为止,关于光线追踪的最好例子是有争议的控制,这是一款使用RT效果进行反射、阴影和漫射照明的游戏。它看起来相当不错,但正如您可能预期的那样,性能影响仍然很大。
有多大?对于一个RTX 2080 Ti和19 - 9900 k的核心,运行控制在1440p和最高质量没有光线跟踪提供了80 fps的性能。(这是我们在本文中刚刚完成的测试。)打开所有的光线追踪功能,性能下降到43帧/秒——慢了47%,或者基本上是性能的一半。这是一个痛苦的惩罚,尽管你可以通过启用DLSS 2.0来缓解这一问题,它在质量模式下渲染为1707x960,并升级到1440p。这使性能回到了72帧每秒。
还有“全路径跟踪”的演示,其中硬件被进一步推进。以一款相对古老且低fi的游戏为例地震二世或我的世界,并为照明、阴影、反射、折射等添加完整的光线跟踪效果。此外,你可能会得到60帧/秒,而不是几百帧/秒——这是在启用DLSS的1080p RTX 2070 Super下,至少在最高质量。
如果你认为光线追踪效果造成的性能损失太大,而英伟达应该改变方向,那你就不是很了解这家公司了。GeForce 256是第一个GPU(根据Nvidia的说法),并将硬件转换和照明计算引入了消费硬件。大多数游戏都是在数年之后才开始正确使用这些功能。第一个带有着色器的gpu也比硬件的普遍使用早了几年,但今天几乎每款发布的游戏都广泛使用了着色器技术。英伟达认为射线追踪也是一个类似的步骤。
好消息是,安培体系结构的光线跟踪性能得到了极大的提升。Nvidia表示,RTX 3080可以进行58次TFLOPS的光线跟踪计算,而RTX 2080 Ti可以进行34次TFLOPS的光线跟踪计算。或者换句话说,它在光线跟踪中的速度快了1.7倍。
英伟达并没有详细说明它是如何计算RT TFLOPS的,但它说新的第二代RT核的速度是第一代核的两倍。RT性能的改进部分来自于向硬件添加额外的计算单元。英伟达特别谈到了改进的MIMD执行单元,以及三角形插值例程,允许在每条射线上不同的时间,这可以帮助实现运动模糊等功能。
Ampere还增加了对并发RT +图形工作负载或RT +计算的支持,这显著提高了整体射线跟踪性能。这是图灵的一个重要改进,现在安培gpu可以同时进行图形、RT和张量(DLSS)操作。
这对光线追踪游戏来说意味着什么?我们很快就会知道答案,但根据我们从Nvidia那里听到的消息,我们会看到更多游戏开发者增加光线追踪效果的量。2077年网络朋客将具有光线跟踪反射,阴影,环境遮挡,和更多。即将到来的FortniteRTX补丁也启用多种效果,包括光线跟踪反射,阴影,环境遮挡,和全局照明。类似地,我们将看到多重RT效应观察狗:军团和冷战中的使命召唤.
多亏了光线追踪硬件的改进,像游戏一样控制(或其他即将推出的游戏)可能能够在所有光线追踪效果启用的情况下运行,而不会显示出显著的性能下降,甚至在启用DLSS后相对于传统渲染的性能上升。我们将在未来关注这一点,以及与AMD的Big Navi相比,光线追踪性能如何。
英伟达也提供了上述指标玻璃球技术演示,使用全路径跟踪。一个未命名的图灵GPU (RTX 2080 Ti?)可以运行玻璃球720p和25帧/秒,没有景深,一个顶灯和一个间接灯。同时可以运行演示在1440p和30帧/秒,景深启用和130区域灯。无论实际使用的gpu是什么,都有可能出现一个全新的光线追踪技术。
当然,这不仅仅是光线追踪。英伟达也在DLSS上加倍努力,多亏了更强大的张量核心,质量和性能应该会比以前更好。我们已经接近DLSS 2.0在质量模式下看起来比使用TAA或SMAA的本地渲染更好的点(主要是因为TAA特别倾向于添加太多模糊)。不难想象,许多玩家会选择让DLSS获得健康的性能提升。
由于amere支持8K显示,多亏了HDMI 2.1, DLSS变得更加重要。什么样的硬件能够以接近合适的性能水平运行8K呢?这很简单:打开DLSS,使用RTX 3090或RTX 3080 4K渲染。除此之外,还有进一步发展的潜力。
英伟达有一组更新属于DLSS 2.1的保护伞。具体来说,这些改进包括一个8K游戏的“超性能模式”,可扩展到9X。这意味着8K DLSS可以渲染1440p和高级,而以前的DLSS性能模式只有4倍的放大(例如,1080p到4K,或4K到8K)。在VR模式中也支持DLSS, DLSS现在有一个动态缩放选项,所以它不需要从固定的分辨率升级。
DLSS 2.1升级真的是8K渲染吗?没有,但是这真的重要吗?当然,8K显示器仍然非常昂贵,如果你坐在沙发上,你几乎不可能真正察觉到4K和8K之间的区别。而且,如果你像我一样,视力越来越老,那就没有机会了。但家庭影院领域的营销力量很强大,所以我们肯定会看到8K电视的更大推动力——这就是消费电子公司试图说服所有4K HDR电视用户升级的方式。
另一个新功能是RTX IO,这是一种优化游戏资产和其他数据加载的方法。这似乎在某些方面与索尼谈到的PlayStation 5,或者微软的Velocity技术Xbox系列X.
英伟达的幻灯片特别提到了数据压缩的使用,并表示吞吐量有可能增加100倍,而CPU利用率却降低了20倍。它似乎也在利用,或者至少是支持,微软DirectStorage.实际上,将资产加载到GPU内存中可以绕过CPU,但这里有一些担忧和警告。
RTX IO特别提到使用PCIe Gen4 ssd,这将排除当前pc的绝大多数。它能和PCIe Gen3一起工作吗,SATA呢?这两种情况似乎都是可能的,但还不清楚在性能上的权衡会是什么样的。目前使用英特尔cpu的pc至少不支持PCIe Gen4,而且英特尔要到明年才会增加这一功能火箭湖和阿尔德湖的到来。使用X570或B550主板的AMD Zen 2用户可能会使用它,但到目前为止,这些cpu可能会限制RTX 30系列显卡的性能。
需要注意的一点是,RTX IO似乎是一项需要游戏开发者去执行的技术,所以它可能在一段时间内不会被广泛使用。我们也不知道在现实世界中它会对性能产生多大的影响。当然,资产加载速度可能会更快,但这通常会成为游戏的瓶颈吗?最后,如果RTX IO需要Nvidia的GPU(看起来很有可能),那么AMD用户就会被排除在外,所以游戏开发者可能更倾向于寻找一个独立的通用解决方案(DirectStorage),而不是采用RTX IO。
最后,让我们快速概述GA102/GA104上对Ampere架构的其余更改。英伟达已经将rop(光栅操作)从内存控制器转移到GPC集群,每个GPC有16个rop。这意味着GA102上的7个GPC集群给RTX 3090 112 ROPS,比2080 Ti多17%。对于RTX 3080,英伟达显然禁用了一个完整的GPC,给予96 rop。我们还没有GA104配置的细节,但我们假设Nvidia的目标是至少64 ROPS。
随着ROPs的变化,英伟达增加了L2缓存到512KB每个内存控制器,完整的GA102有12个控制器。这样,在3090上L2的总容量为6144KB,在3080上L2的总容量为5120KB。
也许比L2缓存更重要的是,Nvidia为每个SM添加了可配置的L1缓存:确切地说是128KB。这意味着在3090中有10496KB的L1缓存,在3080中有8704KB的L1缓存。相对于图灵,每个SM的L1 /共享内存增加了33%,显然,对于图形工作负载来说,数据缓存和共享内存增加了一倍。这应该会提高很多操作的延迟,L1缓存可以配置如下:
- 128kb L1 + 0kb共享内存
- 120kb L1 + 8kb共享内存
- 112 KB L1+16 KB共享内存
- 96kb L1 + 32kb共享内存
- 64kb L1 + 64kb共享内存
- 28kb L1 + 100kb共享内存
安培GA102/GA104 gpu也完全启用PCIe Gen4,尽管当然这意味着使用AMD X570板与Zen 2或更高的CPU…或者等待英特尔未来的Rocket Lake / Alder Lake cpu。
英伟达的视频解码器引擎(NVDEC)也进行了升级,现在支持AV1解码。AV1具有比H.264、HEVC、VP9更好的质量和压缩能力,被许多视频平台所采用。然而,它可能会导致高CPU利用率,这正是英伟达的AV1解码发挥作用的地方。安培的NVDEC可以在硬件上做8K60 AVI解码。另一方面,NVENC (Nvidia编码器)与图灵保持不变。
英伟达安培架构:光线追踪第二轮
毫无疑问,Nvidia RTX 20系列gpu的拥有者们现在会觉得自己被骗了。如果你没看到我们几个月前的建议等待购买新的GPU在Ampere发布之前,看到RTX 30系列规格和Ampere架构可能会更加痛苦。问题是,我们一直都知道这一天会到来。就像图灵取代了帕斯卡,而帕斯卡取代了麦克斯韦,麦克斯韦又取代了开普勒等等,GPU世界的稳步发展仍在继续。
也许更有趣的问题是英伟达的下一步走向。安培是全新的,但消费机型已经有点过时了。AMD使用台积电N7做cpu和gpu已经有一年多了,苹果使用N7芯片已经有两年了。台积电的N7晶圆供应基本已经分配到位,这导致英伟达选择三星8N,据我们所知,这是一种成本节约和供应措施。不过,如果英伟达明年推出安培后续产品,使用台积电N7或N7P,也不要感到惊讶。
回到当前的安培架构,仍然有很多值得喜欢的地方。如果你在过去的几年里一直对游戏中的光线追踪持怀疑态度,安培可能最终会说服你冒险。好吧,等你休息了几个月左右,看看会发生什么AMD的大纳并等待安培供电问题得到解决。事实上,我们将会看到更多游戏以某种形式支持光线追踪,特别是在下一代游戏中PlayStation 5和Xbox系列X定于今年秋季上市的游戏机。我们希望在游戏背后有足够的硬件力量来制作更多可行的射线追踪效果。
有一件事是肯定的:光线追踪不会消失。它几乎已经成为每一部电影的主要组成部分,虽然游戏还不能与2020年的好莱坞电影相匹敌,但它们可能会追赶2000年的好莱坞。目前,实时游戏大多希望使用每像素几道光线,以便更好地模拟现实世界中的光线行为。相比之下,好莱坞在每个像素上使用数千条射线(或路径)。带有光线追踪硬件的gpu仍处于早期阶段,但如果英伟达(以及AMD和英特尔)能够不断升级我们的gpu,游戏和电影之间的差距只会缩小。