分享好友 看资讯首页 频道列表
ampere架构赋予geforce rtx 3090强劲动力
2024-05-12 03:33    2879 来源:半导体行业观察

ampere架构将为geforce rtx 3090,geforce rtx 3080,geforce rtx 3070和其他即将推出的nvidia gpu提供动力。它代表了team green的下一次重大升级,因为这次在性能上它有可能实现巨大飞跃。该显卡将于本月晚些时候上市,而3070要等到10月份。根据当前消息,这些gpu可以轻松迁移至我们的gpu层次结构的顶部,并将一些最好的显卡淘汰一两个。下文将详细介绍ampere架构,主要内容包括规格,功能和其他性能增强。

ampere架构标志着nvidia的重要转折点。这是该公司的首款7纳米gpu,或用于消费类零件的8纳米gpu。无论以何种方式,制程减小都能使其在比以前更小的面积内封装更多的晶体管。它也是第二代消费者光线追踪和第三代深度学习硬件。较雄昂的制程为nvidia极大程度上改进以前的rtx 20系列硬件和技术创造了条件。

我们知道ampere架构将在即将到来的geforce rtx 3090,rtx 3080和rtx 3070显卡中得到应用(预计明年rtx 3060和rtx 3050发布)。它也是nvidia a100数据中心gpus的一部分,该gpus是完全独立的硬件。在这里,我们将逐步分析ampere体系结构的消费者和数据中心的变体,然后深入探讨其中的一些差异。

nvidia的ampere gpu发布感觉就像是2016年的pascal和2018年的turing gpus的融合。nvidia首席执行官黄仁勋(jensen huang)于5月14日发布了用于数据中心的a100,让我们了解到即将推出的产品的官方消息,但a100不是为geforce卡设计的。a100替代了volta gv100,而gv100替代了gp100。消费类模型具有不同的功能集,并由单独的gpu(如ga102,ga103等)提供支持。消费类显卡还使用gddr6x / gddr6,而a100使用hbm2。

698 393 >

除了底层的gpu架构,nvidia还改进了核心图形卡设计,重点放在散热和功耗上。正如nvidia在视频中所描述,“每当我们谈论gpu性能时,其实就是在讲我们可以赋予和散去的功率,这种功率越大,性能就越好。”经过改进的散热解决方案,风扇和pcb(印刷电路板)都是改善nvidia ampere gpu整体性能计划的一部分。当然,第三方设计可以自由调整nvidia的设计。

随着台积电从12nm finfet节点转移到台积电n7和三星n8,许多人期望ampere在更低的功耗水平下提供更好的性能。与之相反的是,nvidia以多多益善的方式采取了所有额外的晶体管并且提升功率(至少在产品堆栈的顶部是如此)。例如,ga100拥有540亿个晶体管,其方形芯片尺寸是826mm。与gv100相比,晶体管数量增加了156%,而die尺寸仅增加了1.3%。我们预计消费类gpu也会有类似的变化。

虽然7nm / 8nm在相同性能下确实可以有更高的功率,但其在相同功率下也可以表现出更好的性能。nvidia迈出了一步,并在更高的功率水平下提供了更高的性能。v100数据中心模型的功率是300w,而新发布的nvidia a100则将其提高到400w。我们在消费者模型上得到了相同的结果。geforce rtx 2080 ti的功率为250 / 260w,titan rtx的功率为280w。有传言称rtx 3090超越了它,并配备有历史最高的tdp,可用于350w功率的单个gpu(显然不包括a100)。

这对终端用户意味着什么?除了可能需要升级电源以及在nvidia自己的型号上使用12针电源连接器之外,还意味着性能的度量标准会做出相应改变。在我的印象中,这次是nvidia性能上最大的单代提升。nvidia表示,结合即将进行的体系结构更新,rtx 3080的性能是rtx 2080的两倍。如果这些工作负载包括光线跟踪和/或dlss,那么差距可能会更大。

值得庆幸的是,最终价格不会比上一代gpu差很多(这取决于定价的比较方式)。geforce rtx 3090的首发价为1,499美元,创下了单gpu的 geforce显卡的记录,有效取代了titan系列。rtx 3080的价格为699美元,rtx 3070的价格为499美元,与上一代rtx 2080 super和rtx 2070 super保持相同的价格。ampere架构是否价格公道?我们需要再作等待才能实际测试硬件,但是这些规格至少看起来非常有吸引力。

698 347 >ampere ga100使nvidia以前的gpu相形见绌,其晶体管的数量是gv100的2.5倍。

nvidia ampere体系结构规格

除了用于数据中心的ga100之外,nvidia还计划在2020年至少再推出三个ampere gpu。来年,可能还会有多达三个额外的ampere解决方案,尽管这些解决方案尚未得到证实(也不再下表中)。

下表是nvida ampere的概述。

671 764 > 683 752 >

规格最大并且性能最差的gpu是a100。它具有多达128个sm和6个8gb的hbm2堆栈,其中nvidia a100当前仅启用108个sm和五个hbm2堆栈。未来的版本可能具有完整的gpu和ram配置。但是,ga100不会像普通的gp100和gv100那样仅用作数据中心和工作站,而是成为消费类产品。如果没有光线追踪硬件,ga100不会像geforce卡那样遥不可及(因为无需考虑大型裸片,hbm2和硅中介层的成本)。

679 380 >

在把方向下调至消费者模型后,nvidia进行了一些重大更改。我们还没有完整的外观,但是nvidia显然使每个sm的cuda内核数量增加了一倍,从而在着色器性能上取得了巨大的进步。有了ga102和rtx 3090,nvidia可能会削减相对于ga100轴上两个sm集群,从而保留96个sm的最大配置。其中,rtx 3090仅启用了82个。hbm2和硅中介层也消失了,取而代之的是12个gddr6x芯片。

每个sm的cuda内核增加一倍之后(相当于10496个cuda内核),每个sm可能有两个支持fp64的cuda内核。nvidia去除了剩余的fp64功能,并在其位置添加了第二代rt内核。至于四个第三代tensor核心,其中每个核心的吞吐量是上一代turing tensor核心的每时钟吞吐量的四倍。1700 mhz的boost频率可提供fp32计算性能的35.7 tflops,而19.5 gbps gddr6x可提供936 gbps的带宽。大致来讲,rtx 3090的性能可能会是rtx 2080 ti的两倍以上。

值得注意的是,目前有一大批sm被禁用。将来是否会完全启用ga102的titan卡?当然如此。也许它还将配备21 gbps内存,并配上相应的高价。(友情提示:即便你壕气冲天,也不要为了游戏而购买titan gpu。3-5%的性能提升绝对不值这个价。)

673 374 >

相对于ga102,ga103做出了进一步修整。目前ga103有6个sm集群,最多72个sm。rtx 3080使用几乎完整的ga103,其有68个sm和8704 cuda内核,而我们认为rtx 3070使用仅具有46个active sm和5888 cuda内核的harvest芯片(可能是ga104,但这并不重要)。3080还具有10gb的gddr6x内存和320位总线,而3070禁用了两个通道,最终在256位的总线上具有8gb的gddr6内存。

与前几代产品不同,所有三个rtx 30系列gpu的工作频率都较为相似:1700-1730mhz。从理论性能上讲,rtx 3080可以完成29.8 tflops,并具有760 gbps的带宽,nvidia表示它的速度是即将发布的rtx 2080的两倍。

同时,rtx 3070提供20.4 tflops和512 gbps的带宽。nvidia表示rtx 3070的最终运行速度也将比rtx 2080 ti快,尽管在某些情况下11gb与8gb vram相比,会让前重量级冠军略胜一筹。同样,架构上的改进肯定会有所帮助。

现在我们开始讨论ampere架构。

676 378 >a100是nvidia有史以来规格最大的gpu,相比之下各种消费类芯片要小得多

英伟达的ga100 ampere架构

随着ga100和nvidia a100的发布以及geforce rtx 30系列的面世,我们现在对预期会有一个很好的了解。英伟达将继续拥有两条独立的gpu系列,其中一条专注于数据中心和深度学习,另一条专注于图形和游戏。数据中心ga100所做的一些更改会延伸至消费类产品线,但这并没有扩展到fp64的tensor核心增强功能。这就是我们对ampere架构始于ga100的了解。

首先,ga100包含许多新内容。从较高的角度来看,gpu已从gv100中的最多80个sms / 5120 cuda内核增加到ga100中的128个sms / 8192 cuda内核。虽然核心数量增加了60%,但ga100使用的晶体管数量是其2.56倍。所有这些额外的晶体管都用于增强架构。如果您想深入了解所有细节,请查看nvidia的a100 architecture白皮书,我们只对其进行简要总结。

ga100中的tensor核心取得了最重要的升级。上一代gv100 tensor内核在两个4x4 fp16矩阵上运行,并且可以计算两个矩阵的4x4x4融合乘加(fma),每个周期具有第三个矩阵。每个tensor内核每个周期可以进行128个浮点运算,而nvidia将gv100评为fp16的125 tflops峰值吞吐量。相比之下,ga100 tensor内核每个工作频率可以完成8x4x8 fma矩阵运算,每个tensor内核总共可以进行256 fma或512 fp(吞吐量是其四倍)。即使它每个sm的tensor内核数量只有上一代gv100 tensor内核的一半,但它仍然是上一代gv100 tensor内核每个sm的性能的两倍。

ga100还增加了对tensor内核稀疏性的支持。该改进考虑到许多深度学习操作最终会产生一堆不再重要的加权值,因此随着训练的进行,这些值基本上可以忽略。稀疏性将tensor核心吞吐量提高了一倍。fp16的nvidia a100的额定值为312 tflops,而有稀疏性支持的tensor 内核则为624 tflops。

除了大幅提高原始吞吐量外,ga100 tensor内核还增加了对更低精度的int8,int4和二进制tensor运行的支持。int8容许具有稀疏性的624 tops和 1248 tops,而int4则将其翻倍,达到了1248/2496 tops。二进制模式不支持稀疏性,可能用途有限,但是a100可以在该模式下进行4992 tops。

另一方面,a100中的tensor内核也支持fp64指令。fp64的性能在19.5 tflops时远低于fp16。但是,对于fp64工作负载,它仍然比gv100的最大fp64吞吐量快2.5倍。

最后一点,a100添加了两种新的浮点格式。bf16(bfloat16)已被其他一些深度学习加速器(例如google的tpuv4)使用。就像fp16一样,bf16使用16位,但是使用8位指数和7位尾数进行转换,匹配fp32的8位指数范围,同时降低了精度。事实已经证明,这可以提供比普通fp16格式更好的训练和模型精度。第二种格式是nvidia在tensor float 32(tf32)上的格式,该格式保留8位指数,但将尾数扩展到10位,使fp16的精度与fp32的范围相匹配。tf32的性能也与fp16相同,因此深度学习仿真的额外精度基本上是“免费”的。

675 269 >

哇,这是一个具有公制对接晶体管的大芯片!

tensor的核心增强功能很多,这也表明了nvidia在ga100上的重心。深度学习和超级计算工作负载的性能大大提高。ga100还具有其他一些体系结构更新,我们将在此处作简要介绍。sm晶体管的数量增加了50-60%,所有这些晶体管都必须放在某个地方。

多实例gpu(mig)是一项新功能。这使得单个a100可以划分为多达七个独立的虚拟gpu。每个虚拟gpu(使用tensor操作运行推理工作负载)都可能与单个gv100的性能相匹配,从而极大地增加了云服务提供商的横向扩展机会。

每个sm的a100 l1高速缓存大了50%,与v100上的128kb相比为192kb。l2缓存的增加幅度更大,从v100的6mb增加到a100的40mb。它还具有新的分区交叉开关结构,可提供gv100 l2缓存的读取带宽的2.3倍。请注意,总的hbm2内存“仅”从gv100的16gb或32gb增加到ga100的40gb,但是增加的l1和l2缓存有助于更好地优化内存性能。

nvlink性能也几乎翻了一番,从gv100中的每个信号对25.78 gbps到ga100中的50 gbps。a100中的单个nvlink在每个方向上提供25 gbps的速率,类似于gv100,但每个链路具有一半的信号对。链接总数也增加了一倍,达到12条,从而使nvlink总带宽在a100下为 gbps,而在v100下为300 gbps。此外还提供了pcie gen4支持,几乎使x16连接的带宽增加了一倍(从15.76 gbps到31.5 gbps)。

最后,a100添加了新的异步副本,异步屏障和任务图加速。异步副本可提高内存带宽效率并减少寄存器文件带宽,并且可以在sm执行其他工作时在后台完成。硬件加速障碍为cuda开发人员提供了更大的灵活性和性能,并且任务图加速有助于优化向gpu提交的工作。

还有其他体系结构增强,例如nvjpg解码可加速jpg解码,以用于基于图像的算法的深度学习训练。a100包含5核硬件jpeg解码引擎,该引擎可胜过基于cpu的jpeg解码并减轻pcie拥塞。同样,a100添加了五个nvdec(nvidia解码)单元,以加速常见视频流格式的解码,这有助于与视频一起使用的深度学习和推理应用的端到端吞吐量。

介绍完了ga100和nvidia a100架构之后,以下将介绍消费类geforce rtx卡的ampere架构变化。

672 380 >

nvidia ga102 / ga103 ampere架构

与gv100相比,ga100进行了大量更改,而在消费类方面,更新同样显著。以上对tensor核心的许多更改都直接带入了消费类模型(自然很可能会减去fp64)。除了支持micron的新gddr6x存储器(而不是hbm2)之外,其他主要更改还包括光线跟踪和cuda内核。

nvidia在2018年使用turing架构和geforce rtx 20系列gpu在光线追踪方面引起了很多争议。两年过去了……好吧,说实话:游戏中的光线追踪并没有真正发挥其潜力。《战地风云5》具有更好的反射效果,《古墓丽影》和《使命召唤》的阴影得到了改善,《地铁出埃及记》使用了rt全局照明,并且在每种情况下,性能的下降都使视觉效果有了相对较小的提高。迄今为止,关于光线追踪可以做什么,最好的例子可以说是“控制游戏”,该游戏使用rt效果进行反射,阴影和漫射照明。它看起来相当不错,尽管您可能抱有期望,但其对性能的影响仍然很大。

究竟有多大呢?对于rtx 2080 ti和core i9-9900k,在1440p和最高质量下运行control且没有光线追踪的情况下,其性能为80 fps(这是我们在本文中刚刚完成的测试)。打开所有光线跟踪功能之后,七性能降低到43 fps,慢47%,或基本上降低一半。尽管您可以通过启用dlss 2.0来缓解问题,但该功能在质量模式下可渲染为1707x960,并可以放大到1440p。但这会带来一个痛苦的代价:性能降回72 fps。

673 381 >

还有“全路径跟踪”的演示,其中硬件进一步推向了更高的位置。以quake ii或minecraft之类的相对古老且低保真的游戏为例,再添加照明,阴影,反射,折射等全光线追踪效果。而且,结果可能是60 fps,而不是每秒数百帧。这还是在以至少1080p的rtx 2070 super启用dlss的情况(这已经到达质量水平)。

或许有人认为光线跟踪效果对性能造成的损失太大, nvidia应该反其道而行之。但是说这类话的人对nvida不是很了解。据nvidia称,geforce 256是第一个gpu,它还将硬件转换和照明计算引入了消费类硬件。大多数游戏要几年后才能正确使用这些功能。第一批带有着色器的gpu早在数年之前就已经普遍使用该硬件,但是今天几乎所有发行的游戏都广泛使用了着色器技术。nvidia认为光线追踪会有一个类似的演变过程。

好消息是,采用ampere架构的光线追踪性能正在迅速崛起。nvidia表示,与rtx 2080 ti的34 tflops相比,rtx 3080可以进行58 tflops的光线跟踪计算。换句话说,光线追踪的速度快了1.7倍。2080 ti的光线三角相交计算速度达到每秒11千兆字节,因此rtx 3080可以达到每秒19千兆字节,而与以往的最佳纪录相比,rtx 3090将翻倍甚至更躲。

698 394 > 698 395 >

这对光线追踪游戏意味着什么?我们会很快找到答案,但是根据我们从nvidia那里听到的消息,我们将看到更多的游戏开发人员增加了光线跟踪效果。赛博朋克2077将具有光线追踪的反射,阴影,环境光遮挡等功能。像control这样的游戏可能在启用所有光线跟踪效果的情况下运行,并且一旦启用dlss,相对于传统渲染而言,其性能不会显著下降,甚至有可能会表现出性能提升。

nvidia还从其使用完整路径跟踪的marbles技术演示中提供了上述指标。一个未命名的turing gpu(rtx 2080 ti?)那能够以720p和25 fps的速度运行marbles,没有景深,只有一个圆顶灯和一个间接光。同时,ampere(rtx 3090?)可以以1440p和30 fps的速度运行演示,并启用了景深和130个区域照明灯。结果是无论使用什么实际的gpu,都有可能将光线追踪提升到一个全新的水平。

676 381 >

当然,这不仅与光线追踪有关。英伟达还在dlss上加倍努力,而且由于拥有更强大的tensor内核,所以质量和性能应该比以前更好。我们即将实现质量模式下的dlss 2.0看起来比使用taa或smaa的本机渲染效果更好。不难想象,许多游戏玩家选择启用dlss来获得健康的性能提升。

由于ampere对8k显示器具有本机支持,因此得益于hdmi 2.1,dlss变得更加重要。什么样的硬件能够以绝佳的性能水平为8k提供动力?这很容易:打开dlss并使用rtx 3090或rtx 3080以4k渲染。这是8k渲染吗?当然不是。但这是个无关紧要的问题。

当然,8k显示器的价格仍然高得惊人,如果您坐在沙发上,几乎不可能看到4k和8k之间的差异。另外,如果您像我一样视力老化,那这种可能性为零。但是在家庭影院领域,营销力量很强大,因此我们可以肯定将来8k电视会以更大的推动力向前发展(这正是消费电子公司试图说服所有4k hdr电视所有者做出升级的方式)。

676 379 >

nvidia ampere架构:第二轮光线追踪

毫无疑问,现在使用nvidia的rtx 20系列gpu的人会有一种受到欺骗的感觉。如果几个月前您没有收到我们所提出的关于等待购买新gpu直到ampere发布的建议,那么看到rtx 30系列规格和ampere架构可能会给您带来更大的损失。问题在于,我们始终知道这一天会到来。就像turing取代pascal,pascal取代maxwell,maxwell又取代kepler一样,gpu世界的迭代更新之路也在稳定发展。

另一方面,如果您在过去几年中一直对游戏中的光线追踪持怀疑态度,ampere可能最终会成功说服您尝试一下。然后您又拖一个月左右,想看看amd的big navi表现。现实情况是,我们将看到更多支持某种形式的光线追踪的游戏,尤其是计划于今年秋天推出的下一代playstation 5和xbox series x控制台。我们有望在足够的硬件实力的支持下,游戏的光线追踪效果具有现实意义。

可以肯定的一件事是:光线追踪不会消失。它几乎已经成为每部电影的重要组成部分,虽然目前还不是游戏与2020年好莱坞的电影竞争的时候,但他们也许可以追赶2000年代的好莱坞。目前,实时游戏通常希望每个像素仅使用几条光线,以更好地贴近现实光线的表现方式。相比之下,好莱坞每个像素可能使用数千条光线(或路径)。具有光线追踪硬件的gpu仍处于早期阶段,但是如果nvidia(以及amd和intel)可以继续升级我们的gpu,那么游戏和电影之间的差距将只会缩小。

来源:半导体行业观察

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网