本文翻译自tomshardware
用于dram的pam4
在上周的一次发布会上,美光分享了nvidia的geforce rtx30系列显卡使用的最新gddr 6x sgdram的一些额外细节。公司透露,他们针对这种新型存储器的技术进行了十多年的试验,目前gddr6x sgram并没有被jedec标准化,只有nvidia使用gddr6x内存,但美光希望这种情况会随着时间的推移而改变。可以吗?
pam4:自2006年开始的研发
美光位于德国慕尼黑的图形dram设计中心,自从设计中心当年隶属于奇蒙达(qimonda)以来,就有着图形内存研发的历史,这是英飞凌(infineon)长期以来的衍生产品。来自这些实验室的工程师们带来了业界第一个gddr5、gddr5x和现在的gddr6x芯片的批量生产。事实上,美光是gddr5x的唯一制造商,现在它是gddr6x的唯一生产商。
不同gddr之间对比(图片来源:美光)
pam4信号是gddr6x存储器的关键特性。这种技术使用四个信号电平每周期传输两个数据位,因此与上一代sgram类型相比,任何工作频率的有效带宽都增加了一倍。此外,pam4为更高的数据传输速率打开了大门(尽管要付出代价)。因此,pam4提高了每时钟的效率和速度。
不过,值得注意的是,gddr6的突发长度为16字节(bl16),这意味着它的两个16位通道中的都可以在每次操作中传送32个字节。gddr6x的突发长度为8字节(bl8),但由于pam4信令,其16位信道的每个操作也将传送32字节。为此,在同一时钟下,gddr6x并不比gddr6快。
(图片来源:美光科技)
pam4信令已用于数据中心网络标准,如infiniband,多年来,pam4本身并不是什么特别新鲜的事情。与传统的pam2/nrz调制相比,pam4仍然用于大型数据中心和超级计算机的主要原因是其实现成本。
但高昂的成本并不妨碍在实验室中对这项技术的探索,这也是美光美国分公司的科学家自2006年以来一直在做的事情。在此过程中,他们获得了45项专利。
“在美光,我们的科学家从2006年就开始研究如何在内存中使用pam4,”美光公司图形部门主管ralf ebert说。
经过多年对pam4的探索,美光认为是时候将这项技术应用到图形内存中了。从2007年(gddr5)到2018年(gddr6),gddr的演变在架构上非常简单(尽管回归了bl8),因此引入一种新的信令方案需要美光将其来自美国的科学家和来自德国的工程师聚集在一起。
“科学家们必须与gddr的开发者们并肩工作,这些人开发了芯片,”ebert说:“此外,他们还与系统工程师和产品工程师密切合作,这些工程师从系统和大规模制造的角度了解这些挑战。”
我们今天所知的gddr6x的工作始于不到三年前的2017年末。通常,将一种新型的dram推向市场需要更长的时间,但由于这主要是一个内部项目(至少在内存设备级别),美光已经采用的技术的实现非常迅速。不过,这是有原因的。
(图片来源:美光科技)
与nvidia密切合作开发
新型存储器的开发不仅考虑到某些应用,而且也考虑到某些客户。nvidia是第一家使用gddr5x和gddr6的公司(早在21世纪初,还有gddr2和gddr3),因此它很早就与美光就gddr6x项目进行了接触也就不足为奇了。事实上,根据美光的说法,nvidia要求美光提供比gddr6更高性能的内存解决方案。
“你必须与客户合作,”ebert说你:“必须确定一个与之合作的客户,并且最好依赖于多年来建立的密切的业务和技术合作关系。[我们必须确保]产品从一开始就可以在应用程序中正常工作。”
nvidia不得不为gddr6x开发一个全新的内存控制器和phy,因为pam4信令改变了内存子系统的工作方式。基于到目前为止还没有ip设计公司宣布他们的gddr6x产品,看起来nvidia已经设计了所有的内部产品。
目前,nvidia在其geforce rtx 3080/3090显卡上使用gddr6x,基于ga102 gpu,主要面向玩家。最终,该公司还将提供quadrortx专业图形卡,具有相同的芯片和gddr6x内存。同时,美光表示,gddr6x也用于ai和hpc应用,这两种应用都不属于nvidia的geforce rtx(因为这些卡在用于ai的fp16和fp32张量性能以及用于hpc的fp64性能方面都有限制)和quadro rtx focus。也许美光意味着假想的用途,或者它意味着即将推出的nvidia titan系列卡,将为ai和hpc提供更高级的性能。
nvidia是美光唯一的gddr6x发布合作伙伴,但美光强调,它并不是专门为gpu开发者设计这种新型内存的。这家dram制造商也计划向其他公司提供gddr6x。
“我们现在开始提供并向业界开放,gddr6x不是针对某些客户的。”ebert说:“我们希望其他客户有兴趣向前发展,然后我们也会与他们接洽。”
带pam4的gddr6x:较难构建,但比hbm2便宜
美光表示,pam4要求其重新设计其gddr6x存储设备中的写入数据捕获电路(接收器),以精确地采样和解析四种不同的信号电平。为此,每个gddr6x dram每个i/o和数据总线反转(dq/dbi)管脚都包含三个输入子接收器。主机可以在写入训练序列期间微调参考电压电平。gddr6x的输出驱动程序也必须重新设计。
pam4的更高传输效率(图片来源:美光科技)
美光承认,与上一代gddr6设备相比,gddr6x芯片的生产成本更高。此外,他们需要一个非常干净和稳定的信号,这就是为什么nvidia的ga102 gpu驱动geforce rtx 3080/3090卡的内存控制器现在需要独立的电源轨上,以确保非常干净和稳定的电源。
谈到功率,有必要注意到,由于性能显著提高,根据美光的数据,gddr6x在设备级别比gddr6(7.25pj/bit vs 7.5pj/bit)高出15%。
总体而言,gddr6x芯片及其实现比gddr6更昂贵,但它仍然比hbm2类内存便宜得多。gddr6x不需要堆叠,它是分立的芯片的形式,可以在工厂安装。用分立dram的整个基础设施已经存在了几十年,而且所有的过程都是熟悉的并且便宜的。相比之下,hbm2-kgsds(已知良好的叠层模具)必须在半导体工厂封装,然后放置在另一家洁净室中的gpu旁边。
“更高性能的dram通常也需要更高的成本,”ebert说:“gddr6x的最大优点是,我们可以将性能标准提高到更高的水平,同时仍然保持在一定的成本范围内。这是因为gddr6x仍然是一个分立内存解决方案。gddr6x内存可以像其他任何内存一样,由制造商在其标准环境中组装。当你观察不同速度等级的内存时,通常有不同的范围;我们将gddr6x与典型范围一致。对于客户来说,这并不是一种成本极高的产品,这主要是因为它仍然是一种分立内存解决方案。”
美光没有透露其8gb gddr6x的芯片尺寸,也没有将其与8gb gddr6器件进行比较。该公司强调,这是第一种使用pam4信号的存储器,后者是一种突破,为各种创新打开了大门。
“pam4是一个挑战,我们相信,有了这一突破,可以一直向前推进。”美光图形dram主管说:“我们相信,这将改变dram行业。我们是最早做到这一点的,我们已经为此努力了一段时间。”
gddr6x可缩放密度和数据速率
新的器件使用公司成熟的第四代10nm级工艺技术(也称为1αnm)生产的。该公司已经制定了在容量和速度方面扩展gddr6x的路线图。
明年,美光打算增加16gb的密度,并随着时间的推移提供更快的芯片。目前,美光是gddr6x的唯一生产商,nvidia是唯一的客户,因此gddr6x的发展取决于nvidia的需求和美光的量产能力。这里的关键信息是,gddr6x的性能可以扩展到21gbps以上。
gddr6x:不是jedec标准,但也不是专有的
为了尽快完成gddr6x,使其与nvidia的ampere gpu协同工作,两家公司几乎在保密模式下工作。这两家公司从未将规范提交给jedec进行标准化,因此gddr6x是目前只能从美光获得的一种专有内存。
ebert说:“目前为止,它还没有提交给jedec进行标准化。
gddr5x主要由美光开发,几乎没有其他公司对此投入。在美光开始量产gddr5x之前,jedec正式发布了该标准,并将其提供给组织成员。然而,除了nvidia,没有人使用gddr5x,除了美光之外,没有人生产这种类型的内存。
gddr6x也许可以用在图形之外
(图片来源:美光科技)
传统上,gddr类型的内存几乎只用于显卡和游戏机。有了gddr6,美光和业界同行开始为其他需要高带宽的应用程序推广图形dram。在潜在的使用案例中,他们瞄准了汽车、网络和fpga应用。美光希望gddr6x能够解决非gpu市场。
如今,gpu广泛应用于各种人工智能应用,因此,在美光的简报会上,当公司谈到gddr6x用于非图形垂直领域时,自然会提到培训和推理的ai。同时,由于nvidia将其泰坦系列显卡瞄准了游戏玩家、人工智能、发烧友和各种产品消费者,如果nvidia推出泰坦——ampere系列,美光的gddr6x将从技术上解决这些市场的问题。
为了应对新兴市场,美光不仅需要提供内存本身,还需要提供内存控制器ip、phy ip和验证ip。这些类型的东西是由ip设计公司提供的,如avery、cadence、rambus和synopsys。由于gddr6x才刚刚开始,如果他们看到了行业对gddr6x的潜在需求,他们也将进入这一领域。当然这并不能完全保证,尤其是考虑到gddr6x不是jedec支持的行业标准。
cpu也可以使用gddr6x
ebert说:“从历史上看,没有什么能阻止这个行业使用cpu与gddr ram结合使用。”
图形内存的未来:pam4将继续存在,即使对于hbm也是如此
对于美光来说,gddr6x不仅是一个高度完善的产品,而且是其将pam4信号应用到dram上的伟大创举。虽然这种编码方式不会用于ddr5 sdram,但美光相信从长远来看,这是内存的未来。
“gddr6x是我们首次利用了pam4,我们肯定可以看到这一点的继续发展。”美光图形内存总监说,“未来有可能,pam4可以用于其他内存标准。这类技术很可能会被cpu或其他处理器使用。”
内存演进流程(图片来源:美光科技)
pam4确实会被工业界广泛使用,远远超过今天的使用范围。pcie6.0将于2021年面世,它使用pam4信令来获取更高的效率和更高的数据速率。考虑到pcie的广泛采用,cpu和asic公司最终将同时支持pcie6.0和pam4。一旦业界了解了如何使用pci6.0实现pam4调制,它肯定会将其应用到其他领域。
美光表示,他们首先将pam4实现到一个lpddr测试芯片中,对这项技术进行实验。此外,在我们准备这篇报道时发现的一项专利表明,美光在三年前申请了pam4和pam8信令的hbm类内存的专利。
hbm类型的内存还必须采用离散dram设备(qdr、bl8/bl16等)所使用的负载,因此很难预测何时可以采用新的信令。目前可用的hbm2e 3.6gbps芯片如果采用pam4调制,则带宽将翻倍,达到922gb/s,这意味着一个6模块6144位dram子系统将提供高达5.5tb/s的带宽。不过,在这一点上,这纯粹是猜测。
总结
美光的gddr6x是业界第一款使用四电平脉冲幅度调制信号(pam4)的量产型存储器。这种新的编码方式使用四个信号电平每周期传输两个数据位(而对于pam2则为一个数据位),这意味着可以实现更高频率。从2006年开始,我们就把它看作是一个巨大的进化论者。虽然ddr5不使用pam4,但美光已经获得了pam4专利,甚至支持pam8的hbm内存。
dram制造商承认,与gddr6相比,gddr6x更难构建和实现(可能更昂贵)。然而,即使是在它的婴儿期,gddr6x也比成熟的hbm2e便宜,因为我们这里处理的是分立内存芯片。同时,由于gddr6x恢复到8字节的突发长度(从gddr6的16字节下降),在相同的每针数据速率下,它并不比其前身gddr6快。
在这一点上,gddr6x最大的特点是,它是由美光公司单独开发的,有来自nvidia的一些要求。美光尚未将该标准提交给jedec,目前尚不清楚gddr6x是否会成为行业标准。美光希望gddr6x能用于非图形应用,但如果没有其他公司的支持,这种新型内存的推广将很困难。
来源:eeworld
以上是网络信息转载,信息真实性自行斟酌。