终极GPU互联技术探索:消失的内存墙

AIGC 0

b0bd9fd8934a3bfb52a57a3675fc307c.png

AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。

上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,而GB200集成了1个Grace CPU和2个B200 GPU。

目前,头部AI芯片厂商都在推进现有芯片设计和制造技术的极限,但问题是,当这些“花招”用完后怎么办?

在面向AI负载的新锐芯片创业企业里,我们在此前的文章中提到了SambaNova、TenstorrentAscenium,他们要解决的最核心的问题是placement和routing。

成立于2021年Eliyan公司则专注于芯片组互联技术,他们在物理层(physical layer,PHY)方面进行了架构创新,并推出了NuLink技术,号称能够在标准封装技术上上实现超大型系统级封装,从而通过消除算力内存墙(memory wall),将人工智能负载的性能提升10倍。今年3月,Eliyan获得了6000万美元的B轮融资。

(本文经授权后由OneFlow编译发布,转载请联系授权。原文:https://www.nextplatform.com/2024/03/28/how-to-build-a-better-blackwell-gpu-than-nvidia-did/)

作者 | Timothy Prickett Morgan

OneFlow编译

翻译|杨婷、宛子琳

当人们将目光投向各种计算引擎的浮点运算和整数处理架构时,我们却开始关注内存层次结构和互连层次结构。这是因为计算本身很简单,而数据搬运和内存管理却变得越来越难。

简单来说,可以通过一些数字进行说明:在过去的二十年里,CPU和GPU的计算能力增加了90000倍,但DRAM内存带宽和互连带宽却仅增加了30倍。近年来,虽然我们在某些方面取得了进步,但计算与内存之间的平衡仍严重失调。这意味着,针对许多AI和HPC工作负载,我们过度投资于内存不足的计算引擎。

考虑到这一点,我们开始关注Eliyan公司在物理层(physical layer,PHY)方面进行的架构创新。在MemCon 2024大会上,他们以新颖而实用的方式展示了这些创新。Eliyan的联合创始人兼首席执行官Ramin Farjadrad花了些时间向我们展示了NuLink PHY及其用例如何随着时间的推移而演变,以及如何用它们来构建比当前基于硅中介层(silicon interposer)的封装技术更好、更便宜、更强大的计算引擎。

PHY是一种物理网络传输设备,它将交换机芯片、网络接口或计算引擎内部的任何其他类型的接口连接到物理媒介(铜线、光纤、无线电信号),从而使它们能够相互连接或连接到网络。

硅中介层是一种特殊的电路桥(circuitry bridge),用于将HBM堆栈式DRAM内存与计算引擎(如GPU和常用于HPC和AI领域的定制ASIC)连接起来。有时,HBM也会用于需要高带宽内存的普通CPU。

Eliyan成立于2021年,总部位于圣何塞,目前公司规模已发展到60人,刚刚完成了第二轮6000万美元的融资,其中内存制造商三星和Tiger Global Capital领投了B轮融资。2022年11月,Eliyan完成了4000万美元的A轮融资,由Tracker Capital Management领投,Celesta Capital、英特尔、Marvell和存储器制造商美光科技也参与了投资。

Farjadrad在互联网繁荣时期曾担任Sun Microsystems和LSI Logic的设计工程师,后来成为了Velio Communications(现为LSI Logic的一部分)的 Switch ASIC首席工程师和联合创始人,并在Aquantia担任联合创始人兼首席技术官,该公司为汽车市场制造以太网PHY芯片。2019年9月,Marvell收购了Aquantia,并任命Farjadrad负责网络和汽车领域的PHY芯片。Marvell已成为最大的PHY芯片制造商之一,与Broadcom、Alphawave Semi、Nvidia、Intel、Synopsys、Cadence以及现在的Eliyan竞争,设计这些系统的关键组件。

Eliyan的其他联合创始人包括工程与运营主管Syrus Ziai,他曾在Ikanos、高通、PsiQuantum和Nuvia担任工程副总裁;Patrick Soheili担任商业与公司发展主管,之前负责eSilicon的产品管理和人工智能战略。eSilicon的出名得益于创建了苹果iPod音乐播放器内部的ASIC芯片以及开发2.5D ASIC封装和HBM内存控制器,2019年底,该公司以2.13亿美元的价格被Inphi收购,从而拓展了其PHY能力;而在2021年4月,Marvell以100亿美元的价格收购了Inphi,完成了其2020年10月收购闭环。

PHY、I/O SerDes以及retimer(重定时器)都蕴含着商机。SerDes是一种特殊类型的PHY,用于switch ASIC,以将设备输出的并行数据转换为串行数据,并通过电线、光纤或无线信号进行传输。从某种角度来看,retimer也是一种特殊的PHY,随着带宽的提高和铜线的距离缩短,retimer的使用频率会逐渐上升。

了解了PHY,接下来我们来聊聊2.5D封装技术。

随着摩尔定律下晶体管密度的增长放缓,以及随着每一代工艺技术的进步,晶体管的成本并没有降低,反而成本在提高,我们都意识到,现代芯片制程的光刻工艺存在的掩模限制(reticle limit)。使用普通的极紫外(EUV)水浸光刻技术,我们能在硅片上刻蚀的晶体管的最大尺寸为26mm×33mm。

然而,或许许多人并未意识到硅中介层的尺寸存在的限制,它限制了芯片组(chiplet)在有机基板(类似于每个计算引擎插槽及其附属的HBM内存下方的主板)上相互链接的能力。

硅中介层的尺寸取决于制造中间板所采用的技术。尽管中介层采用了与芯片相同的光刻工艺制造,但不同于芯片的858平方毫米掩模限制,今天的某些技术可以将中介层的面积扩大到2500平方毫米,使用其他技术则接近1900平方毫米,据Farjadrad称,他们计划将其扩大到3300平方毫米。有机基板插槽则不受这样的面积限制,这对于芯片组的2.5D封装非常重要。

Farjadrad介绍了Eliyan的NuLink PHY的竞品2.5D封装方法的参数、速度与局限性。

以下是台积电采用其Chip on Wafer on Silicon (CoWoS)工艺进行2.5D封装的方式,该工艺被用于创建Nvidia和AMD的GPU及其HBM堆栈等产品:

c17c808bd94ea9d202c5a8e00b91d378.jpeg

技术层面上,上图展示了台积电的CoWoS-S中介层技术,该技术用于将GPU、CPU和其他加速器连接到HBM内存。前身CoWoS-R的硅中介层尺寸大约限制在两个掩模单元,这恰好与Nvidia刚刚推出的“Blackwell” B100和B200 GPU的尺寸相同,但这款GPU采用了更先进、不那么引人注目的CoWoS-L技术,其制造更加复杂,类似于其他方法中使用的嵌入式桥。CoWoS-L在尺寸上有三个掩模单元的限制。

还有一种桥接技术被称为具有嵌入式桥的晶圆级扇出技术(wafer level fan out with embedded bridge),这种技术由芯片封装公司安靠科技(Amkor Technology)推广,ASE控股公司还提供了一种变体FOCoS-B。以下为该封装方法的参数和速度:

0b7bdb62b94bd3510980c00549b77a53.jpeg

使用这种2.5D封装技术,可以制造一个尺寸约为三个掩模单元的封装包。高密度的走线意味着我们可以在低功耗下获得更高的芯片间带宽,但其连接范围受限,走线布线的路由能力也受到限制。实际上,这一技术还没有得到真正的大规模推广。

英特尔将硅桥直接嵌入到承载芯片的有机基板中——不使用中介层——这与Eliyan使用NuLink的方法相似:

3a4ad3010ae1291b0f1dc6f9448ecf5d.jpeg

然而,EMIB(嵌入式多芯片互连桥接)技术存在一系列问题,包括生产周期长、良率低、有限的覆盖范围和布线能力,其供应链仅有英特尔这一家公司,它在当今先进半导体领域的声誉欠佳。公平地说,虽然英特尔正在逐步恢复正轨,但尚未达到预期水平。

这使得Eliyan提出的NuLink技术成为了一种改进的2D多芯片模块(MCM)工艺:

3151f78e744bb8a43df719b1e576e5a6.jpeg

一年前,Farjadrad称,NuLink PHY的数据传输速率约为传统MCM封装中使用的PHY的10倍。此外,NuLink PHY之间的走线长度可以达到2cm至3cm,这比CoWoS和其他2.5D封装技术支持的0.1mm走线长度高了20至30倍。走线长度的增加以及NuLink PHY在这些走线上具有双向信号传输的特性,这对于计算引擎设计来说意义重大。目前市场上有更快的PHY可供竞对使用,使得NuLink PHY的优势降低到了4倍的差距。

Farjadrad告诉The Next Platform,根据当前的架构,在内存和ASIC之间传输数据包时,数据包是单向的,不具备同时双向传输的能力,要么从内存读取数据,要么向内存写入数据。但如果有一个端口可以同时传输或接收数据,就可以从同一I/O资源中中获得两倍的带宽,而这正是NuLink所实现的。这样,我们就不会浪费ASIC的一半I/O资源。


Farjadrad进一步提出,为了保持内存的一致性,需要使用特殊的自定义协议,确保读取和写入之间没有冲突。在设计PHY时,需要为特定的应用程序制定相关的协议,这是NuLink的重要优势之一。拥有最好的PHY技术只是一方面,另一方面,重要的是将其与正确的专业知识结合起来应用于人工智能应用,而Eliyan知道如何做到这一点。

2022年11月,当NuLink首次引入时还没有这个名称,当时Eliyan也尚未提出利用PHY来创建通用内存接口(UMI)的方法。NuLink最初只是一种实现能够使用UCI-Express芯片片间互连协议的方案,且支持Farjadrad及其团队多年前创建并捐赠给开放计算项目(Open Compute Project)作为提议标准的原始Bunch of Wires(BoW)芯片片间互连所支持的任何协议。下表中,Eliyan比较了NuLink与各种内存和芯片片间的互连协议:

13e349205d56cf3948c117b5f7434791.jpeg

这张表很清晰。

Intel的“MDFIO”是“Multi-Die Fabric I/O(多芯片互连输入输出)”的缩写,用于连接“Sapphire Rapids”Xeon SP处理器中的四个计算芯片组。EMIB用于将这些芯片组连接到HBM内存栈,主要用于具有HBM的Sapphire Rapids的Max系列CPU变体。

OpenHBI基于JEDEC HBM3的电互连标准,也是一个OCP(开放计算项目)标准。UCI-Express是一种带有CXL一致性覆盖(coherency overlay)的新型PCI-Express,旨在成为芯片组之间的芯片间互连。

Nvidia的NVLink目前用于将Blackwell GPU复杂结构上的芯片组“粘”在一起,但以上表格并未列出;同样地,Intel的XeLink用于将“Ponte Vecchio”Max系列GPU上的GPU芯片组“粘”在一起,也未列入表格。与UCI-Express不同,NuLink PHY是双向的,这意味着,可以使用与UCI-Express相同数量或更多的导线,但能够实现UCI-Express的两倍或更多的带宽。

如图所示,这里有一种高成本的封装选项,它使用了40微米至50微米的凸点间距(bump pitch),且片间距离仅约为2mm。PHY的带宽密度可以非常高,每个芯片上的每毫米边缘区域的带宽可以达到Tb/sec级别,功耗效率则因方法而异,在所有情况下时延都低于4纳秒。

图表右侧的PHY可以与标准的有机基板封装配合使用,并使用了130微米的凸点,因此是成本更低的选择。这些选择包括Cadence的Ultralink PHY、AMD的Infinity Fabric PHY、Alphawave Semi的OIF Extra Short Reach(XSR)PHY,以及在不使用低凸点间距也能实现高信号传输的NuLink版本。

图表右侧是芯片间距,通过2cm的连接距离,我们可以做很多事,这是2mm间距以及ASIC与HBM堆栈或相邻芯片之间的0.1mm间距所无法实现的。这些更长的连接链路扩展了计算和内存复杂结构的几何布局,并且消除了ASIC和HBM之间的热串扰效应(thermal crosstalk effect)。堆栈内存对热度非常敏感,随着GPU变得越来越热,需要冷却HBM以确保其正常工作。如果能够使HBM远离ASIC,就可以更快地运行ASIC(Farjadrad估计速度能提高约20%),并且能够运行在更热的温度下,因为内存的距离比较远,不会受到ASIC热量增加的直接影响。

此外,通过在类似GPU的设备中去除硅中介层或其等效材料,转而使用有机基板,并使用更大的凸点和增加组件间距,可以将具有十二个HBM堆栈的双ASIC设备的制造成本从约12000美元(芯片加封装的产出率约为50%)降低到约6800美元,且实现87%的良率。

让我们通过两张图对比一下UCI-Express、BoW和UMI,然后我们可以稍微进行系统架构设计。

d05c023d2346373af1ddfb11119b2aca.jpeg

如图所示,Eliyan一直在不断推动其PHY的双向传输能力,且现在已经具备了同时进行双向数据传输的能力,称为UMI-SBD。

下图显示这四种选项的带宽和ASIC的芯片边缘区域(beachfront)情况:

2f4105fe4a1d9d1775829cb7228b1c68.png

所以,现在被称为UMI的NuLink PHY比UCI-Express更小、更快,而且可以同时进行数据传输和接收。可以用它做什么呢?

073108ba15fd51721301312a316fc99a.jpeg

首先,可以构建更大的计算引擎。例如拥有24个或更多的HBM堆栈以及10到12个芯片组的计算引擎封装。由于采用了标准有机基板,该设备的制造时间只需1/4到1/5。

1989年是IBM的巅峰时期,1990年代初,它开始走下坡路,当时人们常说:同样的价格,你可以找到比IBM更好的产品。

当然,Nvidia并不是IBM或英特尔,至少现在还不是。无论如何,赚钱太轻松会对公司及其Roadmap产生可怕的影响。

以下是Eliyan认为HBM4在未来可能的发展方式:

fc4a0a554454fea8ce937b80f0172c53.png

HBM4内存的JEDEC PHY尺寸较大,如果使用UCI-Express可以将其面积缩减一半,而采用NuLink UMI PHY可以在此基础上,将其面积再缩减一半,为你选择的XPU上的逻辑电路留出更多空间。或者,如果你想放弃中介层,制造一个尺寸更大的设备,并接受一个13平方毫米的UMI PHY,也可以制造一个成本更低的设备,并且每个HBM4堆栈仍然可以实现2TB/s的数据传输速率。

现在有趣的地方来了。

2022年11月,Eliyan提出其想法时,比较了一款带有中介层连接到其HBM内存的GPU,与一款去除中介层并将ASIC加倍(类似于Blackwell的做法)以及将24个HBM堆栈放置在这些ASIC芯片上的设备。如下图所示:

4f2f0dd6de9838762a3044419029f4a7.jpeg

上图左边是Nvidia A100和H100 GPU及其HBM内存的架构图。中间是Nvidia的一张图表,显示随着更多的HBM内存容量和更大的HBM内存带宽提供给AI应用程序,性能是如何提升的。正如我们所知,相比具有相同GH100 GPU但只有80GB HBM3内存和3.35TB/sec带宽的H100,具有141GB HBM3E内存和4.8TB/sec带宽的H200的工作效率提高了1.6倍至1.9倍。

假设有一台如上图所示的设备,拥有576GB的HBM3E内存和19TB/sec的带宽。记住:主要的功耗并非来自内存,而是来自GPU,而我们迄今所见到的一些证据确实表明,Nvidia、AMD和Intel推出的GPU都受限于HBM内存容量和带宽,这一问题已经存在很长一段时间了,因为制造这种堆栈内存十分困难。这些公司制造的是GPU,而不是内存,它们通过尽可能少地提供HBM内存,同时保持强大的计算能力,从而最大化收入和利润。虽然他们总能展示出相比上一代的优势,但GPU计算的增长速度总是超过内存容量和带宽。Eliyan提出的这种设计可以重新平衡计算和内存,使这些设备更便宜。

也许对于GPU制造商来说,这种设计过于激进了,因此随着UMI的推出,Eliyan后退一步,并展示如何使用中介层和有机基板以及NuLink PHY来制造一个更大、更均衡的Blackwell GPU复杂系统。

下图左侧是关于如何创建一个具有单个NVLink端口的Blackwell-Blackwell超级芯片,该端口以1.8TB/sec的速度连接两个双芯片Blackwell GPU。

4249eaf2de9f2ec247849b62e339568f.png

通过上图右侧所示的NuLink UMI方法,在两个Blackwell GPU之间提供了六个端口,传输带宽约为12 TB/sec,稍高于Nvidia用NVLink端口连接两个Blackwell GPU的B100和B200提供的10TB/sec。这意味着,Eliyan超级芯片设计中的带宽是Nvidia B200超级芯片设计的6倍。如果Nvidia继续使用其CoWoS制造工艺,Eliyan可以在中介层放置与Nvidia相同的八个HBM3E内存芯片组,然后可以在每个Blackwell设备上再放置另外八个HBM3E内存芯片组,总共可达32个HBM3E内存库,容量达到768GB,带宽达到25 TB/sec。

你再仔细想想。

但这还不是全部。这种UMI方法适用于任何XPU以及任何类型的内存,你可以在一个庞大的有机基板上进行类似的尝试,而无需中介层。

65e42b2ee24ce8a614b2bfa5a8f5ba7f.jpeg

任何类型的内存、任何共封装的光电子器件、任何PCI-Express或其他控制器,都可以使用NuLink与任何XPU进行连接。在这一点上,插槽确实已经变成了主板。

而对于更大型的复杂系统,Eliyan可以构建NuLink交换机。

【语言大模型推理最高加速11倍】SiliconLLM是由硅基流动开发的高效、易用、可扩展的LLM推理加速引擎,旨在为用户提供开箱即用的推理加速能力,显著降低大模型部署成本,加速生成式AI产品落地。(技术合作、交流请添加微信:SiliconFlow01)

6c6c76e888c5fe7f821180f6a33d03a2.png

SiliconLLM的吞吐最高提升近4倍,时延最高降低近4

13cf20898e7df8a28bc6e3896b224220.png

数据中心+PCIe:SiliconLLM的吞吐最高提升近5倍;消费卡场景:SiliconLLM的吞吐最高提升近3

4785950a19266fcf34e50abac0174bb1.png

System Prompt场景:SiliconLLM的吞吐最高提升11倍;MoE模型:推理 SiliconLLM的吞吐最高提升近10

其他人都在看

  • 800+页免费“大模型”电子书

  • LLM推理的极限速度

  • 无指令芯片集架构颠覆旧套路

  • AI算力的阿喀琉斯之踵:内存墙

  • Stable Diffusion XL优化终极指南

  • LLM推理入门指南②:深入解析KV缓存

  • OneDiff 1.0发布!稳定加速SD/SVD模型

0da02251c465aae8b538358629738a96.png

也许您对下面的内容还感兴趣: