You should write because writing makes you a better person.

0%

Ref: Beyond CPO: A Motivation and Approach for Bringing Optics Onto the Silicon Interposer

点击下载 2023.

摘要

共封装光学技术是近期打破商用集成电路的带宽扩展瓶颈最有希望的技术。我们首先提供一些关于光通信行业这一重要变革的历史背景。然后,受到基于GPU的加速计算需求的推动,我们探讨未来基于CPO系统中可能限制带宽和效率的下一个痛点。我们认定2.5D集成光学(即将光学集成到中介层)是一种有前景的解决方案,它能够通过可用的密集布线促进更高效的慢且宽的电接口,从而实现这些系统的持续扩展。我们通过考虑高层次的光子链路设计、技术和封装,探讨了处理器与光学引擎如此紧密耦合所带来的好处、挑战和要求。我们展示了一种控制回路的可行性,该回路能够在严苛的热环境中适当调节温度。接着,我们介绍了一个定制的仿真框架,该框架可以对详细设计决策进行量化比较;仿真验证了总体方法的可行性,同时为设计人员提供了关于高效优化的最佳方向的重要指导。

背景介绍

随着20世纪70年代和80年代低损耗光纤和光纤放大器的出现,光数据传输开始重塑全球通信基础设施。如今,光数据传输继续在通信系统中发挥着颠覆性的作用,并且不仅限于电信距离范围。自20世纪80年代以来,光纤传输在越来越短的距离上逐渐取代了电数据传输,正如表1所强调的那样。一个重要的里程碑出现在2010年代,当时光学开始大量应用于单一系统内部,如数据中心网络或高性能计算(HPC)系统,而不仅仅是在连接不同地点的机器网络中。这一范式转变是由新云基础设施的需求驱动的,该基础设施有成行成列的机架,需要更便宜且可扩展的光学技术来支持不断增长的带宽需求。这一转变还导致了光电收发器(TRX)数量的增加,推动了支持从每秒几吉比特扩展到如今将近每秒一太比特带宽的可插拔光模块的生态系统。现在,随着共封装光学(CPO)的引入,我们正处于另一次重大颠覆的边缘,其中光学被移至与主应用专用集成电路(ASIC)相同的封装中,以便在降低能耗的同时实现更高的带宽。尽管CPO的早期系统部署在十年前就已经出现,但最近一系列的研究展示和与CPO集成开关ASIC的产品相关声明都表明,在未来几年内将被广泛采用。

在这项工作中,我们努力超越当今CPO产品开发的努力,研究下一代计算硬件的需求——由表I中的浅灰色阴影区域表示——推动光集成更接近ASIC。我们促进光学引擎进一步集成到硅中介层上,靠近ASIC[12],[13],[14](尽管在这个时间框架内我们不认为有必要将光学嵌入硅中介层中[15],[16])。这主要是因为不断扩展的波特率以及对增加芯片输入/输出(I/O)带宽的不断需求所带来的高昂能量代价,从而导致封装电接口的带宽瓶颈。在第二节中,我们确定加速计算作为主要的应用驱动因素,并考虑未来加速计算芯片的I/O需求。第三节探讨了ASIC和光学设备之间电接口所需的能量和带宽密度,而第四节则探讨了选择2.5D集成光电TRX架构的设计选择。第五节提出了一个链路模型,该模型验证了该方法,同时探索了各种设计权衡。我们在第六节中总结了我们的论文。

image-20241112101414289

加速计算

世界上的高性能计算(HPC)系统越来越多地利用图形处理单元(GPU)来加速计算。在由top500.org评出的当前500强HPC机器中,169台使用了加速协处理器架构。图1展示了这一趋势随时间的增长,以及使用NVIDIA GPU的加速计算系统的比例。此外,加速计算机器倾向于位居较高的排名,其中前8台机器中有4台使用NVIDIA GPU来加速计算。除了传统的科学应用外,数据科学领域(包括人工智能(AI)和机器学习)也利用GPU来提高自动化程度并提升科学和商业领域的效率。最后,云中的加速计算[18]为GPU加速器提供了广泛的访问。因此,一个以GPU为中心的云计算基础设施正在形成,其结合了数据中心、超级计算机和AI加速器的优点。例如,NVIDIA的DGX平台[19]可以用作本地的AI加速器,扩展后实现顶级超级计算机[20],或者通过多种云平台进行虚拟访问。

image-20241112101342824

在这些新兴系统中,高性能交换互连网络能够有效地在越来越多的计算资源之间传输通信。这些网络不仅在扩展大型系统性能(如传统的高性能计算和数据中心网络,例如[21])中起到了关键作用,而且越来越多地用于提升每个节点的性能。作为一个案例研究,在最近发布的DGX H100系统中,四个第三代NVSwitch为由八个H100 GPU组成的本地网络提供了高达54.4 Tb/s的总带宽[22]。这些DGX机箱可以通过光学连接的NVLink网络扩展成一个GPU集群,也可以连接到现有的InfiniBand或以太网结构。

因此,未来系统的扩展依赖于交换机带宽和处理器性能的持续改进。图2展示了过去几年中NVIDIA GPU和交换机ASIC的功耗及I/O带宽的抽样。交换机的带宽大约每两年翻一倍。虽然GPU的I/O带宽比交换机带宽落后约10倍,但芯片功耗范围却相当。随着芯片性能的提升,功耗也在增加,接近1千瓦,并需要复杂的冷却解决方案。促成交换机芯片功耗增加的一个主要因素是芯片外部的I/O,其在总功耗中所占的比例越来越大[10]。从根本上来说,这种情况的发生是因为芯片和封装引脚数量(由组件尺寸和引脚间距决定)相对于急剧上升的带宽需求扩展得很慢。这迫使每个引脚的信号速率迅速增加,以至于能效下降。通过缩短信号路径长度并向具有更多并行性的低速信号转变以降低I/O功耗,对于提高未来几代芯片——无论是交换机还是GPU——的性能至关重要。在下一节中,我们将探讨当前电接口的性能及其局限性。

image-20241112102703180

电接口的性能及局限性

光互连论坛(OIF)的通用电气I/O(CEI)112 Gb/s长距离(LR)标准[31]提供了通过一根带有两个连接器的双轴电缆或印刷电路板(PCB)走线实现1米的传输距离。测量显示112 Gb/s LR接口的能耗为4.5到6.5 pJ/b [32], [33], [34]。使用纯电LR接口的100 Tb/s交换机仅用于芯片外通信就会消耗至少450瓦的功率。LR接口也用于连接板载或可插拔的卡边缘光学模块以延伸距离。除了增加成本之外,光学模块还会增加系统功耗(通常超过10 pJ/b),而无助于降低芯片功耗。显然,需要更高效的接口。

CPO可能通过将光学集成在ASIC封装上,从而在延长传输距离的同时降低芯片功耗。通过将光学集成到封装中,电接口效率可以得到改善。CEI-112G-XSR(极短距离)标准允许在有机多芯片模块(MCM)上进行最多100毫米的电气布线。实验证明已实现1.24到1.7 pJ/b功耗[35], [36], [37], [38]。对于CPO,芯片外通信必须经过两个电连接和一个光连接,这三者的功耗均在交换机封装内消耗。因此,100 Tb/s交换机封装中到/从CPO的XSR接口预计消耗约250到350瓦(不包括光连接部分)。这可能比LR ASIC的芯片功耗有所改善,但前提是光学效率非常高。此外,XSR接口显示电边带宽密度范围为475到870 Gb/s/mm[35], [36], [37]。尽管仍需进一步改进,这些密度已接近100 Tb/s交换机的要求(即,假设100毫米芯片周长,入口和出口各100 Tb/s,约为2 Tb/s/mm)。因此,就100 Tb/s代CPO在MCM上而言,交换模块可能会实现适度的功耗节省,并且——通过进一步的改进——可能达到足够的带宽密度。最后,尽管在MCM上的CPO可能不会显著降低模块功耗,但整体系统功耗可能会减少,因为可插拔光学模块的功耗可以从系统中消除。

要扩展到超过100 Tb/s,需要具有多个Tb/s/mm的电边带宽密度和1-2 pJ/b的全链路(电+光+电)能效。为此,需要在硅中介层上进行2.5D集成或本地硅互连[39], [40], [41];图3中展示了两个可能的配置。更紧密的集成缩短了传输距离,但更重要的是,密集的布线允许降低每根线的传输速率,从而显著提高能量效率。最近的结果突显了在中介层上建立密集且高效接口的机会:在5纳米CMOS中实现了一个跨越1.2毫米硅通道的50-Gb/s链路,该链路消耗0.3 pJ/b,并实现了超过2 Tb/s/mm的边带宽密度,可扩展到超过10 Tb/s/mm [42]。

image-20241112103713514

中介层上的光学引擎

将光学引擎(OE)集成到与ASIC相同的中介层上带来了许多挑战。组成OE的电集成电路(EIC)和光子集成电路(PIC)的带宽密度(包括边缘和面积)以及每比特能量变得更加关键。如图4所示,使用MCM上CPO的模块的周长(例如,约400毫米)通常比ASIC(例如,约100毫米)的周长长好几倍。这里的瓶颈在于有机基板上可实现的电边缘带宽密度,而由于延长了海滨宽度,光纤连接区域的光学边缘带宽密度则相对较低。相比之下,由于需要保持短的走线长度且硅片面积有限,中介层上很少有海滨扩展。因此,虽然将光学带到中介层可以显著提高ASIC与光学之间的电边缘带宽密度(由于布线更密集),但它也要求光学在光纤接口处达到类似的边缘带宽密度。正如上文所述,由于传输距离缩短和波特率降低,电接口能耗可以大幅减少。我们的目标是将电接口能耗降至0.25 pJ/b,光链接能耗为1 pJ/b,远程激光源消耗约2 pJ/b,从而达到模块中的能量消耗为1.5 pJ/b,总体为3.5 pJ/b [13]。接下来,我们描述激光源模块、光子链路架构和封装的高级设计考虑因素。

image-20241112105216863

激光源

远程激光器在ASIC封装中消除了面积和功耗,同时提高了激光性能和寿命,但代价是更大的耦合损耗和较低的光学边带宽密度(因为除了传输和接收光纤以外,还需要供应光纤)。增加的耦合损耗必须通过更高的激光功率来补偿,但这一增加不会影响封装内的功耗限制。能够产生密集波长梳状的远程激光源通常可以划分为三类:(1)III-V芯片的组件级组装,包括发射不同波长的分布反馈(DFB)激光器阵列,并在氧化物或氮化物平台上集成被动光合成器[43], [44];(2)将III-V激光增益材料粘接到硅上,生产在同一基板上的DFB激光器阵列,并用固定或可调谐的硅光子器件组合波长[45], [46], [47];(3)单腔锁模激光器,从单一光源产生一组波长,不需要合成器[48]。这些选项在各种成熟度水平上提供了成本效益权衡。

光子链路架构

光学边带宽密度可以沿时间、频率、空间、偏振、相位和幅度维度进行扩展,但也存在限制。空间密度受到光纤制造的实际限制,适用的光纤直径通常在80-125微米附近。重叠的空间模式(例如模式分复用)通常需要数字信号处理(DSP)来实现可靠的解复用。波特率难以扩展而不导致巨大的能量损失[49]。偏振提供了一个系数为二的扩展,但代价是增加设计复杂性、占用面积和成本。有限的信噪比决定了通过幅度(例如脉冲幅度调制,PAM)和相位(例如正交相移键控,QPSK)域的扩展会在成本和功耗方面对DSP造成惩罚。所有这些方法都可以提供一定的扩展;然而,频率(即波长)域可能是限制最少的,尽管在实现低成本的多波长激光器和克服光链路损耗方面仍然存在挑战。

粗波分复用(CWDM)系统目前正在使用,但为了同时满足未来的带宽密度和功率效率目标,将需要密集波分复用(DWDM)。在250微米的光纤间距下,最初的8波长单偏振25-Gbaud PAM-2(即不归零,NRZ)DWDM链路可以实现0.8Tb/s/mm的原始带宽密度。通过在每个维度上进行2倍缩放,带有127微米光纤间距的16波长双偏振50-Gbaud PAM-4链路可以实现25.6 Tb/s/mm的原始带宽密度。这些原始带宽密度仍需在供给、发射和接收光纤之间分配,且包含一些用于光纤连接的冗余;然而,该示例展示了其扩展潜力。

如图5所示的基于微环谐振器的链路架构提供了几个好处。它与DWDM兼容。不需要占用大片面积的光栅或干涉仪式复用器/解复用器。环调制器和环滤波器在面积和能效上都很出色 [43],[50],并且能够轻松扩展到超过100 Gb/s [51]。集总元件调制器简化了驱动电路并能够在合理的电压偏转下工作。微环谐振器需要闭环控制,但在先进的CMOS节点中功率和面积的开销可以相对较小。

image-20241112131956102

这样的架构可以提供2.5D集成光引擎所需的效率,但仍然存在许多其他挑战。首先,封装变得更加受限。不能使用插入式电气连接器和带尾纤的光纤。光学表面必须在晶圆级组装过程中保持完好。光学连接器的密度应显著增加。这些挑战似乎可行地解决。然而,最重要的关注点是热环境的问题。我们将在下一节中讨论这个问题。

封装与热管理考量

在本节中,我们研究热环境对链路性能的影响,包括用于对准谐振的热光调谐元件的控制。我们考虑一个线性时不变的热系统,该系统由集成在硅中介层上并且位于ASIC旁边的光电子元件(OE)组成[图3(a)]。这样的系统完全由几何形状与材料特性(如热阻率、比热和密度)组合决定(我们假设这些特性是温度无关的)。图6显示了模拟结构的截面。为了允许硅通孔穿过,中介层和光子集成电路(PIC)厚度为100微米。ASIC的厚度为1毫米,以支持邻近的芯片堆栈。电子集成电路/光子集成电路(EIC/PIC)堆栈通过70纳米厚的塑料模塑化合物间隔与ASIC分隔。铜散热器厚度为0.5毫米。所有模拟边界均为绝缘,除了散热器的上表面,其与地面的热阻为3e-5 m²·K/W。

image-20241112131924548

光收发器依赖于光子集成电路(PIC)顶表面上热调谐的环形谐振器。在我们的分析中,环的温度由位于每个环上方1微米处的玻璃中的金属加热器来维持。环与下方的硅通过2微米厚的埋氧隔离,并与上方的电子集成电路(EIC)有源区域通过约10微米的后端玻璃(BEOL)隔离。每个环的热控制回路在ASIC功率瞬态变化和相邻环加热器的影响下,保持环温度稳定。(假设EIC功率是恒定的。)

热模拟在Lumerical HEAT中进行。首先,进行一个二维截面模拟,以确定在800 mm²的ASIC芯片底部均匀分布的最大500瓦功率阶跃对环形环境的温度响应。在典型环位置(两个最左边指定的位置)上得到的热响应(图7)显示,温度上升约10 K,最大斜率约为70 K/s。等温线展示了一些热量通过硅中介层从ASIC横向传递到PIC。塑料模塑化合物在两块芯片之间有效阻断了从ASIC直接到PIC和EIC的热流。一些热量确实通过铜散热器(z > 1000微米)传递,但并没有显著影响环的温度。在PIC和EIC之间的BEOL玻璃绝缘层可见于z = 100微米处。

image-20241112140016229

进行第二次热模拟,这次是3D模拟,以确定加热器功率1毫瓦阶跃对环的响应。此模拟还用于量化相邻100微米远的环在加热器功率同样阶跃下的影响。该次模拟采用相同的截面(图6),但横向范围限制在主环位置的±1毫米以内。瞬态结果(图8)显示加热器、环和相邻环的温度随时间的变化。环温度在稳态时上升约11 K,时间常数接近10微秒。(这与另一项研究[52]结果很好地吻合。)相邻环的温度上升约0.7 K,最大斜率约为50 K/s,这与ASIC功率500瓦阶跃引起的斜率相似。

image-20241112140103166

接下来,我们必须确定在外部温度干扰(即ASIC功率变化和相邻环加热器的影响)存在的情况下,控制回路需要多精确地维持环温。为此,我们需要更详细地探讨环的光学性能(图9)。最终,发射器(TX)和接收器(RX)环的控制系统将有显著差异。TX环被调谐使得激光位于共振侧面以最大化光调制振幅(OMA),而RX环被调谐使得激光位于共振中心以最大化降端口功率。对于32 Gbaud的NRZ调制(见第V节),我们假设TX环的品质因数(Q)为7000,峰值到峰值的频率偏移为8 GHz。如图9所示,这需要± 5 GHz(± 30 pm)的频率控制,对应于± 0.4 K的温度稳定性。对于RX侧,我们进行了频域分析,以验证对于一个Q为5000的环以及同样需要±0.4 K温度稳定性的情况,眼图闭合是可以忽略的。

image-20241112140127202

TX回路

图10展示了TX温度控制回路的框图。对于控制器,我们使用了传统的比例-积分(PI)热控制器[53],将温度误差转换为加热器功率。我们实现的控制器具有比例常数Kp为0.15和积分时间常数Ti为200微秒。标有“加热器功率→环温度”和“ASIC功率→环温度”的模块来源于上述热模拟。这两个热传递函数的输出表示ASIC和加热器功率对环温度的影响,经过求和得到环温度。然后,环温度通过环的洛伦兹响应曲线转换为平均环光功率(ROP),再与目标ROP比较,并将误差反馈给控制器。从温度到ROP的转换是线性近似的;对增益的粗略估计足以保持环的速度和稳定性。最佳目标ROP依赖于激光功率水平。目标值可能在一个缓慢抖动的循环中更新,以根据来自RX的反馈获得最大OMA。一个弱耦合的降端口和光电二极管测量TX环的平均光功率,采用8b/10b数据编码,确保无数据依赖性。

image-20241112135940476

RX回路

在RX中,我们希望将光功率保持在最大值(即共振时)。我们通过对加热器功率进行微调来实现这一点,然后使用光功率对微调的基频响应的相位和幅度来估计温度误差。微调频率选在足够高于控制回路带宽之上,但又在环的热量足以对微调做出充分响应的较低频率。我们将在下面看到,一个带宽为1 kHz的简单稳定的控制回路足以将温度误差保持在目标范围内。环对10 kHz的加热器调制的温度响应相对于直流衰减约5 dB,使得10 kHz成为可接受的微调频率。

现在我们展示一个通用控制回路的动态性能,假设使用模拟得到的热响应、前面提到的PI控制器参数,以及完美的温度估计。图11显示了回路的开环和闭环频域特性。图12(a)中的闭环瞬态响应显示,处理ASIC中500瓦瞬态所需的加热器功率变化约为1毫瓦。温度误差的极值约为8毫开(mK),远在目标400毫开的范围内,即使回路带宽只有1 kHz。图12(b)显示,即使相邻环加热器的1毫瓦阶跃变化,仅导致环上7毫开闭环温度误差,再次在范围内。注意,尽管这个温度变化量和500瓦ASIC阶跃变化量大致相同,但时间尺度要短得多。这些结果表明,即使在2.5D集成光学将承受的苛刻热环境中,依然有可能开发出能够锁定环并对外部温度变化进行稳定控制的控制器。

image-20241112143049586

image-20241112143015101

光学链路分析

在本节中,我们探讨基于环结构的DWDM链路架构,为200 Tb/s的交换机设计,如图4(b)中所示封装,并拥有100毫米的周长光子I/O。这产生了每根光纤每个方向800 Gb/s的目标,假设每对TX/RX使用一根配给光纤,光纤间距为127微米。光子链路架构的设计空间非常庞大。在本研究中,我们将分析限制在使用单一偏振的NRZ格式,并在专用波长上进行时钟转发[42], [54]。(我们假设每条时钟通道可以服务多达16条数据通道。)我们使用8b/10b数据编码(25%的带宽开销)和轻量级前向纠错,要求原始比特错误率(BER)< 10−8。然后,我们将分析重点放在DWDM通道的最佳数量、间距和数据速率的探索上,以便在给定能量中提供最大眼图开放或在给定眼图开放下提供最低能耗。这种优化针对电气和光学设备与电路的各种属性进行,如调制效率、带宽、均衡、解复用滤波器顺序等。对于每种情况,我们优化环以在通道带宽和通道间串扰之间实现最佳权衡。

统计链路工具

为了进行探索,我们使用内部开发的统计DWDM链路工具,该工具能够快速且合理准确地估算多通道链路的性能和能效。该工具(1)计算DWDM链路中每个组件的阶跃响应瞬态,(2)卷积信号沿任何给定路径遇到的响应,(3)为用户定义的模式概率密度函数(PDF)构建统计眼图,(4)添加相关的随机噪声参数,并(5)绘制统计眼图。通过统计眼图,用户可以在给定的BER下监控垂直和水平眼图开口,并在各个链路、电路和设备级设置下重复测量。为了在相同眼图质量下比较不同架构之间的能耗,激光器功率可以上调或下调以匹配眼图开口目标。就本研究而言,我们仅考虑以下随机噪声源:每个TX的输出参考噪声、每个RX的输出参考噪声以及激光器相对强度噪声(RIN)。每个噪声都被视为白噪声高斯噪声,与任何信号以及彼此独立。此外,我们并没有按照传统方式计算RX输入处的灵敏度,而是观察TIA/限制放大器输出处的眼图统计数据。我们要求在经过所有ISI、串扰和噪声后,该开口大于目标BER下定义的输出参考灵敏度。我们模型中假设这种灵敏度线性依赖于数据速率。

架构探索

通过以上描述的分析范围和工具,我们开始进行架构探索,以确定使用DWDM是否能够实现每根光纤800 Gb/s的目标,所用的电子集成电路(EIC)和光子集成电路(PIC)技术在当今或不久的将来可用。最关键的决策是波长通道的数量和每个通道的数据速率,以保证总吞吐量保持不变。此选择受许多设备和电路级假设的影响,如工艺节点、光子器件特性、激光器插墙效率(WPE)、环调谐效率和范围等。我们估算将800 Gb/s的负载传输到单根光纤所需的整体宏架构能效,同时满足灵敏度加裕量,以及固定激光输出功率为每线3 dBm(选择此功率以确保大多数链路研究中可保持开放眼图)时的最差情况下的眼高度和眼宽度。我们同时调整每个通道的原始数据速率和通道数量,以保持总吞吐量相同,包括编码和时钟开销。此选择探索了单通道带宽和串扰之间的丰富权衡,尤其是在为高容量设计的DWDM链路中是主要关注点。在相同自由光谱范围(FSR)下,具有更多慢速通道的链路会受到较少的电学和光学带宽限制,但由于相邻通道的光谱接近和环选择性较差,会出现更多的通道间串扰。因此,相比于较少快速通道的链路,它们会在更窄的光谱带宽下运行,即更高的Q值。因此,每种链路架构需要优化环的Q值,而这也将取决于许多低级别的设备和电路参数。我们探索了其中一些最重要参数的影响,具体如下:

  1. 电路:为了简化,我们假设环驱动器和TIA由三个相同的单极阶段组成。虽然这一选择排除了带有峰值阶段、复数极点和模拟均衡的复杂电路,但它仍然允许我们探索电路带宽和EIC工艺节点的影响。
  2. 均衡:通过启用一个单抽头判决反馈均衡器(DFE)来研究均衡。我们利用这一方式来理解DFE和均衡总体上如何影响链路架构,以及通过允许原本难以实现的高速数据率,如何改变带宽与串扰之间的平衡。对于每个数据速率,调整DFE系数以最大化在给定BER下的眼图开口。
  3. 环形调制器:通过改变其调制效率,即每单位电压的波长偏移,来探讨环形调制器的影响。不同类型的环形调制器(例如,横向或垂直结、交指结构等 [55], [56])具有不同的调制效率,但这些也依赖于掺杂特性。通常,较高的掺杂会带来更高的调制效率,但也会在环形波导中产生更高的损耗,限制可实现的Q值。基于此原因,当我们将调制效率从22 pm/V(约3.8 GHz/V,适用于中等掺杂浓度的横向结)变为50 pm/V(约8.7 GHz/V,适用于较高掺杂浓度的垂直结,均定义为0 V到-2 V的电平)时,我们同时将环形波导损耗分别在60 dB/cm和80 dB/cm之间变化。
  4. 环形滤波器:使用更高阶的RX环形滤波器通过更大幅度地抑制滤波器停止带,从而影响带宽-串扰的权衡,进而使整个链路对串扰的敏感性降低。此外,更平滑的通带特性可以设计用于减少符号间干扰(ISI)。我们通过将使用传统单环的链路与那些使用设计为最大平坦巴特沃斯特性的双环的链路进行比较,来研究RX环阶的影响。我们忽略了这种结构可能带来的更复杂的热调谐影响。为了限定分析范围,其他链路参数固定在合理的值。一些列出的参数有:激光器提供具有相等功率的N条等距线,WPE为8%,RIN为-145 dBc/Hz。所有环的半径为5微米,热调谐效率为200 nm/W(约35 GHz/mW)。环间损耗为每个环0.1 dB,包括非共振环耦合器和环间波导段的损耗。除了激光器、环、环间波导和光电二极管之外的所有光学组件被建模为集总宽带损耗为10 dB。TX和RX总线上的环空间排列方式为,TX总线上从激光器数起的第k个环调制器被锁定在与RX总线上从输入耦合器数起的第k个环相同的激光通道上。TX驱动器功率由CV²f控制,而TIA功率随数据速率不变。最后,我们假设电气数字后端的功耗主要取决于总吞吐量,而不是单一通道的数据速率。

该研究组织为基准参数选择与该基准的变异进行比较。那些基准参数是:无均衡的电路,每级40 GHz的带宽,22 pm/V的调制效率,同时环损耗为60 dB/cm,并使用单环滤波器。这些参数设置中的每一个都针对{数据速率,通道数}对进行研究。此方法的目标是识别对链路性能影响最大的参数,这些参数可以作为架构设计、电路设计或EIC/PIC代工厂的输入。

对于每个架构的TX和RX环的优化是通过改变耦合系数来完成的,同时保持临界耦合及最小化降端口损耗(实际上迫使RX环的降端和总线耦合系数相等)。存在1:1的对应关系,在图13中绘制的最佳耦合系数与TX和RX环Q值之间的关系,相对于在激光器输出功率固定为3 dBm时单一架构——34个通道,每通道32 Gb/s,使用与我们基准配置对应的一组固定参数——下的眼高度和眼宽度。在图14中,显示了两个说明性通道(相同架构中,眼图开口最大化的Qs下的第1号和第34号通道)的统计眼图和眼轮廓。我们看到第1号通道(锁定到第一个RX环的通道)经历了最严重的串扰。注意,第一个RX环在蓝边和红边上都经历了所有攻击者串扰通道,因为激光器光谱均匀分布在整个FSR上。对所有其他环的串扰因RX环的过滤作用而被削弱,这些RX环从总线中移除了大部分来自空间上在主通道之前的所有潜在攻击者通道的信号。最后一个环几乎不受串扰的影响,因为所有潜在的攻击者通道已从总线上移除。

image-20241112145338690

image-20241112145402264

图15和图16总结了各种链路架构的性能,在这些架构中,我们同时改变通道数量和数据速率,同时将总吞吐量保持在800 Gb/s。在这两张图中,我们将基准与以下案例进行比较:(a)1抽头DFE,其中系数针对每个数据速率设置以最大化眼图开口,(b)具有50 pm/V调制效率的调制器环,以及(c)采用双环的RX。图15报告了在固定激光功率下的垂直和水平眼图开口,而图16则显示了两个热调谐场景下的能效(通过调节激光功率以实现产生给定数据速率下10^−8的原始BER所需的眼图开口)。

image-20241112150053946

image-20241112150109844

在第一个场景中,对应于工艺变化较大的情况,TX环调制器和RX环滤波器必须分别调谐至FSR/5和FSR/8。在第二个低工艺变化场景中,环只需锁定到其最近的激光线,因此所需的调谐范围为FSR/N,其中N为通道数量。

从图15可以看出,对于基准设计可以舒适支持的数据速率而言,进一步降低数据速率并无益处,因为通道间距减小导致了串扰的增加。这种效应在高调制效率环形调制器的链路中最为明显,因为其高环损耗对该范围内所需的高Q调制器施加了更高的惩罚。在频谱的另一端,带宽增强的DFE配置在数据速率上扩展得最好。基准配置,以及在较小程度上,其他配置,都无法支持非常高的数据速率。在固定激光功率下,最佳眼高约为每通道25-30 Gb/s。

在图16中可以看到类似的趋势。两种调谐场景的比较显示,较窄的调谐范围如预期所示能提供更好的能量效率。然而,图中也显示,根据我们的假设,环加热器消耗了相当大比例的总链路能量。这意味着如果未调谐的环谐振波长有较大变化,那么其他架构和电路选择的影响会较小,并且使用较少更快通道的架构会更加有利,仅仅因为它们使用的环更少。这导致能量优化的数据速率高于眼图开口优化的数据速率。具体的变化程度取决于链路能量中与环数量成比例的部分:调谐场景1将能量效率的最优点向更高的数据速率和更少的环转移;调谐场景2倾向于支持相对较低的数据速率,因为它对链路中增加更多通道施加的能量惩罚更少,假定总加热器功率不依赖于数据速率和通道数量。例如,对于800 Gb/s/通道和上述假设,基准设计应目标为每通道约28-33 Gb/s以达到1.5-2 pJ/b(不出意料地受到电前端原始带宽的限制),而我们研究的任何设备和电路技术可将能量效率提高到1-1.5 pJ/b,在数据速率范围为30-45 Gb/s/通道的情况下。

实际考虑和局限性

我们的分析表明,利用当今可用技术实现800 Gb/s/光纤是可行的,并且具有合理的能效,小于2 pJ/b。架构的选择依赖于关于工艺技术、电路和光子器件的许多假设和设计选择,其中一些已包含在我们的研究中。还有许多其他因素,我们尚未考虑,这些可能会带来额外的功率损耗。其中一个是非理想激光源的影响,包括非均匀通道间距。另一个是架构对光学封装和组装的影响。此外还有详细热控制实施效果的问题。

我们分析的其他限制包括: - 为了加快模拟速度,我们的方法仅计算每个通道的用户定义数量的光谱邻居的影响。在整个模拟过程中,我们为主通道的每一侧使用了四个光谱邻居。该参数指示了多少邻居是重要的(通道间距越窄则越多)。我们发现,在实际情况中,包含四个邻居几乎可以解释所有的串扰。 - 统计工具在基带而不是光学频率下进行计算。假设各载波的数据流彼此独立。因此,未包含如在光电二极管处的跨调制等通道间相互作用的非线性效应。这些效应对于实际选择的通道间距和RX前端带宽通常可忽略不计。 - 认为热调谐是理想的;没有因调谐不完善而添加功率损失。调谐损失通常很小,尽管不可忽视,我们预计它不会显著改变结果和结论。 - 未考虑工艺变化的影响(例如,假设双环是相同的,激光源的功率和间距均匀等)。这些效应将是我们未来研究的重点。

总结

无论是本地的还是基于云的加速计算系统,越来越依赖高带宽交换互连,通过并行性来扩展性能。对于超越100 Tb/s代的交换机ASIC,MCM上的CPO将在ASIC与光学之间的电接口面临效率和密度挑战。在这些系统中,连接ASIC与光学收发器的硅互连(可在中介层或桥层上)可以克服这些挑战。运作在0.25 pJ/b和1 pJ/b的电接口和光学链路——包括驱动器、调谐和控制——可以在封装中为200 Tb/s的交换机提供300 W的离芯通信功率。进入光学域后,100米到1公里的距离是可实现的。与2.5D集成光学的光纤接口将需支持多Tb/s/mm的边缘带宽密度。利用微环谐振器的DWDM链路,通过波长并行可以在带宽上进行扩展,或许能提供所需的能效和面积效率。我们已经确立了在苛刻热环境中运行DWDM链路的可行性,同时在所需能量值下保持足够的信号完整性。如果实现,这种密集集成的解决方案将不仅帮助计算系统通过交换机扩展继续向上和向外扩展,还可以在GPU、CPU和其他处理ASIC内复制,以提高整个机器的效率。