You should write because writing makes you a better person.

0%

REF:

  1. Novel Parallel Digital Optical Computing System (DOC) for Generative A.I. ,TSMC,2024
  2. TSMC硅光平台COUPE的最新进展-EDN 电子技术设计,膜

摘要

生成式人工智能(GAI)的普及使基于光子的计算因其满足更高能效性能(EEP)需求的潜力而备受关注。然而,以前的光学解决方案用于乘加(MAC)操作主要集中在模拟架构[1-7],其精度和数据转换有限,或者自由空间光学架构的可扩展性有限[8]。在此,我们报道了全球首个用于GAI训练的芯片上大规模数字光学计算系统(DOC)。DOC采用了一种新颖的基于晶圆的系统集成技术,具有多层低损耗光子互联扇出(PIFO)和利用台积电SoIC®的EIC/PIC叠加架构。它减少了数据移动和存储层级,从而改善了关键路径延迟和系统能效(EE)。与传统电子设计相比,DOC可以扩展到更大规模的相干网络,并以更低的能量每MAC操作在更高速下运行。在8位操作时,能量消耗低至<0.08皮焦/MAC,与最先进的GPU相比,在512 x 512MAC大规模操作中实现了超过20倍的EEP改进。由于相对较小的扇出能量,在更高精度下的EEP进一步提高。该架构完全有潜力在未来几代中实现持续的EEP扩展。

背景介绍

随着生成式人工智能(GAI)的使用增加,对更高计算能力和更低能耗的需求也在不断增长[1,2]。光学平台,特别是模拟架构,被提议作为一种具有竞争力的节能解决方案,包括Reck架构[3]、相干衍射光学[4-6]和LightMatter的推理Mars光子核心[7]。虽然光学模拟架构在过去十年中被深入研究,但由于相干性问题、器件损耗以及数模/模数转换设计,其仅在低精度应用和小规模上实际可行[8]。为了克服这一限制,MIT曾提出一种使用自由空间光学进行高能效复用技术以“被动传输和复制数据”的数字架构[8]。与电子不同,使用光学的一个显著优势是其能够直接进行低损耗的大规模扇出且与路径无关,从而减少了数据移动和延迟。此外,通过减少中间存储层级,内存层次结构得到简化,降低了整体内存访问的能耗[8]。这可能允许在大规模MAC操作中显著改善能效(EE)[8]。然而,自由空间光学难以扩展,其受限于衍射、光学元件的物理尺寸和对准要求。在所有光学自由空间架构中[4,5],各个光学元件的对准变得至关重要,而物理尺寸总会受到衍射极限的限制。因此,要实现高效率、高性能和大规模MAC操作的好处[8],需要一种高密度集成的低损耗光子扇出电路。类似于台积电InFO的电子扇出,设计了一种新型多层光子扇出DOC以实现所需收益。

DOC的集成流程遵循EPIC(电子-光子芯粒与集成电路工艺集成的平台技术[9])。EPIC-DOC首先在台积电SoIC®上进行EIC与PIC的叠加。然后移除PIC的背面硅。之后,多层PIFO结构如图1所示集成到PIC的背面。本文展示了一个用于512 x 512计算矩阵的超大规模、紧凑封装的光学扇出电路,具有-35 dB的光路损耗,允许能效改进和可扩展性。与最先进的GPU相比[10],在相同逻辑面积下,8位操作时能效性能提升超过20倍。此外,展示了计算单元尺寸的可调性,允许兼容各种应用。

image-20250103165008937

image-20250103170123006

集成数字光学计算

对于一个 N x M 数字光学计算系统(DOC),首先通过光子调制器将 N 个输入和 M 个权重电信号转换为光信号,这些调制器位于光子集成电路(PIC)上,如图 2 所示。然后,输入和权重信号在多层氮化硅中均匀分布,对于512 x 512 的计算矩阵,该分布分为两层。信号经过设计的1到512扇出电路传输到PIC上的光电探测器,以进行电信号转换。电信号被直接连接到电子集成电路(EIC),在此处通过位串行乘法器顺序进行MAC运算,并进行输出固定的累加[8]。

为了实现多路复用所需的大规模、低损耗、紧凑和路径长度控制的扇出特性,设计了两组封闭的1到512扇出电路。由于输入和权重信号的方向性,这两组可被区分为“水平”和“垂直”扇出。通过利用多层结构,封闭扇出的输出允许计算单元大小在不牺牲能效的情况下适用于各种应用,这与之前的树形扇出不同[11]。通过半对称扩展扇出实现了路径长度控制。

为了构建具有25微米 x 25微米计算单元大小的512 x 512计算矩阵,设计了紧凑的6平方微米的1到2分配器作为扇出的最基本结构单元,具有-3.25 dB的损耗,如图3所示。为了连接封闭扇出电路中的每个1到2分配器,设计了具有15微米至8微米半径的模式匹配波导弯曲,损耗分别为-0.05 dB/弯曲和-0.25 dB/弯曲,如图4所示。

image-20250103170236585

这是关键的,因为在螺旋图案封闭扇出中波导弯曲的高使用率成为限制计算单元大小的主要因素。

image-20250103170305302

此外,波导宽度和间距被控制以防止串扰噪声,如图5所示。

image-20250103170322869

最后,设计了一个60微米²的光通孔,层间过渡损耗为-0.5 dB,以防止各层之间的显著功率差异,如图6所示。通过优化流程和设计,预计还可以实现层间过渡损耗小于-0.1 dB和超过3倍的占用空间减少。通过控制扇出电路中每个基本构建块的损耗和空间,占用实现了大规模1到N/M扇出的制造。

image-20250103170214914

1到512扇出原型的测量总光路损耗约为-35 dB,测量专用的波导交叉损耗为-1.6 dB,由使用常规弯曲波导和当前工艺导致的损耗为-3.3 dB,如图7图8所示。这允许可实现的最小可调计算单元大小为20微米 x 20微米,尽管具有更高的光损耗。

image-20250103170528510

背面氮化硅集成封装 (COUPE)

与前侧相比,EIC/PIC堆栈的背面为扩大设计的高效扇出网络提供了一个平台[12]。多层氮化硅有助于减少扇出的占用空间和损耗。硅氮化物波导在1微米和2.1微米宽度下的传播损耗分别为-0.1 dB/cm和-0.02 dB/cm,如图9所示。这一点至关重要,因为传播损耗与计算矩阵的大小和单元尺寸成正比。

由于扇出位于背面,PIC/EIC从中获益,简化了整体设计的复杂性。这允许在每一层实现专用功能,从而通过扩展扩大潜在的能效性能(EEP)改进。此外,通过利用COUPE平台在最小化PIC-EIC接口寄生损耗方面的优势,提高了EEP[13]。

能效性能计算

在这种数字光学计算(DOC)架构中,总能效(EE)会随着精度的提高而显著改善。在低精度的MAC操作下,扇出能量占据了电力消耗的大部分。在高精度情况下,扇出能量将保持相对较小,与MAC操作中显著增加的功耗相比。因此,基于测得的损耗和经过优化工艺得出的估计改进,光路损耗可以如图10所示进行预测,假设激光器墙插效率为20%,调制器插入损耗为-2 dB,光纤到PIC连接损耗为-1 dB。基于这一损耗性能,可以实现预测的4096 x 4096 MAC操作。使用测量的工艺,DOC在8位情况下计算得出的EE约为0.15 pJ/MAC,相比当今技术实现了超过10倍的提升。通过优化工艺,预计在8位情况下可实现小于0.08 pJ/MAC的EE,能效性能获得超过20倍的提升。计算通过使用优化工艺后的光路损耗,假设调制器能耗为0.2 pJ/bit,每次SRAM访问能耗为0.1 pJ/bit [8],光电探测器的响应率为~1 A/W,以及每次MAC的EIC能耗为<0.025 pJ [8]。预计所提出的DOC在未来扩展到4096 x 4096 MAC操作以上时,由于系统集成和EIC/PIC的演变,其能效性能改进将显著。

image-20250103170639951

结论

本文展示了一种业界首创的集成芯片上数字光学计算(DOC)系统,该系统在台积电的COUPE上集成了PIC背面的多层光子互联扇出(PIFO)。与最先进的GPU相比,能效性能(EEP)提升超过20倍。DOC结构最大限度地减少了数据移动并降低了存储层级。该架构可以激发更多创新,并在未来的生成式人工智能(GAI)系统中具有持续提升能效性能的巨大潜力。

这里有东西被加密了,需要输入密码查看哦。
阅读全文 »

REF:

  1. EPIC-BOE: An Electronic-Photonic Chiplet Integration Technology with IC Processes for Broadband Optical Engine Applications, 2024, TSMC.
  2. TSMC硅光平台COUPE的最新进展-EDN 电子技术设计,膜大佬,写的非常清楚。

摘要

未来的 GAI(生成式人工智能) 系统要求比当今的系统具有更高的并行性以获得更高的性能,并具有更高的能效、高带宽密度和低延迟。我们提出了用于宽带光引擎(BOE)应用的首个完整集成技术,从光纤到 CoWoS 系统,利用台积电 3DFabricTM 和集成电路工艺形成紧凑的 CPO,实现 GAI 系统的 PPA 增强(性能、功耗、面积增强)。它在 1260 到 1360 nm 范围内具有高带宽覆盖和高光纤数量,这对垂直耦合器有利。与传统的宽带解决方案边缘耦合器(EC)不同,当我们每排集成 40 到 80 根光纤时,该解决方案不受海岸线翘曲问题的影响。创新的工艺流程实现了多个排数。SiN 波导、光纤耦合器、层间波导转换和偏振控制器件通过集成电路工艺实现,以达到高性能和高能效。低损耗波导提供小于0.01 dB/cm的传播损耗和每次转弯小于0.001 dB的90度弯曲损耗。该集成电路工艺可以利用现有的过程控制和检测计量学。新型SiN 光纤耦合器不仅可以实现超低耦合损耗的0.08 dB,而且可以在大于 300 mW 的高输入激光功率下持续 3 小时而不退化。紧凑、大间距的层间转换测得的损耗为0.015dB。偏振控制设备 ==PBSR 可以容易地集成在光纤阵列单元(FAU)==中,从而节省 PIC 面积,在 1260-1360 nm 范围内的消光比大于 23 dB,且 TE 和 TM 模式的损耗小于 0.3 dB。然后,FAU 系统可以进行现场维护。尽管光纤数量不断增加及其与紧凑的 EIC-PIC 结构的尺寸不匹配,我们的创新 EPIC-BOE 技术,由集成电路工艺和现有的在线测试方法制成,实现了系统 PPA 的高扩展性和高批量生产能力。

背景介绍

硅光子学已经彻底改变了集成光学领域,提供了一种新颖而强大的平台,用于构建可批量生产的光学电路。光耦合器是将光从光纤耦合到平面波导的重要接口。主要有两种类型的光纤到芯片耦合器:光栅耦合器(GC)和边缘耦合器(EC)。使用 GC 作为光的输入/输出端口时,虽然在处理多排光纤方面更加方便,但它通常在入射角、偏振状态、带宽和耦合损耗方面存在较大限制。基于未来多波长应用的需求、可忽略不计的偏振依赖性和高耦合效率,EC 可能是作为光学组件输入/输出端口的更好选择,因为它具有宽带能力。然而,EC 无法搭配多排光纤,因此受到海滩前缘尺寸的限制( Beach Front )。此外,对于 EC,每排最大光纤数量也受到海滩前缘翘曲的限制,这可以通过具有准直光束的垂直耦合器轻松缓解。目前没有一种主流光纤耦合技术可以同时满足带宽可扩展性的三项要求:每根光纤的带宽、每排的光纤数量和排数。EPIC-BOE 被设计为能够满足所有这些扩展性需求,因为它是一种基于集成电路技术的宽带、多排和垂直光纤耦合器。在接下来的章节中,我们将详细介绍其带宽扩展性、功率处理能力、能源效率、偏振处理、可制造性和可维护性。

带宽可扩展性

宽带

EPIC-OE旨在提供通用且多功能的宽带OE解决方案,由三个部分组成:COUPE(紧凑型通用光子引擎)、COIT(顶部互补光互连)和iFAU(集成光纤阵列单元)(图1)。宽带特性通过光谱宽度从1260到1360 nm来证明(图2)。

COUPE PDK中的光栅耦合器与端面耦合器的耦合损耗都超过了1dB,对于硅光系统的链路预算来说,这两个器件的性能还不够优秀。为此,TSMC进一步开发了耦合损耗更低、更高密度的光学封装方案。其原理如下图所示。在COUPE平台基础上,开发了COI(complimentary optical interconnect)和iFAU(integrated fiber array unit)组件。

在Si波导下方加工出多层SiN波导,可能在SiN波导上加工出光栅结构作为BMR(bottom mirror)将光束偏转到竖直方向上,这一部分称为COIB。在光引擎的上表面加工出硅微透镜,对光束进行扩束。COIT部分也是类似的微透镜和光栅结构,空间光束重新进入到SiN波导中,进而与光纤进行耦合。

该方案的一个好处是克服了edge coupler端口密度不高的问题,传统方案中edge coupler只能出现在芯片边缘,芯片宽度与光纤间距决定了最大的光口通道数目。TSMC的方案可以实现多排的光口输出,与二维光纤阵列进行耦合,大大提高了端口密度,如下图所示。目前TSMC已经实现了两排FAU组件的研制,下一步研发计划是四排,进一步提高光口数目。

image-20250103132014062 image-20250103132051770

每行光纤数量

与传统的 EC 由于海滨翘曲导致每行最大光纤数受限(见图 3)不同,EPIC-BOE 由于其垂直耦合器的特性,可以有效减轻翘曲问题。在最初的设计中,EPIC-BOE 每行的光纤数量可以达到 80 根,总共有 4 行。

image-20250103133126902

行数

FAU 的最大行数受限于行间尺寸控制和对准,基本上由其制造方法决定。例如,当用激光刻写玻璃时,行数受到激光可以刻写到玻璃表面的最大深度的限制。由于 COIT 是使用 3DFabric 工具箱制造的,我们利用集成电路工艺进行所有尺寸控制和对准。因此,行数可以按明确的路径进行扩展:当前设计中为两行 FAU(图 4 和图 5),下一版计划构建四行。

image-20250103133307011

功率处理与能量效率

高功率能力

硅波导在高功率水平下可能存在烧毁的风险,因为硅的非线性效应会导致光强增加,进而可能引发光子吸收、热效应,最终导致波导烧毁。EPIC-BOE 系统中使用氮化硅来处理高输入光功率。

在图6 (a) 中,Si 波导回环通过高功率激光注入进行了测试。图6 (b) 显示当输入功率超过 20dBm 时,输出功率开始趋于平稳。当输入功率达到 24.43 dBm 时发生显著变化,产生约 2dB 的不可逆附加损耗(见图6 ©)。SiN 波导回环在相同功率条件下进行了测试(图6 (d))。当将输入功率增加至 EC 的 25.14 dBm 时,其输出功率随输入功率线性增加,并且在超过 25.14 dBm 临界点前后的光谱性能保持一致(图6 (e) 和 (f))。

image-20250103133501743

能效

图 7 显示了我们设计的光纤耦合器的测量和仿真耦合损耗。结果表明,在 1310 nm 波长下,TE/TM 偏振的耦合损耗约为 0.08dB/0.05dB。此外,由于在 FAU 和 PIC 之间的封装过程中因错位引起的附加损耗,我们也对这种情况进行了仿真和验证。如图 8 和 9 所示,测量结果与仿真结果吻合良好,结果显示横向(Y 和 Z 方向)的错位约为 1.6µm/0.5dB;纵向(间隙)错位约为 36µm/0.5dB。SiN 波导的传输损耗通过不同长度螺旋波导的传输提取,并从光纤到芯片的耦合器损耗和弯曲损耗中去嵌。OWAT 结果显示在 12 英寸晶圆上 TE 偏振单模 SiN 波导的提取传输损耗小于 0.01 dB/cm。波导弯曲在 90 度弯曲时损耗小于 0.001 dB。相邻波导之间的过渡损耗为 0.015 dB。

image-20250103133616570

image-20250103133634834

image-20250103133646273

偏振控制

我们推出了一种基于氮化硅(SiN)的宽带、高消光比(ER)、低损耗偏振分束器和旋转器(PBSR)。与基于硅波导的 PBSR 相比,使用 SiN 波导可以克服硅波导由于双光子吸收效应带来的高功率处理问题的瓶颈。最近的一项研究 [5] 已经在 O 波段展示了 SiN PBSR。然而,其结构对 SiN 肋条和槽厚度的变化敏感,因此 ER 和带宽受到限制。图 10 显示了我们设计的 PBSR 仿真结果,在 1260nm-1360nm 范围内对于 TE 和 TM 偏振输入均有 ER > 23 dB。PBSR 对于 TE 和 TM 偏振的损耗均小于 0.3 dB,并保持偏振相关损耗(PDL)小于 0.1 dB。

image-20250103133812526

可维护性与可制造性

可维护性

通过由一对嵌入式硅微透镜组成的稳健准直光束系统,FAU 系统可以在现场维护,经过多次更换后,预计增加的光纤耦合损耗为 1.8 dB。

可制造性

EPIC-BOE 通过集成电路(IC)晶圆级工艺制造,并结合半导体在线测试、工具自动化和光学 WAT,以确保其可制造性。例如,关键的90度光束偏转器AC的映射在经过IC工艺优化后显示出97%的良品率(见图11)。

image-20250103134226264

结论

我们介绍了EPIC-BOE,这是第一个IC化的OE-FAU集成系统,能够实现垂直、宽带和多行光纤耦合。EPIC-BOE通过低损耗多层SiN波导实现,具有>300 mW/hr的功率处理能力,在1310 nm波长下对TE/TM偏振的固有光纤耦合损耗为0.08dB/0.05dB。配备集成硅微透镜,该准直光束系统可以完全维护,在反复更换后耦合损耗为1.8dB。这种IC化的创新FAU技术,结合COUPE光引擎,最终可以为真正高性能、高可扩展性、高可靠性、低成本且可制造的光纤耦合器技术打开大门,使之能够支持极端带宽扩展的硅光子时代,如GAI应用。

REF: Silicon Photonics Platform for Next Generation Data Communication Technologies, TSMC,2024

摘要

台积电开发了一种先进的硅光子代工平台,以满足下一代数据通信应用日益增长的需求。本文概述了该平台及其关键光子器件的性能。

背景介绍

大规模数据中心、芯片系统和高性能计算(HPC)系统中的数据流量呈指数增长,这主要受到云计算和人工智能(AI)需求增加的推动。铜基电互连已不能再满足这些挑战,正逐渐被硅光子(SiPh)平台所取代,因为后者在可扩展性、传输带宽、能效和低误码率方面具有显著优势。我们利用300毫米代工技术开发了一种光子引擎平台。该平台利用最先进的加工能力,结合了为光子集成电路(PIC)(N65及更高)和电集成电路(EIC)(N7及更高)量身定制的工艺节点的最先进功能。通过紧凑型通用光子引擎(COUPE)或芯片-晶圆-基板(CoWoS)封装,实现了PIC和EIC的异质集成。本文重点介绍PIC平台的开发,包括先进的制造工艺、工艺均匀性控制、测试和可靠性能力,以及器件设计和优化。我们还将详细讨论工艺开发套件(PDK)及其器件库。

实现光子集成电路的技术

COUPE 集成技术

在COUPE中,一个垂直O波段光栅耦合器(GC)与嵌入式微透镜集成,以实现到光子集成电路(PIC)的光纤阵列单元(FAU)总体耦合损耗为0.3dB,同时,当从外部光纤耦合入光时,保持对准公差在±10μm以内。通过集成芯片系统(SoIC)(图1a)将PIC和EIC电连接,旨在减少来自铜迹线的总体功率损失和信号退化。光子引擎的一个宽带边缘耦合版本也已实现(图1b)。我们计划在2025年启用COUPE用于小尺寸可插拔(SFP),之后于2026年集成到封装中作为共封装光学器件(CPO)。

image-20250103095453781

光子集成电路制造工艺

台积电的硅光子(SiPh)平台基于先进的CMOS工艺技术,使用300毫米绝缘体上硅(SOI)晶圆制造操作。该平台结合成熟的65nm CMOS技术与先进的光刻和刻蚀技术来定义关键的光子集成电路(PIC)层和结构。光学邻近修正算法被用于补偿光刻、沉积和刻蚀工艺中的变化。在晶圆内(WiW)和晶圆对晶圆(WtW)工艺中,可实现2nm(3σ)内的关键尺寸(CD)变化。离子植入和锗选择性外延被用于制造诸如PIN光电二极管、相位移器和调制器等有源器件。采用带有钨接触的六金属层后端工艺(BEOL)来连接有源器件。图2展示了一些制造的器件。

image-20250103095832832

自动化测试和可靠性能力

全面自动化的电/光晶圆验收测试(EWAT/OWAT)被用于跟踪器件在晶圆工艺过程中的整体健康和性能,并在工艺和器件性能之间建立持续反馈回路(如图3所示)。采用基于梯度下降的对准和特定器件测试条件优化,以尽量减少整体测试周期时间。仅电测试的关键参数包括离子植入电阻、光电探测器暗电流、加热器电阻、后端工艺(BEOL)电阻,以及调制器和光电探测器的电阻/电容(RC)常数。OWAT测试参数包括被动和主动器件,并结合电光/光电测量。可以监测波导(WG)传播损耗、分束器不平衡、插入损耗,以及主动器件的调制行为。对于晶圆级可靠性验证,硅光子器件需要经过温度、光功率和偏压循环、高温储存、温湿度偏置测试等各种应力测试。

image-20250103095845493

关键尺寸(CD)均匀性监控和改进

硅与氧化物之间的高折射率对比使硅光子器件缩小到亚微米级别,但也使其更容易受到制造过程中引起的尺寸变化的影响,因此需要严格的关键尺寸(CD)控制。例如,根据模拟和测量数据,线宽(CD)、刻蚀深度或厚度的1nm变化会导致微环的衰减波长或光栅耦合器的峰值耦合波长产生0.5-2nm的波长偏移。虽然可以通过集成加热器热调谐微环的衰减波长,但随着波长变化增加,会产生加热器功耗和温度可靠性风险。制造工艺引起的尺寸变化需要被控制在几纳米以内,以降低风险并控制整体器件性能。图4和表1显示了使用先进工艺工具的SPGC/MRR器件工艺和性能指标的晶圆内(WiW)变异性,表明MRR/SPGC波长3σ为1.44nm/1.32nm WiW。还将实施先进工艺控制以缩小晶圆对晶圆(WtW)变异,目标是在晶圆内和晶圆对晶圆中实现CD和深度3σ小于2nm。

image-20250103100459831

工艺设计套件(PDK)

我们开发了一种工艺设计套件(PDK),其中包含一个全面的O波段光子器件库,具有参数化单元(p-cell),并在25-105°C的范围内提供相应的s参数模型。提供了包括电压/频率依赖性的RC特性,以便设计者进行调制响应和眼图建模。对于高光功率操作的有源器件,考虑了由自由载流子吸收和双光子吸收引起的自发热行为。还对光电流引起的RC和调制响应的影响进行了建模。PDK中包含版图设计规则检查、端口连接错误验证和Verilog-A电路设计支持。图5总结了PDK器件库中的器件,接下来的两个部分将讨论一些关键器件。

无源器件

硅基无源器件

通过模拟、实验验证和工艺优化的迭代,PDK提供了一套稳健的高带宽和低损耗的波导(WG)、光栅耦合器(GC)、边缘耦合器(EC)、多模干涉仪(MMI)和方向耦合器(DC),适用于1290-1330 nm的波长范围。这为设计者提供了高效且精确的控制,从而能够从一系列外部输入源和方案中进行光的耦合、分光和合并。例如,硅单模和多模肋波导的传播损耗分别为0.67 dB/cm和0.20 dB/cm。图6a展示了一种最小化反射引起的波动的渐变MMI设计。图6b展示了SPGC最佳点优化的模拟结果,图6c展示了实验测量的具有不同目标峰值波长的SPGC设计的光谱。而图6d展示了PSGC的硅结果。

image-20250103100648326

氮化硅器件

硅氮化物因其宽带宽、极小的温度依赖性、低光学损耗以及对光功率的高耐受性,而成为开发高性能光子集成电路(PIC)的优选替代材料。采用低温(<400°C)等离子体增强化学气相沉积(PECVD)以及对硅氮化物波导中化学键的精确控制,开发出一个氮化物波导平台,具有单模波导在λ=1310nm时的传播损耗为0.21dB/cm,以及多模波导的损耗为0.14dB/cm。展示了一种硅氮化物边缘耦合器,在λ=1270-1330nm时,其插入损耗为1.2dB,偏振相关损耗(PDL)为0.18dB。

有源器件

微环调制器

MRM与MZM相比,具有占位面积小和功耗低的优点。然而,由于自热效应,MRM本质上对制造工艺的变化和温度升高更加敏感。这些变化对热波长调谐范围的影响可以通过严格的CD均匀性控制来最小化。通过优化散热器设计,进一步减少自热引起的温度升高。通过调整掺杂和其他设计修改,可以调节调制效率和速度等关键性能参数,以满足不同产品的要求[7, 8]。图7a显示了一个设计用于最大化调制效率的5μm半径环在不同偏置电压下的光谱偏移,而图7b显示了另一个设计用于高速调制的S21带宽测量结果(6dB/4dB插损下为63GHz/76GHz)。

image-20250103102431123

锗光电探测器 (PD)

这里展示了具有高响应度、高3dB光电带宽和低暗电流的锗光电探测器(PD)。晶圆级数据(图8a)显示在输入功率为5mW的情况下,光波导中的响应度接近1A/W。晶圆上的暗电流中值在-1.5V时为4.5nA(图8b)。展示的3dB光电带宽在光电流为200uA时为110GHz(图8c)(->光功率 -7 dBm),在1mA时超过50GHz(->光功率 0 dBm)。

image-20250103102602196

双环谐振腔

这里展示了由两个对称的圆形硅光波导组成的双微环谐振器(DMRR),并集成了加热器。WiW(波导内波导)共振波长的变化(1σ)可以控制在0.7 nm以内。图9展示了具有200GHz信道间隔的16个DMRR的光谱。

image-20250103102842267

结论

本研究展示了一个先进的硅光子代工平台,配有最先进的PDK(工艺设计套件)。通过先进的工艺能力、自动化在线测试和可靠性协议、工艺均一性和变化控制,该平台旨在革新未来的数据通信技术和发展。

REF: High-bandwidth Chiplet Interconnects for Advanced Packaging Technologies in AI/ML Applications: Challenges and Solutions, TSMC,2024,11

摘要

使用2.5D和3D高级封装技术进行芯片组合集成的需求激增,这是由人工智能和机器学习(AI/ML)所需的计算性能指数级增长所推动的。本文回顾了这些高级封装技术,并强调了对高带宽芯片互联至关重要的设计考虑因素,这对于高效集成至关重要。我们解决了与带宽密度、能源效率、电迁移、电源完整性和信号完整性相关的挑战。为了避免功耗开销,设计芯片互联架构尽可能简单,采用带有前向时钟的并行数据总线。然而,要实现高产量的制造和稳健的性能仍然需要在设计和技术共优化方面做出重大努力。尽管存在这些挑战,半导体行业仍将持续增长和创新,这一发展受到坚实的芯片生态系统和新型3D-IC设计方法论所打开的可能性的推动。

背景介绍

人工智能(AI)和机器学习(ML)技术的需求正在以前所未有的速度增长,远远超过摩尔定律预测的步伐。自2012年以来,AI训练所使用的计算量每年以4.1倍的速度指数级增长,超过了摩尔定律预测的每24个月翻一倍的速度[1][2],如图1所示。深度学习模型的参数数量的增加提高了它们的灵活性和潜在性能,推动了模型复杂性的迅猛增长。然而,这种扩张的速率正变得在经济(训练成本)、技术(计算机集群的大小)和环境(碳足迹)上不可持续[3][4]。为了部分满足不断增长的计算需求,必须关注算法效率和半导体规模的进步,旨在实现不仅更高的计算性能,还要实现能源效率高的计算性能[5][6]。AI工作负载需要大规模的并行矩阵乘法和累加运算,这些运算由并行计算核心的集群执行。这些工作负载需要大量的内存容量和高互联带宽。为了满足这种计算需求,一个典型的xPU/加速器芯片如今可能由许多计算、内存和IO芯片组组成[7][8][9],使用高级封装技术整合。每个芯片组设计在光刻步进机的光罩限制或视网膜尺寸内,为26 x 33 mm²。

image-20241220100405672

使用芯片组提供了数个显著的好处。通过将大型单片芯片分解为更小的、容易管理产量的芯片组,设计师可以针对不同的工艺技术优化特定的功能,例如,使用最先进的工艺节点进行计算芯片的设计,并使用旧一代的工艺节点进行以模拟为中心的IO芯片和内存芯片的设计。这种模块化方法不仅简化了制造过程,而且还有助于快速的系统整合,特别是当使用标准化的芯片组接口时[10][11]。通过利用现成的芯片组,这种方法预计能显著降低制造成本和设计周期。

随着基于芯片组的封装系统在规模和复杂性上的增长,3D集成[12]和晶圆级系统集成[13][14][15]将提供更高的能源效率、卓越的性能和增强的成本效益[16]。然而,一些设计师在每一代产品上都熟悉的关键问题,继续对如今更大、更复杂的芯片组系统构成重大挑战。这些挑战包括热设计功率(TDP)、功率传输网络(PDN)损失、机械和热应力、网络拓扑和路由算法、互联吞吐量、能效、延迟、可制造性、冗余与修复能力、可测试性等等[16][17][18][19][20][21][22]。解决这些挑战对于确保先进半导体解决方案的性能和产量至关重要。

本文结构如下。第二部分概述了高级封装技术。第三部分讨论了大规模CPU/GPU系统中各种封装技术的芯片对芯片互联。第四部分深入探讨了芯片组互联设计的实际问题,如串行与并行接口、芯片组I/F信号、信道路由和信号完整性、焊点图规划、时钟方案、缺陷修复、ESD路线图和功率传输。第五部分引入了全面的3DIC设计流程。最后,第六部分探讨了未来的发展趋势。

高级封装技术和新功能

文献[23]对高级封装技术进行了出色的综述,将它们分类为2D、2.xD(包括2.1D、2.3D和2.5D)以及3D封装技术。根据这种分类,如果芯片组直接放置在封装基板上,就被认为是2D封装。当使用了如薄膜、桥或被动互连器等中间层时,则归入2.xD范畴。具体来说,如果互连器是带有通孔硅Via(TSVs)的有源芯片,则被归类为3D封装。虽然这种分类直观,但同时也有些任意性。随着封装技术的不断发展,这些类别之间的界限可能变得越来越模糊。为了简化讨论,大多数中间的2.xD技术通常都被归类到2.5D范畴。同时,2D、2.5D和3D集成技术也可能在高级封装解决方案中共存,使用3D-IC一词广义地指代这些解决方案。不论这些区分,主要焦点将依然是利用这些技术在半导体设备中实现更优的性能、效率和功能。

图2展示了台积电正在发展的3DFabric™技术组合。作为广泛采用的高级封装技术的一个例子,3D Fabric是一套全面的集成技术,将多个芯片与更紧密的物理邻近性和更高的互联密度结合在一起,所有这些都来自单一供应商。这种集成实现了更小的外形尺寸、更好的电气性能,以及大大增强了数据带宽。更重要的是,这些技术允许系统设计师将原来的单片SoC划分为芯片组,并在一个封装中构建更强大的系统[5]。不同的3D Fabric封装选项保持一致性。这种连贯性是有益的,因为3D-IC的复杂性要求设计规则在大规模制造之前要兼容并且持续进行验证。

image-20241220100337999

两种不同的封装平台来自于不同的应用。第一种是芯片-晶圆-基板 (CoWoS™, Chip-on-Wafer On-Substrate) 平台,自2012年以来一直在生产,主要用于高性能计算。它有三个子系列。CoWoS-S 配备了一个硅中介层,允许非常密集的金属线(W/S = 0.4/0.4µm)。CoWoS-R 则[26][27]在有机中介层中嵌入了重新布线层(RDL),其布线密度较低(W/S = 2/2µm)。CoWoS-L [28] 结合了-R和-S的最佳优点:局部硅互连(LSI)用于高布线密度,而有机基板中的RDL则具有更好的电气性能。-S 或 -L 选项还可以在硅中介层或桥中嵌入深沟槽去耦电容器(DTC)[29],以增强电源传输。

第二个是集成扇出(InFOTM)平台[30]。InFO自2016年起开始批量生产,最初是受到经济高效的移动应用的驱动。封装在封装上的InFO(InFO-PoP)[30]是第一个3D风扇出晶圆级封装技术,采用细间距铜RDL将SoC与内存封装集成在一起。因其成本、外形尺寸和更好的信号完整性,InFO技术已经演变出许多变种,显著扩展以允许集成更多功能芯片,用于HPC应用[15]。InFO平台还具有先进选项,如局部硅桥用于更精细的金属布线,以及嵌入去耦电容器来提供更优的功率供应。InFO是一种芯片优先的方法,将芯片正面朝下放置在临时载体上,并围绕它们构建RDL。另一方面,CoWoS则是一种芯片最后的方法,首先制造出芯片,然后将其放置在硅互连器上,随后将其依附到基板上。这种制造步骤上的区别影响到集成密度和热管理。具体来说,在芯片优先的方法中,硅将在后续周期中经历热循环。而且后期步骤缺陷的成本也远高于芯片最后的方法。

3D堆栈已在内存产品中广泛使用,包括高带宽内存(HBM)[31]和NAND闪存[32],并且随着芯片制造商对计算密度和数据带宽的需求增加而被采用[33][34]。集成芯片系统(SoICTM)适用于这种3D芯片堆叠[35]。它包括带有微凸点(间距为18-25μm)的SoIC-P和带有先进键合(间距为3-9μm或更低)的SoIC-X[36][37][38]。

SoIC实现了多芯片在垂直堆叠配置中的无缝集成,为系统设计和性能优化解锁了新的可能性。此外,SoIC可以与CoWoS或InFO结合,形成更强大、更灵活的计算系统。

芯片制造商和外包半导体组装和测试(OSAT)供应商提供了一系列先进封装技术[23][38][39],每种都有自身的优缺点和在信号完整性、互连密度、可制造性和热管理方面的权衡。例如,英特尔的嵌入式多芯片互连桥(EMIB)[39]和AMD的突出风扇出桥(EFB)[40]都是具有无TSVs的高密度被动桥连接配有额外的RDL以增强功率完整性的特点。选择特定封装技术取决于特定应用需求和所需的性能特性,尤其是在高性能计算领域,其中速度和能源效率至关重要。这也在互连设计上提出了限制和挑战,将在随后的部分中进行探讨。

芯片到芯片互连应用

图3显示了芯片封装从焊接点间距缩小视角下的演变过程,从传统的2D标准封装类型或多芯片模块(MCM)110-130µm焊接点间距,到2.5D先进封装类型(例如,CoWoS/InFO)-40µm间距,再到3D芯片对晶圆或晶圆对晶圆类型(例如,SoIC)<9µm间距[11]。随着焊接点间距的减小,在给定面积内的芯片到芯片信号数量成平方增长,从而增加带宽密度。电路架构的选择在间距缩小的背景下极大受到如可达距离、带宽、能效和延迟等因素的影响[41]。例如,在MCM封装中通常使用高达~56/112Gbps的高速串行器/解串器(SerDes)[42]以最大化每个引脚的数据速率。相比之下,2.5D中介层通常由于其卓越的能效和面积效率而使用高速并行数据总线[41]。同时,先进的3D堆叠技术则从较简单、低速的数据总线中获益最多,这些总线使用最少的CMOS缓冲器和触发器,不需要均衡器或校准电路,从而实现最佳的面积带宽密度和能效[11]。

image-20250107140734621

图4展示了一个通过多个小芯片来扩展计算性能和用于AI应用的扩展的示例。小芯片之间的芯片到芯片互连可以分为四类:1) 计算到计算 & 计算到IO:基于CoWoS/InFO技术的UCIeTM PHY,2) 计算到内存:基于CoWoS技术的HBMTM PHY,3) 计算到SRAM:基于SoIC技术的3D堆叠,4) IO小芯片到外部IO:基于标准封装技术的XSR-Serdes。

当前最广泛使用的AI加速器采用这种拓扑结构以最大化计算性能和内存访问带宽[43][44]。诸如晶圆级系统等竞争性技术[13][14]为未来计算系统的可能候选提供了一些初步的见解。这些系统的互连和网络拓扑将需要相应地演变以满足系统性能需求。

image-20250107140910643

小芯片互连设计注意事项

小芯片互连设计目标和设计技术协同优化 (DTCO)

将以前的单片SoC拆分为多个通过高带宽小芯片互连连接的小芯片,可以实现更灵活的系统分区,并利用现成的小芯片提高良率和缩短周转时间。小芯片接口的标准化是一个重要的里程碑,比如通用小芯片互连表达(UCIeTM)[11]就是一个例子。在此之前,业界还采用了几种小芯片接口,以满足小芯片系统的需求,强调高带宽密度、低延迟和高能效。值得注意的例子包括高级互连总线(AIB, Advanced Interconnect Bus)[45],一束线(BoW,Bunch of Wires)[46],开放高带宽接口(OpenHBI,Open High Bandwidth Interface)[47],以及Lipincon(台积电专有)[48]。 图5提供了有关以满足2.5D或3D小芯片基系统中高速互连的性能和制造目标的多方面设计和技术协同优化(DTCO)努力的全面概述[49]。DTCO的范围涵盖了广泛的考量,包括但不限于:

  • 设备级优化:重点是提升晶体管带宽和噪声性能以改善IO能效。
  • 封装优化:通过平衡线路间距、层厚和通孔封装等关键参数来优化中介层上的封装设计规则,对于功率完整性(PI)、信号完整性(SI)、可路线性和可制造性至关重要。
  • ESD:在小芯片系统中,ESD保护和ESD建模面临新的挑战[50]。必须仔细评估先进封装的ESD等级,以确保ESD面积和电容的开销不会影响IO能效。
  • 电源分配网络(PDN):涉及管理由电源提供引发的电子迁移(EM)和IR压降、电压波动和串扰。
  • 热管理:主要挑战包括准确模拟热点,并减轻热循环导致的问题,如时间漂移、机械应力和电子迁移。这涉及在设计阶段[51]或运行时[52]实施解决方案,以将设备维持在安全温度范围内,从而保持性能、可靠性和寿命。
  • 为可测试性、可修复性和可靠性而设计:确保这些方面有助于有效的短期测试和长期寿命,这对产品的成功至关重要。
  • 设计签核流程:高效的、AI辅助的EDA工具和流程对于生产力和优化越来越重要[53]。

image-20250107141216556

串行与并行数据总线

在标准封装(MCM或2D)中,信号焊接点和金属线的间距较大。为了最大化每个引脚的数据带宽密度,人们被迫使用串行链路(例如,PCIe 32/64Gbps,CEI-112/224Gbps)与差分信号,如图6-a所示。

先进封装技术(2.5D)允许在较小的数据速率下,通过单位几何形状的更多并行单端信号来最大化接口带宽密度或面积带宽密度(例如,UCIe x64在4-32Gbps范围内)[11]。并行接口(图6-b)在几个方面表现突出。首先,并行接口伴随着一个用于抖动和偏斜跟踪的前向时钟,消除了每通道时钟数据恢复(CDR)机制的需求,从而简化系统并降低延迟。其次,并行接口的较低数据速率运作意味着系统在信道损失、抖动和串扰方面受影响较小。所需的信道均衡(EQ)更少,消除了电路负担,实现了更高的带宽密度和更好的能量效率。

对于3D堆叠,信号密度非常高(间距P ≤ 9µm),3D互连电路面积需要小于焊接面积(P²)以最大化互连效率(定义为带宽密度*能量效率)。在这种情况下,并行数据总线的速度被限制在5Gbps,以简化定时[11]。不需要校准和适应性调整,有效地降低了功耗、延迟和面积开销。UCIe-3DTM就体现了这种精神(图6-c)。

image-20250107141529793

芯片到芯片互连信号传输

先进的封装技术能够实现芯片更近的距离和减少互连负载,从而提高信号完整性、数据速率和电源效率。非归零(NRZ)和四级脉冲幅度调制(PAM4)信号有可能成为不同运行速度的候选方案。如图7所示,核心供电(例如,Vdd=0.75V)的SST(源端串阻终端)驱动器常用于优化眼图裕度和阻抗匹配。NFET-NFET驱动器已被采用以在低VDDQ(例如,<0.3伏)下运行以减少功耗[48]。然而,这种额外的电源域可能会因路由资源稀缺而不理想。当在PAM4奈奎斯特频率下的插入损耗上有显著优势时,PAM4是有益的,但它在中间电平消耗直流电流,使其对低损耗先进封装通道不太适用。另一种低功耗驱动器选择是交流耦合[54],通过减少驱动器强度和信号幅度来降低功耗。同时双向(SBD)数据传输也可以在给定的界面上将数据带宽加倍[55][56]。

image-20250107141742111

信道可布线性与完整性分析

对于高布线密度(例如,最小间距0.4µm),适当的信号间隔离是必要的,以实现足够的串扰隔离和更好的信号完整性。如图8所示,代工厂内的信道优化涉及许多指标,如介电厚度、金属间距、金属厚度、可用金属层、通孔封装、堆叠规则等。针对每种先进技术的中介层进行设计和技术协同优化,经常推动设计规则以在可制造性、可布线性和信号完整性(SI,包括插入损耗和串扰,如图所示的曲线)之间保持良好的权衡。

image-20250107143444530

图9展示了两种不同代表性封装和不同隔离风格的UCIe芯片间布线设计示例。InFO(硅桥)有局部硅互连,金属厚度为2µm,而InFO(有机基板)则有再分配层(RDL),金属厚度为2.3µm。两者都有4层信号布线金属和1层电源网格。前者具有更紧的金属宽度/间距细分。两种情况下信号间距为8µm,前者可以允许更宽的金属隔离和略大的信号间间隔。因此,前者能够在32Gbps速度下运行x64 UCIe标准,而由于更严重的串扰,后者仅能在x32数据通道上达到16Gbps。

image-20250107143603637

2.5D和3D形态结构

互连模块的某种形态结构,包括模块几何形状、信号顺序、焊接点间距、多模块堆叠等,对于确保不同小芯片供应商之间的整合兼容性至关重要。尽管这种标准化为小芯片生态系统带来了刚性,但简化了IP开发——只需支持有限的IP变体。然而,需要注意的是,某种给定的形态结构在面积、功耗和成本方面可能并不总是最佳的。以UCIe为例:最初发布的x64(64 Tx + 64 Rx)形态结构,随后提供了适用于低成本高级封装且再分配层(RDL)数量较少的x32(32 Tx + 32 Rx)形态结构。最初的10列模块针对的是45µm的焊接点间距。为进一步提高面积效率,联盟后来引入了适用于较小焊接点间距(<38µm)的16列模块和用于较大焊接点间距(>50µm)的8列模块[11]。这些连续的调整在满足不同应用的不同需求之间,平衡了成本和性能。

当前的UCIe协议支持对称的双向数据发送和接收,这对于同质xPU小芯片之间的数据通信是典型的。相比之下,芯片生态系统中的关键组件——高带宽内存(HBM)接口,表现出不对称的内存访问(读/写)带宽。为了在不引发严重信号完整性问题的情况下扩展接口带宽,未来的HBM4将双向数据IO的数量从1024增加到2048[31]。扩展HBM以增加带宽通常受限于布线拥堵和信号完整性问题。通过将基底逻辑转移到先进的制程节点,可以缩短互连路径,从而改善信号完整性和速度。或者,使用类似UCIe的SerDes IO作为HBM接口可以通过更少的信号路径达到更高的通道速率,同时改善信号完整性并维持相同的带宽密度。

另一个显著的小芯片应用是数据转换器和逻辑处理器之间的接口。JESD204D是最新的高速度串行接口标准,定义了数据转换器的高速串行接口[57]。它包括ADC(模拟到数字转换器)的数据接收接口和DAC(数字到模拟转换器)的数据发送接口。这些标准适用于PCB级或多芯片模块小芯片集成。然而,尚未为高级封装中的数据转换器建立小芯片标准。

虽然可以想象开发一个可满足三种不同系统的通用小芯片标准——同质双向核心到核心接口、非对称内存访问接口和单向数据转换器接口——但每个系统仍需不同的形态结构以实现最佳性能和效率。

3D堆叠是实现更高能效的自然选择,主要因为短的芯片内布线显著减少了芯片间数据移动所需的能量。3D互连集群对于形成内在计时鲁棒性的硬IP模块至关重要,如图6-c所示。这种内建的计时鲁棒性允许模块化计时签核,确保3D堆叠中每个芯片的计时验证可以独立且自成一体地进行。

在图10中,我们提出了一种采用AB|BA模式的3D集群结构,其中模式A代表发射器(TX),模式B代表接收器(RX),或反之亦然。方形A/B模式可以根据系统需求配置为各种尺寸,例如4x4、8x8或20x20。RX和TX时钟位于各自区域中心,为每个I/O引脚和整个芯片提供最佳平衡。电源和接地在IP集群内对称分布。这种配置具有设计单一IP模块的优势,该模块具有特定的多晶栅极取向,可以适应任何小芯片取向,前提是假设在小芯片级别可以轻松实现逻辑电平引脚重新映射。

image-20250107143833443

这种结构促进了SoC级别的轻松扩展,使得通过SoC上的IP实例化,实现不同的小芯片到小芯片堆叠场景。我们提出四种面对背(F2B)和面对面(F2F)连接选项用于SoC级别的扩展:在X方向上镜像或阶梯式,在Y方向上镜像或阶梯式。

图11展示了两个集成示例: 1. 情况1:‘X-镜像 / Y-镜像 / 芯片到芯片之间镜像’ - 此配置支持所有F2F和F2B芯片到芯片堆叠场景。 2. 情况2:‘X-阶梯式 / Y-阶梯式 / 不在D2D之间镜像’ - 此设置在芯片之间具有相同的焊接图。它支持F2F堆叠,但F2B堆叠需要90度旋转。

image-20250107143852137

这些灵活的集成方法确保IP集群可以在各种小芯片堆叠配置中有效利用,促进SoC设计中的可扩展性和效率。

通道去偏和时钟对齐

在并行数据总线和前向时钟拓扑的基础上,需要对数据通道和时钟通道进行对齐,以最小化通道间的偏斜。通道间的匹配通过发射器(Tx)和接收器(Rx)在焊接点布局规划中的反镜像物理对称性来实现。然而,当需要连接两个不同的形态结构时,物理对称性将失效。例如,8列UCIe与10列UCIe的接口,通道本质上是不匹配的。此外,随机的电路不匹配和芯片上/封装上的线不匹配会增加额外的偏斜。需要在叶时钟树的每个通道基础上分配足够的偏斜调整范围,以实现发射器和/或接收器处每个通道的偏斜校准。在接收器中,数据采样时钟进一步调整到Rx数据眼的中央,以获得最佳的左眼和右眼裕度。

图12中展示了两种前向时钟生成的时钟拓扑。边缘对齐拓扑(图12-a)具有数据转换和时钟转换的对齐;接收器中采用本地DLL生成相位偏移90度的时钟来采样Rx数据眼。边缘对齐拓扑旨在减少电路并提高能效,但对温度或电压漂移引起的不匹配敏感,因此仅适用于较低数据速率(例如低于20Gbps)的应用。延迟匹配拓扑(图12-b)在发射端生成I/Q时钟(使用DLL或PLL和相位插补器),I时钟进入数据路径,而Q时钟被前向到接收器。时钟和数据路径在结构上匹配,以保持良好的抖动跟踪和延迟跟踪。

image-20250107144140379

在大多数情况下,发射芯片和接收芯片使用独立的PLL和时钟域。为实现两个PLL域之间稳健的时钟域交越,通常需要先进先出(FIFO)数据缓冲器,这会带来额外的功耗和延迟(图13-a)。对于像核心到内存连接这样的接口,可以在两个堆叠的芯片之间强制使用单一时钟域。在图13-b中,我们提出了一种可实现两个芯片之间单一时钟域的替代方案,其中PLL1的主时钟从主芯片前向到辅助芯片并返回主芯片。这使得3D芯片间接口可以在无需FIFO的情况下发送/接收数据。第一捕获触发器(DFF)边界处的时间裕度可以保持与图13-a相同。在主芯片中,RxDFF后的数据重捕获时间裕度略受两个前向时钟路径延迟影响,这是可控的。

image-20250107144156301
冗余与可修复性

冗余与可修复性是微处理器领域广泛研究的主题。[58]确定了三种不同的冗余策略:

组件级冗余:这包括拥有多个并行的功能单元,如多个CPU核心。在这种安排中,一个或多个核心的故障不会影响系统的整体功能。
阵列冗余:这种类型的冗余增加备用结构,可以替换有缺陷的结构。阵列冗余的一个常见应用是在缓存存储器中,备用元素替换故障元素以保持性能。
动态队列冗余:这种方法涉及动态标记和禁用有缺陷的元素,从而防止其使用并维护系统的完整性。

利用这些冗余策略,处理器可以实现更高的可靠性和更容易的可修复性,确保即使在故障出现时也能保持稳健的性能。

由于芯片之间是通过密集的微凸点或先进的键合连接的,检测和修复缺陷对于保证封装后的芯片良率是必不可少的。上述三种策略都可以适用于小芯片互连。图14展示了一个示例,其中使用“移位和切换修复”概念[21]来修复三个失效通道,仅需一个过十的硬件冗余。基于二项分布的概率计算[58]表明,这种30+3联修方法比三个独立的10+1组实现了1000倍的更低故障率。

image-20250107144245091

对于如汽车业等AI/ML正在成型的关键任务应用,处理器故障的风险很高,因此当处理器能够响应不断变化的应用行为以维持其寿命可靠性目标时,动态可靠性管理技术是有益的[59]。在修复能力和信号完整性之间取得平衡需要进行战略性权衡。例如,分离电源和地凸点有助于防止永久短路故障[22]。然而,这种方法可能导致增加的面积开销或信号完整性的妥协。

静电放电迁移

随着行业对更高带宽的追求,ESD结构必须相应地缩小规模,以防止ESD二极管的大尺寸和高电容成为缩放的瓶颈。如果不解决这个问题,将限制IO的能量效率。我们需要为包含微凸点和先进键合的IO制定一项积极的ESD发展路线图。图15展示了ESD电容和面积缩放的趋势[6],还显示了行业支持的充电器件模型(CDM)电压的降低。

image-20250107144354975

电源传输

以UCIe先进封装的10列形态结构为例:在32Gbps操作和0.75伏下具备0.6pJ/bit能效的条件下,基于388.8µm×约1000µm的x64通道模块尺寸,电流密度可以超过4.1A/mm²。在如此高的电流密度下,我们观察到在电源/地凸点上存在严重的电磁(EM)可靠性问题,发现其超过设计规则允许的EM限值三倍。此问题通过更换凸点材料得以缓解,但我们也不得不增加更多的电源/地凸点,并更新UCIe凸点地图以提升可靠性和性能。

此外,UCIe规范支持时钟门控模式。从空闲到任务模式,会引入最坏情况下的动态电流变化率(di/dt),导致显著的电压下降。这会因为定时和电压裕度的减少而导致更高的位错误率。最有效的降低di/dt的方法是依赖芯片内或封装上的去耦电容器来抑制噪声波动。去耦电容策略包括,从上到下(参见图16-a):A) 封装上离散去耦电容器(OPD),通常在µF范围内,B) 封装内去耦电容器,例如在硅中介层上嵌入式深沟电容器(eDTC),其电容密度超过1000nF/mm²,C) 芯片内去耦电容器,包括电容密度约为50 nF/mm²的超高密度金属-绝缘体-金属电容(SHDMIM),以及电容密度约为10 nF/mm²的器件电容[29][49]。位于或接近顶层芯片的电容器显示出较低的串联电阻,但电容密度也较低。随着距离顶层芯片的增加,串联电阻也增加。因此,在确定最佳去耦电容策略时,必须考虑技术、成本、面积和噪声规范等多种因素。

image-20250107145513222

全面的3DIC设计流程

如图17-a所示,先进封装架构涵盖多种封装选项。这些选项包括在每个层级上不同数量的芯片,以及引入各种被动器件,如深沟电容器(DTC)和集成被动器件(IPD)。该架构还支持不同类型的水平连接,包括硅中介层和有机中介层,以及各种垂直连接,如硅通孔(TSV)、中介层通孔(TIV)和模具通孔(TMV)。此外,提供多种接口类型,包括先进键合、微凸点、C4凸点,以及不同的堆叠方向,如面朝下、面朝上、面对面和面对背。

在单一或多个供应商中提供的多样化封装技术,以及众多可能的组合,显著复杂化了设计过程。此外,各种物理集成和验证任务需要不同的EDA工具,需要涉及多家IP和工具供应商。当前的EDA工具、工作流程和方法论已显著演变,以满足复杂3D集成的需求。

为解决3D-IC设计中的挑战,3Dblox™开放标准[60]已经建立并获得广泛的行业认可。如图17-a所示,3Dblox™引入了一种模块化方法,其中3D封装中的每个物理组件被分类并抽象为特定模块。设计3D系统涉及通过实例化这些模块,用高级编程语言创建相互连接的对象,类似于传统SoC的层次结构。

图17-b展示了3DBlox的关键特性。为了简化设计过程,我们将断言直接集成到语言中,实现了一种自上而下、通过构建设计正确的方法。层次实例化功能增强了小芯片的重用,促进了设计效率。随着主要EDA供应商和半导体制造商采用3Dblox,小芯片集成变得更加无缝且显著更高效,得益于改进的互操作性。这种集成将进一步加速3D-IC生态系统的发展和成熟。

image-20250107145655876

未来发展趋势

设计模块化

为支持从4到32 Gbps的数据速率的高级封装,已经定义了六种UCIe形态结构[11]。图18 (a)展示了一种形态结构的示例。考虑到各种焊接点间距、列数、数据速率和技术节点,知识产权(IP)的开发变得耗时且资源密集。为缓解这一挑战,实施了一个模块化概念和编译器兼容方案,如图18 (b)所示。

在这种方法中,芯片到芯片互连被分割为可重复的模块,如IO通道,以及常用的共享模块,包括DLL、PLL、DCDL和校准电路。特定的布局元素,如时钟树,可以根据不同的目标规格进行定制和编译。

image-20250107145746816

带宽和能效扩展

带宽密度和能效仍然是下一代小芯片互连的重点。

封装凸点间距和技术节点对带宽密度有显著影响。图19展示了基于实际工艺和封装技术缩放因子的第一估算的区域带宽密度趋势。为了增强带宽密度,可以提高链路数据速率和/或减小互连凸点间距。然而,更高的数据速率需要更强的电路驱动能力和校准,导致更大的电路面积。因此,可能需要调整凸点间距。例如,在N7技术中,45µm的凸点间距(P45)支持16Gbps,而55µm(P55)和65µm(P65)分别需要用于24Gbps和32Gbps,导致16Gbps以上的区域带宽密度下降。相比之下,N4/N5(4nm/5nm)技术支持数据速率高达24Gbps的增加带宽密度。N3允许进一步增加带宽。设计和技术协同优化可能会略微修改趋势线,但总体上,更先进的技术如N3(3nm)提供了实现更高区域/海岸线带宽密度和能效的优势[61]。

image-20250107150018946

从海岸线带宽密度的不同视角来看,上述研究是基于UCIe凸点映射约束的,结果是较高的数据速率与较高的海岸线带宽密度相关。这与[62]中的评价形成对比,其同时考虑了x和y方向的间距缩放。随着数据速率缩小凸点间距,同时保持凸点限制的情况,海岸线带宽密度保持不变。在这种情况下,由于电路复杂性减少,较低的数据速率预计会提高能效。反过来,技术缩放可以在给定的凸点间距支持更复杂的设计并提高数据速率,从而改善海岸线带宽(例如,从1.5提升到2 Tb/s/mm),如图20所示。

image-20250107150037276

更大的系统

由于光罩尺寸限制,AI/ML开发的最新趋势是在晶圆级扩展(图21)[13][14][15]。通过结合由3DFabric(或同等技术)提供的解决方案,我们可以有效地利用SoIC进行SRAM+CPU和HBM+GPU的集成,利用LSI进行CPU+GPU(高密度/近距离)的集成,利用LSI进行xPU到I/O芯片的集成,使用被动LSI用于eDTC(用于封装内去耦以减轻电源噪声),以及使用RDL进行电源传输和大规模集成中的长距离数据传输。这种晶圆级封装减轻了光罩尺寸限制带来的约束,同时在不久的将来需要网络级晶圆[13][14]以及异构(串行和并行)[18]或混合(光和电)连接[63]以实现xPU到xPU的高效互连。

image-20250107150154528

在晶圆级封装之外,扇出型面板级封装(FOPLP)[64][65]也在前景中,预计在面板级封装中实现更高的封装吞吐量、降低成本和潜在的更大集成系统,其中翘曲控制在整个封装过程中仍是一个重要挑战[66][67]。

与此同时,对更高互连数据带宽密度的渴望持续增加,例如,UCIe联盟正在研究一种用于芯片间互连的48/64Gbps提案。对于系统的扩展和扩散,封装内光波导[68]和共封装光引擎[69]继续吸引着行业的关注。

更大的系统需要具有集成磁组件的垂直电源传输,以实现高效的电压调节[70][71]。更大规模的CPU、GPU、HBM、SerDes、光引擎和电压调节器的集成是一项重大工程,超越了一些现有的工程壮举[13][14][15]。实现这一目标需要各行业合作伙伴的协同努力,以管理技术堆栈的不同方面,确保在实现高性能的同时,确保卓越的能效、信号完整性、热管理和结构稳健性。

随着小芯片生态系统的日益成熟和3D-IC设计方法的进步,新的可能性和更伟大的创新将会涌现。