电子发烧友网报道(文/周凯扬)随着摩尔定律逐渐放缓,芯片性能的提升已经越来越慢了,这一点大家从7nm到4nm的产品就可以看出,晶体管密度增加带来的性能升级开始出现了瓶颈。厂商们为了继续推陈出新,在近年来想出了不少新的方案,例如3D封装、异构集成,甚至是继续增大芯片面积等等。而如今光子集成芯片,尤其是光子集成计算芯片的兴起又带来了新的契机。
Lightmatter
目前钻研光子集成电路的初创企业并不少,但他们的光子计算核心原理基本相同,打造一个用于通用矩阵乘法运算(GEMM)的光子矩阵,再集成DAC、ADC、跨阻放大器(TIA)和光电探测器(PD)等其他模拟和光电器件,来替代目前深度学习和科学计算任务中的其他ASIC硬件。
Envise芯片 / Lightmatter
Lightmatter在集成度上已经做到了很高的水平,甚至推出了8"x8"的晶圆级光子芯片。Lightmatter给出的性能指标也相当夸张,配有4个Envise光子芯片的服务器里,同时运行BERT机器学习模型,Envise服务器能实现比英伟达DGX-A100高三倍的推理性能和7倍以上的能效比。
Lightmatter在技术博客中介绍了其原理。高速DAC负责将多位数字信号转换成多电平模拟信号,再通过光调制器转换为光矢量输入。通过光子矩阵的计算后,输出光矢量经过光电探测器、跨阻放大器和ADC,重新回归数字信号。
Lightmatter强调高分辨率的DAC功率较大而且会占用较大的芯片面积,所以它们选择了中分辨率的DAC来保证性能。而且为了满足TIA在高动态范围和大带宽上的要求,反馈电阻不能特别大,TIA之后也要加一个额外的电压放大器。
曦智科技
去年年底,与Lightmatter可以称为“同门师兄弟”的曦智科技也发布了旗下首个产品,高性能光子计算处理器PACE。在PACE中,单个光子芯片集成了超了一万个光子器件,时钟速度达到1GHz。根据曦智科技的说法,PACE在运行特定循环神经网络时,速度可以达到高端GPU的数百倍。
PACE光子计算处理器 / 曦智科技
PACE包含了一个64x64的光学矩阵,由集成硅光芯片和CMOS芯片3D堆叠而成,从Cadence发布的视频来看,曦智科技的3D封装应该是基于Cadence的Integrity 3D-IC和Innovus平台打造与设计的。
曦智科技强调,靠光子矩阵的光子计算和光子互联,不仅可以实现更强大的并行能力和更低的延迟,能效上也与电子IC相当,工艺要求却不高。所以对于数据中心等场景来说,是一个替代GPU的低成本高性能方案。
大规模光子集成芯片专项
从以上两家公司的成果可以看出,对于光子集成电路来说,最重要的一个是计算,另一个是互联,前者保证了性能,后者保证了扩展性和延迟。要攻克这些目标无疑需要更大的投入和研究,随着国外光子集成的研究已经起步,我国也早已认识到这一点,并在2016年启动了“大规模光子集成”芯片这一中科院战略性先导科技专项。
该专项分为三个目标,短期目标是在5年内,先解决目前集成电路面临的访存墙和I/O墙问题,互联交换带宽要达到3.2Tbps;中期目标则是利用大规模并行架构的光电混合计算芯片实现5万亿次矩阵乘加计算的处理能力,并以此开发深度学习计算机;长期目标则是面向未来的量子计算,推出超大规模的片上网络,在特定算法上性能彻底超过电子计算。
很明显,这样一个专项任务是一个复杂的工程,所以也分配给了半导体所、上海微系统与信息技术所、西安光学精密机械所以及计算技术所来合作完成。而该专项现阶段的结果已经达到了国际领先的集成规模,实现了单片集成15408个基础元件的16x16光学交叉矩阵芯片。
结语
除了光子集成芯片在设计上的创新攻关外,要想实现大规模集成,制备加工其实同样关键。目前虽然一些光通信和传感设备上的光子集成芯片已经借着成熟的CMOS工艺量产,但如何能在磷化铟或硅光器件上更进一步,将大规模的光子集成芯片制造和量产的成本与难度降低,或许才是这些光子集成芯片公司在供应链上最该关注的问题。
,