在《PCIe 5.0系列(1):前世传奇》的“上篇”中,我们回顾了过去十多年间,PCIe的早期演进,以及背后的应用(大数据、移动互联、人工智能)的关键发展。数据流量的需求与技术能力互相促进,计算、网络、存储的能力获得了指数级的增长,构建了一个繁荣的生态环境。在“下篇”当中,我们将展望PCIe的未来演进——我们看到的将不再仅仅是带宽的倍增,而是其中承载着更新颖的理念、更宏伟的愿景。

PCIe 4.0到PCIe 5.0

在2017~2019年间,应用领域的发生的是:以人工智能/机器学习和基于云为首要的新工作负载正在将虚拟化的焦点从一台运行多个进程的服务器转移到连接多个处理器以处理单一、庞大的工作负载。

01

人工智能和机器学习应用。随着下一代 5G 蜂窝网络在全球范围内的部署,结合理论技术经过数年探索已经部分成功转化为生产力了,导致人工智能开始无处不在。随着包括机器学习和深度学习在内的AI工作负载以实时速度生成、移动和处理大量数据。

02

云计算的不断发展。企业工作负载正在迁移到云端:2017 年45%的工作负载基于云,到2019年这一比例超过60%!并且还将继续增加。数据中心正在提升超大规模计算和网络以满足基于云的工作负载的需求。

03

虚拟现实/增强现实 (VR/AR)、自动驾驶汽车是热门研究方向。

这些应用对于I/O基础架构的需求主要归结于是:

更大的I/O互联带宽以容纳更多的加速器、TPU的协作;

更高速的网络协议以支持规模经济;

数据链路上更快更宽的通道,更小的时延。

而PCIe4.0的不足其实已经显露,比如NVIDIA就在2018年创新了NVSwitch,利用其私有的NVlink协议将多个GPU互联。NVSwitch的第一代就是300GB/s,而在2017年PCIe4.0 x16的带宽是64GB/s。

m2和pcie的ssd使用差别(SSD新范式PCIe5.0系列)(1)

图片来源:NVIDIA官网

在网络方面,以太网技术也取得了突破。硅光技术和产品已经成熟到可以支持400Gb以太网链路了。硅光子学是硅集成电路和半导体激光器的结合,与传统电子产品相比,它可以在更长距离上更快地传输数据,同时利用大批量硅制造的效率。对于400Gb以太网卡,对比前一代占用2个x16的PCIe 4.0的方案,占用1个x16的PCIe 5.0的方案在功耗、空间占用、成本方面显然更为优越了。

m2和pcie的ssd使用差别(SSD新范式PCIe5.0系列)(2)

图片来源:英特尔官网

在存储方面,NMVe继续稳步升级。NVMe-oF在RDMA binding上增加了TCP Transport binding。这新带来的路由功能显著增强了混合云、多云的灵活性。

m2和pcie的ssd使用差别(SSD新范式PCIe5.0系列)(3)

图片来源:NVMe 官网

结合应用需求,计算单元、网络单元和存储单元的动态,PCIe 5.0定义的愿景是:“数据中心/云计算的游戏规则改变者,对未来替代协议的内置支持。”PCIe 5.0具备修改了的训练序列(TS1&TS2),带有用于未来的替代协议的ID的新字段和增强的预编码。这标志着PCIe标准的开放,允许未来的协议利用一些经过验证的PCIe固件和软件堆栈,并扩展PCIe的范围和功能——简单地说,未来PCIe的物理层可以接受不同协议的连接。PCIe 5.0为人工智能/机器学习(AI/ML)、数据中心、边缘、5G基础设施和图形领域的下一代应用提供高带宽和低延迟连接。

PCIe6规范已经在2022年1月发布,其愿景是“异构计算应用,如人工智能、机器学习和深度学习。”在技术上,PCIe 6.0将从过去几代一直未变的编码类型、每周期位数、数据包类型全部更新了,PCIe 6.0将会是更为彻底的升级。

从“做得到”到“做得好”

我们在前面回顾了不同时期的前沿应用所产生的“需求”,也就理解了不同阶段PCI-SIG在开发PCIe时的愿景。与需求相匹配的,则是供给,也就是另一个答案“做得到”。从硬件实现的角度看,新的总线能否进入市场,何时能够普及,关键是看硬件平台厂商(如Intel和AMD)的产品策略和实际进度。

一般来说,规范确定到商品化需要1~2年的时间。PCIe 3.0规范2010年确定,2011年底发布的Sandy Bridge-E/EP处理器正式提供了PCIe 3.0支持,次年的Ivy Bridge把PCIe 3.0带入主流消费市场。这个时期工作站/服务器平台的PCIe 3.0接口主要是为多显卡、多网卡服务,通常是若干x16和x8的接口形态组合。同期的主流SSD控制器使用的是SATA或SAS接口,即使占用PCIe通道也大多是通过RAID控制器。换句话说,SSD的性能和数量,尤其是数量(密度),并不在早期PCIe 3.0平台的考虑之列。毕竟,第一款NVMe SSD要到2013年才会出现(NVMe1.0版于2011年发布)。

2015年前后,随着类型更丰富、数量更多的外设转向PCIe 3.0了,M.2和U.2接口也进入普及,主流SSD不再是体型较大、缺乏灵活性的AIC形态。此后,x4通道将成为SSD的绝配,是硬件成本、体积、性能、密度等方面的理想平衡。

有了专用、优化的协议(NVMe)与接口(M.2、U.2),介质也恰好进入了MLC/TLC、3D堆叠的发展路线,SSD的性能、容量、销量都进入狂飙突进的时期。这与移动互联网、深度学习等疯狂消耗存储容量和吞吐量的应用潮流完美叠加。相对SATA时代的600MB/s接口带宽,PCIe 3.0 x4大约4GB/s的上限足有6倍之多,这个性能落差足够容纳两三次倍增了,这也不难理解PCIe 3.0的黄金时代竟然又“拖”了七年——从另一个角度看,PCIe接口保持不变,也为NVMe SSD的孵化成熟提供了稳定的外部条件。

PCIe 4.0标准于2017年发布。2019年4月,英特尔(Intel)发布的100GbE芯片支持PCIe4.0和NVMe over TCP。2019年8月,AMD的第二代EPYC处理器让服务器和数据中心平台进入PCIe 4.0时代。2020年初,英特尔推出了支持PCIe 4.0的D7 P5500/5600系列SSD。可惜的是,占据市场服务器主要份额的英特尔直到2021年4月才推出支持PCIe 4.0的第三代至强可扩展平台(Ice Lake)。

预计到2022年底,市场上的主流平台还会以PCIe 4.0为主。

似乎英特尔已经提前把热情放到了PCIe 5.0平台上:2021年底发布的12代酷睿平台,2022年5月出货的第四代至强可扩展处理器(Sapphire Rapids)已经支持PCIe 5.0。这也就是前面提到的,4.0到5.0的迭代时间非常迅速。这种情况下,大家未免会疑惑:PCIe 4.0这么快就不够用了吗?甚至,NVIDIA还未发布的下一代40系列显卡并不支持PCIe 5.0。如果现在只有400Gb网卡才用得上PCIe 5.0的话,硬件平台为什么也要急于参与这一轮迭代呢?

我们认为从硬件平台的角度,这种变化有两层面的原因。

相对浅显的原因是:英特尔为了提升竞争力,加快了处理器的发展节奏,其中有制造工艺瓶颈突破的成果(制造工艺进步相对缓慢导致新核心上市拖延也是Intel平台在PCIe4.0时代迟到的原因之一)。

相对深层次的原因是:PCIe 5.0是PCIe发展的重要分水岭,既是一个时代的终结,又是另一个时代的开始。

所谓终结,是历代PCIe的频率是近乎翻倍的方式提升的,到了PCIe 5.0版本,保持信号完整性、降低损耗所投入的成本已经达到了高点(具体的内容未来的文章另做分析),要控制信号质量方面的成本,需要转换思路。可用的思路包括:改变调制方式(如PCIe 6.0从NRZ改为PAM4脉冲调制方式);减少设备使用的通道数量——既然PCIe 5.0 x4的带宽等同于PCIe 3.0x16,未来部分设备可以使用较少的通道,譬如25/40Gb网卡可以使用x4通道即可,显卡可以使用x8甚至x4通道,这有利于降低控制器的复杂度、减小接插件的体积等。可以预计,x4通道将是包括SSD在内的诸多设备的一个标准接口形态。多数设备的性能/成本定位可能不再以x4、x8、x16区分,而是以PCIe的版本划分(多版本同时期共存,譬如PCIe4.0 x4设备是性价比取向,PCIe 5.0/6.0 x4是中高性能取向)。

而另一个时代的开始,那就应该提一下CXL(Compute Express Link)。CXL是由Intel于2019年推出的一种开放性互联协议,希望让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求。重点是:CXL标准的接口规格与PCIe 5.0是兼容的!因此,尽快投资PCIe 5.0,等同于为CXL的普及修路。另外,CXL还可以改变加速器、存储器的传统形态(内部插卡),使之成为一种维护性更强的模块……嗯,聪明的读者已经可以想到前置、热插拔是可行的了,这不就是我们在之前文章中提到过的EDSFF吗?!

没错,我们曾经介绍过,EDSFF不仅仅是SSD用,还可以给内存设备、加速卡等使用。而EDSFF单单从外形来说,它是强调兼容性、继承性的x86世界最近几十年来为数不多的、重新设计的结构,没有继承任何模块的历史包袱(譬如U.2就是继承的2.5英寸硬盘的造型),完全为1U、2U机箱的尺寸进行优化,其部署的密度、散热的效率远远超过了旧有的2.5、3.5英寸模块。可以说,PCIe 5.0/6.0、CXL、EDSFF这些组合起来,足够给机架的部署效率做一次彻底的革命了。这也就是从“做得到”(带宽够用),向“做得好”的演进:先满足基本需求,再针对性地优化,引发进化。

结语:

回顾总线的发展历程,每代PCIe的升级都取决于“是否有需求”和“技术上是否已经就绪”。升级周期长,是因为当时的应用所面临的基础架构瓶颈不在系统总线上。升级周期短,是因为当时的总线无法满足迅疾发展的应用了。需求推动技术,技术打开新需求——这样的规律过去是这样,未来也会继续。

*文中涉及的其他名称及商标属于各自所有者资产

所有明确列出的产品、计算机系统、日期和数字都是基于当前预期的初步设计,如有更改,恕不另行通知。

测试记录了特定测试中组件在特定系统中的性能。硬件、软件或配置上的差异将影响实际性能。在考虑购买时,请查询其他信息来源以对性能进行评估。

性能结果根据截至配置中所示日期已进行的测试得出,可能不会反映所有可公开获取的更新。有关详细信息,请参阅配置披露信息。没有任何产品或组件是绝对安全的。

Solidigm对非Solidigm产品的优化可能无法达到对Solidigm编译器或其他产品的优化程度。

Solidigm技术可能需要启用硬件、软件或服务激活。

在不同情况下,您的成本和结果可能会不同。

© Solidigm. “Solidigm”是SK hynix NAND Product Solutions Corp的商标。“Intel”是英特尔公司的注册商标。其他名称和品牌可能是其他公司的财产。

,