gpu技术和架构（最全GPU深度报告中）

1、集成显卡和独立显卡对比

集成显卡是指一般不带显存，而是使用系统的一部分主内存作为显存的显卡。集成显卡可以被整合进主板作为北桥芯片的一部分，也可以和CPU集成在同一个Die中。集成显卡的显存一般根据系统软件和应用软件的需求自动调整。如果显卡运行需要占用大量内存空间，那么整个系统运行会受限，此外系统内存的频率通常比独立显卡的显存低很多，因此集成显卡的性能比独立显卡要逊色一些。

独立显卡是将显示芯片及相关器件制作成一个独立于电脑主板的板卡，成为专业的图像处理硬件设备。独立显卡因为具备高位宽、高频独立显存和更多的处理单元，性能远比集成显卡优越，不仅可用于一般性的工作，还具有完善的2D效果和很强的3D水平，因此常应用于高性能台式机和笔记本电脑，主要的接口为PCIe。

如今，独立显卡与集成显卡已经不是2个完全割裂，各自为营的图像处理单元了。二者在微软DX12的支持下也可以实现独核显交火，同时AMD和NVIDIA的显卡也可实现混合交火。

gpu技术和架构（最全GPU深度报告中）(1)

▲集成显卡和独立显卡对比

2.GPU对比CPU：

从芯片设计思路看，CPU是以低延迟为导向的计算单元，通常由专为串行处理而优化的几个核心组成，而GPU是以吞吐量为导向的计算单元，由数以千计的更小、更高效的核心组成，专为并行多任务设计。

CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU，但在线程数，寄存器数和SIMD（单指令多数据流）方面GPU远强于CPU。

微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存，只有少部分的晶体管完成实际的运算工作，功能模块很多，擅长分支预测等复杂操作。GPU的流处理器和显存控制器占据了绝大部分晶体管，而控制器相对简单，擅长对大量数据进行简单操作，拥有远胜于CPU的强大浮点计算能力。

gpu技术和架构（最全GPU深度报告中）(2)

▲GPU和CPU的核心设计思路对比

gpu技术和架构（最全GPU深度报告中）(3)

▲GPU和CPU的核心对比

后摩尔时代，随着GPU的可编程性不断增强，GPU的应用能力已经远远超出了图形渲染，部份GPU被用于图形渲染以外领域的计算成为GPGPU。与此同时，CPU为了追求通用性，只有少部分晶体管被用于完成运算，而大部分晶体管被用于构建控制电路和高速缓存。但是由于GPU对CPU的依附性以及GPU相较CPU更高的开发难度，所以GPU不可能完全取代CPU。我们认为未来计算架构将是GPU CPU的异构运算体系。

在GPU CPU的异构运算中，GPU和CPU之间可以无缝地共享数据，而无需内存拷贝和缓存刷新，因为任务以极低的开销被调度到合适的处理器上。CPU凭借多个专为串行处理而优化的核心运行程序的串行部份，而GPU使用数以千计的小核心运行程序的并行部分，充分发挥协同效应和比较优势。

异构运算除了需要相关的CPU和GPU等硬件支持，还需要能将它们有效组织的软件编程。OpenCL是（OpenComputing Language）的简称，它是第一个为异构系统的通用并行编程而产生的统一的、免费的标准。OpenCL支持由多核的CPU、GPU、Cell架构以及信号处理器(DSP)等其他并行设备组成的异构系统。

gpu技术和架构（最全GPU深度报告中）(4)

▲OpenCL异构运算构成

gpu技术和架构（最全GPU深度报告中）(5)

▲异构运算下的GPU工作流程

3.GPU与ASIC和FPGA的对比：

数据、算力和算法是AI三大要素，CPU配合加速芯片的模式成为典型的AI部署方案，CPU提供算力，加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。

GPU用于大量重复计算，由数以千计的更小、更高效的核心组成大规模并行计算架构，配备GPU的服务器可取代数百台通用CPU服务器来处理HPC和AI业务。

FPGA是一种半定制芯片，灵活性强集成度高，但运算量小，量产成本高，适用于算法更新频繁或市场规模小的专用领域。

ASIC专用性强，市场需求量大的专用领域，但开发周期较长且难度极高。

在AI训练阶段需要大量数据运算，GPU预计占64%左右市场份额，FPGA和ASIC分别为22%和14%。推理阶段无需大量数据运算，GPU将占据42%左右市场，FPGA和ASIC分别为34%和24%。

gpu技术和架构（最全GPU深度报告中）(6)

▲不同应用场景AI芯片性能需求和具体指标

gpu技术和架构（最全GPU深度报告中）(7)

▲GPU、FPGA、ASIC AI芯片对比

4.“考古”GPU：GPU的发展历史

在PC诞生之初，并不存在GPU的概念，所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量有限，适合串行计算而不适合并行计算，虽然以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补CPU的缺陷，但是仅仅在指令集方面的改进不能起到根本效果，所以诞生了图形加速器作为CPU的辅助运算单元。

GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史，在此过程中曾经的GPU巨头Imagination、3dfx、东芝等纷纷被后辈超越。如今独立显卡领域主要由英伟达和AMD控制，而集成显卡领域由英特尔和AMD控制。

gpu技术和架构（最全GPU深度报告中）(8)

▲GPU的发展史

5.GPU发展史：NVDIA GPU微架构回顾

英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏，带来更多更新的运算单元和更好的API适配性。在每次的大换代之间，不乏有一次的小升级，如采用开普勒二代微架构的GK110核心相较于采用初代开普勒微架构的GK104核心，升级了显卡智能动态超频技术，CUDA运算能力提升至3.5代，极致流式多处理器（SMX）的浮点运算单元提升8倍，加入了Hyper-Q技术提高GPU的利用率并削减了闲置，更新了网格管理单元（Grid Management Unit），为动态并行技术提供了灵活性。

英伟达GPU微架构的持续更新，使英伟达GPU的能效提升了数十倍，占领了独立显卡技术的制高点。

gpu技术和架构（最全GPU深度报告中）(9)

▲2008-2020英伟达GPU微架构进化

6.GPU发展史：微软DirectX API回顾

图形API在GPU的运算过程中发挥着连接高级语言、显卡驱动乃至底层汇编语言的作用，充当GPU运行和开发的“桥梁”和“翻译官”。微软DirectX标准可以划分为显示部份、声音部份、输入部分和网络部分，其中与GPU具有最直接关系的是显示部分。显示部份可分为DirectDraw和Direct3D等标准，前者主要负责2D图像加速，后者主要负责3D效果显示。

从1995年发布的初代DirectX 1.0开始微软的DirectX已经更新到了DirectX 12。在此过程中，DirectX不断完善对各类GPU的兼容，增加开发人员的权限，提高GPU的显示质量和运行帧数。

DirectX一般和Windows操作系统同步更新，如Windows 7推出了DX11、Windows 10推出了DX12。

gpu技术和架构（最全GPU深度报告中）(10)

▲1998-2014微软DirectX进化

7.GPU发展史：NVDIA GPU制程构回顾

GPU和CPU都是以先进制程为导向的数字芯片。先进制程可以在控制发热和电能消耗的同时，在有限的Die中放入尽可能多的晶体管，提高GPU的性能和能效。

NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐步升级到了RTX3000系列的7/8纳米制程，在整个过程中，晶体管数量提升了20多倍，逐步确立了在独立GPU的市场龙头地位。

同时在整个过程中，NVIDIA一直坚持不采用IDM的模式，而是让台积电负责GPU的制造，自生专注于芯片设计，充分发挥比较优势。

gpu技术和架构（最全GPU深度报告中）(11)

▲2008-2020英伟达GPU主要制程和晶体管数进化

8.GPU微架构升级趋势：更多、更专、更智能

根据前12年的GPU发展轨迹来看，GPU微架构的升级趋势可以简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的增加，其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元，GPU还会增加新的运算单元。例如，英伟达的图灵架构相较于帕斯卡架构新增加了光追单元和张量单元，分别处理实时光线追踪和人工智能运算。“更智能”是指GPU的AI运算能力上升。如第三代的张量单元相较于上代在吞吐量上提升了1倍。

gpu技术和架构（最全GPU深度报告中）(12)

▲英伟达GTX1080对比RTX2080

gpu技术和架构（最全GPU深度报告中）(13)

▲英伟达伏特微架构对比安培微架构AI加速性能 ▲英伟达伏特微架构对比安培微架构AI加速性能

9.GPU API升级趋势：更贴近底层

综合分析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API分别相较于前代DirectX11、Metal、OpenGL的升级，我们认为GPU API的升级趋势是提高GPU的运行效率、增加高级语言和显卡驱动之间的连接、优化视觉特效等。其中，提供更底层的支持：统筹高级语言、显卡驱动和底层语言是几乎所有API升级的主要方向。

不过提供更底层的支持只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中，软件开发商需要比驱动程序和系统层更好地调度硬件资源，才能充分发挥底层API的效果。

在显示质量方面，DirectX 12 Ultimate采用当下最新的图形硬件技术，支持光线追踪、网格着色器和可变速率着色，PC和Xbox共用同一个API，堪称次世代游戏的全新黄金标准。

gpu技术和架构（最全GPU深度报告中）(14)

▲非底层DirectX 11对比底层DirectX 12

gpu技术和架构（最全GPU深度报告中）(15)

▲DirectX 12 Ultimate新特性

10.GPU制造升级趋势：以先进制程为导向

GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸，不过出于营销的需要，现在的制程已经偏离了本意，因此单纯比较纳米数没有意义。按英特尔的观点，每平方毫米内的晶体管数（百万）更能衡量制程。据此，台积电和三星的7nm工艺更接近英特尔的10nm工艺。

先进的制程可以降低每一个晶体管的成本，提升晶体管密度，在GPU Die体积不变下实现更高的性能；先进制程可以提升处理器的效能，在性能不变的情况下，减少发热或在发热不变的情况下，通过提升主频来拉高性能。

先进制程的主要目的是降低平面结构带来的漏电率问题，提升方案可以通过改变工艺，如采用FinFET（鳍式场效应晶体管）或GAA（环绕式栅极）；或采用特殊材料，如FD-SOI（基于SOI的超薄绝缘层上硅体技术)。

gpu技术和架构（最全GPU深度报告中）(16)

▲先进制程工艺之FinFET

gpu技术和架构（最全GPU深度报告中）(17)

▲英特尔10nm先进制程带来的性能和效能提升

11.GPU制造升级趋势：Chiplet化

高位宽内存（HBM）是小芯片（Chiplet）在GPU中的常见应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。首款HBM于2013年推出，第二代HBM2已于2016年被JEDEC接受。目前，HBM主要应用在高端独立显卡和服务器显卡。

HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个Chiplet，其中每片DRAM具有2个128位通道，通过TSV（硅通孔）相连。所以，一片Chiplet总共8个128位通道，总位宽1024比特。每片Chiplet又与GPU封装在同一中介层（Interposer）连接GPU芯片。相比之下，GDDR5内存的总线宽度为32位，带有512位内存接口的显卡也只有16个通道，而且采用传统的FBGA封装。HBM与GDDR5相比，每GB的表面积减少94%，每GB/S带宽的能效提升2倍多。

HBM支持最多每个Chiplet 4GB的存储，HBM2在HBM的基础上将每片Chiplet的最大容量提升至了8GB，显存主频提升1倍，同时总位宽保持不变。

gpu技术和架构（最全GPU深度报告中）(18)

▲HBM的GPU应用

gpu技术和架构（最全GPU深度报告中）(19)

▲GDDR5对比HBM

gpu技术和架构（最全GPU深度报告中）(20)

▲HBM先进封装结构 ▲HBM先进封装结构

12.GPU制造的发展趋势：Fab Fabless为导向

GPU制造可分为IDM和Fab Fabless。IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。

Fabless只负责芯片的电路设计与销售，将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制造，不负责芯片设计，可以同时为多家设计公司服务，但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔GPU落后的主要原因是GPU制程的落后，根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的发展，芯片的制造成本和设计成本成指数级上升。同时，一条12英寸晶圆的生产线从建设到生产的周期约2年，投资至少30-50亿美元，资本支出占比80%，整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线作战。

Fab Fabless的模式通过充分发挥比较优势，分散了GPU设计和制造的风险，符合半导体分工的大趋势。

gpu技术和架构（最全GPU深度报告中）(21)