PC/服务器领域过去的“集成显卡”,现在的“核心显卡”,一度被戏称为“亮机卡”——因为相比于“独立显卡”,其图形计算性能不值一提,能满足操作系统图形界面的最基础性能要求就不错的,不要说用来玩游戏、做设计。

不过这两年,处理器厂商的核显竞争似乎内卷了起来。Intel的11代酷睿处理器96EU规模的Xe核显,在图形计算跑分上已经赶超笔记本上的入门级GPU(英伟达GeForce MX350);今年AMD这边的Ryzen 6000系列处理器RDNA 2核显(Radeon 680M)性能都超越10年前的GPU卡皇(Radeon HD 7970)了...实在是不得不让人惊叹时代发展之迅猛。

各型号显卡玩游戏对比(集成显卡前尘往事)(1)

各型号显卡玩游戏对比(集成显卡前尘往事)(2)

各型号显卡玩游戏对比(集成显卡前尘往事)(3)

同期Intel正准备在这一领域一展拳脚。所以协同当时的另一家公司(Chips and Technologies),一起和Real3D展开合作。这就是后来i740诞生的背景。与此同时Intel也购入了Real3D的部分股权。

如前所述,i740失败了。Intel就把Real3D从洛克希德马丁那里买了下来。之后有一段Real3D遗产的八卦故事,包括ATI抢了一部分人、3dfx和Real3D打专利官司、Intel把Real3D的全部IP都卖给了3dfx(后来自然成为了英伟达的一部分),后续又有ATI参与的专利官司等...

然后Intel就退出了独立显卡市场,毕竟i740销量不怎么样,还闹出一大堆的破事。在此之后,Intel主攻方向就变成了集显...若说Intel在独显市场的尝试,后续还有个Larrabee项目——但产品以胎死腹中告终,这些将来我们可以在单独探讨Intel的GPU历史话题中再做分享。

据说i740的失败,以及Real3D的一系列变故,给Intel造成了不小的打击。当时Intel内部甚至传出不会再涉足独显的传言。不过2007年Larrabee项目、2012年的Xeon Phi,以及现如今的Arc独显,都说明Intel和GPU藕断丝连的关系始终在持续。跑题了,我们继续回到集显这个话题;起码在i740以后,Intel的图形计算主战场都转向了集显与核显。只不过这些应该也是集显得以发展的必要条件。

Intel集显上半场发展简史

1999年的i810芯片组,及其中的i752集显,可以说是i740的迭代——可见技术仍然是有延续性的。受限于篇幅,我们不打算细致介绍Intel自1999年发布首颗集显以后都经过了怎样的迭代路径。不过其中仍有一些标志性事件值得单独拿出来谈一谈。

2001年有几个重要事件。第一是矽统针对其集显产品加入了T&L(Transform, Clipping, and Lighting)支持——这是图形计算领域的一项重要特性,包括3D场景的2D化、只保留场景中可见的部分、基于光照信息转化场景中各个面的色彩信息。从这个时候开始,“集成显卡”称谓才真正变得名正言顺;至少它在功能上完整了不少。

第二件事情是英伟达针对AMD处理器平台,推出了nForce 220集显,当然也是集成到主板芯片组里面的。不久后英伟达就和在技术转向后的Intel发生矛盾,两家公司打起了旷日持久的官司。英伟达后来于2012年退出了集显市场,致彼时该市场只剩下AMD、Intel和威盛。

第三件事则是2001年,Intel建立Extreme Graphics集显家族——这个系列的集显名称沿用到了2004年。初代Extreme Graphics集成在i830芯片组内部,配套的处理器是奔腾III-M。二代Extreme Graphics出现了笔记本平台版,配套奔腾M处理器。这时期的集显基本就是亮机卡,顶多可以玩一些老游戏。其实即便是2004年的GMA 900集显(i915芯片组),内部都还没有顶点着色器(vertex shader),需要依靠CPU来做这部分工作;且主内存带宽低,性能自然不需要太多指望。

从2002年开始,ATI也开始造集显,初代IGP 320(ATI A3)。如果以Intel的集显产品型号为依据,则PC市场的集显后续经历了GMA系列(2004年起)、HD Graphics系列(2010年起)、Iris系列(锐炬,2013年起)。从2010年的HD Graphics开始,集显开始有了“核显”基因。

各型号显卡玩游戏对比(集成显卡前尘往事)(4)

从集显走向“核显”

早在2006年AMD收购ATI之际,AMD就期望要造所谓“真正的集成GPU”,就是将CPU和GPU放到同一颗芯片,甚至同一片die上(虽然感觉这在移动领域似乎一点也不新鲜)。但以当时的技术来看,AMD和ATI不同的fab厂、不同的设计工具,还有企业文化方面的差异,都让这样的工作充满挑战。

2010年,Intel率先把32nm工艺的CPU die,和45nm工艺的GPU die放到了同一个封装内,CPU和GPU算是正式会师了,这对于降低延迟还是有相当价值的。而且HD Graphics在性能上相比更老的GMA有了不小的提升:23个EU(执行单元),最高900MHz 43.2GFLOPS算力,能够以最高40fps速率解码H.264 1080p视频。

当时Intel已经开始宣称核显要面向休闲和主流PC游戏。似乎对于这颗Westmere架构处理器,很多人才承认它作为iGPU的名副其实;这才算是“integrated”集成。

2011年,Sandy Bridge架构处理器(2代酷睿)问世,随之而来的是第二代HD Graphics核显。而且这次的核显更进了一步,GPU和CPU真正放到了同一颗die上。AMD也是在这一年将APU理念付诸实践。从架构来看,Sandy Bridge处理器上的GPU已经可以和CPU共享L3 cache,我们在此前的UMA解读文章里,详细介绍过这种架构。

翌年HD Graphics 4000核显伴随Ivy Bridge处理器(3代酷睿)出现的时候,有关Intel核显性能的宣传就全面开启了——当时的不少媒体口径都在说“堪比独显”(感觉和现在上演的是同一个剧本)。不过即便HD 4000性能的确大幅攀升,还能以低画质畅玩《英雄联盟》,但也仅限于此了。即便这在当时也称得上惊艳了,集显的风是从这个时候全面吹起来的。

各型号显卡玩游戏对比(集成显卡前尘往事)(5)

各型号显卡玩游戏对比(集成显卡前尘往事)(6)

各型号显卡玩游戏对比(集成显卡前尘往事)(7)

今年的RDNA 2核显勉强都能玩3A游戏了;12CU规格的Radeon 680M,算力单元规模相当于Radeon RX 6400(虽然存储系统还是差远了)。虽说和历史上出现过的一些核显怪胎不同,但还是让英伟达的入门级独显首次感到了白色恐怖。

另外比较有趣的是,AMD虽然未能在APU with HSA的理念上真正有所斩获,但苹果续写了这个故事。苹果在M1芯片发布之际就在宣传UMA统一内存架构——这不是什么新东西;只不过以苹果的半封闭生态,及苹果的生态号召力,苹果GPU参与更多通用计算工作加速显得更为寻常。

而且苹果芯片发家于手机AP SoC,基因里有着天然的“核显”属性,GPU就是和CPU放在同一片SoC芯片上的。这么算来,M1 Max/Ultra也都属于“核显”范畴,以其规模堆砌程度,应当还没有核心芯片可与之在绝对性能上相提并论。或许苹果的M1 Ultra正是AMD当年APU理念缔造之初的终极目标,包括统一内存架构,以及接近高端独显显存带宽的内存带宽(800GB/s)水平。虽说苹果的GPU究竟能干嘛,那又是另一个话题了。

责编:Momoz

,