作者 | ZeR0
编辑 | 漠影
本周三,游戏显卡的“新天花板”——GeForce RTX 40系列GPU——就要正式上市了。
自9月中旬正式发布后,英伟达RTX 40系列GPU带来的性能提升一直备受关注。随着近段时间相应测评成绩陆续出炉,相信这个被称作“游戏玩家和创作者终极平台”的全新显卡系列,在性能提升上给很多玩家留下了深刻印象。
刨去围绕价格和功耗的争议,如今RTX 4090已成当之无愧的新晋“卡皇”,论空前的算力、论堆满的前沿技术,都做到了全面压制同行竞品:现代游戏性能相较上一代RTX 3090 Ti提升最高达2倍,光线追踪游戏性能的提升最高达4倍。
就连次旗舰RTX 4080,也实现了比上一代旗舰显卡RTX 3090 Ti更高的性能。用英伟达创始人兼CEO黄仁勋的话说,以前要花2000美元买到的性能,现在只用900美元就能买到。
有趣的是,这次RTX 40系列GPU实现性能、性价比飙涨的核心功臣,是英伟达近年来引以为傲的人工智能(AI)技术。
以往,AI更多是英伟达数据中心产品线的主角,为何在主攻游戏的消费级领域也开始凸显AI的作用?在这背后,英伟达的雄心宏图,已经透过游戏,布向更广阔的潜在AI应用未来。
一、帧率更高,AI补帧成“杀招”说起RTX 40系列最惹人注目的技术上新,AI工具DLSS 3当仁不让。
AI在游戏领域的应用并不少见,从DeepMind研发的AlphaGo击败世界围棋冠军开始,AI陆续制霸国际象棋、日本将棋、星际争霸、Dota 2、王者荣耀等棋牌及即时战略游戏。在游戏开发领域,AI也逐渐承担起写台词剧本、配音、翻译到生成实时3D面部动画等更具创造力的任务。
对于顶级游戏大作而言,剧情、系统、关卡设计和视觉效果缺一不可。人们总在追求更高清的画质、更丝滑的流畅度、更炫酷的特效、更仿真的场景……这些都是英伟达一直大力投入研发的方向,通过引入AI,优化PC游戏的各种体验。
其中极具开创性的DLSS 3(深度学习超级采样)技术,正是拉开RTX 40系列与上一代性能差距的重要“杀器”。
上一代DLSS技术能够做到从糊图"脑补"出清晰图,即让AI通过分析低分辨率的当前帧和高分辨率的上一帧,预测出更高分辨率的当前帧大概是什么样子,然后生成高分辨率图像,实现画质提升。
画质提升了,但帧率还是个棘手问题。
如果帧率提不上去,那就相当于裸眼看3D画面PPT切换,视效再震撼,也会卡顿到令人失去耐心。英伟达新推出的DLSS 3技术,便是为了“补帧”而生。
DLSS 3直接做到“无中生有”,通过增加开创性的光学多帧生成技术,让AI实时“脑补”出全新的完整高质量画面,实现帧率翻倍。
英伟达测试显示,在《赛博朋克:2077》这款经典的现代光线追踪游戏的overdrive模式、4K分辨率下,开启光线追踪时,如果同时开启DLSS 3可使帧率达到100FPS。
由于DLSS生成帧在GPU上作为后处理执行,即便游戏受CPU性能限制,比如《微软飞行模拟》等物理计算密集型或大型场景游戏,DLSS 3也能让RTX 40系列GPU实现高达2倍于CPU可计算的性能来渲染游戏。
借助这个技术,英伟达RTX 40系显卡能够撑起大型游戏的渲染需求,让玩家们一边享受到图像质量改善带来的震撼视效,一边因帧数暴涨而玩得流畅度飞起,玩得更过瘾。
DLSS 3的“补帧”原理并不复杂,但若具体拆解其所涉及的一系列技术,就不难理解为什么率先做出这样开创性的研发成果,还得看英伟达了。
二、摩尔定律"续航"不够,还得AI来接班应对摩尔定律放缓,英伟达近年的核心思路可以概括为一个词:全栈。
按照黄仁勋的说法,摩尔定律每一年半以一半成本提供相同性能的时代已经结束,晶体管密度增长带动的算力性价比提升速度早已不及当年,工艺是在持续进步,但成本也上涨得多。
▲英伟达创始人兼CEO黄仁勋
以RTX GPU为例,从RTX 30系列到RTX 40系列,芯片制程工艺从三星8N工艺升级到更先进的台积电4N工艺,但据黄仁勋透露,这一升级只带给RTX 40系列约15%的性能提升,其余的性能提升来自像DLSS 3、Tensor Core、着色器执行重排序(SER)这样的研发创新。
实现这些技术组合的关键杠杆,便是AI。
DLSS 3包括3个组件:深度学习超级分辨率(也就是之前的DLSS 2)、深度学习帧生成(就是DLSS 3中新加入的插帧)和降低PC延迟的Reflex。
其中,英伟达新一代Ada架构内置的光流加速器是支持实现DLSS 3的硬件核心之一,它能分析两帧连续的游戏图像,并为神经网络提供像素级帧到帧中物体和元素的运动方向和速度信息,知道在物体移动时应该如何正确地渲染光照和阴影。
另一个关键的架构创新,是Ada架构中擅长做矩阵运算的Tensor Core,它为加速AI计算提供了硬件基础。英伟达称RTX 40系显卡中升级的第四代Tensor Core,新增了Hopper FP8 Transformer Engine,FP8处理性能高达1.4Petaflops,超过上一代显卡的5倍。
DLSS超级分辨率技术用AI构建分辨率更高的图像帧。综合游戏中的一对超分图像帧、运动矢量、光流场信息后,将所有信息输入到英伟达已经训练好的卷积神经网络AI帧生成器,经计算分析,AI帧生成器便可准确重建几何图形和效果,高效渲染生成出全新的高质量游戏帧。
将DLSS生成的全新帧与DLSS超级分辨率帧相结合,就能用AI计算重建连续两帧中高达7/8的像素,生成全新的高分辨率帧,然后将其插入到正常的游戏画面之间。与没有DLSS相比,DLSS 3能将游戏性能提升4倍。
考虑到插帧会带来额外的延迟,英伟达还引入了Reflex低延迟技术,通过让GPU和CPU同步,消除GPU渲染队列中的无用帧,来确保最佳响应速度。
虽说多帧生成技术靠“脑补”,并非传统渲染那样从建模贴图到光照信息进行一系列的暴力计算,但因为有AI这一大杀器,插帧的效果足以乱真。
最终,影响游戏体验的三要素:流畅度、响应速度、画质,全部得到保证。
《逆水寒》《黑神话:悟空》《赛博朋克2077》等超过35款游戏已经宣布即将支持DLSS 3,可以由RTX 40系列显卡上的特定硬件加速提供支持,实现更丝滑的补帧效果。
回想最初DLSS推出时,游戏和应用开发商的集成速度并不快。为了推进DLSS 3的迅速普及,英伟达还在4月推出了Streamline开源开发插件,使开发者可以很容易地以模块化的方式在游戏中添加各种新技术,显著降低了新技术集成的难度。应用的门槛降低了,就会有越来越多的游戏开发商选择迅速拥抱新技术。
可以看到,AI技术已经跟英伟达的另一个“金字招牌”——硬件加速的实时光线追踪——形成互补,进一步拉大英伟达旗舰级显卡在领先性能上与其他显卡之间的差距。
三、AI超级采样 实时光追,敲开渲染创新之门2018年,英伟达RTX系列的问世,正式开启了实时光线追踪时代。
光线追踪是一种图形渲染技术,会模拟计算环境中各种光源发出的光线经过反射、折射、阴影和间接照明,最终进入人眼时所呈现的光影效果,具有比传统光栅化更高、更准确的视觉保真度,但也拥有更高的计算开销,很吃硬件配置。
四年过去,像赛博朋克之类的现代游戏对每个像素执行超过600次光线追踪计算来确定光照,所需计算量提升高达16倍,但GPU中负责此类计算的晶体管数量的提升已经跟不上这一速度。
正是通过前文所述的,借助AI计算一部分像素、预测大部分像素的策略,英伟达才做到4年内不断将性能提升以满足这一计算需求增长。
截至现在,近三年发布的光线追踪游戏已有280余款。虽然如今新推出的各主流显卡纷纷宣布支持光线追踪,但绝大多数游戏依然是混合渲染的模式,光追仅仅用来表现某些场景的光线特效,整体效果依然有非常大的提升空间。
既然游戏中并不是完全的光线追踪,那么英伟达为何还要进行如此超前的技术布局呢?
正如黄仁勋所言,Ada架构引入的实时光线追踪、AI超级采样等前沿技术创新,都是在为完全基于仿真的未来游戏铺路。
回顾历史,这其实是英伟达一贯的行事风格——如果需求尚不存在,那就去创造需求。
当英伟达发明可着色编程GPU时,GPU应用市场还相当沉寂;当英伟达创建世界上第一个3D电子游戏平台时,电子游戏市场很小;当英伟达提出一种新的计算方法“加速计算”,并为研发通用计算GPU和统一编程软件CUDA而砸下重金时,鲜少有人相信它描绘的蓝图……
结果,历史一次又一次地验证了黄仁勋对未来市场趋势的准确判断和洞察。从游戏显卡到AI计算平台、元宇宙平台,英伟达一再“破圈”,通过软硬件结合的全栈创新,不断挖掘新的业务增长点,为其更长期的市场空间开疆辟土。
类似的,在优化实时光线追踪体验上,英伟达也在为长远地培养生态优势谋篇。
根据市场调研机构的数据,英伟达在独立GPU市场的出货量占率高达8成,这使得其游戏GPU的优势滚雪球般形成正向循环——其光线追踪游戏的用户越多,给出的反馈就越多,对此类游戏的优化就会更友好,而游戏优化体验越好、适用性越广、兼容和稳定性更强,用户黏性就会越高。
等游戏玩家们习惯了“AI超级采样 实时光追”带来的更有层次感的光影变化和丝滑的高帧率体验,回过头就很难再接受传统渲染方式做出的生硬视觉效果了。届时实时光追技术在游戏领域的地位将从“聊胜于无”转向“大杀四方”,英伟达在高端游戏显卡市场的话语权也将更加稳固。
正因如此,黄仁勋才对RTX 40系列有相当高的信心,称这意味着“实时光线追踪和利用AI生成像素的神经网络渲染的新时代已然来临”。
英伟达也在着力降低开发光追游戏的门槛,同时对那些受人欢迎的老游戏,提供了RTX化的可能。比如它为游戏MOD打造了一款AI工具RTX Remix,以便将老游戏快速光追化。
开发者可以用其AI辅助工具来提升纹理、素材的分辨率,或者把材质转换为具有精确物理属性的材质,同时呈现出逼真的光影效果,让游戏质感焕然一新。
随着更多游戏可以快速通过RTX Remix被“RTX化”,英伟达所看好的光追游戏市场,有望得到加速开拓。
四、结语:不要低估英伟达“过去十年是AI在算法发明方面的革命,未来十年是AI应用的十年。”在GTC主题演讲中,黄仁勋谈道,推动计算技术这枚火箭发展的引擎是加速计算,而燃料是AI。
十年前,加拿大多伦多大学Geoffrey Hinton教授的团队用深度学习算法夺魁ImageNet大规模视觉识别竞赛,由此开始掀起AI普及的狂澜。而支撑这一突破性进展实现的硬件基础,便是从图形处理和游戏发家的英伟达GPU。
今天,英伟达已经成长为AI计算领域公认的“头号玩家”,但其所预见的AI应用潜在市场,远比当前既有市场更为广阔。从3D游戏到元宇宙世界,AI有太多能大展拳脚的地方,AI任务愈发复杂,也就需要更强大的计算能力,这恰恰是英伟达技术及产品所擅长之处。
RTX 40系列GPU给AI驱动图形处理打了个样,通过一系列AI能力的加持,为优化计算图形、改变游戏体验开辟一条新路。
长远来看,英伟达在架构、设计、算法等技术创新上持续积淀的全栈优势,将不断推动其以更低价格提供更高游戏性能,并为英伟达站在GPU金字塔尖傲视群雄提供长期的资本。
,