技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）

1引言

引言

毫无疑问，NVIDIA发布的GeForceRTX40系列GPU和DLSS3为玩家和创作者们带来了全新的性能升级和跨时代的操作体验。当家旗舰RTX4090的表现大家有目共睹，全新的AdaLovelace架构以及换用的TSMCN4工艺让显卡性能获得飞跃。而作为旗舰级的产品，各家AIC厂商对非公版RTX4090也是相当重视，纷纷推出了自家重量级的RTX4090显卡。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(1)

今天的主角更是“重量级”，它是来自技嘉的GeForceRTX4090MASTER超级雕，老实说它可能是我目前见过最大的RTX4090显卡了，在一众非公版显卡，技嘉这张RTX4090MASTER超级雕把散热做到了极致，下面我们一起来探索这块最“冻人”的显卡。

*以下“技嘉GeForceRTX4090MASTER超级雕”简称为“技嘉RTX4090MASTER”

外观鉴赏：技嘉GeForce RTX 4090 MASTER超级雕

技嘉显卡分有猎鹰、魔鹰、大雕、水雕等众多系列，而技嘉RTX4090MASTER属于当中的旗舰系列——超级雕，旗舰级的产品自然有旗舰级的配置，首先看看这一代的包装盒，拿起包装盒的一霎那我就感觉到了精致的感觉，正面是巨大的雕的Logo。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(2)

包装盒的底部印有这一代显卡使用的先进技术，如DLSS、光线追踪、NVIDIAReflex以及NVIDIAStudio。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(3)

包装盒内是显卡本体以及电源转接线等配件，今年的RTX4090有多厚重大家也都看到了，技嘉的这款更是直接来到了2.3kg，所以技嘉RTX4090MASTER还附赠了显卡支架，能够提供更好的支撑性，外观也更加和谐。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(4)

显卡支架

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(5)

电源转接线

另外这代显卡的尺寸非常巨大，三围来到了358.5×162.8×75.1mm，需要占用4个槽位。所以一般的机箱无法装入，选购时要注意大小。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(6)

外观方面，技嘉RTX4090MASTER采用黑灰双色相间的外观设计，正面用上了磨砂、线条以及切割纹理三种工艺，无处不体现其旗舰定位。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(7)

技嘉RTX4090MASTER采用了新一代的风之力散热系统，正面是3个110mmAORUS鲨鱼仿生风扇，左右两颗以逆时针旋转、中央风扇顺时针旋转，借此降低三扇扰流，带给散热器更多的散热气流。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(8)

新的仿生鲨鱼风扇，在扇叶表面进行了如同鲨鱼皮肤上盾鳞一样的纹理设计，实现了3dB的噪音下降和30%的风压提升。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(9)

技嘉RTX4090MASTER的背板则是金属材质，银色的金属拉丝与灰色的磨砂设计融于一体，中央位置还有一个可发光的“AORUS”品牌印记，质感拉满。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(10)

背板上还有镂空的鳞片散热窗口，与正面三个强劲的仿生鲨鱼散热风扇配合，助力显卡高效散热。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(11)

显卡顶部印有GEFORCERTX字样，底下是一整排的出风口，横跨整个显卡顶部，加速热量排出。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(12)

顶部还有双BIOS的控制开关，并且在背板上还有OC模式和SILENT模式的标识。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(13)

BIOS控制开关

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(14)

BIOS模式标识

另外技嘉RTX4090MASTER采用了新的16pin供电接口，在PCB板上还提供了电源状态指示灯，显卡供电存在问题时会亮起以提示故障。另外由于这一代的RTX4090功耗比较大，因此电源功率最好给到1000W，想要更换这代显卡的用户，大功率电源肯定是免不了的。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(15)

底部为显卡金手指，接口为标准的PCIe4.0x16，在使用前一定要在主板打开ResizableBAR功能，这张显卡的性能才能完全释放。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(16)

技嘉RTX4090MASTER的接口为三个DP1.4a和一个HDMI2.1a，即使是外接到8K的显示器，这些接口也足够，并且这代显卡最多支持四联屏输出。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(17)

个性化设计部分更是技嘉RTX4090MASTER的核心卖点，经典的“三环灯”设计保留至今，升级至第四代后，可以展现包括璀璨、彩虹环、鹰爪等预设灯效在内的多种酷炫视觉效果，并且还在显卡的正面以及背面都加上了RGB灯效，玩家通过GCC控制软件即可自定义灯效。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(18)

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(19)

显卡的顶部还提供了超级雕旗舰级显卡所特有的LCD显示屏，利用GCC控制中心，这块屏幕不仅能显示显卡工作参数，还可以显示各种自定义的文本、图片或GIF动图，可玩性超高。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(20)

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(21)

2技嘉RTX 4090 MASTER超级雕拆解

显卡拆解：技嘉GeForce RTX 4090 MASTER超级雕

虽然技嘉RTX4090MASTER的个头很大，但要拆解其实不算难，卸下背板上的螺丝后就可以分离PCB跟硕大的散热器了。PCB本体并不算长，甚至比前代RTX3090Ti的还要小，但为了容纳更多的元器件，RTX4090的PCB采用了越肩设计，比一般的显卡PCB还要高。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(22)

PCB上的接口、供电、核心、显存，以及辅助供电位置都相当的合理且规正，有大厂出品的质感，内部PCB电路使用了全自动制程技术，精密自动化制程可进一步提高可靠性，让PCB更耐久。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(23)

PCB的背面主要是一些控制芯片，简洁不少，核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC)，整体电气性能更强。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(24)

PCB的正中央就是那个地表最强的GPU核心——TSMC4NNVIDIA定制工艺的AD102-300-A1GPU芯片，采用TSMC4N工艺制造，集成763亿个晶体管，比上一代三星8nm工艺GA102核心集成的283亿个晶体管多了足足2.7倍。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(25)

核心四周是12颗GDDR6X显存，颗粒来自美光，型号是型号为2MU47D8BZC，单颗显存容量2GB，12颗组成24GB超大显存，频率为21Gbps。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(26)

技嘉RTX4090MASTER使用了豪华的24 4相供电设计，供电位置被安排在PCB的两侧，供电方面的用料完全对得上RTX4090新一代卡皇的称号。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(27)

每相供电均采用独立的DrMos新品，型号为SiC653A，每相最大可承载50A的持续电流。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(28)

供电控制芯片共三颗，均安排在PCB背面，型号分别是：uP9512U、uP9512R,以及uS5650Q。其中uP9512U与uP9512R共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(29)

三颗供电控制芯片

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(30)

u9512U供电控制芯片

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(31)

u9512R供电控制芯片

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(32)

S5650Q供电控制芯片

在核心的正下方可以看到显卡双BIOS的控制芯片，型号为IS25WP016。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(33)

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(34)

右上角可以看到全新的12VHPWR供电接口，相比以往的8Pin接口，占用的地方要少很多，附近是两颗封闭电感用于保证RTX4090的供电稳定。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(35)

12VHPWR供电接口

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(36)

两颗封闭电感

看完PCB下面来看看技嘉RTX4090MASTER上全新的风之力散热系统。风之力散热系统采用三个新设计的110mm仿生鲨鱼风扇、3D启停、正逆转设计、均热板直接接触GPU、13根复合式热管以及进气格栅等技术，提供显卡高效散热。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(37)

拆下风扇和散热器后，可以看到技嘉RTX4090MASTER的散热器本体，这一代的散热器相当庞大，不仅能够给GPU散热，还为显存、电感以及MOS管等进行散热。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(38)

在显存和供电部分都配上了高系数的导热垫辅助散热，GPU核心也抹上了厚厚的硅脂，显存位置更是紧贴真空腔均热板，超高的散热效能助力这一代显卡强劲的性能释放。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(39)

散热器本体为两段式散热模块，两边的散热鳍片均增大了面积，并且采用弯角造型，进一步增大了鳍片与空气的接触面积。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(40)

散热器下隐藏着恐怖的13根复合式热管，显然这是为超频而准备的。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(41)

如此规格的散热系统前所未见，配合金属背板上的镂空设计，压这颗AD-102核心绰绰有余。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(42)

散热器上还有3个110mm的仿生鲨鱼风扇，经过升级后，提升风流量的同时还能减低声噪，更高速有效地散热，轻松应对高达600WTGP功耗下的温度。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(43)

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(44)

3测试平台介绍&理论/游戏性能测试

测试平台介绍

旗舰级的显卡自然也要旗舰级的配置，想要衬得上技嘉RTX4090MASTER，那必须是顶级硬件，我们用了Inteli9-12900K处理器，技嘉Z790AORUSMASTER超级雕主板，以及金士顿的64GBDDR5-6000高规格内存，确保这张显卡能够释放全部性能。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(45)

测试前，依照惯例，首先用GPU-Z对显卡的运行状态以规格参数进行再次的检查，避免因为运行状态及参数不正确而导致测试成绩不正确。同时也能通过GPU-Z所呈现的数据来看看技嘉RTX4090MASTER显卡更为详细的规格参数，其中技嘉RTX4090MASTER拥有16384个CUDA，相比RTX3090Ti的10752个多出52%，Boost频率达到了2550MHz，相比公版的2520MHz有一定的提升。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(46)

另外从GPU-Z中可以看到主板的ResizableBAR功能已开启，否则显卡会有比较大的性能损失。

理论性能测试

上机后，先跑了一遍3DMark测试，实测下来，技嘉RTX4090MASTER的性能提升是我历年来见过的最高的一次，相比上一代RTX3090Ti整体性能提升约66%。在代表DX11的FireStrike测试中，随着分辨率的提升，性能幅度提升越明显，在4K分辨率的FireStrikeUltra中，相比上代提升有77%。在代表DX12的TimeSpy测试中，RTX4090也跟RTX3090Ti拉出了巨大差距，TimeSpyExtreme跑分19545分，差点突破2W大关。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(47)

而在光追跟DLSS测试中，RTX4090相比RTX3090Ti有近乎翻倍的体验，同样是DirectX光追测试，3090Ti仅能跑61FPS，而RTX4090已经飙到了140FPS；而DLSS测试中，RTX4090不开启DLSS时，帧数已经接近前代开启DLSS的帧数，性能提升堪称巨大。

另外，最近3DMARK还更新了基于DX12新的基准测试工具——SpeedWay性能测试，技嘉RTX4090MASTER在4K画质下跑出了9956分，相比公版4090的9854分还要高，可以看出技嘉对这款显卡的调校有多激进。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(48)

游戏性能测试

看完了理论性能测试，RTX4090的提升着实让人眼前一亮，那这张核弹级的显卡在游戏中究竟表现如何呢，我们选取了多款游戏进行实测。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(49)

相信买技嘉RTX4090MASTER这种顶级显卡的用户都不会差一块4K显示屏吧，我们直接上4K游戏性能测试。在著名显卡杀手游戏《赛博朋克2077》中，技嘉RTX4090MASTER开启超级光追画质，依旧能够跑到76FPS，已经可以4K高画质流畅游玩了。在另一款光追游戏《光明记忆：无限》中，即使是有着复杂的光线追踪加持，技嘉RTX4090MASTER相比RTX3090Ti依旧提升了69%。

实测下来，这一代RTX4090可以说是划时代的升级，过去开启光追仅有十几二十帧的游戏，现在即使4K画质下也能流畅60帧游玩，不愧是目前地表最强游戏显卡。

4DLSS 3性能测试

DLSS 3性能测试

AdaLovelace架构最大的亮点优势就是支持最新的DLSS3，旧版的DLSS2是通过渲染出一个低分辨率图像，然后使用AI进行放大提高分辨率，实现画质与帧数双向提升。全新的DLSS3除了包含DLSS2的功能外，还新增了帧生成功能，可以在两个真实帧之间插入AI运算出来的全新帧，从而实现帧数的翻倍，这里我们也一并测试了多款DLSS测试程序与游戏。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）(50)

最新版的3DMark已经适配了DLSS3的BenchMark，开启DLSS3后，技嘉RTX4090MASTER的性能表现相比前代旗舰RTX3090Ti有几乎翻倍的提升，4K分辨率下已经能够做到176FPS的成绩，完全能够满足4K@144的电竞需求，即使将分辨率提升至8K，RTX4090的帧数表现也逼近百帧，8K电竞指日可待。

目前DLSS3已经适配了不少新游戏，由于只要适配DLSS3就可以向下兼容DLSS2，开发难度非常低，所有后续肯定会有越来越多开发商加入DLSS阵营。F122作为首批支持DLSS3的游戏，在4K分辨率下仅TAA设置下，游戏流畅度仅为75FPS，这说明了RTX4090不开启DLSS功能的游戏性能也很强。当开启DLSS3后，无论是质量档还是性能档，游戏流畅度都高于120FPS，对于一款赛车游戏来说，这流畅度是真的丝滑，大屏加流畅的体验宛如置身F1赛事当中。

DLSS3-F122-DLSS-Balance

DLSS3-F122-DLSS-Perfoemance

DLSS3-F122-DLSS-Quality

DLSS3-F122-DLSS-SuperPerfoemance

DLSS3-F122-TAA

UnrealEngine5LyraDLSS3测试

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

另外我们还测试了利用UnrealEngine5引擎打造的LyraDEMO，此DEMO除了能够支持最新的DLSS3技术外，还带上了NVIDIAReflex，即提高帧数的同时还能降低延迟。笔者这里上传了两个图片给大家看看LyraDEMO里的DLSS3开启与关闭的画质对比，几乎看不出画质损失，而游戏流畅度自然是DLSS3开启后提升较为明显的，帧数由原来的76FPS直逼192FPS，近乎三倍的提升，PCL延迟也进一步降低到了50ms的水平。

5创作者能力测试

创作者性能测试

作为一张顶级显卡，技嘉RTX4090MASTER的作用可不仅仅是打游戏，创作生产力才是它的强项。创作性能我们测试了以ULProcyon、PugetBench为代表的Bnechmark，还加测了模拟日常使用的PCMark10。虽然Photoshop、Premiere以及AfterEffect这三个软件对于显卡的要求都不算太高，但有RTX4090加持，性能还是提升了14%以上，如果你是正在使用RTX3090Ti这类显卡的设计师、影像师，想要提升创作效率，又没有可升级途径，不妨试试技嘉RTX4090MASTER，它能给你不一样的体验。

在专业内容创作上，技嘉RTX4090MASTER上18432个CUDA内核能够带来更快的效率。在Blender渲染中，RTX4090有着几乎两倍RTX3090Ti的性能，效率大增；在另一款GPU渲染器Octanebench中，RTX4090相较于RTX3090Ti，提升幅度高达95%，可见新一代显卡的优势之大。需要用到渲染的用户真的可以考虑技嘉RTX4090MASTER，24GB大容量显存和强悍的配置在内容创作等领域发挥巨大的作用。

在视频后期这一块，技嘉RTX4090MASTER配备了第八代NVIDIANVENC编码器，支持AV1编码和双编码器。其中AV1是下一代的视频编码技术，能够在占用相同空间情况下，提供更加快速的视频编码和更高质量的流媒体传输性能。并且目前许多主流媒体都已经支持AV1，像达芬奇或万兴喵影等软件也已支持AV1编解码。

这次我们使用NVIDIA提供的8K片源与工程文件进行测试，同样的素材，AV1编码相比H.265编码所需时间更短，而即使同为H.265格式导出，技嘉RTX4090MASTER的导出时长相比RTX3090Ti也快了近70%左右。

并且AV1编码后的文件相比H.265占用空间更小，有了RTX40系的第8代NVENC双编码器，创作者可大大提高工作效率。

6超频&功耗&总结

超频测试

这一代的RTX4090超频能力相当出色，虽然英伟达已经给RTX4090足够高的频率，出厂最高可达2520MHz，不过依旧有继续超频的空间。所以我们使用技嘉独有的超频工具——AORUSEngine，给“雕牌”显卡提供了专业的超频方式，在软件内能够进行多种设置，频率、电压、风扇转速、RGB、温度等都可自定义调整，并且一键套用，实时生效。

我们手动给这张显卡进行超频，将GPUBOOST频率拉到了2775MHz，在3DMark中实测GPU频率可达3105MHz，性能也进一步提升，TimeSpy得分36888，相比默认状态提高约4.4%的性能。技嘉RTX4090MASTER强大供电与散热设计完全可以继续开发这颗至尊级GPU的性能，玩家如果有兴趣，还可以进一步挖掘它的强大潜力。

功耗与散热

这么大的散热器加持，不测一下技嘉RTX4090MASTER的功耗和温度真是可惜了。在室温24℃下，Furmark甜甜圈设定为1280x720分辨率。在烤机10分钟后，显卡占用率达到了99%，满载功耗447.8W，显卡核心频率为2715MHz，核心满载温度稳定在56.8℃，相比3090Ti或公版4090动辄70℃的表现，技嘉RTX4090MASTER可以说是“快冻感冒了”，果然全新的散热器的效能强劲，用来压制这款显卡还是绰绰有余的。

不仅如此，技嘉RTX4090MASTER在进行烤机测试时，噪音表现也相当好，我们在开启OCBIOS情况下几乎感受不到太大的风扇的噪音，距离显卡50cm处噪音仅33.3Db，如果开启SILENTBIOS时，噪音会低至27.6dB。

评测总结

全新AdaLovelace架构的RTX40系显卡无论是在游戏性能还是专业生产力上都带来了质的飞跃，而旗舰级的RTX4090更是将显卡性能推上一个新的台阶，尤其是在DLSS3技术的加持下，4K光追下的游戏体验丝滑流畅，甚至8K电竞也不再是梦；而对于创作者来说，第三代RTCores和第四代TensorCores带来了革命性的技术进化，搭配上大显存和翻倍的CUDA核心，不仅性能翻倍，效率也大幅提升。

再聊聊这次测试的技嘉RTX4090MASTER显卡，外观上，经典的三环灯效延续至今，多样式的灯效和LCD显示屏属实是把RGB玩出花来了，有棱有角的金属框架配合眼前一亮的灯光设计，颜值拉满，科技感十足。

另外不论是从堆料、散热、超频还是做工来说，技嘉RTX4090MASTER都称得上是顶级非公，它以强悍的性能表现、稳定的温度控制和超低的风扇噪音，完美诠释了顶级卡皇的真正实力。虽然出厂默认的BOOST频率只比公版4090高了30MHz，但从我们实测来看，它的超频潜力不容小觑，完全可以与其他OC显卡掰掰手腕，轻轻松松就能跑上3GHz。

这一代RTX4090可谓是从里到外处处都是惊喜，总的来说如果你想购买一款性能最强、颜值在线、温控到位的显卡，那么技嘉RTX4090MASTER就是你的不二之选。目前技嘉RTX4090MASTER已经上市开卖，售价15998元，感兴趣的不要错过了。

7ADA架构讲解

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元，以及面向AI推理的TensorCore单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RTCore和三代TensorCore基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代RTCores与第四代TensorCores单元，同时加入众多新颖的黑科技，从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

在讲述核心架构前，我们先了解几个关键词：GeForceRTX4090、AdaLovelace、TSMC4N、608mm²、760亿个晶体管、2倍性能功耗比。

大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForceRTX40系列均采用全新的AdaLovelace架构核心，GeForceRTX4090的核心是AD102，目前AdaLovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存。

而GeForceRTX408016GB核心代号为AD103-300，拥有9728个CUDA核心和16GB高速美光GDDR6X显存，显存位宽也缩减到了256Bit；GeForceRTX408012GB规格要低一些，核心代号为AD104-400，拥有7680个CUDA核心和12GB美光GDDR6X显存，显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForceRTX4080系列相关的信息。

得益于NVIDIA与台积电深度合作的TSMC4N制程工艺，GeForceRTX4090核心面积仅是608mm²（上代RTX3090Ti628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForceRTX4090Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

从GTC2022秋季大会中，其实我们就已经发现了，目前GeForceRTX4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12个GPC(图形处理集群)、72个TPC(纹理处理集群)、144个SM(流式多处理器)和⼀个带有12个32Bit显存控制器的384Bit显存位宽。

再来看上面的GeForceRTX4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForceRTX4090核心代号为AD102-300，其拥有9个完整规格的GPC(图形处理集群，每个内建6个TPC)，与2个非完整的GPC(图形处理集群，每个内建5个TPC)，共组成了64个TPC，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

如果你还是不太懂，这里笔者就逐一为了AdaLovelace架构显卡的构成。

刚才我们已经说到，一个完整的AdaLovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的RasterEngine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores（张量核心）、4个TextureUnits（纹理单元）、256KBRegisterFile（寄存器堆），以及128KBL1数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32 INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForceRTX4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了，比上一代的RTX3090Ti显卡的40TFLOPS，还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128KB的缓存，这样RTX4090显卡中就实现了163MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX4090显卡拥有72MB二级缓存，也可能是因此AdaLovelace架构核心对显存位宽的依赖性并不高。

技术讲解：第三代RT Cores与第四代 Tensor Cores

技术讲解：第三代RTCores与第四代TensorCores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速，第三代RTCores的有效光线追踪计算能力达到191TFLOPS，是上一代产品2.8倍。

在Ampere架构中，第二代RTCores支持边界交叉测试（BoxIntersectiontesting）和三角形交叉测试（TriangleIntersectiontesting），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元：OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine，主要是用于alpha通道的加速，可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些Alpha通道的素材来实现更高效的画面渲染，例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，在AdaLovelace架构中，通过1个基底三角形位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RTCores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在AdaLovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序（ShaderExecutionReordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代RTCores与第四代TensorCores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用GPU资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎，具有高达1.32petaflops的张量处理性能，超过上一代的5倍。

8DLSS 3技术讲解

技术讲解：DLSS 3

或者说第四代TensorCores太硬核你不会知道是啥？提升意义在哪？但是TensorCores最经典的应用DLSS你肯定会知道，这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS帧生成、DLSS超分辨率（也称为DLSS2）和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS帧生成技术；而后两技术中，DLSS超分辨率只需要GeForceRTX显卡都能使用上，NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单，这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是：利用AI技术生成更多帧，以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而AdaLovelace架构的光流加速器升级到了第二代，其提供了高达300TeraOPS(TOPS)，比安培架构的初代光流加速器（OpticalFlowAcceleration，OFA）快2倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的，游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能，所以DLSS3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后，直接达到1440p分辨率360FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布，包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz，而最猛的是ASUSROGSwift360HzPG27AQN，刷新率直接来到了360Hz。

但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

技术讲解：双NVIDIA编码器（NVENC）

GeForceRTX40系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1编码器可将效率提高40%，同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

技嘉旗舰显卡是大雕还是超级雕（顶级风冷旗舰技嘉GeForce）

最新推荐

热门推荐