金士顿鑫创量产工具0xbd ()

1引言&规格对比&外观赏析

引言

DIY硬件圈的一大春晚便是NVIDIA的显卡发布会,RTX4090自发布以来,其强劲的性能就被玩家冠以“地表最强卡皇”的称号,不过由于产能不足和高昂售价的原因,让不少玩家望而却步。作为次旗舰的RTX4080显然是更合适的选择,相同的AdaLovelace架构、一样的黑科技加持,领先前代卡皇RTX3090Ti的性能,就如为游戏玩家量身定制一般。

而微星作为NVIDIA中的一线AIC,也在第一时间推出了自己的非公版RTX4080——微星GeForceRTX408016GBSUPRIMX超龙。超龙作为微星旗下的超旗舰系列,无论是堆料还是配置都远超自家的魔龙,这也让我对这款显卡的性能表现充满好奇,下面就让我们一探究竟。

下文“微星GeForceRTX408016GBSUPRIMX超龙”简称为“微星RTX4080SUPRIMX超龙”

规格对比

在开始之前,先了解一下本次的主角RTX4080,其采用的是AD103-300核心,TSMC4N工艺制造,芯片面积为379平方毫米,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。

其他参数方面,RTX4080RTX4080标配9728个CUDA,128个第三代RTCores,512个第四代TensorCores,并且用上了16GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。

而目前RTX4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX4080Ti。

再看看下方的RTX4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256Bit。

但是RTX4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX4090同等规格,仅保留了两个NVENC编码器和一个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX4080也有不错的表现。

外观赏析:微星 GeForce RTX 4080 16GB SUPRIM X 超龙

微星RTX4080SUPRIMX超龙的显卡外包装走的是简约风,正面包装印着显卡渲染图,左下角是SUPRIMX的标识,采用了彩色镀膜工艺,在不同角度下可以看见不同的色彩。

包装盒的背面则是产品的展示图和详细的显卡介绍,如全新升级的代TRIFROZR3S散热设计、MSICENTER控制中心等。

包装内还附赠了一块鼠标垫和一根12VHPWR转3*8Pin的电源转接线,少不了的还有定制的显卡支架,这也是因为这代微星RTX4080SUPRIMX超龙相当有份量,所以在装机时一定电脑要配合显卡支架一起使用。

接下来看看微星RTX4080SUPRIMX超龙的本体,外观采用金属拉丝工艺,配合钻石切割外观,设计简约的同时又大幅提升了显卡的质感,一眼看过去透露着精致奢华的气息,整体颜值在线。

显卡的正面是三把刀锋7代散热风扇,相比上代,在风压上进行了改进,据称相比普通轴流风扇能增加23%的气流。

散热风扇的外围均有风扇罩环绕,依然沿用了初代经典的八角形切口和45度斜边,并且风扇罩延申至外壳之外,这样可以延长空气通道,并且大幅提高气流稳定性。

电脑

每个刀锋7代风扇上有9片扇叶,扇叶均采用独特的环形设计,每3个扇叶连接成环形,并采用22°倾斜设计,即使低速转动时,也能保持高压气流。

风扇的周围还有一小圈灯带,当显卡竖装时即可欣赏到RGB灯效与金属相互碰撞的高级感,并且灯效还支持自定义调节,想要什么效果只要在MSICENTER软件设置就可以了。

微星RTX4080SUPRIMX超龙的背面也进行了改进,采用一体式金属背板,金属拉丝工艺加持,不仅颜值更高,还显著提升了显卡强度。

金属背板上最抢镜的莫过于这块X型的散热鳍片固定器,在这背后的就是那颗强劲的AD103核心。

显卡的末端还设计了一小块的镂空开孔,这样做的目的是加速显卡内部的空气流动,达到提升散热的目的。

镂空散热口的旁边则是经典的SUPRIM标志,其设计创意来源于钻石晶体的几何形状,平时散发出金属的光泽,点亮显卡后还能显示RGB灯效,犹如不同颜色的珠宝镶嵌在这块显卡之上。

显卡背部还隐藏了一个BIOS切换按钮,微星为这张显卡提供了双BIOS功能,分别是GAMING和SILENT模式,不过后面我们实测下来,即使是GAMING模式下,显卡的风扇转速依旧不大,基本上用不上SILENT模式。

显卡顶部最抢眼的就是“SUPRIMMSI”的标志性灯牌,金属拉丝工艺与透明钻切工艺相互融合,既显质感又有特色。周围是一整排的散热鳍片,能够快速的将显卡热量传递出去,助力显卡强势输出。

标志性的灯牌还支持调节RGB灯效,通过MSICENTER软件即可实现自定义,点亮后熠熠生辉。

供电接口用的是ATX3.0标准下的12VHPWR接口,单口可提供600W的供电能力,用来带RTX4080已经是绰绰有余了。另外从图上也可以看到供电接口内部的金属端子使用镀金材质,不仅做到抗氧化,还降低了阻抗,达到降低发热的效果。

视角来到显卡的底部,与顶部基本一致,同样是密密麻麻的鳍片出风口,如此豪华的散热配置,也让我十分好奇这款显卡的散热效能究竟如何。

显卡金手指则是常规的PCIe4.0x16接口,值得注意的是,使用前一定要打开主板的ResizableBAR功能,这样才能跑满带宽,完全发挥显卡性能。

不得不说这代RTX4080是真的厚重,微星RTX4080SUPRIMX超龙足足有3.5槽厚,7.5cm的厚度,接近5斤重的显卡,这对一些比较小的机箱会是不小的挑战。

接口方面配备了三个DP1.4a和一个HDMI2.1a,用它连接8K显示屏也没有问题,这也让我们后面顺利实测这款显卡在8K下的游戏性能表现。

2显卡拆解:微星 GeForce RTX 4080 16GB SUPRIM X 超龙

显卡拆解:微星 GeForce RTX 4080 16GB SUPRIM X 超龙

这款显卡还是相当好拆的,仅需卸下金属背板上的螺丝,断开风扇排线即可分离PCB与散热器了。

微星RTX4080SUPRIMX超龙使用了强化的PCB设计,PCB上的接口、供电、核心等位置都尽然有序,安排合理。PCB虽然为越肩设计,但体积相比上代的RTX3090Ti要小不少,微星的设计能力可见一斑。

翻到背面,相比正面就要简洁不少了,这里多是一些控制芯片。在核心的背面还有两颗两个POSCAP(导电聚合物钽电容),有它们坐镇,显卡整体的电气性能会更强。

正面最瞩目的就是那颗AD103-300-A1核心,由TSMC4N定制工艺打造,换装了全新的AdaLovelace架构,9728个CUDA核心加持,配备超高的能耗比,让这颗核心在微星RTX4080SUPRIMX超龙上大放异彩。

核心旁则是8颗GDDR6X显存,来自美光,型号为2PU47D8BZF,作为GDDR6的升级版,显存位宽为256Bit,速度达到了22.4Gbps,并且单颗容量达到了2GB,8颗组成16GB的大显存为微星RTX4080SUPRIMX超龙提供澎湃性能。

作为微星旗下的超龙系列,配置自然也不差,显卡采用18+3相供电,其中18相为显卡核心供电,3相为显存供电。

供电模组上密密麻麻的HCI电感相当“唬人”,采用一体成型设计,具备更出色的电气滤波性能。

另外每相供电均配备了独立的DrMos芯片,型号是NCP302150,持续输出电流为50A,具有降低功率损耗和增强电压控制的功能,为显卡提供稳定电源。

核心供电DrMos

显存供电DrMos

PWM供电控制芯片均被放在了PCB的背面,共有三颗,型号分别是uP9512R、uP9529Q以及uS5650Q,其中uP9512R与uP9529Q共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。

uP9512R芯片

uP9529Q芯片

uS5650Q芯片

在PCB板上还有两颗小芯片,虽然体积小,但功能巨大,它是显卡的BIOS芯片,分别是来自旺宏电子的MX25U1633F和华邦电子的W25Q16JWNIQ,用于控制GAMING模式和SILENT模式两个BIOS。

旺宏电子MX25U1633F芯片

华邦电子W25Q16JWNIQ芯片

微星RTX4080SUPRIMX超龙用的是最新的12VHPWR供电接口,单口最大功率600W,不过仅需一根12VHPWR的电源线就可以完成对于显卡的供电,安装方便。

微星RTX4080SUPRIMX超龙采用新一代TRIFROZR3S散热设计,仅需卸下隐藏在风扇之下的螺丝就可以看到散热器的全貌了。

与前代散热器不一样的是,这代的TRIFROZR3S散热系统相当豪华,散热器的中间是大面积的均热板,相比上一代的镜面铜底,散热效能更强。并且在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热。

均热板的底下是大面积的散热鳍片,这代大幅度的增加了散热鳍片的密度,并对不同位置的散热鳍片形状精心微调,增加了导流鳍片的设计,从而尽可能提升气流流动效率,改善散热效能和噪音。

金属背板不仅可以提升强度,在金属背板的内侧还附加了导热垫,能够起到额外辅助散热的作用。

散热鳍片之中还隐藏了10根纯铜镀镍热管,直触上方的均热板,热管与均热板接触部分加工为方形,加大其接触面积,高效散热。

10根纯铜镀镍热管

方形核心热管

单提升散热还不够,散热器的强度也要关注,在散热器的一端还有金属中框加持,既保证了强度,又能辅助散热,一举两得。

在PCB与散热器的中间还有一块加强刚性的金属扛弯带,进一步保证显卡强度,保护能力拉满。

显卡的散热系统中还有三把刀锋7代风扇作为主动散热,双滚珠轴承,有效提升使用寿命。

风扇叶片也经过全面升级,22度倾斜设计,在低转速下也能保持高压气流,并且这三把风扇均支持低温自动停转功能,杜绝风扇噪音,还你安静的电竞环境。

3测试平台&理论/游戏性能

测试平台介绍

看完了微星RTX4080SUPRIMX超龙的配置,下面就开始上机测试。

次旗舰定位的显卡,那其他硬件配置也不能差,CPU用的是Inteli9-13900K,主板为ROGMAXIMUSZ790HERO,内存插满,直接上金士顿的64GBDDR5-6000,这样的配置才能让展现这张显卡的性能。

单有强悍的硬件可不够,显示设备也得跟上,所以我们为这张微星RTX4080SUPRIMX超龙配备了4K显示器的天花板——爱攻&保时捷联名设计的AGONPD32M,4K@144Hz高刷,还有miniLED背光加持,从里到外都散发着一种高级感,只有这样的显示器才能配得上微星RTX4080SUPRIMX超龙这张显卡。

开始测试前,先通过GPU-Z了解一下测试的微星RTX4080SUPRIMX超龙,从图中可以看出这款显卡的基准频率为2205MHz,Boost频率可以达到2625MHz,远高于FE公版的2505MHz,可见这款显卡的实力之强劲。并且可以看到此时主板的ResizableBAR功能已开启,显卡能够做大限度的发挥出其全部性能。

另外GPU-Z中还可以了解微星RTX4080SUPRIMX超龙的温控和功耗策略,这款显卡的TGP设定为320W与公版保持一致,允许的最高功耗限制为400W。在温度墙上,这款显卡也颇为激进,最高可以去到88℃,显然这是为超频所准备的,不然以微星RTX4080SUPRIMX超龙上的散热器,是不可能撞到温度墙的。

理论性能测试

国际惯例,先运行3DMark,看看微星RTX4080SUPRIMX超龙的理论性能如何,这里我们加上了前代卡皇RTX3090Ti,这样能够看出作为次旗舰的RTX4080究竟能有怎样的性能提升。

首先是以DX11为代表的FireStrike系列测试,微星RTX4080SUPRIMX超龙仅差一步之遥就突破6W大关,在4K分辨率下,性能已经领先RTX3080Ti接近40%。而在以DX12为代表的TimeSpy系列测试中,微星RTX4080SUPRIMX超龙也不负众望,依旧比前代强出40%以上,可以说在RTX4080在4K分辨率下已经没有压力了。

作为以RTX为前缀的显卡,那就不得不提光追与DLSS了,作为老黄家的看家本领,这代显卡在光追和DLSS上也是提升明显,微星RTX4080SUPRIMX超龙在PortRoyal测试中得分高达17994,而作为前代卡皇的RTX3090Ti仅有1W4左右,单是光追的提升就有30%以上,更别说DLSS加持后对游戏性能的提升了。

微星RTX4080SUPRIMX超龙在AIDA64GPGPU的理论测试中也展现了高端显卡的真实实力,相比RTX3080Ti性能提升足足有42%以上,而相比RTX3090Ti也丝毫不虚,领先幅度也有30%以上,可以说这代显卡就是全方位的领先。

游戏性能测试

游戏玩家最关心的莫过于微星RTX4080SUPRIMX超龙的游戏性能了,我们选用了多款游戏在不同分辨率下实测这款显卡的性能表现。

首先是1080P分辨率,这对微星RTX4080SUPRIMX超龙来说简直就是毫无压力,实测的多款游戏中,上一代的RTX3080Ti已经可以流畅运行了,作为次旗舰的微星RTX4080SUPRIMX超龙更是不在话下,不少游戏的帧数已经逼近300FPS。

2K分辨率下,微星RTX4080SUPRIMX超龙才逐渐有了优势,测试的游戏基本都在144FPS以上,相比前代游戏性能也提升明显,像《战争机器5》,前代的帧数为157FPS,换上微星RTX4080SUPRIMX超龙后,游戏帧数已经去到228FPS,稍为降低一下特效就可以2K@240Hz运行了。

来到4K分辨率后,微星RTX4080SUPRIMX超龙的游戏性能领先RTX3080Ti达到了41%,不少游戏已经是可玩跟流畅玩的区别了。《赛博朋克2077》一直被玩家戏称为“显卡杀手”,就是因为其对硬件要求颇高,不过微星RTX4080SUPRIMX超龙在超级光追的条件下已经可以90FPS流畅运行了,而前代RTX3080Ti还停留在59FPS勉强能玩的地步。

看过我们之前RTX4090的评测都知道,8K电竞不再是梦。那微星RTX4080SUPRIMX超龙作为次旗舰能否胜任8K呢,我们也实测了一遍,结果可以看到部分游戏依旧可以跑到60FPS以上,像优化好的《极限竞速:地平线5》甚至可以去到70FPS,可见8K还是可以期待一下的。

4DLSS 3性能测试

DLSS 3性能测试

DLSS作为RTX20系推出的黑科技,其目的就是为了让显卡能够在不影响画质的前提下提高游戏性能,让玩家能够体验更真实的游戏画质。现在老黄在RTX40系显卡上带来了全新的版本——DLSS3,相比前作,新增帧生成和NVIDIAReflex技术,能够实现游戏性能的翻倍提升,我们选择了多款软件和游戏对这项技术进行实测,验证其究竟能否实现老黄在发布会上所说的“性能翻倍”。

3DMarkDLSS3理论性能测试

依旧是3DMark理论性能测试,在DLSS测试项目中,有了DLSS3后,微星RTX4080SUPRIMX超龙如虎添翼,4K分辨率下,开关DLSS3性能差距能够达到3倍以上。8K分辨率下更是离谱,不开DLSS时,仅有1.5FPS,开启DLSS2后,帧数虽有提升,但45FPS并不足以流畅运行,而启用DLSS3后,帧数直接来到了70FPS,已经能够流畅运行了,可见有DLSS3加持,微星RTX4080SUPRIMX超龙也能8K游戏。

UnrealEngine5EnemiesDEMO性能测试

紧接着我们还测试了开发游戏所需用到的UnrealEngine5引擎,UE5作为全新的游戏开发引擎,对显卡的压力自是不小,在EnemiesDEMO中,微星RTX4080SUPRIMX超龙开启DLSS3后犹如有高人相助,4K分辨率下可达77AVG/661%FPS/55ms的水平,而关闭DLSS3仅有22AVG/171%FPS/195ms,前后足足相差3倍之多,可见老黄的黑科技真的没有骗人。

并且开启DLSS3后,游戏流畅度提升的同时,画质也不受影响。我们可以从视频中可以看出,即使开启DLSS3后,从肉眼看来,开关前后的画质几乎没有区别,并且因为DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰。

《毁灭全人类2:重新探测》游戏实测

仅测试理论性能还不足以说明DLSS3的实力,我们也选用了目前支持DLSS3技术的游戏进行实测,这里我们以《毁灭全人类2:重新探测》为例,这是一款今年才上线的新游戏,让我们看看在DLSS3的加持下,微星RTX4080SUPRIMX超龙到底能有怎样的表现。

实测仅开启DLSS2,微星RTX4080SUPRIMX超龙就可以在2K分辨率下跑到211FPS了,开启DLSS3后,游戏帧数直接提升100FPS,已经突破300FPS大关,达到了电竞网游的水平,4K分辨率下也是丝滑流畅,开启DLSS3后有185FPS,配合我们的AGONPD32M显示器,强悍的性能与丝滑的显示带来前所未有的体验。

2K分辨率DLSS性能测试

另外我们还实测了多款游戏跟程序,从实测结果来看,2K分辨率下,以微星RTX4080SUPRIMX超龙的性能毫无压力,不少游戏开启DLSS2就已经甩开前代RTX3080Ti一大截了,开启DLSS3后性能更是离谱,帧数都是几十帧的提升。

4K分辨率DLSS性能测试

有DLSS3加持后,4K分辨率对微星RTX4080SUPRIMX超龙也毫无难度,开关DLSS3依旧有二三十帧的性能差距,并且不少游戏都能跑到144FPS以上,用上微星RTX4080SUPRIMX超龙就能感受4K@144Hz的极致电竞体验。

8K分辨率DLSS性能测试

在3DMark的DLSS测试中,8K分辨率下微星RTX4080SUPRIMX超龙开关DLSS3性能差距足足有70%左右,所以我们也实测了这款显卡在8K分辨率下的游戏表现,实测下来,只有少部分游戏或程序能够流畅运行在60FPS左右,笔者认为这是由于显存不足的问题导致,后续还需要游戏厂商进行优化,才能让这款RTX4080在8K分辨率下完美展现出应有的实力。

5创作性能&双编码器性能

创作性能测试

当然也不是所有的用户都有游戏的需求,不少用户买高端显卡更看重它的生产力,因此我们这次选择PugetBench、PCMark10这两款常见的测试软件,来测试微星RTX4080SUPRIMX超龙在日常办公、视频内容生产等方面的性能表现。

实测结果如下,在PCMark10的测试中,微星RTX4080SUPRIMX超龙在数位内容创作和游戏项目上有不小的提升,这也与上面的游戏性能测试相符。在后续的创作生产力软件测试中也印证了这一点,在达芬奇剪辑软件的Benchmark测试中,性能上领先RTX3080Ti不少,整体性能提升约16%。

微星RTX4080SUPRIMX超龙对创作生产力的提升远不止性能这么简单,我们在实测中还发现得益于16GB大显存的加持,让这款显卡能够运行更多更复杂的项目,而前代仅有12GB显存因此常常出现爆显存的状况。

另外,微星RTX4080SUPRIMX超龙在建模、渲染、工业设计等方面也有不俗的表现,性能提升更是吓人一跳,单是在Blender渲染软件中,相比前代RTX3080Ti就有50%以上的提升,面对卡皇RTX3090Ti也毫不逊色,性能依旧领先45%。

在SPECviewperf2020集成的8款工业软件测试中也是如此,性能提升也来到了33%左右,总的来说,换装微星RTX4080SUPRIMX超龙可以让你的创作效率大大提升。

双NVENC编码器专项测试

其实微星RTX4080SUPRIMX超龙还隐藏了一项技能,这项技能能够大幅提高视频创作者的效率。全新的RTX40系显卡上升级了双NVENC编码器,并且支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。

为了验证双NVENC编码器对视频创作的提升究竟有多大,我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测微星RTX4080SUPRIMX超龙的编解码实力与旗舰级的RTX4090相当,同一段素材下,AV1编码相比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,微星RTX4080SUPRIMX超龙的效率比前代快62%以上。

AV1编码可不仅仅是快,它还有更多你意想不到的点,例如,它在占用空间上也颇有优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码后,视频文件大小平均能够降低25%以上。

你以为这就结束了吗,AV1编码导出快、占用小,画质也不输H.265,这里我们截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现。

6功耗&超频&评测总结

功耗与发热

上面我们通过拆解,了解到这代微星RTX4080SUPRIMX超龙的散热配置与老大哥RTX4090别无二致,超规格的散热压制AD103核心绰绰有余,所以笔者也好奇这款显卡的散热效能究竟如何。

在Furmark甜甜圈单烤15分钟测试中,微星RTX4080SUPRIMX超龙的占用率达到了99%,但此时的GPU核心温度仅有56℃,显存也是56℃,足以证明这代显卡在架构设计及散热器的双重优势下,功耗与发热表现近乎逆天,比大多数CPU的温度还要低。

由于微星RTX4080SUPRIMX超龙有双BIOS,我们也测试了Silent模式下的功耗表现,可以看到Silent模式下,GPU核心和显存的温度仅仅是比Gaming模式下高出10℃而已,这个温度相比上代RTX3090Ti都低,此时风扇的转速更低,几乎感受不到风扇噪音,综合能耗比来看,这张显卡对比前代卡皇可以说是遥遥领先。

超频体验

微星RTX4080SUPRIMX超龙作为妥妥的高端显卡,不用它超频属实对不起它的名字,更何况它还用着RTX4090同款散热,因此笔者使用微星的小飞机对这款显卡进行超频测试。

首先先看看这款显卡在默频下,TimeSpy得分28285,此时显卡的有效频率已经去到2820MHz,显存频率为1420MHz。

紧接着我们在小飞机中解锁电压、功耗以及温度后,同时超频GPU核心和显存,GPU核心直接加175MHz,显存加1250MHz依旧稳定过测,此时TimeSpy得分30476,相比默频状态提升了7%左右,提升幅度还不错。

不过这并不是这款显卡的极限,在更好的温度条件下,这款显卡还可以有更激进的表现,感兴趣的玩家不妨自己“折腾”一回,相信微星RTX4080SUPRIMX超龙不会让你失望。

评测总结

全新的RTX40系显卡处处皆是惊喜,Adalovece架构大大提升了执行效率和光追性能,TSMC4N工艺和豪华散热器让这代显卡的能耗比惊人,另外还有老黄的独家黑科技,显卡的游戏性能与专业性能都有质的飞跃。总体来说,RTX40系显卡可以说是诚意满满,表现十分给力。

说回本次送测的微星GeForceRTX408016GBSUPRIMX超龙,它的颜值不同于一般的RTX4080,金属拉丝外壳所带来的质感是塑料外壳所无法比拟的。RGB灯效的设置,既不喧宾夺主,又恰到好处。不得不佩服微星的设计实力,这才是高端显卡该有的样子。

既然是高端显卡,单有外在可不够,微星GeForceRTX408016GBSUPRIMX超龙搭载AD103核心,这颗次旗舰核心在性能释放上全面领先上代卡皇RTX3090Ti;除此之外,高规格的散热加持下,显卡还有可观的超频空间,核心显存双超依旧稳定,实测下来这张显卡绝对称得上是一张精致奢华的超级旗舰。

如果你最近想入手一款性能卓越,颜值爆表的高端显卡,那微星GeForceRTX408016GBSUPRIMX超龙就是你的不二之选。它有着棱角分明的设计风格、点到为止的RGB灯效以及超越卡皇的性能表现,完美诠释了高端显卡的风范,目前微星GeForceRTX408016GBSUPRIMX超龙已经上架销售,售价11999元,喜欢这款显卡的玩家不要错过。

7ADA架构解析

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4080拥有76个SM,9728个CUDA核心,那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了,比上一代的RTX3090Ti显卡的40TFLOPS,还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,这样RTX4080显卡中就实现了97MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX4080都是64MB二级缓存,相比RTX3080Ti可以说是质的飞跃。

技术讲解:第三代RT Cores与第四代Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。

在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。

8DLSS 3技术讲解

技术讲解:DLSS 3

或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。

9双NVENC编码器技术讲解

技术讲解:双NVIDIA编码器(NVENC)

GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。


电脑