前言
前几天看到一个新闻,30系显卡终于翻页,显卡价格开始回升。就这样的市场下,NVIDIA把曾经的RTX 4080 12G换名重新登场。也就是RTX 4070 Ti 12G。这一张承载了NVIDIA 3倍优秀功耗,在2K性能超越RTX 3090 Ti的显卡表现如何呢?我只能说,真是高!
——七彩虹 Geforce RTX 4070 Ti 战斧
NVIDIA AD104 构架解析
硬件改进:
芝士AD104核心完整规格图。AD104共计有5个GPC(Graphics Processing Cluster,图像计算集群),合计有60组SM。AD104仅支持192Bit的位宽,而SM内的规格还是原来一样的。因此对比GA104,完整的AD104会有
- 7680个CUDAs(上一代为6144,↑25%)
- 80ROPs(上一代为96,↑20%)
- 240TMUs(上一代为192,↑25%)
- 60RTCores(上一代为48,↑25%)
- 240TensorCores(上一代为192,↑25%)
AD104的规格说实话和GA103非常像。就是位宽砍半。如果说这大L2是强针剂,那小心心脏衰竭。
上图就是RTX 4070 Ti的核心图。和AD104基本一致,就是阉割了NVENC加速器。
剩下的内容,和RTX 4080差不多的,因此如果看过的话可以跳到显卡一览了。
GPC在结构上并没有太大的变化,主要还是在一些小SM内做了改进。如第三代RTCore,第四代TensorCore,完整支持第八代NVENC AV1的双解码器等技术。
第三代 RT Core 的新计算特性这里就不多说了。提升主要来自算法上的优化。他们总共提出了三个主要的提升。总结下来就是三点:
- 光追单元变多,并针对不同的光追运算指令进行重排序,提升运算效率
- 通过增加透明度的定义,减少光线与物体三角形求交的无效计算,提升运算效率(大白话既光追看不见的地方交给传统光栅单元算)
- 通过增加位移信息简化复杂物体的构建成本,显著降低光线追踪运算的硬件资源消耗(大白话既光追看得出来的地方少算)
第四代 TensorCore 单元的变化主要是集成了FP8计算单元,实现了最高1.3PFlops的计算性能。
除了构架上的小幅改进,Ada构架也把制程进一步提升到了TSMC 4NNVIDIA定制工艺。使得AD102在与GA102面积相当,甚至更小的情况下拥有76.3B的晶体管数量,是原来2.69倍。
软件改进:
DLSS 3是随着Ada构架推出的新功能。过去大家对DLSS的评价褒贬不一,主要原因在于虽然DLSS提升性能,但是所带来的画面撕裂与模糊感非常强烈。新的DLSS 3除了保留了DLSS 2的功能外还引入了类似传统帧生成的优化方法。这种方法的好坏不做评价。但是如果能让游戏从PPT变成电影,那也无法否认其存在价值。
考虑到未来4K游戏的发展,高刷4K会渐渐变成主流。目前来说越来越多游戏开始支持DLSS,而支持DLSS 3游戏也会渐渐增加。希望这个技术能真成为高刷高分辨率的一个解决方法。
显卡一览
七彩虹 RTX 4070 Ti 战斧的包装变化不大,附赠了一根12+4 Pin转2个8Pin的转接线。
今年战斧的整体风格没有什么太大变化。这种方方正正的感觉其实挺好的。而且散热效果也不差。
4070 Ti 战斧的PCI-E挡板改成了两个,虽然散热器还是扩到了三个。显示接口方面吧和上一代没差,3DP 1.4+1HDMI 2.1设计。
RTX的灯光不能没有,但是有与没有,都阻挡不了热辣辣的空气。
12+4Pin接口,RTX 4070 Ti的功耗为285W TGP。
嘿嘿嘿,转两个8Pin。
一些小细节,其实没啥了。
分体一览,我只能说战斧真的没啥差别。
风扇是ID-Cooling ID9820M12B,散热规格12V 0.36A。
4070 Ti战斧的散热规格肯定是低很多,6热管散热,4跟热管延伸至散热后部,2跟延伸至前部。鳞片的面积其实可以不做成三槽的,但是为了拉风。
Geforce RTX 4070 Ti 战斧PCB完整照片。非常的停机坪。甚至PCB的规格都原本是256Bit设计的。可能也是突然发现对手打不过而临时变故吧。供电规格也没有什么稀奇,10+2相供电,uPI uP9512+万代AOZ5311NQI 55A级一体MOS。过去用来驱动RTX2080 Ti级别的核心,毕竟他们那个时候也就250W的TDP。
性能测试
CPU采用英特尔酷睿i9-13900K。
主板采用华硕 ROG MAXIMUS Z790 EXTREME。
散热采用雅浚EA5 360 白色。
内存采用芝奇幻锋戟 RGB 16Gx2 DDR5 6000,由于华硕主板支持在Intel平台开启EXPO,所以内存可以运行在6000频率上。
选用的电源为鑫谷KL1250G 1250W,支持ATX3.0。附带的了两根12+4Pin接口,能够提供最高600W的供电输出。
环境温度16℃,本次测试有六张显卡参与对比,其中RTX 3090 Ti与RTX 4070 Ti将最主要对比。以下是参与的显卡:
- 七彩虹 Geforce RTX 4070 Ti 战斧
- 七彩虹 Geforce RTX 3090 Ti 火神 OC
- 七彩虹 Geforce RTX 3080 Ti 火神 OC
- NVIDIA RTX 3080 Founder Edition
- 蓝宝石 Radeon RX 7900 XTX NITRO+
- AMD Radeon RX 6800 XT
所有基准均七彩虹 Geforce RTX 4070 Ti 战斧 为基准,未特殊说明均是以比例显示,数值均越高越好。
GPU-Z 2.52版可以完美识别RTX 4070 Ti。RTX 4070 Ti战斧的频率最高能Boost到2700MHz左右。
理论性能测试:
AIDA64理论性能对比,RTX 4070 Ti综合性能与RTX 3090 Ti持平。RTX 4070 Ti内部的超大缓存让内部显存复制速度超过了1.2TB/s。浮点,整数的提升基本来自于频率的提升。SHA-1是唯一落后的,这也是因为规格和算法的问题。
3DMARK基准测试,可以看到RTX 4070 Ti综合性能是RTX 3090 Ti的98%。除了DirectX光追有领先以外,其他基本是持平或者小幅落后。反倒是领先RTX 3080 Ti 2%,领先RTX 3080 19%。
3DMARK DLSS性能对比,RTX 40 系列支持DLSS 3,而RTX 30 系列不支持,因此在RTX 30 系列 DLSS 3对比中,以DLSS 2的性能做对比。RTX 4070 Ti平均性能是RTX 3090 Ti的67%。在没有DLSS的支持下,RTX 4070 Ti性能落后在10%左右,8K下更是一帧和10帧的对比。这也不奇怪,毕竟12G 192Bit的位宽。只有在DLSS 3的加持下,RTX 4070 Ti才能摸到RTX 3090 Ti。
严格来说性能上其实更接近RTX 3080 Ti。没有DLSS和DLSS 2下帧数接近。只有在DLSS 3开启下,性能提升能达到25%以上。综合而言获得4%的性能领先。
VRMARK对比,Blue Room比较吃性能,RTX 4070 Ti和RTX 3080 Ti性能接近。落后RTX 3090 Ti 10%,合理。
渲染对比,Blender是老牌渲染器,所以对多个设备都有支持,V-Ray则是常用于3DSMAX的渲染器,主要支持NVIDIA。Octanebench则是专门支持英伟达的渲染跑分软件。渲染一直都是新显卡会占优势,毕竟有优化,所以这里RTX 4070 Ti领先RTX 3090 Ti 3%,领先RTX 3080 Ti 8.6%。
游戏性能测试(2K):
RTX 4070 Ti的定位显然不足以撑起4K市场,因此我们将测试2K与4K性能进行对比。综合对比中数值并不平均1% Low FPS。
游戏引擎对比,选用Superposition (UE2) 、Heaven Bench、Unreal Engine 5和Unity引擎动画对比,AMD显卡不支持DLSS与部分测试,因此成绩为0。综合对比上,RTX 4070 Ti相比RTX 3090 Ti有1.01倍的性能提升。领先点主要是新的UE5,落后点则是老牌的Heaven Bench。相比RTX 3080 Ti也有1.10倍的性能提升。
所有游戏综合对比,没有标注DLSS版本的游戏均是DLSS 2对比DLSS 3,标注版本的则是为具体版本对比。AMD显卡的DLSS数据实际为AMD FSR,参数上与DLSS尽量保持一致。
通过分析具体数据可以发现,在不开启DLSS的情况下,RTX 4070 Ti都会稍落后于RTX 3090 Ti,实际性能更接近RTX 3080 Ti。开启DLSS后,RTX 4070 Ti的性能会有明显的领先,综合性能领先1.11倍。领先RTX 3080 Ti 1.19倍。也领先RX 7900 XTX 1.13倍。
游戏性能测试(4K):
游戏引擎对比(4K),AMD显卡不支持DLSS与部分测试,因此成绩为0。综合对比上,RTX 4070 Ti相比RTX 3090 Ti只有81.3%的性能。相比于RTX 3080 Ti性能也只有87.8%。更接近的性能应该是RTX 3080,有98%的性能。
所有游戏综合对比(4K),没有标注DLSS版本的游戏均是DLSS 2对比DLSS 3,标注版本的则是为具体版本对比。AMD显卡的DLSS数据实际为AMD FSR,参数上与DLSS尽量保持一致。CS:GO正好有版本更新没有参与综合对比中,仅作参考。
通过分析具体数据可以发现,在不开启DLSS与RT的情况下,RTX 4070 Ti会与RTX 3080比较接近,开启RT后,RTX 4070 Ti会与RTX 3080 Ti比较接近,开启DLSS下则会稍优于RTX 3080 Ti。综合性能领先RTX 3080 1.25倍。领先RTX 3080 Ti 1.02倍。落后RTX 3090 Ti 7%。
DLSS 3 画质对比
作为40系最大的卖点之一,DLSS 3的对性能提升的同时又对画质有多少影响呢?这里准备视频和图文一起进行对比。
DLSS 3 VS 原生:
DLSS OFF
DLSS 3 ON
由于人的视线首要集中在可以清晰的画面上,而如果不清晰的画面拥有过多细节,就会引起一种反直觉。开启DLSS后,中远景的过分细节被“删减”,视觉感受会有所加强,同时近景光影也得到了进一步的改善。就能让人有更好的视觉感受。
左DLSS OFF; 右DLSS 3 ON
我们把开关后的画面放在一起,可以清晰的看到开启DLSS后的画面的线条颗粒有所减少。视觉感官上更接近与真实的图像画面。
不过DLSS系列的问题仍旧无法避免。由于通过裁剪光源附近的面数,开启后的部分场景在放大后能明显看到锯齿。如果截图不经意之间放大可能就会发现,此时就要好好利用NVIDIA Ansel了。
DLSS 3 VS DLSS 2:
DLSS 3对比不开启当然非常明显,但是对比DLSS 2呢?
DLSS 2
DLSS 3
DLSS 2与DLSS 3其实基本看不出太大的差距,如果硬要说,最多是光影之间的小部分差距。尤其是树叶能看到更多的光影细节。
左DLSS 2; 右DLSS 3
但是如果放大对比后,DLSS 3对比DLSS 2确实能看出差别,DLSS 2的画质感偏向于裁剪面数以及锐化,因此画面总有一股胶状感,而DLSS 3则很好的解决了这个问题。
DLSS 2
DLSS 3
在有光影的瓷钻、树木纹理表现上,DLSS 3能够明显的看出细节,而DLSS 2优化后的纹理就像打了一层胶一样。非常的模糊。
左DLSS 2; 右DLSS 3
放大后这些树木的纹理差别就非常明显了。
总的来说,DLSS 3的优化效果还是非常明显的,不过考虑到目前游戏支持有限,外加DLSS 3具体的表现不知道在更低端的显卡表现如何,我们静静期待其后续表现。
AV1与H.264画质对比
AV1作为NVIDIA新一代显卡力推的视频编码规格,相比主流的H.264有着体积与画质的优势。尤其是在未来8K视频下,AV1将能省下不少资源。由于国内大部分在线视频网站都是H.264,少部分支持到H.265,只有极少的实验性AV1/VP9,这项技术主要还是服务于影视行业。当然以后你下载的高清小电影也可以受益了。
这里主要对比AV1与H.264在使用相同的配置下编码画质的差距。使用OBS开启AV1与H.264,在100000Kbps最高码率上限下进行视频录制。选取微软模拟飞行进行画质对比,左边为AV1,右边为H.264。严格以上来说,AV1的画质只有在强烈光影下能有强烈的差别。但考虑到在体积对比上能压缩接近30%的空间,NVIDIA的NVENC AV1双编码器对于创作者或者高端游戏视频录制玩家是非常友好的升级。对于一般人,考虑到目前CPU都开始集成核显,除非录制4K甚至8K,不然当前的视频网络需求下,双编码器与AV1的优势还有待挖掘。
功耗与温度
感谢4nm的工艺吧
RTX 4070 Ti的TGP功耗是285W,上一代的RTX 3070 Ti是290W,基本接近。
战斧的散热还是不错的。烤鸡温度不超过70.0℃,热点温度79.5℃,风扇转速只有40%(1500RPM+)。此时的烤鸡频率只有~2400MHz。检测功耗也是280W左右。
游戏过程的功耗采集自FrameView。RTX 40系列最自豪的实际游戏没有达到TGP水平,全程在250W以下。对比RTX 30系显卡,全程接近于顶着450W TDP来跑。但我希望两年后再测试也可以这样表现出来。
总结
首先,RTX 4070 Ti这张卡本来不该出现,哪怕是这样的形式也不对。可惜对手不给力,你没得选,所以他的性能严格来说只是在RTX 3080 Ti左右,想要摸上RTX 3090 Ti,全靠DLSS。尤其是192Bit的位宽,会让4070与4080形成一种强烈的隔代。不得不否认这张卡会是目前2K游戏较高性价比的显卡,但这种显卡真的会是玩家期待的嘛?