生活工程体验信仰哲学精神
快软网
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

必恩威GeForceRTX409024GBXLR8Gamin

3月11日 逆落雪投稿
  本内容来源于什么值得买APP,观点仅代表作者本人作者:gaojie20
  前言
  1984年上映,由詹姆斯卡梅隆导演,阿诺施瓦辛格主演的《终结者》豆瓣评分高达8。2分,其中故事背景中的天网是人类于20世纪后期创造的以计算机为基础的人工智能防御系统。之后自我意识觉醒,视全人类为威胁。电影剧情中,公元2029年,经过核毁灭的地球已由电脑“天网”统治,人类几乎被消灭殆尽。一个叫约翰康纳的军事领袖召集幸存者一起对抗天网,组建了反抗军组织。
  其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOPs,也就是每秒60万亿次浮点运算。
  其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOPs,也就是每秒60万次F浮点运算
  而在2022年的今天,英伟达最新发布的AdaLovelace架构新旗舰RTX4090在3。15GHz频率下算力可以达到100TFLOP,所有也有网友调侃:看起来无所不能的天网,算力只相当于0。6张RTX4090显卡。值得寻味的是《终结者》电影上映时间是1984年,而世界上第一块显卡发明于1981年,还是8位ISA显卡。时间催化科技落地再击穿曾经电影中的科幻数据,究竟是剧本预设太保守,还是科技进步太迅速呢?
  NVIDIATuringGPU架构于2018年推出,由TSMC12nm工艺制造,开创了3D图形和GPU加速计算的未来。图灵在PC游戏、专业图形应用程序和深度学习推理的效率和性能方面取得了重大进步。使用新的基于硬件的加速器,Turing融合了光栅化、实时光线追踪、人工智能和模拟,以在PC游戏中实现令人难以置信的真实感和电影品质的互动体验。
  两年后的2020年,由Samsung8nm8N工艺制造的NVIDIAAmpere架构整合了更强大的RT核心和Tensor核心,以及一种新颖的SM结构,与TuringGPU相比,该结构可提供2倍FP32时钟对时钟的性能。这些创新使得Ampere架构在传统光栅图形中的运行速度比Turing快1。7倍,在光线追踪中的运行速度高达2倍。
  2022年新的NVIDIAAdaLovelaceGPU架构以数学家AdaLovelace命名,他被认为是世界上第一位计算机程序员,因为使用了TSMC5nm4N工艺制造,其构架规模远远超过了Turing和AmpereGPU。几何复杂性的增加和照明的创新使图形看起来比以往任何时候都更加逼真。与之前的NVIDIAAmpereGPU架构相比,Ada在光栅化游戏中的速度高达2倍,在光线追踪游戏中的速度高达4倍。
  Ada图形架构预示着第三代NVIDIARTX技术,通过利用实时光线追踪来提高游戏视觉效果的真实性,而无需绘制纯光线追踪3D图形所需的大量计算能力。这是通过将传统的光栅图形与光线追踪元素(例如反射、照明和全局照明等)混合来完成的。第3代RTX预示着新的更高IPC“Ada”CUDA核心、第3代RT核心、第4代Tensor核心和新的光流处理器(OpticalFlowProcessor),该组件在不涉及GPU主图形的情况下在生成新帧中起关键作用渲染管道。
  NVIDIAAdaGPU完整架构
  完整的AD102GPU包括12个图形处理集群(GPC)、72个纹理处理集群(TPC)、144个流处理器(SM)和一个384位显存接口以及12个32位显存控制器。此外还包括288个FP64内核(每个SM2个),上图中未显示。FP64TFLOP率是FP32操作的TFLOP率的164。包含少量的FP64内核以确保任何具有FP64代码的程序都能正确运行,其中还包括FP64TensorCore代码。
  完整的AD102GPU使用了12个GPC单元构成,每个GPC的SM为12个共144个SM,所以可以计算出:
  144(SM)128(CUDA内核)18432(CUDA内核)
  144(SM)1(RT核心)144(RT核心)
  144(SM)4(Tensor核心)576(Tensor核心)
  144(SM)4(TMUs纹理单元)576(TMUs纹理单元)
  12(GPC)16(ROPs光栅单元)192(ROPs光栅单元)
  12(显存控制器)32bit(位宽)384bit(显存位宽)
  和上一代第一款首发产品RTX3090一样,RTX4090不是完整版核心,而是配备了这一代的第一款AdaLovelaceGPU:AD102300A1。
  NVIDIAAD102300A1GPU架构
  尽管这张旗舰卡中使用的芯片并不是完整的核心,AD102依然拥有128个流式多处理器(SM),包含16384个CUDA内核。
  RTX4090的AD102300A1核心
  RTX4090使用了11个GPC单元构成,9个GPC的SM为12个,2个GPC的SM为10个,共144个SM。所以可以计算出:
  128(SM)128(CUDA内核)16384(CUDA内核)
  128(SM)1(RT核心)128(RT核心)
  128(SM)4(Tensor核心)512(Tensor核心)
  128(SM)4(TMUs纹理单元)512(TMUs纹理单元)
  11(GPC)16(ROPs光栅单元)176(ROPs光栅单元)
  12(显存控制器)32bit(位宽)384bit(显存位宽)
  Ada的图形处理集群(GPC)
  Ada的图形处理集群(GPC)包含1个光栅引擎,6个TPC、12个SM和16个ROP。
  GPC是所有AD10xAda系列GPU中占主导地位的高级硬件模块,所有关键图形处理单元都位于GPC中。每个GPC包括一个专用的光栅引擎、两个光栅操作(ROP)分区,每个分区包含八个单独的ROP单元和六个TPC。每个TPC包括一个PolyMorph引擎和两个SM。
  AD10xGPU中的每个SM包含128个CUDA核心、1个Ada第三代RT核心、4个Ada第四代Tensor核心、四个纹理单元、一个256KB寄存器和128KB的L1共享缓存。
  Ampere架构的第2代RTCore
  Ampere架构的第2代RTCore图中,BVH遍历由BoxIntersectionEngine(左侧)加速,光线三角形相交测试由BoxIntersectionEngine加速三角形相交引擎(右侧)。通过两者为光线追踪功能提供专用资源,从而解放SM单元,使其腾出时间来执行其他像素、顶点和计算着色任务。在使用综合基准测试以及真实游戏和应用程序进行测试时,Turing和AmpereGPU中的RTCore已被证明是迄今为止处理RT工作负载的性能最高的引擎。
  Ada架构的第3代RTCore
  Ada架构的第3代RTCore,在继承了第2代的两个功能单元之外,新增了OpacityMicromapEngine(左下)和DisplacedMicroMeshEngine(右下)这两个专用单元。
  叶子或火焰等复杂形状通常使用纹理中的alpha通道来表示透明度和不透明度的级别
  在Ada的RTCore之前,开发人员可以通过将某些内容标记为不透明来将它们合并到光线追踪场景中。当叶子被光线击中时,将调用着色器来确定如何处理相交,即使光线只是简单地表征为命中或未命中。这会产生很大的计算资源开销。具体来说,当光线扭曲投射到非透明对象时,单个光线查询可能需要多次着色器调用才能解析,而其他光线会立即终止。结果是资源开销大以及效率低下。
  为了有效处理此类内容,NVIDIA工程师在Ada的RTCore中添加了OpacityMicromapEngine。不透明微图是微三角形的虚拟网格,每个微三角形都具有不透明状态,RTCore使用该状态直接解析与非透明三角形的光线交叉点。具体而言,交叉点的重心坐标用于处理相应的微三角形的不透明度状态。不透明状态可以是不透明的、透明的或未知的。如果不透明,则记录并返回命中。如果透明,则忽略交叉点并继续搜索交叉点。如果未知,则将控制权返回给SM,调用着色器(“anyhit”)以编程方式解决交集。
  新的OpacityMicromapEngine处理不透明度蒙版时,将其划分为规则的三角形网格,用于报告光线三角形交点的重心坐标。这些网格的大小可以是1到1600万个微三角形,每个微三角形有12bit。
  考虑使用两个三角形和一个alpha纹理描述的详细枫叶(参见子图(a))。不透明蒙版应用于由2个三角形组成的枫叶。OpacityMicromapEngine评估叶子并确定哪些部分是不透明的、透明的或未知的,对应叶子的不透明区域,最后红色和蓝色对应混合不透明区域(未知)。在上面的示例中,OpacityMicromapEngine将微型三角形的30个标记为透明,41个标记为不透明,57个标记为未知。这意味着超过一半的叶子被完全表征,并且超过一半的与这些三角形相交的光线要么错过了叶子,要么明确地与叶子的内部相交。结果是,AdaRTCore无需调用任何着色器代码即可完全表征这些光线,同时保留原始Alpha纹理的完整分辨率和保真度。不过当处于未知状态时,GPU会将控制权返回给SM着色器进行解析。
  与Ampere相比,Ada的OpacityMicromapEngine与不透明蒙版减少了SM着色器工作负载,通常投射在alpha通道中的测试几何体上的阴影光线会看到最大的收益。Ada的不透明蒙版支持可以显著增加场景中详细几何图形的数量和保真度,从而提高真实感。借助这项新功能,它将alpha遍历速度提高了2倍。开发人员可以非常快速地将不透明度值分配给不规则形状的物体(如蕨类植物和栅栏)或半透明的物品(如火焰或烟雾),从而允许AdaRTCore直接对对alpha测试纹理进行光线追踪,而不是依赖GPU的SM着色器单元。大幅提升对alpha测试纹理进行光线追踪的速度。
  集成到AdaRTCore中的第2个新硬件单元是DisplacedMicroMeshEngine,旨在减少处理具有高水平几何细节的复杂对象时传统上所需的BVH构建时间和存储要求。有了这个新功能,NVIDIA开发了一种新的位移微网格原语来进行光线追踪。当需要额外的几何细节时,DisplacedMicroMeshEngine可以根据需要动态生成额外的微三角形。与传统渲染这些复杂对象相比,DisplacedMicroMeshEngine将BVH构建时间缩短了10倍,同时将BVH存储需求降低了20倍。
  Ada流处理器(SM)
  与之前的Ampere一样,AdaSM分为四个分区,每个分区包含一个64KB寄存器、一个L0指令缓存、一个warp调度程序、一个调度单元,16个专门用于处理FP32操作的CUDA内核(每个时钟最多16个FP32操作),16个可以处理FP32或INT32操作的CUDA内核(每个时钟16个FP32操作或每个时钟16个INT32操作),一个Ada第4代Tensor核心、四个加载存储单元和一个执行先验和图形插值指令的特殊功能单元(SFU)。
  AdaSM包含128KB的1级缓存。该缓存采用统一架构,可根据工作负载配置为L1数据缓存或共享内存。完整的AD102GPU包含18432KB的L1缓存,而Ampere构架中完整的GA102仅有10752KB。
  与Ampere相比,Ada的2级缓存进行了彻底改造。AD102配备了98304KB的二级缓存,比GA102中的6144KB提高了16倍。这会让所有应用程序都受益,而诸如光线追踪之类的复杂操作最为受益。
  AdaGPU升级的第4代Tensor核心为现有FP16、BF16、TF32和INT8格式提供双倍的吞吐量,其第4代Tensor核心引入了对新FP8的支持。与FP16相比,FP8的数据存储需求减半,吞吐量翻倍。借助新的FP8格式,GeForceRTX4090可为AI推理工作负载提供1。3PetaFLOPS的性能。
  NVIDIADLSS3是AI驱动图形领域的革命性突破,可大幅提升性能。DLSS3由GeForceRTX40系列GPU所搭载的全新第四代TensorCore和光流加速器提供支持,可利用AI创造更多高质量帧。
  基于Ada架构的全新显卡配备了支持AV1编码的全新第八代NVIDIA编码器(NVENC),可为主播、广播爱好者和视频通话用户带来更多新的尝试和体验。该技术的效率比H。264高40,这有助于主播在保持直播推流比特率不变的情况下,将画面分辨率从1080p提高到1440p,且画质依然稳定。
  开箱
  PNY是一家美商公司,中文名:必恩威,成立于1985年,是致力于消费和商业级电子制造的全球技术领导者。PNY拥有30多年为全球消费者、B2B和OEM提供服务的经验。产品在北美、拉丁美洲、欧洲和亚洲的50多个国家和地区设有20家公司,在全球主要零售店、电子零售店、批发商和分销商处销售。产品组合包括种类繁多的USB闪存驱动器、闪存卡、PC内存升级、固态驱动器、NVIDIA显卡和HP闪存产品。凭借面向移动、数字成像、计算和游戏解决方案的产品。
  其实我对PNY的了解,还是因为在北美的bestbuy海淘Quadro专业显卡,PNY在北美是Quadro和Tesla的独家代理商,这个定位非常类似中国的丽台,2020年开始销售的GeforceRTX3000系列消费级显示卡基本和国内丽台销售的外形是非常类似的,因为都是Palit代工出品,2021年底开始独立研发生产显示卡,那么RTX4000就是PNY独立研发生产显示卡的开山之作。
  而XLR8Gaming系列就是PNY所规划的游戏系列产品,当然PNYGeForceRTX409024GBOCXLR8GamingVertoEPICXRGBTF就是PNY目前出品的消费级旗舰显卡。
  包装正面
  包装背面
  包装侧面
  同比其他品牌的RTX3090包装盒,PNY的包装体积要小不少
  开箱
  原封本体
  原封标签
  这是静电袋的标签,和盒子上的标签以及显卡上的标签,配合成三码合一。其中D43724是PNY独有的工厂码。
  附件全家福
  1组16Pin转四组8Pin的供电排线,官方称之为PCIe512VHPWRAdapter。
  这种带有NVIDIA标的4x8P转12VHPWR的线其实我不建议使用,因为这种线材全部是由NVIDIA配送的套料,每一家都是一样的,因为前期有报道NVIDIA这批转接线有严重的焊接方式的质量问题,容易导致显卡与转接线的12VHPWR位烧熔,所以这里我极力建议大家不要使用这条线,具体分析我会放在文章结尾部分。
  附赠的一组显卡支撑架,官方命名为:VGASupportKits,来自联力代工制造。
  安装方式如上图
  显卡正面使用了三个100mm双滚珠环型风扇
  与传统90mm风扇相比增加了40以上的风量,风压提高55。
  显卡背面使用了冲压成型铝制金属背板
  显卡背板的一块做了镂空设计,方便风扇将热风吹至机箱内部。
  显卡顶部设计了一组XLR8的ARGB灯效
  由于这次的RTX4090各家都采用了短PCB设计,所以16PIN供电设计在短PCB的一侧上方,覆盖上全长度的散热器,就会显得外接供电貌似设计在显卡的中间部分。
  显卡底部
  显卡的厚度是71。1mm,标准的3。5槽厚度。接口部分为3xDisplayPort1。4,1xHDMI2。1
  显卡前部可以看出使用了4热管穿Fin。
  这张显卡的体积控制在331。8x136。8x71。1mm,长度比公版的创始者310mm略长,但是短于其他AIC的同型号产品。
  显卡体积的兼容性对比
  拆解
  我直接对这张显卡进行了拆解
  冲压全铝背板
  散热器本体
  散热使用了8根热管
  接触底座使用了VaporChamber真空腔均热板设计。
  PCB正面
  PCB背面
  PNY的这张卡的PCB是公版PG139SKU330
  这张显卡全部的MOSFET使用都是OnSemiNCP302150DrMOS,分别用于GPU和显存供电;额定电流均为50A。
  GPU核心的PMW芯片是uPIuP9512U。
  该控制器管理14相GPU核心供电。
  显存供电PMW芯片是UPIuP9512R
  该控制器管理3相显存供电。
  GDDR6X内存芯片由美光制造,型号为D8BZC,解码为MT61K512M32KPA21:U。它们被指定以1313MHz(21Gbps有效)运行。
  GPU核心是AD102300A1
  HOLTEKHT32F52352芯片控制灯效以及风扇转速。
  GSTEKGS9216是一颗12A降压芯片。
  UPIUS5650Q是一颗四通道电压电流监控芯片,监测PCB上四颗SHUNTRESISTOR,2颗R002和1颗R005在12VHWPR附近,1颗R005在金手指附近。
  这个供电的思路看下来,感觉PNY的设计比较关注默认效能稳定性,没有大量的堆料供应超频需求。设计方案和Palit类似。
  既然都是PG139SU330公版参考设计,为什么各家的PCB有明显的不同,包括电源的相数以及供电的方案。其实来自igorsLAB的主编IgorWallossek早就发表过他的意见,在Ada设计之初,NVIDIA考虑的仍然是使用SAMSUNG8N制程,所以给与板卡厂商的散热以及电路设计参考指南都是以600W散热规模以及供电规模呈现的,因为整个产品的规划确实需要几个月时间,但是AMD的NAVI31确定下来使用TSMC56nm混合工艺制造后,NVIDIA估计是不淡定了,立即改变Ada的制程,直接转投TSMC5nm改良版4N,确实TSMC4N面对AMD确定的TSMC56nm混合制程是存在优势的,同时由于一些市场战略问题,NVIDIA并没有向板卡厂商透露工艺变更事宜,直到AD102出来,NVIDIA通知板卡厂商RTX4090的TGP和散热设计为450W才得到确认。
  ASUSROGStrixGeForceRTX4090OC
  这时候板卡厂商更换方案已经来不及了,于是就用600W的电路设计散热方案直接推出了RTX4090的产品,可以理解成PG139SU330公版参考设计的600W加强版。
  NVIDIAGeforceRTX4090FoundersEdition
  其实对于NVIDIA自己的FE版本也是早早设计好了600W的电路PCB,就是PG139SU330公版的600W变种加强版,但是上市时候使用了450W的散热模块,原先计划的三风扇FE散热方案可以移交到RTX4090Ti上去了。
  PalitGeForceRTX4090GameRockOC
  在投片TSMC4N之后NVIDIA在市场方面向板卡厂商出售方案的时候就完全转向了450W的PG139SU330公版设计,包括供电套料都一并提供,并极力要求厂商这样去做,原因就是在面对未来的NAVI31的时候,NVIDIA希望表现的是一个比对方优秀的能耗比,而不是一个多烧了33TGP功耗性能多出5的产品,诸如Palit抑或PNY就是属于后期被NVIDIA规划为450W产品线的主推厂商。
  所以这一代产品,PG139SU330公版参考设计是600W版本还是450W版本,完全取决于NVIDIA介入生产设计的时间线,在转投TSMC4N之前,都是600W方案,在投了TSMC4N之后都是450W方案。
  那么是不是600W版本的PCB以及散热设计就会强很多呢?这取决于板卡厂商的惯性思维,因为SAMSUNG8N制程Ampere的GPU核心提供给厂商的时候是存在分级的,分为30的BIN0,60的BIN1,10的BIN2。这是由三星的良率问题决定,所以产生了BIN2这样的SortingGPU核心,优秀的核心会提供给核心AIC装备,比如御三家这些,所以御三家的旗舰版会比下游厂家的核心在同样电压下BOOST到更高更夸张的频率,这让超公版PCB和散热设计变得非常有价值。但是TSMC4N却不提供所谓的SortingGPU核心,这次只有BIN1,没有BIN0和BIN2,每一家拿到的核心体制都基本一致,没有特别优秀的也没有特别差的,这就让想做超公版的厂家特别头疼,因此,大家看评测所了解的600W满载的效能也并没有特别多的效能提升,能耗比完全没有优势。
  测试平台
  电源适配
  为了尽可能稳定有效的完成测试任务,电源这次使用了SeasonicPrimeTX1600
  SeasonicPrimeTX1600包装
  80PLUS钛金认证,电源原生支持两个PCIe512VHPWR供电接口。
  开箱
  附件全家福
  线材包1
  线材包2
  PCIe512VHPWR供电线
  PCIe512VHPWR供电接口部分
  海韵的PCIe512VHPWR供电线直接定义为600W输出。
  电源本体背面
  电源本体正面
  电源本体侧面
  电源模组接口
  45视角
  京东
  Seasonic海韵PRIMETX钛金牌(94)全模组ATX电源电脑电源1600W3599元实时价格8小时前已更新去购买
  测试平台
  【CPU】:AMDRyzen75800X
  【主板】:ASRockX570SPGRiptide
  【内存】:LexarTHORDDR4360016GBX2(White)
  【硬盘】:LEXARNM8001TBM。2PCIeGen4X4SSD
  【显卡】:PNYRTX4090OCXLR8GamingVerto
  【散热】:ThermalrightForzenMagic240ARGB
  【机箱】:SilverStoneRM42502
  【电源】:SeasonicTX1600
  【系统】:Windows11x64WorkStation21H2
  【系统】:Ubuntu18。04。6x64
  视角1
  点亮的光效
  基本情况
  GPUZ默认参数
  闲时,使用HWINFO对GPU功耗、GPU热点温度、GPU温度以及显存结温进行了监控,可以发现:
  功耗14。834W,
  GPU热点温度45。8C
  GPU温度36。9C
  显存结温40C
  我们进行3DMARKSpeedWay的压力测试,本测试一共20轮,我们在第17轮开始统计,榨出当前最高的TGP和温度并使用HWinfo监控。
  运行3DMARKSpeedWay压力测试是因为要一直处于GPU100满载状态:
  功耗443。946W,
  GPU热点温度79。9C
  GPU温度70。3C
  显存结温80C
  这基本是目前现有手段能榨出的最大表现力。
  回到HWINFO监控页面去复盘,了解一下这张卡的一些特性:
  关于GPU功耗,最低9。133W,最高445。763W,基本说明这张卡的功耗区间,看起来被锁450WTGP。
  GPU频率在待机时候稳定在210MHz,满载时候达到2820MHz。
  显存频率在待机时候稳定在101。3MHz,满载时候达到2625。5MHz。
  GPU过热限制84C,说明整个显卡的散热设计是为了把GPU温度压制在84C以内。
  GPU风扇1是三颗风扇中的左右两颗并联,待机基本不转,测试时候转速最大达到1713RPM,但这只是风扇全速转速的49。
  GPU风扇2是三颗风扇中的中间一颗,在待机时候基本不转,测试时候转速最大达到1721RPM,但这只是风扇全速转速的49。
  想让风扇全速,使用PNY的VelocityX软件就可以做到。
  将风扇这里的自动关闭,转速拉到100即可达到最大转速3086RPM。
  下面看一下超频效果,
  超频之前跑了一个3DMARKTIMESPYEXTREME测试,GPU分数19472
  随后我直接将GPU核心加了200MHz,
  进行3DMARKTIMESPYEXTREME测试,GPU分数19912
  HWINFO监控数据的GPU功耗依然牢牢被锁在450W以内。
  比较一下两个测试,差异主要是CPU核心频率boost从2790MHz越迁到2985MHz,实际功耗没有增加,温度也没有增加。所以也不用动辄对boost核心频率达到3000MHz的600W超级公版垂涎三尺,其实哪怕450WTGP的RTX4090往上随便拉个200250核心频率就随意可以达到3000MHz的boost核心频率。
  这说明这次的AD102300A1核心在不增加功耗的情况下是留有一定余量的性能可以压榨的,但是空间不大,200250MHz,一旦超过这个范围,就需要BIOS破除MaximumPowerLimit450W的限制。
  关于RGB特效,VelocityX提供了多种选择,下面展示几张我拍摄的灯光效果。
  视频
  基本情况部分测试到此结束。
  对比测试
  从左往右,依次是PNYRTX4090Verto、影驰RTX3090Ti星耀以及七彩虹RTX3090火神
  三款产品同比
  厚度上PNYRTX4090略厚,长度和影驰RTX3090Ti星耀基本一致。
  DLSS3测试
  NVIDIAGeForceRTX40系列显卡的一大变化就是新增了对DLSS3技术的支持,DLSS3在前代DLSS2的基础上,通过(OFA)光流加速推断下一帧生成的目标画面,使传统CUDA算力得到极大的节省,让GPU在应对高分辨率实时渲染游戏时可以更加游刃有余,与不使用DLSS相比,理论上游戏性能的提升可高达4倍。
  DLSS3由于FrameGeneration的加入,它的理论帧数性能能达到原先DLSS2的双倍,这使得GeForceRTX40系显卡能够以更小的压力用4K分辨率高画质运行所有支持DLSS3的游戏,同时距离流畅体验8K游戏也更进一步。
  目前有超过35款游戏和应用宣布即将支持DLSS3。
  DLSS3测试Cyberpunk2077
  《Cyberpunk2077》DLSS3设置
  DLSS3的相关测试使用《Cyberpunk2077》完成,虽然选择游戏自带的BENCHMARK进行测试,但由于DLSS3应用了新技术,当下游戏自带的帧数记录功能并不能精准地记录下开启DLSS3之后的游戏帧数。因此在DLSS3游戏中,虽然使用游戏自带的BENCHMARK进行测试,但实际帧数以NVIDIA的FrameView工具为准。
  开启光追测试,我们可以发现,开启DLSS2之后的游戏性能帧数已经相当可观,然而当开启DLSS3之后,游戏性能在DLSS2的基础上又提升了一大截,与关闭DLSS相比,在4K分辨率下开启DLSS3质量可以带来170的性能提升,2K分辨率下可以带来145的性能提升。
  DLSS对比测试
  DLSS对比测试FARCRY6
  DLSS对比测试ShadowoftheTombRaider
  生产力测试
  生产力测试环节使用了PugetSystems的三个测试脚本进行测试:
  生产力测试AdobeAfterEffects22。4
  本测试以AdobeAfterEffects22。4为测试载体
  以PugetBenchforAfterEffects0。95。2为工具基准进行测试
  本测试涉及到了许多不同的项目,其中包括一个专用的“GPU压力”测试,该测试旨在往GPU上施加尽可能多的负载,同时仍保持在某人在现实世界中可能实际执行的范围内。在AfterEffects等应用程序中查看GPU性能通常是检查GPU承受重负载的极端情况的情况,因此通过每个GPU的AfterEffects基准测试中看到的整体性能开始,GPU分数是根据“GPUStress”组合的性能计算得出的,该组合旨在将尽可能多的负载置于GPU上,同时最大限度地减少CPU作为瓶颈,可以很好地显示AfterEffects中不同GPU之间的最大性能增量。
  GPU分数的基准是以NVIDIAGeForceRTX308010GB为100分参考基准。
  NVIDIAGeForceRTX308010GB
  GPU分数:100
  测试数据汇总
  生产力测试AdobePremierePro22。6。1
  本测试以AdobePremierePro222。6。1为测试载体
  以PugetBenchforPremierePro0。95。3为工具基准进行测试。
  这个基准测试通过4K和8K分辨率以及29。97和59。94FPS的各种编解码器来研究实时回放和导出性能。对于GPU测试使用专用的“重载GPU效果”单独向GPU施加尽量多的压力,使其超出普通PremierePro用户的工作范围来进行测试。
  测试的剪辑素材(59。94FPS)素材分辨率以及编码器包含:4KH。264150mbps8bit(59。94FPS)、4KProRes422、4KRED、8KRED、8KH。265100Mbps。
  对于每种类型的测试素材,进行四种测试:
  标准两个59。94FPS片段串联,应用LumetriColor效果
  2xForward四个59。94FPS剪辑,在119。88FPS序列中将Lumetri颜色设置为200速度,以模拟以2倍速度播放时的性能。
  4xForward8个59。94FPS剪辑,在239。76FPS序列中将Lumetri颜色设置为400的速度,以模拟以4倍速度播放时的性能。
  MultiCam在多机位序列中跨四六个轨道的多个剪辑。在“多相机”显示模式下测试播放。
  这些测试都用于全回放分辨率的实时回放性能测试。
  标准测试还使用“Youtube2160p4K超高清”预设(H。264、4K、40mbps)以及导出到4KProRes422HQ8bpc来测试其导出性能。
  关于GPU有一个“HeavyGPUEffects”测试,使用:
  串联的TwpProRes422剪辑,每个剪辑之间有交叉溶解
  高级效果:LumetriColor、UltraKey、Sharpen、GaussianBlur、Basic3D、DirectionalBlur和VRDigitalGlitch。
  极致效果:LumetriColor、UltraKey、Sharpen、GaussianBlur、Basic3D、DirectionalBlur、VRDigitalGlitch和VRDeNoise。
  通过导出到ProRes422HQ来衡量性能。
  GPU分数基准是以NVIDIAGeForceRTX308010GB为100分参考基准:
  NVIDIAGeForceRTX308010GB
  GPU分数:100
  测试数据汇总
  生产力测试DaVinciResolveStudio18。0。2
  本测试以BlackMagicDaVinciResolveStudio18。0。2为测试载体,以PugetBenchforDaVinciResolve0。92。3为工具基准进行测试。
  本基准测试主要使用各种编解码器以4K和8K(仅限扩展预设)分辨率、OpenFX以及Fusion中的性能进行渲染。
  测试的剪辑素材(59。94FPS)素材溯源自以下两家自媒体提供的样片:包含以下分辨率和编解码器:
  4KH。264150mbps8bit、4KProRes422、4KRED、8KRED以及8KH。265100mbps
  GPU效果部分侧重于OpenFX和降噪,包含以下效果:
  TemporalNRx32FramesBetter
  TemporalNR2FramesBetter
  FilmGrain
  SpatialNRBetter
  LensBlurx5
  LensFlare
  OpticalFlow50EnhancedBetter
  FaceRefinement
  测试数据汇总
  最后需要说明的是,本次测试的剪辑素材来自以下两家自媒体:
  4K和8KRED剪辑视频来自老莱的工作室,这些剪辑也已转码以创建H。265和ProRes422剪辑。LinusMediaGroup是老莱的公司,在YouTube上提供了流行的LinusTips和TechLinked频道。
  NeilPurcell是伦敦著名的照明摄影师,在广播电视领域拥有超过25年的经验。从事各种各样的作品;从戏剧到木偶,现场新闻和事实,儿童节目,灯光娱乐,真人秀,外部广播,重大体育赛事,音乐演唱会,流行视频,企业电影和商业广告。图中NeilPurcell(灯光摄影师摄影操作员)正在以他的松下GH5拍摄4KH。264素材。本次测试使用的4KH。264素材来源于他的剪辑作品。
  深度学习
  RTX4090具有576个第4代Tensor核心,RTX3090Ti具有336个第3代Tensor核心,RTX3090具有328个第3代Tensor核心,理论上RTX4090的Tensor核心不仅有数量上的优势而且有迭代的优势。这对深度学习来说是个非常大的利好。不过RTX4090实在太新了可能需要点时间才能让深度学习的周边支持跟上,正好CUDAToolkit11。8赶着发布了,所以直接使用了NVIDIA的NGC容器系统进行测试。
  测试系统
  Ubuntu22。04Linux
  NVIDIAEnroot3。4
  来自NVIDIANGC的容器化应用程序
  TensorFlow1。15。5MLAI框架标签:nvcr。ionvidiatensorflow:22。09tf1py3
  PyTorch1。13。0a0MLAI框架标签:nvcr。ionvidiapytorch:22。09py3
  深度学习TensorFlowResNet50
  TensorFlow1。15。5版本是NVIDIA维护的,能提供更好的性能。基准是训练100Step的ResNet50卷积神经网络(CNN)。结果是以每秒处理的图象数来决定。精度可选择FP32和FP16。每秒处理的图象数越多说明性能越好。
  命令行:
  CUDAVISIBLEDEVICES0pythonresnet。pylayers50batchsize128precisionfp16CUDAVISIBLEDEVICES0pythonresnet。pylayers50batchsize128precisionfp32
  测试数据汇总
  深度学习PyTorchTransformer
  基准测试使用PyTorch1。13在带有CUDA的Wikitext2的神经网络上对Transformer模型进行6epoch的训练,完成时间越短,说明性能越好。
  命令行:
  timeCUDAVISIBLEDEVICES0pythonmain。pycudaepochs6modelTransformerlr5batchsize640
  测试数据汇总
  值得注意的是PyTorch和TensorFlow的迭代支持很快,一些优化一定会持续跟进Ada构架进行优化的,所以预留了未来可期许的深度学习性能提升空间。
  硬件兼容性
  其实我对测试平台不太追新,最主要的问题就是怕不兼容,结果还是遇到了不兼容的情况,最后得到了解决:
  测试平台我选用的是ASRockX570SPGRiptide主板以及AMDRyzen75800X,没有选用INTEL12和13代平台以及AMDRyzen7000系列平台最主要的原因是因为有部分的测试在Ubuntu18。04。6LTS下进去,对于Linux平台而言,支持如上新平台发挥效能需要更新内核到5。175。22以上,存在一些未知且不可预测的可能性,求稳所以使用了成熟的平台。
  ASRockX570SPGRiptide包装
  ASRockX570SPGRiptide附件一览
  ASRockX570SPGRiptide本体
  安装AMDRyzen75800X,散热器选用的是ThermalrightForzenMagic240ARGB。
  ThermalrightForzenMagic240ARGB包装
  ThermalrightForzenMagic240ARGB本体1
  ThermalrightForzenMagic240ARGB本体2
  SSD选择的比较稳健的LEXARNM8001TBM。2PCIeGen4X4,为了提高兼容性选用了主流的IG5236主控美光B47RNAND。
  SSD本体正面
  SSD本体背面
  安装设备在M。21CPUPCIeLane槽位。
  CrystalDiskMark8。0。24的持续读写使用QD32T1的默认设置,随机读写使用QD32T16的条件,可以非常接近官标所标识的UPTO的最大值:
  SequentialRead〔持续读取〕(Q32,T1):7459MBs超越官标
  SequentialWrite〔持续写入〕(Q32,T1):5738MBs接近官标
  RandomRead4KiB〔4K随机读取〕(Q32,T16):399KIOPS接近官标
  RandomWrite4KiB〔4K随机写入〕(Q32,T16):1013KIOPS远超官标
  评估了下,基本可以认为达到了官标的性能。
  内存选择的是LexarTHORDDR4360016GBX2(White)
  DRAM本体正面
  DRAM摆拍2
  上机
  安装内存在DIMM2和DIMM4。
  上机用台风看了下,美光FDie,颗粒编号D8CJV,美光里的内部编号为MT40A2G8SA062E:F,原生DDR43200的颗粒,SPD里有DDR43600182222421。35V的XMP参数以及DDR43200222222521。2V的JEDEC参数。
  机箱选用的是一款工作站机箱SilverStoneRM42502
  这是一款可以通过导轨直接上机柜的RACK机箱
  支持240280水冷。打开前门可以看到兼容水冷的风扇进风位
  SilverStoneRM42502的特点是可以通过附件里面的转换件变成塔式工作站机箱
  SilverStoneRM42502的塔式形态开门
  SilverStoneRM42502的塔式形态关门,前门钥匙是工作站机箱的标配。
  组装好硬件
  问题一
  第一件事情发现点不亮。。。。。。如图所示显示器无显示,但是机器运行则一切正常。
  ASRockX570SPGRiptide这种上市一年多的成熟产品竟然必须需要更新2022年10月22日最新2。20版本BIOS才可以支持RTX4090,所以当发现点不亮RTX4090的时候不用慌,先去用别的显卡点亮系统升级一个最新的BIOS。
  问题二
  第二个问题,要清楚SilverStoneRM42502是一个支持ETAX双路主板的工作站服务器机箱,不仅宽大且做工精良。
  规格是430mm(W)x176mm(H)x468mm(D),宽度是430mm。
  就这个规格的机箱,在安装了前置240水冷之后,塞进去331mm长度的PNYGeForceRTX409024GBOCXLR8也已经比较紧凑了,机箱在不安装前置水冷情况下允许安装的显卡最大长度为426mm,一般普通水冷排厚度为27mm,12025规格水冷风扇厚度为25mm,安装完水冷仅剩下374mm的长度空间,依然足够装下目前在售的任意品牌型号的RTX4090!如果你正在为找一款适合RTX4090的做工精良的工作站机箱而烦恼,如果你能够接受无ARGB的机箱内环境的话,SilverStoneRM42502绝对是您正确的选择!
  但是市面上大多数的ATX机箱显卡限制长度都在350mm以内,这意味着,如果你购买RTX4090显示卡,显卡的长度决定了你是否需要更换一个更大的机箱。所以这时候长度更短的RTX4090的机箱兼容适配性当然是更强的。
  问题三
  第三个问题,如果使用了SeasonicTX1600原配的12VHPWR线材进行安装,如果发生过度弯曲,还是有可能发生以下情况:
  因为过度弯曲发生的线材接头脱落情况,
  PCISIG组织早就通报了因为12VHPWR的线材因为太硬太粗的原因在过度弯曲的时候造成接头松动甚至脱落,和显卡12VHPWR接头部分发生电阻值过高,发热严重最终造成12VHPWR烧毁的问题。
  现在问题来了,机箱的能盖上侧板能容纳的最大显卡高度为156mm,而显卡本身的高度为136。8mm,如果要盖上侧板,就必须在19mm的空间内进行12VHPWR线材弯折,这其实还是有风险。对于海韵电源而言,其实还有终极解决方案来解决这个问题。
  海韵为解决弯曲问题出品了一款新的12VHPWR模组线,符合PCIe5。0供电标准,兼容ATX3。0,使用16AWG高规格线径,耐高电流合金铜端子,可支持高达600W功率输出。电源直连显卡供电,可降低转接带来的故障风险,为玩家带来更安全稳定的供电方案。另外,该模组线采用了新的模组线材,压纹工艺如编织质感,比一般的模组线更柔软,更有利于玩家走线。
  海韵这款12VHPWR模组线适配于其PRIME和FOCUS系列850W及以上型号,可选黑色或白色,但与其他品牌并不适配。如果玩家使用的是国行在保的海韵电源,每个电源SN可免费申请一次,得到这款12VHPWR模组线。
  1000W及以上的海韵电源需提供RTX40系列显卡的购买凭证,850W及以上的海韵电源需提供RTX3090Ti显卡的购买凭证,另外玩家需要提供一张电源与显卡的合照(电源SN清晰可见),默认发黑色,白色需备注。玩家可将相关资料发送到官方邮箱cn。supportseasonic。com免费申请,邮费自理,以顺丰到付寄出。
  问题四
  第四个问题,第一批次NVIDIA配给显卡生产商的1组16Pin转4组8Pin的供电排线,官方称之为PCIe512VHPWRAdapter,存在严重质量问题。igorsLAB发表了一项关于Nvidia12VHPWR适配器的研究,不建议使用此适配器!
  reddit有个帖子专门持续汇报发生的转接线烧毁显卡供电接口事件,且持续更新。到2022年10月30日为止因NVIDIA配送的16Pin转4组8Pin的12VHPWR线材烧毁显卡接口事件为12例,均为TGP大于550W的RTX4090。目前无法确定NVIDIA要求近期发行的RTX4090新版TGP功耗锁定为450W是否与此有关。
  NVIDIA配送的16Pin转4组8Pin的12VHPWR线材总共有4根14AWG粗线分布在总共6个触点上,两条外部引线分别焊接到一个引脚上,中间的两条引线分别焊接到两个引脚上。
  焊料底座是仅0。2mm的薄铜底座,每根进线宽度为2mm,因此中间连接的每对宽度为4mm。
  将一根甚至两根14AWG电线焊接到它上面是活动的,弯曲情况下非常容易造成脱落。
  目前上市的大多数的RTX4090都是在600WTGP下运行,在这电流强度下,因为弯曲导致的不稳定且活动的焊接触点引脚电阻值上升,迅速烧毁显示卡以及转接线的12VHPWR接口部分。
  因为早期的RTX3090Ti配送的1组12Pin转3组8Pin的供电排线使用了相同的设计,可能是因为450WTGP功耗输入电流较低并未报告烧毁RTX3090Ti的情况,但是这次有用户害怕使用RTX4090配送的16Pin转4组8Pin的12VHPWR线材,转而使用RTX3090Ti配送的12Pin转3组8Pin的12VHPWR线材,一样发生了烧毁情况。目前的报告是两例。顺带说一下PNYGeForceRTX409024GBOCXLR8GamingVertoEPICXRGBTF目前是和RTX3090Ti一样的450WTGP功耗设计。
  总结
  因为手里没有其他的RTX4090显示卡,所以同类比测试是无法进行的,本次评测主要对上代的旗舰级显示卡做了明确的性能比对。
  基于DLSS3游戏用途的玩家是非常值得升级RTX4090的,而对于普通DLSS游戏用户而言,需求没有那么强烈,生产力环节诸如AdobeARPR类的软件而言,升级理由并不充分,而对于达芬奇用户来说就非常值得升级,深度学习方面是绝对值得升级的,但是周边支持的完善可能需要点时间。
  截至发文,RTX4090的价格从首发12999奔着16000去了,京东缺货,天猫缺货,倒不是商家囤货居奇,是因为9成的大厂订单都直送美国了,这就造成中国目前的缺货真空期,自然水涨船高。
  至于PNY这张RTX4090显示卡,性能中规中矩,因为MaximumPowerLimit被锁定在450W,所以在不能动电压的情况下超频所获得性能有限在23附近,其长度适中且不浮夸的散热规模令人印象深刻,因为能保证兼容适配大多数的普通机箱,同时性能也足够压制450WTDP,49的自动风扇控制可以最大程度保证满载运行时候的静音效果,如果不破解MaximumPowerLimit其实也用不到100的手动风扇设置。VelocityX软件的使用理念比较简约,简单暴力比较适合快速上手,ARGB的光效加持也起到了画龙点睛的效果。
  那么问题来了,这张卡的潜在客户群体在哪里?这张卡适合对稳定度有一定要求,且对机箱电源的兼容适配要求比较高的用户,换句话说,在不想更换更高功率电源和更大规模机箱的前提下,客户有一个850W的电源,一个普通ATX的机箱,如果你要塞进去RTX4090,除了NVIDIA创始者版本,PNYRTX4090OCXLR8GamingVerto就是最佳的选择了。当然前提是你需要有一个适合RTX4090的电源以及弯折不会烧毁的12VHPWR线材。
  作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~
投诉 评论 转载

立冬节气美诗七首赏读,北方是孟冬寒气至,南方是十月小春天热传 立冬节气古诗七首:黄叶青苔野老家,小春重放一番花立冬是二十四节气之一,在古代是传统的大节。立冬是指的太阳到达黄经225度,北斗星的星柄指向西北方向。在先秦,这一天被……二婚登记结婚要离婚证吗热传聚热点网 一、二婚登记结婚要离婚证吗第二次结婚是需要带离婚证的,这和办理结婚证需要携带的资料要求有关,办理结婚证需要以下材料。办理结婚登记的内地居民应当出具:(一)本人……关系好就能称的上是人脉吗?热评聚热点网 关系是指人与人之间,人与事物之间,事物与事物之间的相互联系。人际关系是人与人之间在活动过程中直接的心理上的关系或距离。人际关系反映了个人或群体寻求满足其社会需要的心理状态,因此……【歌词】涅磐之殇(推荐)歌手:玉树临风朵王爷热传聚热点网 【涅磐之殇】作词:月吟诗原曲:吟游默示录OST演唱:玉树临风朵王爷风沙狂撕裂开原野空旷天际鹰翱翔荒城上枯藤爬满这颓墙剩最后一抹残阳……北京领结婚证的程序是什么热文聚热点网 一、北京领结婚证的程序是什么男女双方符合民法典的规定,结婚证办理的程序,可分为申请、审查、登记三个步骤:(一)申请。要求结婚的男女双方,须持本人户口证明、居民身份证……热文透明软门帘怎么擦更亮(透明软门帘是什么材质)热闻聚热点网 家庭装修水晶门帘的效果和风水注意事项介绍家庭装修选择水晶门帘仅仅是家居中起装饰作用的一种,水晶珠帘最为时尚的装饰品,不断的被越来越多的年轻人青睐,成为时尚装饰的标志,无论是家装……“蘑菇大王”丁伦保赴合肥农村指导村民科技化种植食用菌热传聚热 不久前,以党的二十大精神为指引,以推动乡村振兴为己任,以“中国好人”和“蘑菇大王”著称的科技特派员丁伦保来到安徽省合肥长丰县岗集镇,指导村民冯绍元如何科技化、效率化种植食用菌。……Windows11Moment1更新正式发布现已可下载热议聚 微软已经开始推出之前承诺的Windows11的一批新功能。该更新又称Moment1,现在可用于所有运行Windows112022更新的合格系统,用户可以在微软的官方视频中查看W……现场视频!中俄两军联合空中战略巡航热博聚热点网 PlayVideo根据中俄两军年度军事合作计划,5月24日,两国空军在日本海、东海、西太平洋海域上空组织实施例行性联合空中战略巡航。俄国防部公布了俄空天军图95MS……中国法定结婚年龄是多少才能领取结婚证热文聚热点网 一、中国法定结婚年龄是多少才能领取结婚证我国《民法典》(2021年1月1日正式实施)第一千零四十七条规定,结婚年龄,男不得早于二十二周岁,女不得早于二十周岁我国《民……必恩威GeForceRTX409024GBXLR8Gamin 本内容来源于什么值得买APP,观点仅代表作者本人作者:gaojie20前言1984年上映,由詹姆斯卡梅隆导演,阿诺施瓦辛格主演的《终结者》豆瓣评分高达8。2分,其中……教师节的日记热博聚热点网 关于教师节的日记关于教师节的日记1每年的9月10日为教师节,教师节就是为了提高人们对教师为教育事业所做贡献的认识和评价。韩愈的《师说》中:“师者,所以传道授业解惑也……
【歌词】小狗熊歌手:儿歌大全热议聚热点网 好文:保温杯茶垢怎么清洗热博聚热点网 2023中国乡村数字化发展研究报告热评聚热点网 特斯拉ModelY持续进化,座舱更美、性能更强热传聚热点网 比亚迪发布云辇系统,用新技术重新定义车身控制热议聚热点网 健康科普孩子是不是得了“多动症”?多动症的早期识别方法热闻聚 阿媒捍卫梅西:巴黎临时变卦,梅西措手不及!一直被针对热评聚热 紫燕百味鸡进军澳洲、正新鸡排日本东京店开业,【中餐出海】气势 【歌词】sweetblossom歌手:EmilieSimon 电视投屏(投屏电视机的步骤?)热博聚热点网 叶佩英去世一年,丈夫吴式锴也去世了,唯一女儿定居美国引热议热 “五一”酒店价格上浮超50,查处!淄博发布最新通知!热传聚热
打新冠疫苗后多久可以怀孕:3个月之后(接种注意事项)惊呆90后的0010后朋友圈,家长们该不该管一下呢?马齿笕煮水喝有什么用?5个功效,让人意外!环境安全管理手段有哪些捕猎需要两只狗美文保百超市猪肉今日价格女生恋爱中应该注意这些上海brt末班车几点金色的秋天景物描写美句摘抄学生会社团工作计划时髦的中年女人很少扮嫩,用这3种单品提升气质,优雅不费力

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西