过去每一年开头的CES大展上,NVIDIA都会带来新一代的Tegra移动处理器。尽管过去两代表现一般,但是黄仁勋还是亲自登台,推出了全新的TegraX1。 【GPU:强大的麦克斯韦】 首先,NVIDIA是一家GPU公司,因此无论在桌面还是移动市场上,都对GPU异常重视。去年的TegraK1首次引入了与桌面平级的开普勒架构,192个流处理器带来了惊人性能。今年的TegraX1则进一步升级为麦克斯韦架构,流处理器也增至256个。 换句话说,去年用的是一组阵列(SMX),今年则是两组(SMM)!随之而来的是,纹理单元、ROP单元也都大大增强了,均有16个,尤其后者翻了两番,对于驱动4K60Hz显示有很大好处。 从初步测试结果看,TegraX1GPU性能依然彪悍,可以轻松搞定苹果A8X里八核的PowerVRGXA6850。 在时间上,开普勒诞生了将近两年才走入移动平台,麦克斯韦架构只用了一年。更确切地说,TegraX1用的是第二代麦克斯韦架构,而它在桌面上才出现了一个季度多点而已。 这也说明,NVIDIA的新架构从一开始就为移动平台进行了同步优化,所以我们才屡次看到麦克斯韦的能效是那么高,功耗是那么低。 新架构的诸多图形技术也被带了过来,包括更高效的CUDA核心、更简练的SMM阵列、第三代Delta色彩压缩、保守光栅化算法、体积区块资源(DX11。2)、多帧抗锯齿(MFAA)等等。 更重要的是内存带宽,这一直是限制移动SoC的瓶颈,传统方法就是增加位宽,但会大大提高复杂度和成本。 TegraX1还是停留在64bit位宽,但是大大增强了内存压缩,包括刚才说的第三代Delta色彩压缩,以及新的端到端压缩。再辅以新的LPDDR4(频率可达1600MHz),内存带宽基本不是问题。 然后值得一提的就是半精度FP16的支持,NVIDIA称之为“双倍速FP16”(DoubleSpeedFP16)。 和开普勒一样,麦克斯韦架构也只有专门的单精度FP32、双精度FP64CUDA核心,并没有给FP16分配独立资源,只是在操作方式上做了改变。 TegraK1FP16操作会被给予和FP32相同的待遇,每一个都交给FP32CUDA核心处理。TegraX1上如果条件允许,则会将两个FP16合并成一个Vec2,交给单独一个FP32CUDA核心去处理。 这里的前提是两个FP16操作属于同一类型,比如都是加法或者乘法,甚至是乘加运算(FMA)。 所以说,NVIDIA宣称的原生支持FP16并不完全准确,只不过耍了个花招而已,比对手还是差一些。ARMMali、ImaginationPowerVR都有独立的FP16单元,AMDGCN1。2版也会引入。 FP16在安卓的显示合成里使用非常多,游戏里也能看到,但更重要的是,它还能参与图形计算,比如图像识别什么的,比如DrivePX车载平台里就需要它。 具体频率还是没有公布,而按照NVIDIA说的1TFlopsFP16浮点性能,那么应该是1GHz(1GHz2FP162FMA2561TFlops),比去年略微高了一些。