
此前在3月底,我们三易生活用《曾经的苹果“御用”GPU厂商,成就如今的国产显卡》这篇文章,为大家“揭秘”了曾经的苹果“御用”GPU厂商Imagination,如今已然成为国产“自主可控显卡”背后最大的助力者,这一不太为人所知的事实。
当时我们的目光主要集中在了对Imagination产品历史的回顾,以及结合当时曝光的一系列相关资料,给大家讲解了Imagination如今的业务形式。但对其具体的GPU架构和性能,并没有过多的提及。
但不得不说有时候事情就是这么巧,因为就在这篇文章上线不过一个多月后,Imagination方面就发布了他们新一代的GPU IP——Imagination E系列。这次我们就有机会来好好分析一下,Imagination最新GPU的性能水准,以及它对于终端消费者的意义所在了。
多年坚持VLIW后,Imagination终于缩短流水线了
首先根据官方公布的信息显示,Imagination E系列采用了新的架构设计,将单位面积的能效比提升了35%。这一新的改进名为“爆发处理器(Burst Processors)”,本质上其实是通过大幅缩短ALUs(算数逻辑单元)的管线深度,从而减小数据传输延迟以及提高指令命中率。
其实这一设计在GPU领域并不是什么新鲜事,比如当年AMD从VLIW5、VLIW4切换到GCN架构时,所遵循的就是非常相似的设计原则。
有意思的是,查阅历史资料就会发现,曾经Imagination在PowerVR Rogue架构(也就是经典的PowerVR 6系、7系,直到后来的9系)上,的确使用了超长的VLIW流水线设计。而且那时候他们用的是7级VLIW,比AMD的5级VLIW还要“恐怖”。所以如今进行架构精简的做法,与其说是自身的重大突破,不如说有点“回头”的意思了。
当然,从长VLIW切换到短管线设计也就意味着,Imagination E系列的基础架构更加“现代化”,也更接近如今其他家桌面GPU那种“每一个流处理器都是一个完整ALU”的构型。从Imagination公布的细节来看,他们也的确是这么做的。
颇具独创性的AI架构,一切为了功耗和成本
在讲述新架构的AI性能优势时,Imagination方面提到了一个有趣的概念,即“AI单元”到底应该位于GPU内部架构的什么“位置”。为此,他们甚至将市面上的GPU AI单元设计,划分为了四个级别。
在第一个级别的设计中,AI单元并不包含在GPU的渲染切片中,而是完全作为一种“外挂单元”存在。这种设计的一大表征特点,是AI算力不与GPU的“规格级别”直接挂钩。比如1核心配置和10核心配置的GPU,AI算力可能是一样高的。Imagination方面指出,这样的设计会导致AI单元需要消耗巨大的额外显存空间,而且计算延迟极大,同时能效也很差。
第二个级别的“AI GPU”设计,则是将AI单元放在了GPU渲染切片的内部。但AI单元的数量不与ALUs相同,而是每一个执行单元(或者说每一个渲染切片)只有一组AI加速器。比如某个显卡有96个计算单元,每个计算单元内含64个ALUs、但只有一两个Tensor Core。在这种情况下,AI单元的显存延迟当然已经得到了降低。但它的问题就在于,依然会带来额外的显存消耗,而且这样的设计会导致GPU不符合大量的现代AI计算框架。是的,也就是说其AI兼容性不佳。
相比之下,第三个级别的AI GPU设计,可能是目前大家最常见的方案。也就是将AI加速器和ALU、TPU(纹理单元)进行“配对绑定”,每一组ALU都拥有与之配套的TPU和Tensor Core,目前NVIDIA和INTEL的GPU就都是这样设计的。这种设计的好处,就是已经可以做到比较完美的AI框架兼容性,而且AI单元的显存延迟也已经很小了。
但在Imagination方面看来,它依然不是“最完美”的AI显卡架构,因为其还是会存在AI单元和图像计算单元抢占显存带宽的情况。如果显卡同时运行AI计算和渲染任务,那么原本设计的显存带宽,就可能会变得不够用,从而出现性能瓶颈。当然,显卡厂商也可以选择预先配置超高速的显存来满足“图形+AI”的满载工况,但这样一来,在大多数场景下显存带宽都会严重过剩,从而增加了不必要的功耗和硬件成本(比如不开启DLSS的RTX50系显卡,就是这样的典型)。
最终,也就来到了Imagination E系列的AI单元设计理念。根据官方说法,Imagination E系列最大的特征,在于它完全将“AI单元”与传统的图形计算单元(Imagination称之为USC,Unified Shading Cluster 统一着色集群)进行了“合并”,即GPU里的每一个USC都可以随时“切换”成为AI加速单元使用。
这会带来什么好处呢?简单来说,这就意味着在Imagination E系列里,AI单元和图形单元拥有完全一致的内存延迟性能,且所有USC都可以根据实际需求进行功能配置。既可以将其设定为完全的“图形渲染卡”、也能将全部USC配置为AI单元,从而在完全不浪费晶体管数量的情况下,无需改变基础架构就将Imagination E系列变成“纯AI加速卡”。
而且即便是面对既有图形渲染需求,又有AI计算任务的部分现代游戏,Imagination E系列也可以通过动态的单元配置,来兼顾图形和AI两种工况。在这种情况下,由于这种“二合一”的设计,也就意味着它不会产生超出本身显存带宽的额外计算量,从而降低了功耗、也让硬件成本更加可控。
实际性能如何?测算下来真不差,但最终还得看优化
讲了这么多架构方面的信息,可能有的朋友会说还是没提到Imagination E系列的实际性能水准。
别急,我们这就来对其进行解析。根据官方说法,Imagination E系列这次提供了极大范围的可扩展硬件规格。在最小规格下,它可以采用单核心、单USC配置。当核心主频1GHz的情况下,此时Imagination E可提供8GPixel/s的像素绘制性能和0.25TFLOPS的32位浮点算力,或者是2TOPS的神经网络性能。
当Imagination E系列采用“最大规格”时,则可以拥有四核心阵列、每核心内置8USC。当运行在1.6GHz的频率时,此时像素绘制性能为400Gpixel/s,32位浮点性能约为12.8TFLOPS,或者是200TOPS的神经网络性能。
这是什么概念呢?对比当前已知的其他GPU、比如ARM的Immortalis-G925,当采用其允许的最大24核心配置,运行在相同的1600MHz时,它的理论32位浮点算力大约为9.6TFLOPS。而在桌面端,与Imagination E系列最大规格性能相近的例子,则是尚未发布的英伟达RTX5050,其在2600MHz频率下的浮点性能大约为13.31TFLOPS。
如此一来,就可以得到两个结论。一方面,如果将Imagination E系列做到手机、平板里,此时由于它不可能使用多GPU阵列,所以最大算力大约是3.2TFLOPS,也就是与高通骁龙8至尊版的Adreno 830近似(3.379TFLOPS)。
如果将Imagination E系列做到桌面端,那么要知道如今的桌面GPU运行频率普遍在2.5GHz、甚至3GHz以上,因此Imagination在这里给出的参考频率反而就“不正确”了。结合当前行业中常见的6nm工艺水准典型频率,将其主频“预估”到2400MHz左右,此时最大配置的Imagination E系列实际浮点性能应该是19.2TFLOPS左右,差不多已经比RTX5060还要稍高一点。
最为重要的是,无论是将Imagination E系列以单核心最大规格“塞进手机”,还是将它以做成桌面端的中高档定位独显,其实都不是我们的想象,而是当下非常现实的市场趋势。毕竟大家都知道Imagination支撑起了国内的大量自主GPU研发企业,其中就有大家耳熟能详的摩尔线程、象帝先、芯动科技。
不过需要注意的是,在我们三易生活与Imagination方面的沟通当中,他们也反复强调,自身并非如同NVIDIA那样的“软件厂商”。也就是说,Imagination会给旗下的GPU IP提供基础的驱动程序以及性能优化的AI计算库,同时更多的IP架构潜力以及扩展应用开发需要社区和授权方协同“挖掘”。
如此一来,尽管我们三易生活已经可以断言,未来基于Imagination E系列的移动GPU和桌面端显卡,只要它们能够在最近这一两年内出货,那么必然会拥有更为亮眼的规格算力数据。但具体到游戏兼容性,以及所能实现的特色功能(比如当下流行的AI超分、AI帧生成)等方面,就要真正考验相关厂商自身的技术力了。
本文来自微信公众号 “三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。