干货AMD的翻身之仗VegaGP

青少年白癜风爱心公益 http://disease.39.net/bjzkbdfyy/180102/5972953.html

一直以来,AMD给我们的印象就是其产品相对对手英特尔、NV,难于翻身,所以在业界就有许多人将AMD戏称为“万年老二”。

而最近,在CPU领域,我们看到了AMD的强势崛起,代号为“Zen”的锐龙Ryzen系列处理器如期上市,强悍的性能已经可以和英特尔分挺抗礼,而更低的功耗、显著的价格优势以及强大的后续潜力,感觉都会让英特尔有点措手不及。AMD可谓是打了一个翻身仗,重新回到了微处理器的一线,扬眉吐气了一把。

年,AMD也将在图形领域发力,代号为“Vega(织女星)”的新一代GPU架构即将降临,同样给图形市场带来较大的悬念。

Vega架构的前世今生

虽然顶级GPU价格昂贵,用户不多,但NV在大芯片、高性能的方向上一路到黑——原因很简单,高性能具有指标性意义,用户并不会对技术了解太多、也大多不会综合考虑,通常会简单地选择性能最强的一家,因为这么做肯定不会出错。

在前面的几年,AMD一度以多芯片、注重性价比的方式为产品哲学,但事实是它的市场份额一路下跌,在年三季度,它在独立图形市场的占有率惨跌到只有20%,出现NVIDIA一家独大,AMD濒临出局的局面。

在这一阶段,AMD境况糟糕,幸亏它接连拿下索尼、微软、任天堂三家游戏主机的图形芯片定制业务,这更多是有赖于灵活的方案定制和性价比优势,而NV通用加速方案,并获得业界的广泛支持,它所欠缺的是,是一款能够具有与对手顶级产品匹敌的利器。

痛定思痛,AMD决意在新一代架构中另起炉灶,重新回到高性能的正确轨道上来,只是这个旅程并不顺利。早在年末,AMD在一些内部会议中就透露在开发一款名为“格陵兰(Greenland)”的新一代GPU架构,这款芯片将采用14纳米,TDP热设计功耗在W级别,而它的每瓦性能达到Hawii(夏威夷,RadeonR系列)的两倍以上!不过在后来,我们并没有看到格陵兰的消息。当年底AMD带来的是代号为“Tonga(汤加)”的新核心,内核架构从夏威夷的GCN1.1提升到GCN1.2版,但这也只是小幅度的改良,并没有涉及架构的深度改变,很多用户就将“汤加”理解为“夏威夷”的换名马甲版。

年末,AMD推出代号为Fiji(斐济)的核心,它的内核依然是“汤加”,只是改用HBM1高带宽显存、减小了体积,内核架构提升到GCN1.2+,但性能依然提升不大,且功耗较大的毛病并没有克服。直到年中,AMD接着推出持续改良的“Polaris”架构,而这时DirectX12开始在新一代游戏中获得应用,Polaris的良好支持让它在新游戏中增色不少,也得益于此,AMD在图形市场的份额才小幅度提升到接近30%左右。

而在这期间,NV(麦克斯韦,年)、Pascal(帕斯卡,年)架构不仅占领了性能王座,更是凭借良好的性能功耗优势、通用计算性能以及强势的整体营销,获得市场的绝对主导权。

第一,毫无疑问就是相对孱弱的架构性能。比如Polaris架构的RX处理器,像素渲染速度只有35.8GPixl/s,而同期NV处理器比它快了一倍、渲染速度高达72.3GPix/s。在如此巨大的性能差异面前,AMD自然无力推出能够与NV倾斜;

第二,GPU功耗的偏高、每瓦性能指标偏低,即便Polaris改用格罗方德(GF)的14纳米工艺,功耗表现也并没有提高多少。显然,这主要是Polaris架构、或者说AMDGCN显卡架构存在的根本问题—我们很容易联想到,AMD在CPU架构上也是同样的表现。

既然如此,AMD要想在图形市场打一场翻身仗,除了推出下一代高性能的微架构与英伟达硬碰硬以外,没有别的捷径好走。而它接下来要推出的,代号为Vega的能否承担这样的使命,给外界留下了很大的悬念。

Vega架构的四大特点

Vega架构是拉加·库德里(RajaKoduri)回炉AMD的首期之作。拉加·库德的职业生涯始于大名鼎鼎的S3Graphics,后来进入ATI公司并成为图形技术的领军者之一。年AMD并购ATI,给业界带来很大的波动,拉加·库德里此时担任图形业务的首席技术官,不过并购不久就被乔布斯挖走、为苹果公司研发新一代图形处理器。不过在年4月,他重新又回到了AMD、重新执掌图形技术部门,负责新一代产品的开发—值得一提的是,AMD现时大火的Ryzen处理器架构,主导者也是从苹果重新回炉的JimKeller,而当年他是K7和K8架构的架构设计者,一手打造了AMD处理器的辉煌时代(遗憾的是,JimKeller已于年9月从AMD二度离职)。

拉加·库德里回到AMD之后,被任命为视觉计算企业副总裁(CorporateVicePresidentofVisualComputing),同时负责GPU的硬件开发以及软件平台设计。之后的Fijii、Polaris两代改良架构都是在他的领导下进行,我们也得见此后AMD的图形业务缓慢回升,缩小了与对手的差距—但GCN架构使然,难以有根本性的改观。因此,新一代的Vega架构让外界报以很高的期望。

▲VegaGPU的逻辑架构示意

在今年一月份的CES展会上,AMD对外披露了Vega的部分技术细节,虽然关键的性能指标还不得而知,但我们还是可以从下列资料中可以看出Vega所具有的巨大潜力。而总结起来,Vega将有以下四大技术要点,分别是:革命性的存储架构、更灵活的几何渲染、高级像素引擎以及NCU下一代计算单元。

革命性的存储架构:HBM2+HBCC

Fiji架构中引入的HBM(高带宽)显存是AMD的独门绝技,在年这项技术引入时确实引起业界的瞩目。HBM架构将显存的管芯(DIE)与GPU的DIE集成在同一个基片上,等于图形处理器本身就集成了显存,这样,显卡的PCB板上就没有传统的显存,只需要供电电路和输出接口元器件,显卡的尺寸可以变得非常之小—相当于笔记本显卡模块的尺寸,作为当时的高端显卡,Fiji的高集成度和小尺寸因此给人留下深刻印象。再者,HBM的显存以3D堆叠的方式封装在一起,单枚芯片的传输位宽可以达到bit,相当于GDDR5的32倍之多!我们知道,传输带宽等于位宽乘以频率,HBM具有高位宽的优势,显存的频率就可以大大降低,在Fiji中它的频率只有1GHz,每个显存堆栈的带宽突破GB/s,比GDDR5的传统方案高出数倍!

▲AMDVegaGPU与HBM2显存

▲AMD现有RadeonR9GPU与HBM显存

由于显存芯片的工作频率低,第一代HBM仅需要1.3V电压、低于GDDR5的1.5V,而它的每瓦特传输性能达到35GB/s,也比GDDR5的10GB/s快出3.5倍之多!

不过第一代HBM存在显存容量低的问题,旗舰显卡RadeonFuryX也只能提供4GB容量,在应付大型游戏时这点显存显然是杯水车薪。而这次Vega架构引入了升级的第二代HBM方案,在继承高性能、低功耗、高集成度的同时,将显存容量提升到8GB和16GB多个规格,消除了容量不足的瓶颈。同时,HBM2的带宽达到HBM1的两倍,可以实现GB/s或GB/s的超高传输性能。

▲HBM2堆叠内存方案可以获得显著的容量、空间优势

如果说HBM2只是寻常的改良升级,Vega存储架构的真正革命之处在于,它对显存控制器进行全新的设计,并称为HBCC(高带宽高速缓存控制器)。HBCC除了连接前面说的HBM2集成显存外,还可以连接显卡PCB上放置的SSD、网络存储等多种形式的基片外存储部件,而它的寻址能力高达TB!开发者可以像使用显存一样直接使用这些部件,而HBM2显存此时则作为GPU与外部存储单元的高速缓存来使用—我们稍稍转变一下思路,将VegaGPU视作是传统的CPU,显存就是内存,外部存储就是硬盘,很简单就会得出结论:基于Vega的计算卡不只是显卡、同时还是一部独立的计算机,这显然是为通用计算和认知计算所准备。

▲VegaGPU的高速缓存控制器示意

几何渲染引擎:更灵活、更快速

几何计算是3D渲染的基础,在AMD的GPU中,几何渲染还是由固定的几何着色引擎来完成。专属硬件的优点是运行效率高、速度快,缺点是硬件处理缺乏灵活性,每一次几何计算都必须机械化地执行,而很难进行优化。

我们举一个例子,右边两张图片分别是PC游戏《杀出重围:人类分裂》中的巨像之城(GolemCity)的场景和该场景的几何线框图。AMD介绍说,这幅场景有多达2.2亿个多边形需要进行计算,但最终输出的画面其实只有0.02亿个多边形,也就是大多数的多边形,其实都是后台计算、不需要被显示出来,但它们耗费了超过98%的计算资源。

▲《杀出重围:人类分裂》游戏中的场景

▲《杀出重围:人类分裂》游戏场景对应的几何线框图

有鉴于此,越来越多的开发者抛弃了传统的几何单元,改用灵活的计算着色器来进行几何处理—通过对算法的优化,可以将大量的中间计算省略,达到节省硬件资源、提高游戏性能的目的。

AMD在Vega架构中,也引入了这套机制——VegaGPU的几何流水线中新增了名为PrimitiveShader(图元着色器)的新型计算单元,这个新的着色器可以舍弃大量的无效几何计算,从而精简、快速地完成任务。AMD的最终目标是彻底抛弃传统的几何单元、以这套灵活的着色器来代替它。

此外,为了持续提升几何处理性能,AMD还引入了名为“IntelligentWorkgroupDostributor(智能工作组分发器)”的计算单元,它可以支持更多的着色器引擎,并且可以根据负载情况智能地在各引擎间分配几何计算任务。而当前AMD的GCN架构最多只支持4个几何着色引擎,没有增强的潜力。而即便在同样4个着色引擎的情况下,VegaGPU每周期也能处理11个多边形、相当于现有产品的两倍。

▲Vega中的智能工作组分发器,允许支持更多的几何引擎。

▲Vega的几何效率提升了两倍

下一代像素引擎

Vega的像素着色引擎同样进行大量的优化,AMD将它称为Draw-streamingbinningrasterizer(简称DSBR,渲染流分仓光栅器)。

DSBR引擎在执行效率上获得质的飞跃,我们知道,复杂的3D画面,需要进行大量的渲染,而其中绝大多数的工作都是位于后台,真正展现出最终画面的有效渲染只占据极小的部分—这与我们前面说的几何渲染类似。之前AMDGPU对此并没有很好的优化,都是直接进入到渲染环节。而DSBR引擎则对工作流程作了优化:它会先在一个高速缓存中对3D场景给定的对象预先处理,然后GPU清空掉这个缓存、再拾取起其余的数据。而DSBR就可以让GPU抓取出有效渲染和非可视像素的无效渲染,并将无效的渲染操作省略掉,只专注于可视部分的像素渲染。

▲DSBR引擎同样通过优化、显著提升执行效率

换言之,DSBR并不直接提升硬件的能力,而是通过削减无效渲染、减轻硬件负担,同样达到提升像素渲染性能的效果。这套机制同时也意味着,节省功耗、降低发热量,具备更高的性能提升潜力。

为配合DSBR的运作,AMD对Vega的缓存架构进行重大改进,GPU的后端单元可以直接访问到片上的二级高速缓存,数据的访问、操作动作直接在此实现。而传统的GPU中,纹理和像素的内存读取操作并不一致,比如渲染纹理操作时,数据要先写到显存中、然后再被读取到纹理缓存里,也就是每一次数据都要来回搬动、效率低下。而如果开发者要执行纹理、像素同步渲染时,程序指令与硬件工作流程就会出现冲突,增加了编程的难度。显然,Vega的改进要渲染流程简单了许多,大量的数据访问都可以在片内二级缓存高效率地完成,对性能的增益显而易见。

▲Vega的后端渲染单元可直接访问二级缓存

不过,DSBR只是Vega像素渲染的一个可选项,实际的任务还是根据游戏的情况来完成,有的游戏还是对传统架构进行编程,那DSBR暂时还无用武之地。但对支持该特性的新游戏而言,DSBR可以带来显著的效能提升。

NCU:下一代计算单元,为深度学习优化

单精度和双精度计算应用于3D渲染领域,但诸如深度学习等计算任务并不需要用到,它们只需16位半精度浮点计算操作就行。AMD现有的Fiji和PolarisGPU中没有考虑到这一点,它的半精度性能与32位单精度性能是一样的,而半精度计算需要的寄存器资源却少得多,也就是说AMD没有对此作优化。与之相比,英伟达的Tesla加速卡,半精度性能就达到双精度的两倍,这让它在通用计算中占据性能优势。

为此,VegaGPU中首度引入了名为“Packed(紧缩)”的半精度计算支持,Vega的微架构被称为“NCU(下一代计算单元)”,每个NCU中拥有64个ALU,它可以灵活地执行紧缩数学操作指令,如每个周期可以进行个8位数学计算,或者个16位计算,或者个32位计算—这不仅充分利用了硬件资源,也大幅度提升Vega在深度学习计算的性能。

VegaGPU的性能推算

Vega的架构改进,给业界带来很大的想象力,但它的性能究竟能达到何种级别,还是存在很大的悬念。虽然基于VegaGPU的显卡尚未发布,但AMD在去年12月份却带来一款RadeonInstinctMI25计算卡的消息,它所搭载的就是VegaGPU芯片。

▲RadeonInstinctMI25计算卡

RadeonInstinctMI25计算卡针对深度学习领域,GPU中直接集成了16GB容量的HBM2高速缓存(对应显卡则是显存),卡上另外还集成了1TB容量的NAND闪存,海量的计算数据可以直接放在这块存储器中,而不必经过系统内存再到传统硬盘上,由此满足大计算量所需的高速交换需求。M的16位半精度浮点性能达到25TFLOPS,而用于3D渲染的32位单精度浮点性能也达到12.5TFLOPs,与之相比,目前AMD的主力显卡RX的单精度浮点性能只有5.8TFLOPs—我们可以简单得出这样的推论,VegaGPU的3D渲染性能,理论上将能达到目前RX显卡的两倍左右。

而在RadeonInstinctMI25的发布会上,AMD同样展示了基于VegaGPU的下一代Radeon显卡的测试成绩,AMD在现场使用《DOOM》进行了演示,游戏配置为4K

60Hz分辨率、Ultra画面。这块显卡的显存只有8GB容量,在实际测试中,游戏帧数达到60~70fps的性能,整体相当于NVIDIA的GTX、之间。考虑到展示卡是早期版本、规格也不高,能达到这样的性能足以让外界振奋,这让我们想到图形双雄并立的美好时光。

RadeonInstinct平台:Vega进军深度学习市场

AMD对VegaGPU在图形领域的实力秘而不宣,但在吹风会上,它将Vega的应用重点更多放在机器学习领域。为此,AMD专门发布了新的AI计算子品牌“RadeonInstinct”,该平台包括硬件的加速卡和ROCm软件平台,我们前面提到的RadeonInstinctMI25计算卡就是加速卡中的旗舰型号。ROCm软件平台更为我们所

转载请注明:http://www.abuoumao.com/hyfw/2580.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7