论文荣登计算机体系结构顶会,芯片架构成为边缘最佳并行计算选择
机器之心发布
机器之心编辑部
AI大模型的爆发带动了GPU的强劲需求,从云端到边缘渗透的AI应用也将带动边缘AI服务器及加速处理器的需求。通过对比GPGPU、FPGA、NPU和ASIC,可重构计算架构CGRA成为最适合边缘AI的并行计算架构。由芯动力提出的可重构并行处理器(RPP)是比传统CGRA更适合大规模并行处理的计算架构,这不但通过试验评测得到证实,而且也通过ISCA会议得到国际学术权威的认可。基于RPP架构的R8芯片及后续更高性能的迭代芯片将是边缘AI服务器和AIPC的理想AI加速处理器选择。
目录
一、什么是边缘AI?
二、边缘AI服务器市场趋势
三、适合边缘AI的理想计算架构
四、RPP架构详解
五、RPP处理器R8能效对比
六、RPP处理器到国际学术权威认可
七、结语
边缘AI(AIEdge)是人工智能(AI)与边缘计算交叉的先进技术,这一概念源于AI从云端向边缘下沉的分布式计算范式转变。边缘AI的核心是将AI算法直接嵌入到产生大量数据的本地环境中,例如智能手机、物联网设备或本地服务器,通过位于网络“边缘”(即更靠近数据源)的设备和系统进行实时数据处理和分析。
相对于传统的数据中心或云计算平台的AI训练或推理,边缘AI的主要优势在于“就地处理”,大大减少了数据传输和处理的延迟,这在智能监控、自动驾驶、实时医疗诊断或工业自动化控制等应用场景中尤其重要。
实现边缘AI计算的设备和系统主要包括:
智能终端:主要用于产生或收集数据的设备,如智能传感器、智能手机、AIPC或物联网设备等;
边缘AI服务器:直接对所收集数据进行处理和分析的边缘设备及软硬件系统,比如专用的大语言模型(LLM)AI推理服务器、智能驾驶区域计算中心服务器等;
通信网络设备:尽管边缘AI应用对通信网络的带宽和速率要求没有云端那么高,但也必须提供可靠的高速连接才能达到边缘AI所需的低延迟和实时性要求。
本文主要讨论边缘AI服务器及其市场发展趋势、对AI加速处理器的要求,以及适合边缘AI应用的并行计算架构和处理器实现。
AI服务器是指专为人工智能应用而设计的高性能计算机设备,能够支持大规模数据处理、模型训练、推理计算等复杂任务。AI服务器通常配备高性能的处理器、高速内存、大容量高速存储系统,以及高效的散热系统,以满足AI算法对计算资源的极高需求。按不同的分类标准,AI服务器可以大致分为训练服务器、推理服务器、GPU服务器、FPGA服务器、CPU服务器、云端AI服务器,以及边缘AI服务器等。
据Gartner预测,从现在到2027年,AI服务器市场规模将保持高速增长,年复合增长率高达30%。该机构发布的《2024年第一季度全球服务器市场报告》显示,今年Q1全球服务器市场销售额为407.5亿美元,同比增长59.9%;出货量为282.0万台,同比增长5.9%。在众多AI服务器供应商中,浪潮信息蝉联全球第二,中国第一,其服务器出货量在全球市场占比11.3%,同比增长50.4%,在TOP5厂商中增速第一。
另据中商产业研究院发布的《2024-2029年中国服务器行业需求预测及发展趋势前瞻报告》,2022年末,国内市场总规模超过420亿元,同比增长约20%;2023年约为490亿元,市场增速逐步放缓;预计2024年市场规模将达560亿元。从出货量来看,2022年中国AI服务器市场出货量约28.4万台,同比增长约25.66%;2023年约为35.4万台,预计2024年将达到42.1万台。
在AI大模型发展早期,AI服务器需求以模型训练为主,论文荣登计算机体系结构顶会,芯片架构成为边缘最佳并行计算选择因而训练型服务器占据市场主导地位。目前,AI服务器市场中57.33%为训练型服务器,推理型服务器占比达42.67%。然而,随着生成式AI应用往边缘端渗透,预计未来推理型服务器将逐渐成为市场主流,边缘AI服务器从出货量上将超过云端训练和推理服务器。
IDC最新发布的《中国半年度边缘计算市场(2023全年)跟踪》报告数据显示,2023年中国边缘计算服务器市场继续保持稳步上升,同比增长29.1%。IDC预测,到2028年,中国边缘计算服务器市场规模将达到132亿美元。
作为边缘计算的重要组成部分,2023年定制边缘服务器规模已达2.4亿美元,相较2022年增长16.8%。从厂商销售额角度来看,边缘定制服务器市场中占比较大的厂商分别是浪潮信息、联想、华为、新华三。随着边缘计算应用的多样化发展,新兴服务器厂商在车路协同、边缘AI和智能终端等业务场景和应用市场将有较大突破,使得边缘服务器市场呈现出多样化格局。
PC时代由WINTEL(微软Windows 英特尔CPU)联盟主导、智能手机时代由Android Arm联盟主导,AI时代将由哪个联盟主导呢?一个新的联盟正初露端倪,那就是由英伟达和台积电组成的NT联盟(Nvidia TSMC)。据华尔街投资专家预测,2024年NT联盟总营收预计将达到2000亿美元,总净利润1000亿美元,总市值有望突破5万亿美元。由云端AI训练和AI大模型应用驱动的英伟达GPU和台积电AI芯片制造业务将成为今年最大的赢家。
尽管英伟达在云端AI训练和推理市场占据了绝对主导地位,但在边缘AI应用场景中英伟达的GPGPU却不是最佳选择,因为其计算架构固有的高功耗和高成本问题限制了其在更为广泛而分散的边缘AI应用中的作用。计算机架构领域的学者专家都在寻求能够替代GPGPU的高能效并行技术架构,基于特定域专用架构(DSA)的ASIC设计是一种可行的关键思路,比如谷歌的张量处理单元(TPU),这种专为加速机器学习工作负载而设计的处理器采用脉动阵列架构,可高效执行乘法和累加运算,主要面向数据中心应用。另外一个思路是以三星为代表的神经处理单元(NPU),它专为移动场景而设计,具有节能的内积引擎,可利用输入特征图稀疏性来优化深度学习推理的性能。
虽然TPU和NPU都能够提供部分替代GPGPU的高性能和节能解决方案,但它们的专用设计属性限制了其多功能性和广泛的适用性。总部位于美国加州且在台湾和大陆都有研发中心的边缘AI芯片初创公司耐能(Kneron)提出了可重构NPU的方案,使得NPU芯片有ASIC高性能而又不牺牲数据密集型算法的可编程性。凭借独特创新的架构和优异的性能,耐能团队获得IEEECAS2021年Darlington最佳论文奖。耐能第4代可重构NPU可以支持同时运行CNN和Transformer网络,既可做机器视觉,也可运行语义分析。与仅面向特定应用的普通AI模型不同,耐能的可重构人工神经网络(RANN)技术更加灵活,可满足不同应用需求并适应各种计算体系架构。据该公司宣称,其边缘GPTAI芯片KL830可应用于AIPC、USB加速棒和边缘服务器,当与GPU配合使用时,NPU可将设备能耗降低30%。
可重构硬件是另一种可提供高性能和节能计算的解决方案,现场可编程门阵列(FPGA)是可重构硬件计算的代表,其特点是细粒度可重构性。FPGA利用具有可编程互连的可配置逻辑块来实现自定义计算内核。这种定制的计算能力使得基于FPGA的加速器能够部署在金融计算、深度学习和科学仿真等广泛的大规模计算应用中。然而,FPGA提供的位级可重构性会带来明显的面积和功率额外开销,而且没有规模成本效益,这极大地限制了其在需要低功耗和小尺寸的应用场景中的适用性。
粗粒度可重构架构(CGRA)代表另一类可重构硬件。与FPGA相比,CGRA提供粗粒度的可重构性,例如字级可重构功能单元。由于CGRA内部的ALU模块已经构建完成,且其互联也要比FPGA更简单、规模更小,因此其延时和性能要显著好于在门级上进行互连形成组合计算逻辑的FPGA。CGRA更适合word-wise类型(32bit为单位)的可重构计算,而且可以缓解FPGA存在的时序、面积和功率开销问题,是未来边缘AI的理想高性能并行计算架构。
下面我们大致梳理一下CGRA的发展历程:
早在1991年,国际学术界就开启了可重构芯片的研究;
2003年,欧洲宇航防务集团(EADS)率先在卫星上采用可重构计算芯片;
2004年,欧洲IMEC提出动态可重构结构ADRES,在三星的生物医疗、高清电视等系列产品中得到应用,日本的瑞萨科技也采用这种架构。
2006年,清华大学微电子所魏少军教授带领的可重构计算团队开始进行可重构计算理论和架构研究;
2017年,美国国防高级研究计划局(DARPA)宣布启动电子复兴计划(ElectronicsResurgenceInitiative,简称ERI),将“可重构计算”技术列为美国未来30年的战略技术之一;
2018年,基于清华大学可重构计算技术的清微智能成立,正式开启商业化进程。2019年,清微智能量产全球第一款可重构智能语音芯片TX210,证明了可重构计算的商业价值。2020年,清微智能获得中国电子学会技术发明一等奖;2023年,国家大基金二期投资清微智能。目前,清微智能共有边缘端TX2、TX5系列芯片,以及用于服务器领域的TX8系列三大芯片产品。其中,TX2和TX5系列芯片已应用于智能安防、金融支付、智能穿戴,智能机器人等多个领域;面向云端市场的TX8高算力芯片主要应用场景是AI大模型的训练和推理。
国内另一家基于可重构计算技术的AI芯片初创公司珠海芯动力于2017年成立,其可重构并行处理器(RPP)架构是改进版的CGRA。2021年首颗芯片RPP-R8成功流片,2023年进入金融计算、工业摄像和机器人等边缘AI应用市场,并与浪潮信息达成战略合作进入边缘AI服务器市场。
国际计算机学术界和高科技产业界已形成共识,基于CGRA架构的可重构计算芯片具备广泛的通用计算能力,可以应用于各种边缘AI计算场景,是解决通用高算力和低功耗需求的必由之路。
四、RPP处理器架构详解
RPP和CGRA都是属于粗粒度的可重构阵列,都可以达到类似ASIC的面积密度和功率效率,而且都是可以用软件编程的。但是,RPP在可重构类型和编程模型方面跟CGRA还是不同的,具体表现为:
1.RPP是准静态可重构阵列,而传统CGRA一般用于动态可重构阵列。静态可重构整列是指每个指令在处理单元(PE)的执行不随时间变化,数据流也是不变的。对于编译器来讲,静态的可重构阵列不需要对指令在时间上进行安排,这样就可以让RPP构造更加简单,指令的分配速度很低。因此,RPP很容易实现一个大型的阵列,譬如32x32的阵列。RPP比传统CGRA更加适用于大规模并行计算。
2.RPP使用的是多线程SIMT编程模型,而CGRA通常使用的是单线程语言编程。RPP可以兼容CUDA语言,更加适合并行计算。CUDA语言要求编程人员从一开始就考虑数据的并行度,把并行算法用CUDA语言表现出来;编译器则不需要分析并行计算度,编译器就非常简单;CUDA语言是SIMT类型,只用于数据并行的计算,而且并行度在一个程序里保持不变。CGRA则通常使用C语言 独立的编译器,虽然理论上可以覆盖任意的计算类型,但是编译器非常复杂,很难达到较高的编译效率。
下面图表对RPP及几个主流的可重构加速架构做了对比。
RPP架构的优势可以总结为以下四点:
具有垫片暂存器(gasketmemory)的环形可重构并行处理架构,允许在不同数据流之间高效地重用数据;
分层式内存设计具有多种数据访问模式、地址映射策略和共享内存模式,可实现高效灵活的内存访问;
各种硬件优化机制,如并发内核执行、寄存器拆分和重新填充,以及异构标量和向量计算,从而提高了整体硬件利用率和性能;
一个兼容CUDA的端到端完整软件栈,具有编译器、运行时环境、高度优化的RPP库,可实现边缘AI应用的快速高效部署。
芯动力基于RPP架构提出了RPP硬件设计框图,并通过R8芯片真实的展现出这种并行计算架构的优越性。这种硬件设计实现主要由一个环形可重构处理器(CircularReconfigurableProcessor)、一个内存单元和一个序列器组成,见下图。
循环可重构处理器是大规模并行计算的核心计算组件。
内存单元被分成多个内存组,每个内存组都与一个缓存配对,以利用程序的时间和空间局部性实现高效的数据重用。只有当环形可重构处理器内的寄存器和缓冲区已满时,中间数据才会被传输并存储在内存单元中。
序列器用于解码和分发指令到环形可重构处理器,并使用缓存来存储从DDR收到的指令。
环形可重构处理器包括NPU处理单元(PE)和一个垫片内存。每个PE都配备了一个内存端口,以方便对内存单元进行数据访问。内存端口设计有模式控制器、地址计算单元和多个多路复用器,以支持不同的数据访问模式和共享内存模式。为了实现灵活的处理器内通信,每个PE都集成了一个开关盒(SB)和一个互连开关盒(ICSB),以实现高效的数据转发。这些PE按线性顺序连接,垫片内存充当第一个和最后一个PU之间的桥梁,从而形成环形拓扑。
环形可重构处理器内的数据处理从第一个PE开始,并以流水线方式遍历PE,中间计算结果按顺序输出到后续PE。垫片内存缓存最后一个PE的输出并将它们重新循环到第一个PE,从而最大限度地提高数据局部性并消除内存单元的内存流量。PE中的关键计算组件是处理引擎。在每个PE中,都有多个算术逻辑单元(ALU),其中每个ALU都与数据寄存器和地址寄存器耦合。这些数据寄存器聚合在一起形成一个数据缓冲区,便于在每个PE内快速访问数据。
此外,线性交换网络和垫片存储器的组合实现了灵活的数据流控制和高效的数据重用,同时消除了传统基于网格的CGRA设计中复杂的网络路由。结合对内存单元的灵活高效数据访问,RPP可以优化数据流处理,最小化内存流量,从而最大限度地提高资源利用效率。
RPP处理器采用SIMT编程模型来为灵活多线程管道启用流式数据流处理。
为了确保与现有GPGPU软件生态系统的兼容性,芯动力的RPP处理器采用了拥有广泛用户群的CUDA。CUDA代码由基于LLVM的前端解析,为RPP后端生成PTX代码。RPP编译器将CUDA内核解释为数据流图并将它们映射到虚拟数据路径(VDP)。然后根据硬件约束将VDP分解为多个物理数据路径(PDP),每个PDP的配置由序列器在运行时生成。
RPP的软件堆栈可以支持广泛的大规模并行应用,包括机器学习、视频/图像处理和信号处理等。对于机器学习应用,该堆栈与不同的主流框架兼容,例如PyTorch、ONNX、Caffe和TensorFlow。此外,用户可以灵活地使用CUDA定义他们的自定义程序。这些高级应用程序由RPP框架处理,该框架包含一个编译器和不同领域特定的库。在软件堆栈的底部,采用RPP运行时环境和RPP驱动程序来确保使用工具链编译的程序可以在底层硬件上无缝执行。
基于以上RPP处理器硬件设计和完整软件堆栈实现的RPP-R8芯片在计算性能和能效上表现如何呢?
R8芯片的性能参数如下表所示:
针对边缘计算场景,芯动力将RPP-R8芯片与两款英伟达边缘GPU进行了比较:JetsonNano和JetsonXavierAGX。JetsonNano的芯片尺寸与RPP相似,可在物理面积限制内提供相关比较;选择JetsonXavierAGX是基于其与RPP-R8相当的理论吞吐量。芯动力在ResNet-50推理上评估了这三个AI加速平台,其中JetsonNano的吞吐量来自基准测试论文,而XavierAGX的性能数据来自英伟达官方网站。
如上表所示,RPP-R8的实测运行吞吐量分别是JetsonNano和JetsonXavierAGX的41.3倍和2.3倍。要知道,JetsonXavierAGX的芯片尺寸几乎是R8的三倍,工艺也更先进(12nmvs.14nm),但其性能低于R8。在能效方面,R8的能效分别是JetsonNano和JetsonXavierAGX的27.5倍和4.6倍。这些结果表明,在面积和功率预算有限的边缘AI场景中,RPP-R8的表现明显优于JetsonNano和JetsonXavierAGX。
深度学习推理是一种广受认可的大规模并行工作负载,也是RPP-R8硬件的关键应用。鉴于Yolo系列模型与ResNet-50等分类模型相比表现出更高的计算复杂度,芯动力选择英伟达JestonNanoOrin作为GPU平台,其峰值吞吐量比JetsonAGXXavier更高,为40TOPS。由于CPU通常不是为高性能深度学习推理而构建的,因此选择JetsonXavierNx作为比较低端的GPU平台,具有21TOPS的峰值吞吐量。评估批处理大小为1、2和4的工作负载,反映了真实的边缘场景。上图显示了三个平台的吞吐量性能比较,RPP-R8在Yolo-v5m和Yolo-v7tiny上展示了更高的吞吐量。在批量大小为1的情况下,RPP-R8的吞吐量大约比JestonNanoOrin高1.5×∼2.5倍,比JestonXavierNx高2.6×∼4.3倍。
评估与测试结果表明,RPP在延迟、吞吐量和能效方面优于传统的GPU、CPU和DSP等架构。RPP处理器的性能提升归功于其独特的硬件特性,主要包括:1)循环数据流处理:中间结果流经PE之间的流水线寄存器和FIFO,显著减少了数据移动和到远程内存存储的内存流量;与GPU和CPU中的数据处理相比,这种模式效率更高。2)分层内存系统:RPP通过其分层内存系统最大化数据局部性。RPP-R8芯片面积的很大一部分(约39.9%)专用于片上存储器。这种设计选择提供了广泛的内存容量,增强了数据重用并减少了频繁访问外部存储器的需求。3)矢量化和多线程管道:RPP的硬件架构和编程模型可实现有效的矢量化和多线程管道。这种设计充分利用了RPP进行并行处理的全部计算潜力,确保其资源得到最大程度的利用,从而提高性能。
除了在能耗、延迟和吞吐量方面的优势外,RPP还因其小面积而脱颖而出。只有119平方毫米的芯片面积消耗使得RPP-R8成为面积受限的边缘计算的理想平台。RPP的另一个特点是其高可编程性,由全面的端到端软件堆栈支持,可显著提高部署效率。与CUDA的兼容性使用户能够利用熟悉的CUDA生态系统,从而缩短学习曲线并促进更容易的采用。支持即时编程和图形编程模式,为用户提供了高度的灵活性,满足各种计算需求。包括OpenRT和RPP-BLAS在内的不同库支持也促进了各种场景中的高性能和高效部署。全栈解决方案,包括硬件架构和软件支持,使RPP在各种边缘计算硬件中脱颖而出。
六、RPP架构得到国际学术权威认可
由芯动力携手英国帝国理工、剑桥大学、清华大学和中山大学等顶尖学府的计算机架构团队共同撰写的论文《CircularReconfigurableParallelProcessorforEdgeComputing》(RPP芯片架构)已成功被第51届计算机体系结构国际研讨会(ISCA2024)的IndustryTrack收录。芯动力创始人兼CEO李原博士与帝国理工博士毕业生HongxiangFan(现在英国剑桥的三星AI中心做研究科学家)受邀在阿根廷布宜诺斯艾利斯举行的ISCA2024会议上发表演讲,与Intel和AMD等国际知名企业的专家同台交流。
本届ISCA共收到来自全球423篇高质量论文投稿,经过严谨的评审流程,仅有83篇论文脱颖而出,总体接收率低至19.6%。其中,IndustryTrack的录取难度尤为突出,接收率仅为15.3%。
作为计算机体系结构领域的顶级学术盛会,ISCA由ACMSIGARCH与IEEETCCA联合举办。自1973年创办以来,一直是推动计算机系统结构领域进步的先锋力量,其广泛的影响力和卓越的贡献使其成为谷歌、英特尔、英伟达等行业巨头竞相展示前沿研究成果的高端平台。ISCA与MICRO、HPCA、ASPLOS并称为四大顶级会议,而ISCA更是其中的佼佼者,论文录取率常年保持在18%左右。多年来,众多在ISCA上发表的研究成果已成为推动半导体和计算机行业发展的关键动力。
本次入选的可重构并行处理器(RPP)论文为边缘计算领域注入了强劲动力。实验结果充分证实,作为一款并行计算的硬件平台,RPP的性能全面超越当前市场上的GPU,特别是在对延迟、功耗和体积有着极高要求的应用场景中表现尤为出色。
六、结语
ChatGPT引爆了AI大模型,从而带动了GPU和AI加速器的巨大需求。AI应用的发展趋势将从云端AI训练和推理逐渐往边缘和端侧AI渗透,为各种AI应用提供软硬件支持的AI服务器也同样遵循从数据中心到边缘计算的分布式扩展趋势。传统GPGPU在边缘AI应用场景中开始暴露出明显的架构缺陷,其高成本、高功耗和高延迟问题迫使业界专家寻求更为高能效的并行计算架构。
在对比CPU、GPU、ASIC、FPGA和NPU等不同计算架构后,我们发现可重构计算架构CGRA是比较适合边缘AI应用的,尤其是芯动力提出的可重构并行处理器(RPP)。通过与英伟达同类GPU对比分析,基于RPP架构的R8芯片在延迟、功耗、面积成本、通用性和快速部署方面都表现出色,我们认为这是目前最理想的边缘AI并行计算架构。
在今年7月份阿根廷举行的ISCA2024学术会议上,关于RPP处理器架构的论文得到国际学术权威认可。随着边缘AI的发展,AI服务器和AIPC将迎来快速增长的黄金时期,而支持这类边缘AI设备的AI加速器也将同步增长。由珠海芯动力科技提出的RPP处理器芯片也将得到业界认可,成为边缘AI应用场景中最为理想的AI加速处理器。