欢迎访问深圳市中小企业公共服务平台电子信息窗口
生成式AI浪潮只有GPU受益?打开格局,这些芯片能让AIGC更大众化
2023-10-18 来源:贤集网
823

关键词: 人工智能 英特尔 芯片

近日,Intel举办了一场年度技术创新大会,AI自然是关键词中的关键词,“AI Everywhere”不仅体现在整个大会上,也体现在Intel的全线产品和解决方案中,当然,作为软硬件实力都在这个星球上属于顶级行列的Intel,自然也是最有资格谈论AI的巨头之一。

AI无处不在,从产品到技术再到应用都有截然不同的丰富场景,普通用户能够最直接感受到的当属AIGC,包括文生文、文生图、图生图、文生视频、图生视频等等。而要想实现足够实用的AIGC,从算力强大的硬件到参数丰富的大模型,从精确合理的算法到高效便捷的应用,缺一不可。

我们知道,在过去,AIGC更多在云侧服务器上,虽然性能、模型、算法都不是问题,但一则需要大量的资金投入,二则存在延迟、隐私等方面的不足。因此,AIGC正越来越多地下沉到终端侧,让普通的PC电脑、智能手机也能跑AIGC,甚至可以离线执行。



人人都能享受到AIGC

Intel中国技术部总经理高宇先生在接受采访时就表示,关于终端侧运行AIGC的研究已经取得了丰硕的成果,比如最新的13代酷睿电脑,经国有化已经可以流畅运行70亿到180亿参数的大模型,尤其是70亿到130亿参数的运行效果相当好。

当然这些现在还处于起步阶段,目前的优化主要针对CPU处理器,下一步会充分发挥GPU核显的性能潜力,而代号Meteor Lake的下一代酷睿Ultra除了有更强的CPU、GPU算力,还会首次集成NPU单元,一个专用的AI加速器,峰值算力超过11TOPS,三者结合可以达到更好的效果。

对于PC端侧运行AIGC应用的具体落地实现,高宇举了个例子,Intel正在打造的一个开源框架BigDL-LLM,专门针对Intel硬件的低比特量化设计,支持INT3、INT4、INT5、INT8等各种低比特数据精度,性能更好,内存占用更少。

基于这个框架,使用i9-12900K处理器,只开启4个核心来运行ChatGLM2 60亿参数模型,生成效果就是相当迅速的,而打开全部8个P核、8个E核,效果更是堪称飞快,输出性能达到了每个Token 47毫秒左右,已经不弱于很多云侧计算。

之所以对比两种情况,因为有时候需要将全部算力投入AI模型的运算,而有时候可能还得兼顾其他任务。

可以看出,无论哪种情况,Intel PC侧都已经可以很好地完成相应的AI工作,提供令人满意的算力和效率。

此外,在LLaMA2 130亿参数大语言模型、StarCoder 155亿参数代码大模型上,Intel酷睿处理器也都能获得良好的运行速度。

换到Arc GPU显卡上,Intel硬件跑端侧AI同样神速,甚至更快,无论是ChatGLM2 60亿参数,还是LLaMA2 130亿参数、StarCoder 155亿参数,都是如此,ChatGLM2模型中甚至可以缩短到20毫秒以下。

当然,以上说的大模型可能距离普通人还有些远,而任何一项技术要想大范围普及,关键还是颠覆用户的切身工作、生活、娱乐体验,AI当然也不例外。

在高宇看来,基于以上大模型,AI在端侧的典型应用还是相当丰富的,而且会越来越多,有时候效果会更胜于运行在云侧。



AIGC的底层基石:算力

AI的发展,一方面依赖于模型和算法,另一方面则依赖于芯片的算力。在电脑上,CPU擅长数值计算,能够推理出复杂的逻辑,缺点是计算速度较慢,不能并行处理任务。如果把CPU比作一个人的大脑 ,那么GPU和FPGA就相当于四肢,可以帮助它执行任务。

在训练单位方面,以ChatGPT为代表的人工智能大模型训练和推理需要强大的计算支持。ChatGPT单次训练所需算力约27.5PFlop/s-day,单颗NVIDIA V100芯片深度学习算力为125TFlops,则ChatGPT模型的训练至少需要1颗V100芯片计算220天(27.5*1000/125=220)才能完成。

在训练成本方面。GPT-3的数据训练需要45TB。训练该模型所需的算力是3640PF,总成本高达1200万美元。2021年,全球计算设备算力总规模达到615EFlop/s,而到2023年,全球大模型训练所需全部算力相当于超过200万张A100显卡。预计到2030年,全球算力规模将达到56ZFlps,年均增长率约为65%。我国计算设备算力总规模达到202EFlops,占全球约33%。

算力硬件层是构成AIGC产业的核心底座,AIGC需要大量的计算和数据处理,随着AIGC产品持续升级对芯片算力提出更高要求,AI芯片算力和需求旺盛增长。据Gartner数据,全球AI芯片市场规模有望在2021年达343亿美元,2025年将逾700亿美元,CAGR约为20%。


四类芯片获得发展动力

AIGC算力硬件层,主要包括AI芯片、AI服务器和数据中心,其中AI芯片主要应用于模型训练(training)和推断(inference)两个步骤,并主要可划分为CPU、GPU、FPGA和ASIC四类。

具体来看,CPU(Central Processing Unit)中央处理器是计算机的运算和控制核心(Control Unit),是信息处理、程序运行的最终执行单元,主要功能是完成计算机的数据运算以及系统控制功能。

报告指出,在数据中心和新一代信息技术升级带动下,中国服务器市场规模2027年将达143.7亿美元,根据服务器成本结构构成,CPU为核心芯片,服务器市场的增长将带动服务器CPU需求上升。根据IDC数据,2022年全球服务器出货量突破1516万台,同比增长12%,产值达1215.8亿美金。

市场格局上,在2022年全球数据中心CPU市场中,英特尔以70.77%的市场份额排名第一,AMD以19.84%的份额紧随其后,剩余厂商仅占据9.39%的市场份额,整体上处于垄断局面。集微咨询测算2022年全球CPU市场规模约为777亿美元,其中全球服务器CPU市场约为233亿美元。

目前国内CPU厂商主有海光、海思、飞腾、龙芯、申威等。通过产品对比发现,国产服务器CPU性能已接近Intel中端产品水平,但整体上国内CPU厂商仍在工艺制程、运算速度(主频)、多任务处理(核心与线程数)方面落后于国际先进水平。

GPU(图形处理器),最初是为了解决CPU在图形处理领域性能不足的问题而诞生。GPU架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力,并演进出GPGPU,即通用计算图形处理器(general-purpose GPU)以更好支持通用计算,GPGPU减弱了GPU图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用。

GPU因其强大的并行计算能力而广泛应用于人工智能、图像渲染、科学计算等领域。AI、自动驾驶与游戏市场是GPU需求增长的主要场景,其中AI领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理GPU需求快速增长,2021年全球GPU市场规模为334.7亿美元,预计2030年将达到4773.7亿美元,CAGR(2021-2030)为34.35%。

从国内市场来看,2020年中国大陆的独立GPU市场规模为47.39亿元,预计2027年市场规模将达345.57亿元,CAGR(2020-2027)为32.8%。

全球GPU芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。全球GPU市场被英伟达、英特尔和AMD三强垄断,英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位,英伟达高端GPU占据较大份额(超过70%);国内市场中,景嘉微、天数智芯、壁仞科技、登临科技等企业基本处于起步阶段。

FPGA,是一种硬件可重构的集成电路芯片,通过在硅片上预先设计实现具有可编程特性,可通过软件重新配置芯片内部的资源来实现不同功能,广泛应用于数据中心、航空航天工程、人工智能、工业、物联网以及汽车等领域。在5G通信、人工智能等迭代升级周期频繁、技术不确定性较大的领域,FPGA是较为理想的解决方案。

报告预测,2020-2026年全球FPGA出货量有望从5.11亿颗增至8.25颗,CAGR为8.3%,FPGA市场规模从55.85亿美元增至96.9亿美元,CAGR为9.6%。

中国FPGA市场2020年的市场规模约150.3亿元,预计2025年中国FPGA市场规模将达到332.2亿元,复合增速为17.2%。FPGA需要由FPGA芯片、EDA软件及IP方案组成的软硬件生态系统共同支撑实现功能,逻辑容量、制程、SerDes速率等关键指标体现FPGA硬件技术水平,FPGA EDA软件工具非常复杂,FPGA软硬件生态系统建立了极高的行业壁垒。

全球FPGA市场主要被赛灵思(AMD)和Altera(英特尔)占据,目前市占率分别为52%和35%;中国FPGA厂商中紫光国微、复旦微电和安路科技在2021年中国的本土市场的市占率超过15%。受益于国产化加速推进,中国FPGA厂商将拥有巨大成长空间。



ASIC芯片,是为特定用途而定制的集成电路,具有高性能、低能耗的特点,专用化程度最高,其特点同时适合AI训练和推理阶段的使用。

目前全球ASIC市场并未形成明显的头部厂商,国产厂商快速发展;国外谷歌、英特尔等公司在ASIC布局较早,已经有较为成型的产品。目前国产厂商海思、遂原科技和寒武纪的产品在整体性能上也与谷歌比肩。未来国产厂商有望在ASIC领域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。

AIGC热潮带动AI服务器需求飙升,也使部分高端存储芯片受益。

本期报告指出,随着AIGC的逐渐成熟,为存储器带来对应显存量的提升。其中包括单台服务器加速卡数量的增长、单张AI加速卡中显存容量的增长;AI服务器中将会有更高的内存满插率及后续CPU新平台有望支持更多的内存模组通道;相比于普通服务器固态硬盘占比有望大幅提升。

在AI服务器中应用的存储芯片主要包括:高带宽存储器(HBM)、DRAM和SSD,针对AI服务器的工作场景需要提供更大的容量、更高的性能、更低的延迟和更高的响应速度。

分品类看,HBM(High Bandwidth Memory,高带宽存储器)是可以实现高带宽的高附加值DRAM产品。HBM将多个DDR芯片3D堆叠在一起后和主芯片封装在一起,有高带宽、低功耗等特点。

以HBM为代表的超高带宽内存技术有力支撑了AIGC开发,而生成式模型也会加速HBM内存进一步增大容量和增大带宽,AIGC发展将带动第三代HBM量价齐升,预计2023-2025年HBM市场CAGR有望成长至40-45%以上,至2025年市场规模有望达25亿美元,市场需求快速提升。

随着中国智能化、数字化、信息化技术的深入发展,各大领域对于高性能储存器产品的需求将持续增长,加之HBM应用领域向智能驾驶、通信设备等领域拓展,HBM需求量将保持较高的增速。

而对于服务器核心存储器,与消费级SSD相比,企业级SSD产品需要具备更快传输速度、更大单盘容量、更高使用寿命以及更高的可靠性要求。

企业级SSD下游客户主要来自云计算,占总市场规模的份额达到67%,企业级SSD将充分受益云基础设施增量。根据Yole数据,全球SSD市场规模在2022年为290亿美元,总出货量为3.52亿块,其中大约5500万块是企业SSD,其余为消费级SSD。预计2028年市场规模会达到670亿美元,出货量为4.72亿块,复合年增长率为15%。

本期报告,集微咨询详细梳理了AI芯片领域国内企业发展情况,指出AI发展的海量数据对数据处理提出极高要求,AI芯片需求快速增长,尽管全球AI芯片市场被英伟达垄断,然而国产AI算力芯片赛道正燃起星星之火。目前,国内已涌现出了如寒武纪、海光信息等优质AI算力芯片上市公司,非上市AI算力芯片公司如沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。

从不同细分市场看,经过多年发展,国产CPU初步形成六大厂商齐头并进格局。“十五”期间,国家启动发展国产CPU的泰山计划,863计划也提出自主研发CPU。2006年核高基专项启动,国产CPU领域迎来了新一轮的国家支持。鲲鹏、飞腾、龙芯、兆芯、海光、申威等一批优质国产CPU企业再度启航。