欢迎访问深圳市中小企业公共服务平台电子信息窗口
美国禁止高端GPU“外流”,却也给了国产GPU又一次发展机遇
2023-11-10 来源:贤集网
1223

关键词: GPU 人工智能 芯片

被美国商务部将其列入“实体清单”后,国产显卡大厂摩尔线程表现的十分不爽。

11月6日,摩尔线程创始人兼首席执行官张建中给公司全体员工发出一封信,信中写道:在这个挑战与机遇并存的时间点,我想说的是,中国GPU不存在“至暗时刻”,只有星辰大海。

摩尔线程从始至终只有一项事业:打造中国最好的全功能GPU,我们会将这项事业进行到底,任何事情都不会影响我们坚定走下去的决心。

按照摩尔的说法,加快自主研发与创新。目前他们的已获授权专利数量暂时实现了国内领先,但是距离公司的目标还需更努力。


张建中还表示,要打造高效团队。加强组织管理,聚焦全功能GPU核心技术研发,保持团队高效和敏捷。


国产GPU的发展浪潮

要论国内的芯片热潮,主要是两次发展。第一次是在智能算法和技术加持下的AI芯片,其中包括图形处理器单元(GPU)、现场可编程门阵列(FPGA)以及专门用于人工智能的特定应用集成电路(ASIC)。

不管是早期入门的寒武纪,还是斥巨资入局的比特大陆、云知声等企业,都已经获得了数千万美元的投资,是指近日,有的已经成长为行业独角兽,有的成功上市,还有的被成功并购。

第二波浪潮是在2020年,芯片行业在GPU领域的创业热潮。众所周知,GPU主要被用作图形计算领域,在人工智能技术的加持下,GPU也因为拥有大规模运行并计算的能力而吸引了更多资本的入局,定义了GPU的英伟达就在2021年成为全球市值最高的芯片公司。

在芯片短缺的当下,我国也越来越认识到拥有国产芯片的重要性,于是推出了各种政策支持国产GPU的发展。同时,GPU也比一般科技领域的探索更加烧钱,因此需要大量的资本扶持。目前已经有很多早进入、已有陈品的公司开始和客户一起落地合作,不断完善其软件系统,后成立的公司也在研发过程中积极寻找自己潜在的合作伙伴,在GPU芯片创业浪潮的推动下,芯片的“落地”成为了重要需求。

我国的芯片黄金时代已经来临,国产GPU正在强势崛起,不管是GPU芯片、AI芯片还是计算芯片“新贵”DPU赛道,都热闹非凡。但不管是在那个领域,只有拥有真获赠的技术和拿的出售的产品才能掌握市场的话语权。


CPU+GPU都要才不被卡脖子

2022 年 10 月 7 日美国商务部工业安全局(BIS)发布《美国商务部对中华人民共和国(PRC)关于先进计算和半导体实施新的出口管制制造》细则中管制物项包含高性能 AI 芯片产品, Nvidia A100 和 H100 均在管制行列。在此背景下,Nvidia推出性能阉割的中国特供版芯片A800和H800天价向国内出售,而随着A800和H800的停产,Nvidia将对中国提供进一步阉割的A40和T40。未来在AI芯片,特别是 GPU上这种受制于人的状态势必会对中国 AI 产业提出极大的挑战。因此在国内自主可控的大背景下,国内AI产业对国产GPU芯片的需求也同样迫切。

当代人工智能建立在统计学基础上,是数据驱动型的表现,本质是在AI芯片上运行算法计算海量数据,训练AI模型,推理结论。在人工智能领域,AI芯片可以分为大概分为GPGPU、FPGA和ASIC。GPGPU芯片采用统一渲染架构,计算通用性最强,可以适用于多种算法,在很多算法前言的领域,GPGPU是最佳选择。 GPGPU服务器占据86%的市场份额,在人工智能的计算市场销售额占比最大,其中Nvidia约占96.1%。FPGA是一种半定制芯片,对芯片硬件层可以灵活编译,缺点是当处理的任务重复性不强、逻辑较为复杂时,效率会比较差。ASIC是一种为专门目的而设计的芯片(全定制),是根据特定算法定制的芯片架构,针对特性算法算力强大,但算法一旦改变,计算能力会大幅下降,如:基于神经网络算法与加速的 NPU。

根据参与运算数据精度的不同,可把算力分为双精度算力(64位,FP64)、单精度算力(32位,FP32)、半精度算力(16位,FP16)及整型算力(INT8、INT4)。数字位数越高,意味着精度越高,能够支持的运算复杂程度就越高,适配的应用场景也就越广。在需要处理的数字范围大而且需要精确计算的科学计算、工程计算领域,都需要双精度算力(FP64)的支持;在AI大模型、自动驾驶、深度学习等人工智能模型的训练领域,一般需要单精度算力(FP32)的支持;而像数字孪生、人脸识别等利用训练完毕的模型进行推理的业务,适用于半精度算力(FP16)或者整型算力(INT8、INT4)。



我们国产的GPU厂商,包括GPGPU架构的海光、天数智芯壁仞科技、摩尔线程等,其中海光是目前唯一一家大规模量产出货且规模应用的GPGPU芯片,能实现64位双精度、32位单精度、16位半精度和8位整型算力的全面覆盖;另外就是NPU架构体系的华为、燧原、寒武纪等。而不同架构体系对精度的实现也是不同的:

GPGPU芯片一般会布局大量的双精度和单精度的计算区域,同时也覆盖到半精和整形算力。GPGPU的算力精度涵盖较广,应用的领域也更广泛,整个产业的生态相对完整,但是芯片设计相对比较复杂,前一阵美国限制向中国出口的AI芯片也是高端的GPGPU芯片。

NPU的优势是大部分时间集中在低精度的算法,芯片算力一般以半精度算力(FP16)和整型算力(INT8、INT4)为主,擅长处理视频、图像类的海量多媒体数据,不涉及高精度算力应用的领域。因此NPU芯片主要是覆盖低精度,应用领域比较受限,特别是很多NVIDIA的业务如果迁移到NPU环境下,在需要大量的迁移适配工作的同时,也会面临模型迁移后而遇到的算法和引擎识别精度下降的问题。

值得注意的是,现阶段AI应用中,大量的算法、模型、库、开发框架、软件和应用都基于通用加速卡架构开发出来,且具备较高的成熟度。在国产AI产业发展之路上,随着超大规模预训练模型对算力需求的持续攀升,使用GPGPU的通用架构对Nvidia进行替换和业务模型的高效便捷移植,建设CPU+高精度通用GPGPU的算力中心,是自主可控发展的必由之路。


软件是更高的壁垒

比起硬件性能上可接受的差异,软件适配与兼容让客户接受更难。

当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。

从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,“慢”是企业最不愿意看到的场景。

此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

因为算力资源常需要以池化的形式呈现,数据中心通常更愿意采用同一种芯片,或者同一公司的不同芯片,来降低算力池化难度。

对客户而言,把国产AI芯片用起来并不容易。

算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。

摩尔线程有着自己的全功能GPU芯片,且推出了AIGC平台,李丰告诉36氪:“最难的是生态的建立,我们要兼顾很多的生态兼容性。

先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。

如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪:“没有CUDA ,调用GPU的代码会写到地老天荒,不可能所有的东西都自己写。”

尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力。大多会选择兼容CUDA架构,来降低客户使用门槛。

也有部分公司会选择自研加速器,如寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。

即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。

目前世界上主流的深度学习框架都有基于CUDA进行加速的,整个产业中下游软件、驱动厂家等都基于此进行适配。这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和window操作系统+上层应用软件一样。

对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否客户更换的意愿很低。

祥峰投资管理合伙人夏志进也告诉36氪:“软件生态是好用不好用的问题,没有CUDA会提高门槛,不是不可以用,只是需要花很多额外的功夫。”



芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。

即使英伟达,为了更好发挥硬件的功效,对于大客户也会提供一些人力,帮忙做软件适配调试,软硬两方仍需要针对客户做部署、调试。

对性能要求较高的大厂,还会设置专门的软件部署师对硬件进行适配,来发挥硬件的最大性能。这也是很多手机厂商会自研芯片来更好适配产品的原因。


共建生态,寻求解法

目前,国内从业者已经在构建生态上做努力。

在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配,互相支持。

硬件对上层软件的支持情况,必须代码写出后,有人一步步躺坑,才能知道问题所在,改进硬件对软件的支持效果。

一家C轮应用型软件公司告诉36氪,自己需要对不同类型、不同版本的基础软硬件进行适配,每年花在适配上的支出超出千万元。

百度飞桨已在推动和国内芯片适配。

2022年4月时,百度飞桨已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。

目前,昆仑芯和飞桨完成3级兼容性适配,登临科技和飞桨也完成2级适配,沐曦集成电路和飞桨完成1级兼容性测试。

近期,华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示,沐曦之前也已加入昇思MindSpore社区。

另一个大模型领域重要玩家,智源研究院,其九鼎智算平台也在和多家国内AI芯片公司合作。

未来,大模型训练对算力的需求会越来越大。比如,科研场景或训练视频类信息,都需要更大的算力支持。

英伟达等厂商也会不断追求研发更高性能的芯片,海外企业可以购买英伟达算力更高的芯片,推动大模型训练。比如,微软已经和宣布加强和英伟达和合作,将GPU 从此前的 A100 升级到 H100。

参战大模型竞赛,算法、算力、数据环环相扣。在最卡脖子的环节,如何缩小GAP,成为一个求共解的命题。