欢迎访问深圳市中小企业公共服务平台电子信息窗口
AI将成就RISC-V,就像当年手机成就了Arm
2024-08-20 来源:国际电子商情
950

关键词: AI RISC-V 芯片

今年的滴水湖中国RISC-V产业论坛有一大半时间都在谈AI,现场甚至还有基于RISC-V的AI PC处理器展示。AI对RISC-V而言意味着什么?

每年的滴水湖中国RISC-V产业论坛(以下简称滴水湖论坛),都是观察RISC-V生态发展情况的窗口。今年,除了戴伟民(中国RISC-V产业联盟理事长;芯原股份创始人、董事长兼总裁)照例宣布了去年参与论坛的10款芯片产品已经有9款量产或大规模出货以外,或许有两个比较重要的依据,可作为观察RISC-V生态现状的参考。

其一是林豪(重庆物奇微电子股份有限公司CTO)提到,作为全系产品基于RISC-V架构的一家企业,物奇微电子2017年首款芯片问世,2019年达到千万级出货量,今年则预计能够让出货量上亿。这家公司的产品当前着眼于Wi-Fi、蓝牙音频、边缘计算及PLC电力载波芯片。

在我们看来物奇微电子是代表了RISC-V在嵌入式市场典型应用的一家企业,出货量表现的则是RISC-V芯片的快速上量。林豪甚至提到由于物奇当前产品线越来越广,其自研RISC-V架构已经不足以满足不同产品线的不同需求,寻求与业界更多合作伙伴的合作。

其二是今年的滴水湖论坛有一大半时间都是在探讨AI,乃至生成式AI。谢涛(北京大学讲席教授;RISC-V国际基金会人工智能与机器学习专委会主席)甚至说,“PC成就了x86生态,手机成就了Arm生态,而AI成就了RISC-V生态”。并且他还提到今年RISC-V欧洲峰会,AI也成为议程的一大组成部分。

去年的这个时候,我们在探讨“RISC-V为什么能快速入驻HPC应用”。而在AI HPC火热以来,RISC-V在很多人看来似乎已经成为AI未来发展的最佳选择——比如Sameer Wasson(MIPS CEO)就将2020年代,作为技术奇点的生成式AI,及数据驱动的资本投入,最终归结到RISC-V时代的到来。今年4月,RISC-V国际基金会理事会在基金会社区官宣,2024年RISC-V国际基金会顶级关键战略优先级为:人工智能/机器学习、安全、车载。

所以今年的RISC-V新品陈列中,就能看到包含AI SoC、AI CPU在内的RISC-V芯片。这在任何CPU指令集的发展历程中都是相当罕见的:短短四届滴水湖论坛,我们见证了RISC-V在时代洗礼过程中的一路狂飙,AI又为RISC-V这辆跑车提供了一次氮气加速的机会。借着参会企业的RISC-V新品介绍,我们来看看走进AI HPC的RISC-V芯片或技术,现在发展成了什么样。

紧耦合与松耦合的RISC-V AI芯片

谢涛将RISC-V AI芯片分成两种不同的模式。其中RISC-V + AI为紧耦合模式,也就是通过指令集扩展实现AI加速。理论上,Arm Neon, Helium都属于此类紧耦合模式。还有一类AI + RISC-V,以松耦合模式,在RISC-V CPU的基础上,再增加协处理器或加速器——Arm家族的代表应该是Ethos NPU。

恰巧本届滴水湖论坛上,有两款推介的新品代表了这两种模式。其一是可以代表松耦合、来自北京奕斯伟计算股份有限公司的EIC7702X/EIC7700X。

这两颗芯片的CPU部分采用基于RISC-V的64位乱序执行核心SiFive P550——这是个13级流水线、3发射、乱序管线的高性能RISC-V核;并且搭配奕斯伟自研的NPU——也就是专用的AI加速单元。NPU部分达成的Int8算力19.95 TOPS,Int16算力9.975 TOPS,FP16算力9.975 FLOPS。EIC7700X基础款即为上述配置。

据说这是EIC7702X的首次亮相

而EIC7702X,是将两个7700X的die封装到一起,基于die-to-die互联(8-lane 112GBps SerDes);理论上也就实现了双倍性能,典型的AI及浮点性能数字是在前述EIC7700X的基础上翻番。“能够胜任CV类大模型,及最新大模型的推理负载。”

路向峰(北京奕斯伟计算技术股份有限公司智能计算事业部交付中心中心长)介绍说,最高64GB LPDDR4/4X/5内存的支持,集成视频编解码单元等配置,以及引入的诸多“指令优化、数据流优化”,这些“不仅提升了AI性能,计算单元利用率也得到了极大提升”。

以下是路向峰给出这两颗芯片的AI性能数据,在以往典型的CNN网络之外,这张图的右下角也给出了Llama 2-7b模型的推理成绩。“芯片支持的深度学习框架包括TensorFlow, PyTorch等;大模型也在适配中,除了Llama2以外,不久以后还会做更多的适配和支持。”路向峰在演讲中说。

当然这两颗芯片还有3D高性能图形加速、视频编解码及表现出低功耗的特性。尤其视频解码搭配CV类算法和模型应用,令EIC77系列芯片适配较为广泛的应用方向——这些并非本文要阐述的重点,此处不做赘述。奕斯伟定位EIC77系列的应用方向包括边缘计算(如机器视觉、机器人与自动系统、生产安全等)、AI PC、AI加速器。

其中EIC7700X应当是已经开售的,展区有展示其开发板及对应的AI PC产品;AI加速卡则已经在路上。而EIC7702X,作为基于chiplet或MCM的RISC-V芯片,在国产RISC-V芯片中,应该说是相当少见的;而且这还是个RISC-V AI芯片,也就显得更加难得。

另外一款可表现RISC-V AI芯片紧耦合模式的,是来自进迭时空(杭州)科技有限公司的SpacemiT Key Stone K1,标称为“全球首款8核RISC-V AI CPU”。这颗芯片采用进迭时空自研RISC-V智算核X60,8个核心,频率最高2.0GHz;规格表中给出的性能数据是CPU算力 >50KDMIPS;AI算力则标称为2TOPS。

除了自研的X60核心单核算力比Cortex-A55高30%以上,段佳惠(进迭时空(杭州)科技有限公司品牌营销与公众关系总监)也在演讲中强调了22nm的K1芯片,在功耗和效率方面相比竞品的优势;比如同工艺下,比竞品8核A55芯片性能低28%,相比16nm的NXP i.mx93,能效领先1.16倍(KDMIPS/W)。

不过更重要的在于,作为“紧耦合”RISC-V AI CPU,X60核扩展了16条AI指令。段佳惠还将其与Neon做了比较,“相同AI算法,X60指令仅为Arm Neon的~20%”。在开发生态方面,进迭时空的AI CPU自然也接入了全球主流AI推理生态,故而其展位也特别展示了本地LLM(Llama2-7b)的部署和推理;标称为几乎“支持所有AI模型”。

这颗K1芯片的应用领域涵盖NAS、AI PC笔记本、智能机器人、边缘计算、工业控制等——其官网的产品中心也列出了MUSE系列笔记本、开发板和盒子。在产品规划图中,这家公司的Key Stone系列似乎未来还有12核的K2,和更高性能的K3预备走向市场...

可见AI接下来要成就RISC-V生态还是有迹可循的。

AI为什么能推动RISC-V生态发展?

梁中书(达摩院(上海)科技有限公司研发总监)在圆桌环节说:“毫无疑问,RISC-V现在最重要的发展方向就是AI。”他说国内很多企业都推出了支持vector矢量扩展的AI加速实现,“matrix方面也有进展,达摩院就在玄铁CPU系列中加入了对matrix的支持,通过20多条扩展指令实现了单核2TOPS算力”;“紧耦合模式,需要取长补短,推进matrix指令集社区的标准化。”

“而AI大算力的芯片形态应当是松耦合的,RISC-V + AI加速器的组合。”梁中书谈到,“而开发工具链、基本软件库的适配和支持,对实现松耦合AI大算力芯片形态都很重要。”

谈AI绕不开的话题就是英伟达,即便英伟达的AI市场主要在数据中心和训练上。而抛开芯片绝对算力差距不谈,令大部分AI芯片企业感到汗颜的主要是以CUDA为基础的NVIDIA AI软件栈和解决方案。当我们开始探讨基于RISC-V的AI大算力芯片时,即便在推理场景乃至AI PC和更多端侧应用之上,这也是个重要议题。

论坛圆桌环节有个议题是相关AI平板的。彭建英(中国RISC-V产业联盟秘书长;芯来智融半导体科技(上海)有限公司CEO)就提到芯来的超标量乱序核IP具备性能方面的优势,“RISC-V CPU,加上可扩展性,性能上要(在智能数字教育领域)满足需求不是问题,关键是怎么去突破软件,包括底层软件、操作系统、上层应用。”

谢涛给出的数据是,自CUDA诞生以来,英伟达已经为CUDA生态投入了120亿美元;而且目前最新的数据是,CUDA开发者数量已经来到了450万——且基于历史数据,这个值还在快速增长。

其他绝大部分AI芯片市场参与者的软件栈各自为战,生态呈现出“小、散、弱”的局面。硬件架构的分散,指令集的不统一,以及软件生态的碎片化,也都导致开发者在不同生态间的迁移成本很高。即便兼容CUDA是某些AI生态的解决方案,但这“只能解燃眉之急”,“长期仍然受制于人”。

以英伟达CUDA生态相对封闭的特点,谢涛提出历史上能够击败闭源霸主生态的往往是一个开源的生态,就好像Android对阵iOS,Linux对阵Windows一样。而RISC-V指令集本身,恰好是开源的,而且目前已经有了相当的芯片出货量及开发生态基础。

芯原与谷歌携手合作的开源项目Open Se Cura,配备基于RISC-V的环境感知和传感系统,包括系统管理、机器学习与硬件信任根功能…

比较有趣的是,今年WAIC世界人工智能大会上,RISC-V国际基金会理事长戴路说RISC-V是最适合AI的指令集架构;去年我们采访Tenstorrent首席CPU架构师练维汉,他也说RISC-V非常适合做AI计算。这次谢涛给出基于RISC-V构建AI算力优势的解释是这样的:

RISC-V的开放与灵活性必然是第一要素。AI工作负载变化快,梁中书也提到AI负载有其“个性化”,需要优化才能达到最佳效率。而RISC-V的灵活性,决定了可以根据需求来定制AI加速器。练维汉也曾说过,Tenstorrent最早做CPU设计时考虑过Arm,但Arm“限制很多,经常需要去问Arm可不可以这样、可不可以那样”,还会得到否定的答案。

对应的,高度可扩展性也是论坛现场多位嘉宾提到RISC-V适用AI的关键。根据需要添加自定义指令集扩展,增强AI计算性能与效率。前文提到松耦合、紧耦合的RISC-V AI芯片皆可反映上述这两点。另外谢涛还提到了RISC-V的功耗、效率优势,以及作为开源指令集获得全球生态系统和社区支持。

即便当前RISC-V仍然面临着生态碎片化、商业企业对RISC-V产品的资源投入不足、缺少组织统筹,及产学研协同不紧密、未形成有效合力等问题;谢涛认为,采用自下而上的思路,以RISC-V指令集扩展+开源系统软件栈(并推成标准)为“公共开源根”,去利用国际开放/开源社区“长叶”(基于开源根的商业软件/芯片),形成“根技术开源”与“叶技术竞争”的技术生态优势;

加上先从端与边缘AI起步,推动软件生态发展和应用,带动云上软件生态,“农村包围城市”,与现有巨擘抗衡;并依托日益强大的RISC-V软硬件生态,聚焦全球开源工具创新......最终是能够达成Android→iOS或Linux→Windows的竞争格局的。

格外值得一提的是,在谢涛看来Triton(开源的GPU编程语言)和SYCL(和CUDA同层级的跨平台抽象层)是RISC-V AI生态发展的关键——这一点电子工程专辑此前也撰文提过。Triton实现了硬件无关的中间层表示,生态兼容负担小,编程难度相较CUDA更低,“仍能实现接近于CUDA极限生态的性能”;而SYCL被谢涛类比为“编程模型中的RISC-V”(相对的CUDA是编程模型中的x86)。

当然,这就是更为长远的RISC-V AI未来了。

半导体热门技术的最佳辅助

滴水湖论坛现场的产品介绍实际并不单纯集中在AI上,比如基于RISC-V的车规级MCU、工业以太网MCU,乃至FTTR光网络芯片、面向AR/VR的高性能SoC这类相对新兴的应用。

有些类型的芯片还相当颠覆我们的认知,比如说芯昇科技的超级SIM芯片,基于RISC-V的同时,还进行了指令扩展——即便规模相对较小,但也在加速特定算子、形成专用指令、解决具体应用场景的问题上大幅提升了效率。还有珠海笛思科技有限公司的Wi-Fi 6芯片,基于通信+AI融合的思路,其自定义指令集基于RISC-V VLIW和SIMD对无线通信系带领域和经典AI领域算法做了重点优化…

这些其实都能看出RISC-V的灵活性在不同应用领域的呈现,也是非开源的竞品指令集完全不具备的。

去年我们在谈Ventana的RISC-V核心时,曾提到这家公司的独特商业模式:面向AI芯片客户提供基于RISC-V CPU的chiplet。当时我们曾判断,RISC-V的灵活和扩展性,可能会一定程度颠覆IP供应商的市场定位。它让更多的IP供应商不得不开始去做更完整的chiplet方案。

Sameer Wasson在谈当下MIPS的IP业务时,于“满足生成式AI需求”,就演变为从核心、到集群、再到chiplet。而chiplet作为摩尔定律停滞时代的算力扩展解决方案之一,在未来将变得越来越不可或缺。芯原的下一代自动驾驶平台也有类似的思路。

考虑RISC-V的灵活和扩展能力,我们始终认为,在这个芯片设计需以应用为导向的时代里,几个关键要素是共同出现、相辅相成的:异构架构、chiplet、先进封装,以及RISC-V。

从RISC-V作为半导体领域其他几项关键技术的最佳辅助这个角度来看,RISC-V也是摩尔定律停滞时代,持续推进算力和系统性能向前的绝对主力。虽然这个说法有些武断,却正逐渐成为AI时代越来越多人的共识。

即便现在的RISC-V及其生态还面临各种各样的问题,比如陈康(珠海笛思科技有限公司CEO)提到的,PPA相比竞品的竞争力不足、生态碎片化问题令产品移植难度更大、类似三角函数这样的基础指令都尚未标准化——给编译器、工具链和上层应用的构建造成巨大挑战等...相信在RISC-V生态疾速发展的过程中,这些问题都会得到解决。

不单是技术层面软硬件生态的发展,还在于诸如2018年RISC-V产业联盟成立,后续RISC-V专利联盟启动,民办非企业单位“上海开放处理器产业创新中心”筹建,及包括滴水湖中国RISC-V产业论坛、“芯原杯”全国嵌入式软件开发大赛等行业活动的举办都会让RISC-V生态在保持开放的同时,走向健全和完善——而且要知道,这个过程是在短短几年内走完的。