百度沈抖：大模型谁先用起来，谁就抢占先机

2024-09-26 来源：中国电子报、电子信息产业网

952

关键词：百度智能云大会大模型技术变革产业变革云计算基础设施企业增长机会 GPU集群计算时代规模高密互联运维硬件故障算力平台模型训练稳定性有效训练时长模型推理长文本推理用户体验成本大模型工具链应用开发平台企业级应用竞争优势生产力场景增长机会

9月25日，在百度智能云大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，过去的一年，是大模型从技术变革走向产业变革的关键一年。大模型与云计算紧密结合，正在成为新型的基础设施。这样大范围的基础设施升级将带来生产力的巨大跃迁。大模型给每个企业提供了平等的增长机会。不管企业大小、场景多少，谁先用起来，谁就抢占先机。

1834年，第一台现代发电机诞生；到1882年，美国建成全球第一座现代电厂；再到电力成为全球性的能源基础设施，用了大约90年。1969年，阿帕网连接了四所美国高校，到互联网成为全球信息基础设施，只用了大约30年。而大模型及其相关系统，在短短几年内，正在迅速成为为新一代的基础设施，这次变革的速度前所未有。

如何在这场变革中抓住机遇、引领未来？“相信不少人都听说过‘万卡集群’，但深入了解的应该不多，而真正用得上、用得好的，就更少了。其实，GPU集群完全不同于传统的CPU集群，开启了全新的计算时代。”沈抖表示。

简单来说，GPU集群有三个特征：极致规模、极致高密和极致互联。这些“极致”带来了两个方面的严峻挑战。一方面是巨额的建设、运营成本，要想建立一个万卡集群，单是GPU的采购成本就高达几十亿元；另一方面，在如此大规模的集群上，运维的复杂性急剧增加。

“我们知道，硬件不可避免地会出故障，而规模越大，出故障的概率就越高。”沈抖分析说道。他举了个例子，Meta训练llama3的时候，用了1.6万张GPU卡的集群，平均每3小时就会出一次故障，而这些故障绝大多数是由GPU引起的。实际上，GPU是一种很敏感的硬件，连天气、温度的波动，都会影响到GPU的故障率。

“这两个挑战迫使我们重新思考如何构建、管理和维护这样庞大而复杂的GPU集群，屏蔽硬件层的复杂性，为大模型落地的全流程提供一个简单、好用的算力平台，让用户能够更容易地管理GPU算力、低成本地用好算力。”沈抖表示。

过去一年，企业用户模型训练需求猛增，需要的集群规模也越来越大。与此同时，大家对模型推理成本的持续下降的预期也越来越高。这些都对GPU管理的稳定性和有效性提出了更高要求。

“进入规模化训练阶段，最重要的就是稳定性。”沈抖指出，“大模型训练是一个庞大的单一任务，需要齐步走。一个点出错，整个集群就得停下、回滚到上一个记忆点。而GPU机器又很贵，每停一分钟都是白白烧钱。这就是为什么‘有效训练时长’这个指标很关键，它指的就是机器真正在工作的时间的占比。在万卡任务上，百舸4.0可以保障有效训练时长占比达到99.5%，远高于行业内公布的相关指标。”

模型训好了之后就是推理，也就是模型在各个场景被用起来的阶段。在这个阶段，最重要的两件事是速度和成本。前者决定用户体验，后者决定性价比。而且，现在长文本推理逐渐成为主流，这两个问题会越来越突出。

“模型在推理的时候，它需要把你的问题都转化成token，算一遍之后才能开始出第一个字。而且这不是一次性的计算，每生成一个字都需要和前面所有字去做注意力计算。虽然这整体上是个串行过程，但通过架构分离、KV Cache、负载分配等一系列加速工作，百舸4.0整体上提高了推理效率，降低了成本，让长文本推理效率提升了1倍以上。”沈抖介绍称。

同时，他指出，大模型应用的爆发，离不开便捷、高效的大模型工具链和应用开发平台。百度官方数据显示，目前，在千帆大模型平台上，文心大模型日均调用量超过7亿次，累计帮助用户精调了3万个大模型，开发出70多万个企业级应用。“这条陡峭的曲线，不仅反映了千帆平台上大模型的调用量，也是过去18个月整个国内大模型产业发展的一个缩影，但这只是一个序幕。”

“过去一年，尽管充满不确定性，但我们已经看到了一个确定的未来。那就是大模型正在加速深入生产力场景，成为企业获得竞争优势的关键要素。”沈抖表示，“我们相信，大模型给每个企业提供了平等的增长机会。不管企业大小、场景多少，谁先用起来，谁就抢占先机。”

行业动态

思特威推出3MP高性能车规级CMOS图像传感器新品SC360AT

首季增长5.4%，中国经济乘风破浪向前行

英飞凌XENSIV传感器技术：协同创新与场景化应用探索

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产