AI大模型训练需要怎样的网络？科大讯飞携手华为树立“以网强算”标杆

2023-11-06 09:14:19 36

来源：极客网

ChatGPT爆火激发生成式AI热潮，掀起 AI 大模型领域的“千模大战”。随着大模型训练愈发深入，所涉及的参数规模愈发庞大，业界发现在提升数据中心算力的同时，强化数据中心运力也至关重要——高运力甚至已成为释放大算力的关键因素！

这不难理解，因为对于单卡GPU等AI计算设备来说，网络I/O能力已经是制约算力充分发挥的短板；当大模型进入千卡万卡集群时代后，大规模系统的算力性能和稳定性自然更加受到网络能力的制约。也就是说，网络吞吐率往往决定AI的算力性能，网络可靠性则决定AI训练的稳定性。

如何破局？在9月20日开幕的华为全联接大会2023期间，科大讯飞携手华为数据中心网络宣布启动AI运力底座联合创新项目，同时分享了双方在数据中心网络领域的合作成果，为业界呈现了一个面向AI大模型场景的高运力底座解决方案及应用实践。

讯飞识别大模型训练三大网络挑战：大规模，高吞吐，高可靠

在千帆竞技的大模型赛道，作为AI龙头企业科大讯飞推出的新一代认知智能大模型，讯飞星火认知大模型已经名声在外。在近期新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》，讯飞星火位列国产主流大模型测评榜首位。而在《麻省理工科技评论》中国发布的大模型评测报告中，讯飞星火更是被评为“最聪明”的国产大模型。

据科大讯飞基础设施总监张骁介绍，在讯飞星火认知大模型的训练过程中，团队识别到AI训练对于网络的诉求可以归纳为三个词：大规模，高吞吐，高可靠。

首先是大规模。AI大模型训练涉及的参数规模动则百亿千亿甚至万亿，这需要AI集群调动各计算节点资源，通过高速网络实现互联互通、相互协作才能完成训练任务。这意味着，无论是节点内部还是节点之间，都需要强大的网络去实现规模组网及高效部署。

其次高吞吐。集群架构下的AI大模型训练场景中会存在负载不均衡的情况，且设备网络规模越大，传统负载方式冲突会越严重。要想充分发挥各节点的强大算力提升AI训练效率，就必须确保网络的高吞吐率。这类似于，要想提高车辆的运行速度，在拓宽道路的基础上，还需要解决堵车的难题。

再次是高可靠。大模型训练是一个复杂的系统工程，从数据准备、模型预训练到模型训练，系统稳定运行十分重要，一旦出现网络故障导致训练中断将代价不菲，因而高可靠的网络基础设施是长稳训练的关键。

“星河”联“星火”，华为星河AI网络加速讯飞星火大模型训练

为了提升AI大模型的组网规模及其部署效率、AI训练效率、AI训练网络可靠性，科大讯飞与华为数据中心网络联合创新，利用后者创新的星河AI网络解决方案构筑一个大规模、高吞吐、高可靠的AI高性能数据中心网络，保障了AI大模型高效、稳定、可靠的训练。

首先，讯飞星火认知大模型采用华为数据中心交换机构建超大规模组网，支持了万亿参数的大规模训练。星河AI网络解决方案采用业界最高密的400GE和800GE接口，可以支持高达18000卡的大规模集群组网。

其次，讯飞星火认知大模型采用华为独创的AI加速器，基于华为独创的全局负载均衡NSLB算法、自动化开局和全栈可视运维技术实现算网实时协同调度，在提高网络吞吐的同时，能将网络有效吞吐从业界的50%提升到98%，将大模型训练效率提升20%（内部测试数据效果）。

再次，讯飞星火认知大模型依托华为独家网络数字地图，使能计算网络一体化运维，通信异常一键诊断，将训中排障效率提升了90%，大幅提高了训练的可靠性。

在高运力底座的加持下，依托在通用人工智能领域的持续深耕和系统性创新，科大讯飞于今年5月6日正式发布星火认知大模型，并在6月9日迅速完成迭代升级，又于8月15日重磅发布讯飞星火V2.0，以惊人的速度实现了AI大模型的快速训练与能力跃迁。

9月5日，讯飞星火认知大模型正式开放全民使用，14小时用户数便突破100万，迅速登上AppStore免费总排行榜第一。如今的讯飞星火认知大模型，已经具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等7大核心能力，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。

强强联合继往开来，引领AI模型高性能、高安全网络创新突破

面向未来，为了抓住AI发展浪潮契机，抢占产业制高点，科大讯飞和华为数据中心网络继续深化合作，共同探索产业发展的新道路。为此，双方在本届华为全联接大会期间正式宣布“双子星计划”，启动AI运力底座联合创新项目，共同打造面对AI大模型场景的最佳数据中心网络解决方案。

根据计划，科大讯飞和华为数据中心网络、华为网络安全将继续携手在AI高性能网络的快速部署、极致吞吐、高效运维、安全可靠等四个方向上寻求突破。三方将凝心聚力，共同推动AI大模型创新变革，为AI大模型接入访问保驾护航，通过行业实践和验证加快AI产业化落地，引领社会发展的新进程。

例如，随着越来越多用户通过各种智能应用接入访问AI大模型，面向智算中心与海量用户之间的高效互联，双方将致力于构建弹性高并发的网络能力，支持弹性多路径调度算法，从而使得网络通信的性能最大化，有效地解决网络拥塞问题，减少网络延迟，提高网络通信的可靠性，使得即使是在遥远的乡镇山村也能顺畅享受AI的魅力。

会上，华为还联合中国信息通信研究院、科大讯飞正式发布了《星河AI网络白皮书》(以下简称白皮书)，阐述了星河AI网络在AI大规模参数计算场景下的广泛应用前景，并从AI业务的发展趋势、网络架构和关键技术创新三个方面展示星河AI网络在人工智能产业的技术领导力，为构建面向AI大模型的高性能训练网络提供参考。

小结：

智能经济是数字经济发展的新阶段。有报告预测，到2030年，全球智能经济的价值将达到18.8万亿美元。对于驱动智能未来的关键要素，业界已基本达成共识：AI大模型将决定智能经济的高度，数据价值挖掘决定智能经济的深度，而运力、算力和存力协同发展则将决定智能经济的厚度。

从中可见，科大讯飞携手华为构筑AI大模型高运力底座，是在面向AI大模型掀起的智能经济大浪潮，“以网强算”加速行业智能化，即以高运力释放AI时代的高算力，赋能千行百业智能化跃迁。相信随着“双子星计划”的深入推进，双方必将能为业界构筑更好的AI大模型高运力底座，加速释放智能经济的巨大价值！

本文地址：https://idcdaohang.com/industry/11633.html

发表评论：

评论记录：

未查询到任何数据！