"OpenAI 最差的决定就是没有开放它的大模型。" 著名科技预言家凯文 · 凯利在 2024 年最新演讲中强调开源对于 AI 发展的重要性。
华丽的数字背后,离不开计算产业的鼎力相助,尤其是开放计算功不可没。如今," 开源大模型 + 开放计算 " 的黄金组合,正深刻影响着 AI 和计算产业的发展方向。正如浪潮信息服务器产品线总经理赵帅所言:"AI 时代,开放计算重要价值在于应对多元算力挑战,通过产业协作来促进 AI 的 Scale 和创新。"
01
AI 重构计算产业
2020 年,大模型训练 Scaling Law 黄金规则的提出,拉开了 AI 对于计算产业深远影响的序幕。
所谓 Scaling Law 黄金规则,即大模型增加参数量、数据集和计算量,就可以得到性能更优的模型效果,当模型规模达到一定阈值,就会出现智能涌现。例如,Meta 最新发布的开源 Llama 3.1 大模型参数规模高达 4030 亿,能力取得长足进步,甚至在多个方面超越闭源大模型。
Scaling Law 黄金规则意味着 AI 大模型的规模、复杂性、数据量将不断攀升,对于算力等基础设施提出极高挑战。浪潮信息服务器产品线总经理赵帅在 2024 开放计算中国峰会上表示,AI 大模型给基础设施带来了全面 Scale 的全新挑战。
从产品技术维度来看,为应对 AI 大模型的规模性和复杂性,算力等基础设施需要在纵向扩展(Scale up:单系统性能提升)和横向扩展(Scale out:集群规模扩展)方面来解决挑战:纵向扩展通过更强大或更多 AI 加速卡、处理器以及更高速互联通信,来增加单个设备或节点的计算能力和计算效率;横向扩展则通过不断增加计算节点构建大规模集群来满足 AI 大模型的算力需求。
" 以算力横向扩展为例,会带来集群网络带宽、基础设施快速部署、算力资源管理以及高效供电与制冷等一系列全新挑战。" 赵帅如是说," 当前算力的纵向扩展与横向扩展正处于并存迭代、快速发展的过程。"
另一方面,AI 大模型的市场应用迎来关键节点,持续带动更加丰富和细化的算力需求。IDC 认为,中国大模型应用在 2024 年进入到落地期,垂直领域大模型的商业化应用正在加速,尤其是多模态大模型的涌现,应用场景将更加丰富,对于 AI 算力需求迫切且多样。
鉴于 AI 大模型对于算力基础设施带来的全方位需求,仅仅依靠传统产业模式和一两家领先厂商是远远不够的,产业生态的协作与创新成为必然。因此,开放计算则再次被委寄以重望,并在产业协作实践与创新中展现出巨大价值。OCP(开放计算社区)基金会理事 David Ramku 直言," 人工智能的快速增长正在重构数据中心的生态系统,开放计算项目的全球化协作创新模式可以最大限度激发创新活力。"
据悉,过去三年里,OCP 成员数量增长至 360 多家,增幅接近 50%,社区项目和子项目数量超过 40 个。这其中,像 OAM(开放加速规范项目)、开放液冷规范、OpenBMC 等项目在带动 AI 算力产业高质量和推动 AI 创新等方面成果显著。在本次开放计算峰会上,开放算力模组规范 ( OCM ) 正式启动,首批成员包括中国电子标准院、浪潮信息、Intel、AMD、百度等产业伙伴宣布立项,旨在解决 AI 时代的多元算力等系列挑战。
02
OAM:硬件开放的完美价值体现
在大模型的带动下,AI 应用创新速度 " 一日千里 ",也让 AI 加速芯片成为市场中的香饽饽。
但一大批 AI 加速芯片企业、产品涌现,不仅让市场一定程度陷入混乱的局面,也在兼容性、适配性等方面增加用户使用 AI 算力产品的难度。如何实现各类 AI 加速卡兼容、接口标准化就成为破局的关键。因此,OAI(Open Accelerator Infrastructure)项目在 2019 年孕育而生,以解决单个服务器内多元 AI 加速卡形态和接口不统一、高速互连效率低、研发周期长等问题。
在 OAI 项目中,OAM 设计规范发展最为迅速,获得包括英伟达、英特尔、AMD、微软、阿里巴巴、谷歌、浪潮信息等 AI 芯片企业、互联网企业、系统厂商的广泛支持,近年来完美展现出硬件开放的巨大产业价值。目前,OAM 已成为全球最多高端 AI 加速芯片遵循的统一设计标准,全球 20 多家芯片企业支持 OAM 规范标准。
以 AI 系统研发为例,受制于 AI 芯片动辄两三年的迭代升级周期,AI 系统的产品设计难度大、研发周期长,愈发难以满足快速变化的 AI 创新算力需求。OAM 设计规范改变了一切,使得 AI 芯片可以节省研发时间 6 个月以上,并带动以浪潮信息为代表系统厂商的产品创新速度。相关数据统计,OAM 设计在过去几年已为整体产业研发投入带来数十亿元的节省,AI 算力产业创新的难度得以大幅降低,极大满足市场需求。
浪潮信息是业界最早拥抱且深度参与 OAM 规范的系统厂商,并定义业界第一个符合 OAM 规范的 8 卡互连硬件系统,其全球首款支持多家不同型号 AI 加速芯片的开放计算系统 MX1 可让不同的加速器共享统一的服务器,用户可根据需求更换不同的 AI 加速芯片,而无需更换整机系统,大幅降低 AI 使用门槛。去年,浪潮信息发布基于 OAM v1.5 规范的开放加速计算平台 NF5698G7,支持多款基于 OAM 标准的开放加速芯片,推动完善着整个 OAM 产业生态。
" 基于 OAM 的标准化平台,不仅大大加速 AI 芯片的适配兼容过程,还有利于 AI 芯片产品的迭代升级,更让算力部署和使用得以提速,从而快速支撑起大模型和 AIGC 应用的创新需求。" 赵帅介绍道," 明年浪潮信息会基于 UBB2.0 推出交换拓扑,支撑正在开发的数十款 OAM2.0 产品的适配兼容。"
显然,OAM 成为开放计算产业链开放、协作成功的典范。当 AI 浪潮来临之际,OAM 真正以 AI 需求为牵引,通过硬件产品、设计规范和知识共享,实现产业链的高效协作、AI 算力创新加速。例如,当前涌现出越来越多千卡、万卡 AI 集群,但也带来了 AI 大模型训练的稳定性挑战,意外中断的情况频发、有效训练时间不足。为此,浪潮信息、字节等 10 余家企业联合定义 OAM 监控管理规范,兼顾不同 AI 芯片功能特性,完善监控管理数据处理机制,构建分层故障诊断机制,定义标准数据传输协议格式,以降低 AI 芯片训练的故障。
据悉,OAM 规范还在持续迭代,未来基于 OAM2.0 规范的 AI 加速卡将支持 1024 张加速卡的卡间互联,有望突破大模型互联瓶颈。
03
开放算力模组规范 OCM 正式启动
近年来,计算产业因为 AI 算力而受到广泛关注,而通用算力似乎 " 备受冷落 "。事实上,随着 AI 大模型广泛进入各行各业,AI 大模型一方面与 PC、手机、边缘服务器等设备紧密结合,另一方面又与 HPC、数据库、大数据、BI、备份软件等各类应用的深度融合,这一切使得算力范式再次变化,通用算力也需要迎接 AI 的浪潮,承担起 AI 融合的重任。
" 未来不仅仅是 AI 芯片,一切计算皆 AI,通用算力也需要具备 AI 计算的能力。" 赵帅旗帜鲜明地表示。
另一方面,通用算力芯片依然是计算产业中的核心骨干,并呈现出百花齐放的发展态势,x86、ARM、RISC-V 等不同架构的芯片高速发展,让多元化算力的趋势更加明显。另一方面,不同 CPU 协议标准不统一,随着系统功耗、总线速率、电流密度不断提升,导致硬件开发、固件适配、部件测试资源等时间激增,给算力系统设计带来巨大挑战。
赵帅表示:" 应用场景的丰富化、复杂化和快速变化,使得算力平台的迭代速度需要提速。因此,需要一个统一的算力底座,来解决 CPU 计算的效率、兼容和迭代升级等问题。"
因此,本次开放计算峰会上启动的开放算力模组规范 ( OCM ) 受到业界广泛关注。OCM 规范是将过去紧耦合的服务器架构进行 " 分散 ",以 CPU 和内存作为最小的算力单元,通过标准化对外高速互连、管理协议、供电接口等来实现多 CPU 的 " 兼容并蓄 "。
显然,OCM 规范对于开放计算、计算产业的意义重大。有了 OCM 规范之后,算力系统厂商可以加快产品迭代速度,并提升产品研发效率;另外,届时,采用 OCM 规范的算力平台针对不同应用需求,只需更换 CPU 即可,实现算力快速抵达用户,让用户可根据需求变化快速地利用最先进、最适配的算力。
对于 OCM 标准化未来可能带来产品同质化的挑战。浪潮信息认为,标准化必然会带来同质化,但计算产品走向标准化和开放化是大势所趋,既能够让新技术实现快速迭代和落地,又能够让厂商与用户连接更加紧密,更能够促进新技术的产业化。
04
全方位进化,加速 AI 创新
AI 改变世界的 " 进度条 " 才刚刚开始。对于算力基础设施而言,OAM、OCM 等规范的出炉与实践,仅仅是算力范式的进化。面向未来,随着算力需求依然会持续大幅增加,算力还将继续 Scale,必须在运维、管理、制冷散热等方面全方位进化,从而加速 AI 创新。
例如,异构多元算力的发展,必然会带来固件平台分支庞大、适配管理困难等挑战。为此,浪潮信息去年发布了基于 OpenBMC 的 InBry 开放管理平台,经过一年多的发展,实现多种管理规范的统一和多固件分支版本适配等挑战,并建立统一管理规范和在标准接口规范下的异步、自主定制迭代,为 AI 的发展进一步做提速。
又如,AI 芯片功耗的飙升,随着万卡、十万卡规模的 AI 集群越来也多,整个数据中心能耗问题突出。产业链上下游亟需高效协作和推动液冷技术的产业化,让液冷技术走进每一个数据中心。为此,浪潮信息联合产业链合作伙伴制定了四个液冷相关标准,推动 GPU、CPU 等算力组件液冷化,以及模块化标准接口、液冷机柜等,解决未来 AI 集群规模化下的能耗挑战。
" 开放计算对于计算产业未来发展的意义重大。作为产业链一份子,浪潮信息会坚定走开放的路线,并且更加开放、走的更快,拥抱新技术、推动技术产业化,实现与用户、产业链共赢。" 赵帅表示。
相关标签: