首页>>新闻资讯>>行业动态

传统数据中心如何快速适应大模型算力需求

2024-08-07 09:13:43 13

随着人工智能技术的蓬勃发展,我们正步入一个以数据和算力为核心的新时代。AI的广泛应用,从智能驾驶到精准医疗,从金融风控到智能制造,无一不依赖于强大的计算能力。然而,这一技术进步也对我们的数据中心,提出了前所未有的挑战。

传统数据中心,曾为云计算、互联网服务提供了坚实的后盾,但在AI算力需求的浪潮面前,它们显得力不从心。高功耗、高密度、高效率已成为数据中心新的标签。如何快速适应这一变革,如何将传统数据中心转型升级为智算中心,成为我们亟需解决的问题。

浙江吉利智算信息科技有限公司副总经理 张国林

近日,由CDCC和益企研究院主办,OCTC开放计算委员会协办,隆高展览(上海)有限公司承办的“2024中国智算中心全栈技术大会、第5届中国数据中心绿色能源大会”在上海闭幕!CDCC专家技术组委员、浙江吉利智算信息科技有限公司副总经理张国林先生通过自身实践,带来了主题为《传统数据中心如何快速适应大模型算力需求》的精彩分享,探讨数据中心的转型之路。

传统数据中心基础设施与服务定位

在AI算力需求迅速增长之前,传统数据中心的设计建设主要服务于大型互联网企业、金融企业等,它们对数据中心的需求主要集中在云服务、生产制造业务、金融交易业务和游戏业务等方面。这些数据中心的基础设施建设主要以3-5kW机柜为主,少数高功率机柜主要承载高功率的交换设备。

尽管传统数据中心的设计建设在当时已经相当先进,但随着AI技术的发展和大模型算力需求的增长,这些数据中心面临着新的挑战和转型需求。未来的数据中心将需要更高的功率密度、更高效的散热解决方案以及更灵活的扩展能力,以适应不断变化的技术环境和业务需求。

AI时代的需求升级数据中心面临的挑战

自2022年起,AI业务的迅速崛起对数据中心提出了新的挑战。GPU服务器的快速部署,尤其是英伟达A100和H100系列,其单卡功耗分别达到400w和700w,算力与功耗基本成正比。大模型训练往往需要千卡以上的集群,这对数据中心的供电和散热提出了更高要求。

在数据中心的网络架构选择上,RDMA组网因其较低的耗材和交换设备成本,成为单机柜部署的首选,只需单机柜能够提供至少7kW的配电和散热能力即可。然而,对于成本更为高昂、耗材采购更为困难的IB组网,为了有效降低成本,数据中心需要将计算节点部署得更近,以便于大量使用成本较低的铜缆连接,这就要求机柜必须具备更高的功率承载能力,以适应更密集的计算节点布局。

转型加速数据中心的快速改造

在当今快速发展的人工智能领域,对智算中心的需求日益迫切。然而,新建一个智算中心是一个漫长而复杂的过程。从工程可行性研究、项目立项、设计到施工实施,整个EPC过程大约需要18至24个月的时间。即便在拥有专业设计团队、快速设备招标和专业施工团队的情况下,从土建工程开始到项目完工并具备交付条件,通常也需要大约一年的时间。这一周期对于需要迅速响应市场变化的AI业务来说,显得过于漫长。

面对AI业务需求的快速增长,新建智算中心的长周期显然不适应当前的业务上线速度。因此,业界更倾向于对现有的数据中心进行快速改造,以适应AI服务器的需求。传统数据中心通常采用5Kw或更低功率的机柜,并大量使用封闭冷通道或热通道的送风方式。这些设计在面对功耗达到10Kw甚至20Kw以上的高功率机柜时,便显得力不从心。传统供电和供冷方式难以保障服务器的安全运行,尤其是在机柜集中产生大量热能时,原有设计的风量循环很难及时散热,容易形成局部热点。为了解决这一问题,改造通常包括更换列头柜并采用列间空调,以快速重新布局封闭通道内的机柜,同时尽量保持原有的桥架系统不变,实现快速且经济的升级改造。

实践案例改造策略与成效

吉利智算的改造项目中,智算部分的改造专注于部署GPU集群以支持大模型训练,主要设备包括A100、A800、H800等高性能GPU,目前改造已完成,成功上架3000余卡。HPC超算部分则采用了冷板式液冷机柜,为HPC计算集群提供高效的散热解决方案,现已稳定运行超过18个月。

改造工程里,通过引入水冷型列间空调,确保了高功率机柜的冷量供应,同时拆除了部分房间级精密空调,并对地板下的静压腔进行了调整,以维持正常风压并作为备用冷源。在设计上,充分考虑了GPU计算集群在2^n拓扑下的高效率,单条通道配置了8个高功率机柜和2个5Kw标准机柜,优化了交换组网的布局。HPC计算集群则通过冷却水主管开孔建立一次侧循环,并采用去离子水循环和CDU换热模式,进一步提高了能效。

吉利智算的改造工程以时间短、不破坏原建筑结构、节能和低成本为特点,体现了高效和经济的改造理念。吉利科技(长兴)数据中心的改造成果包括7Kw标准机柜、25Kw高电机柜、70Kw超高电机柜以及浸没式液冷机柜等多样化产品,不仅满足了当前AI算力的基础设施需求,也标志着数据中心从传统向智算的成功转变。

数据中心的转型是应对AI算力需求的必然选择。通过快速改造和技术创新,传统数据中心能够焕发新生,满足AI时代的需求。吉利智算的实践,为行业提供了宝贵的经验和启示。

「IDCE数据中心展」致力于通过展览、会议、新产品新技术发布等多种形式,助力企业提升其行业地位、品牌价值、知名度、美誉度,捕捉更多市场机会,建立商业合作,推动数据中心产业低碳化、绿色化、智能化、高质量融合发展,助力实现碳达峰、碳中和目标。

微信公众号搜索“ IDCE数据中心展 ”了解更多内容

返回搜狐,查看更多

责任编辑:

相关标签:

发表评论:

评论记录:

未查询到任何数据!