首页>>新闻资讯>>行业动态

AI狂飙时代,数据中心的角色与使命

2025-01-06 13:42:34 5

当今时代,信息科技领域的发展的速度已经远超人们的想象。很难相信就在一年前,AIGC(生成式人工智能)和大模型对大多数人来说,还是陌生的名词。而在今天,AIGC和大模型的相关事物已经开始渗透到经济和社会生活的方方面面。以ChatGPT为首的大模型如同计算机领域的“iPhone 时刻”,以席卷全球的姿态迅速革新了整个信息学术领域与产业格局。

然而,任大模型如何高歌猛进,人工智能的“三驾马车”定律依旧没有变化。数据、算法和算力,仍然是决定大模型生产力水平的基本要素。

特别是对于大模型而言,无论算法和数据怎么变,大规模算力的诉求始终是绕不过去的问题。因此,算力已经成为新型生产力的第一关键要素,在数字经济中扮演着越来越重要的角色。

大模型的相关技术与创新,但凡只要不是纯PPT纸面画饼,一旦涉及到模型的训练与推理,就离不开GPU集群与智能数据中心这样的算力基础设施的支撑。

一般来说,算力集群主要分为3类,即高性能计算算力集群(HPC/超算计算中心)、人工智能计算算力集群(AI计算中心/智算中心)以及通用计算算力集群(云与大数据/传统数据中心)。过去,这 3 类算力集群以烟囱化独立建设模式为主,未来将走向融合建设的模式。比如:HPC+AI 可以极大地提升传统 HPC 的计算效率。反过来HPC也可以反哺AI集群做一些常规AI做不到的事情。

在早些年,传统数据中心以通用计算算力集群为主,主要提供云服务与大数据服务。然而,随着人工智能算力需求的不断增加,近年来的数据中心普遍开始加大人工智能计算算力集群的建设。这使得数据中心逐渐演变成了云服务+AI计算中心或智算中心这样的角色,少部分的数据中心还会额外配有超算等设备。

AI时代,数据中心将会扮演怎样的角色?

今年以来,算力服务市场需求呈现出井喷的态势,一卡难求,一机难求的现象屡见不鲜。众多公司都希望在AI热潮中分得一杯羹。作为曾经通用算力的提供者,数据中心的角色会如何变化?

相关专家们普遍认为,在可预见的未来里,大型数据中心将扮演智能算力的主要提供者角色,企业自建集群或者个人组机极客等形式则会被极大弱化。

与曾经挖矿时代的矿场浪潮不同,大模型时代可能不会有大量“小矿场”的生存空间。除了少部分大型公司,大多数AI相关的中小企业将会依赖大型数据中心获取主要的算力资源。这种集中化的趋势是由AI行业的特性所决定的。

首先,任何AI大模型想要转化为真正的生产力,都必须经过训练和推理两个关键环节。训练阶段是对算力有显著需求的阶段,对显卡性能等各方面的要求也相对较高。

而在推理阶段,则仅需要一张或多张性能较弱的显卡用于模型的部署,就可以持续提供服务。推理阶段对显卡性能的需求通常取决于具体业务类型,但一般来说其算力需求和花费成本相对于训练阶段要低很多,且使用周期更长。

AI大模型所需的训练算力规模通常十分庞大,少则几十到几百张卡,多则成千上万张训练卡。训练显卡的价格也非常昂贵,以一台常见的训练主机A800(80GB显存版本)为例,其整机购置费用通常在100万左右。而一台H800主机的购置费用则可能达到300万左右。相比之下,用于部署推理的显卡费用可能仅为几万一张,即便整机购置也只在5万到20万之间。

对于需要大模型微调的相关业务和应用来说,至少需要数台甚至数十台这样的服务器才能形成基本的生产力。同时在购买主机之后,自建机房,电费,人员,运维,散热等加起来是一笔相对较高的费用,如果想要自建AI算力集群,一两千万的开销也不过刚刚摸到入门玩家的门槛。

这样规模的基础设施,对于绝大多数中小企业都是一笔非常高昂的资产投资,通常会慎之又慎,如果长期持有还需要考虑到各种各样的风险。

另一方面,中小企业对于训练的诉求,通常是非持续的(部分以AI为主的初创公司除外)。比如某个公司新开拓了AI业务,在该业务没有成熟的前六个月,对训练的需求是相对较高的,可能会需要十几台主机进行模型的训练微调,以及探索试验。

但是在业务相对稳定之后,对于训练主机的需求就会大幅度下降(如果没有进一步开拓新的AI业务的话),可能只需要留下三四台训练机器进行常规的迭代与探索,多余的主机往往就会闲置。如果没有足够的AI业务支撑,自建集群花费的高昂费用就很容易因为闲置而浪费了。

这一点与传统数据中心所提供的云服务租赁还不太一样,传统云服务不存在AI模型训练-推理这样的算力需求周期。中小公司哪怕自建机房,也都是和其公司需求相吻合,大多数时候不会有太多的资源空置期。同时这些机器的购置成本和维护成本也远低于AI算力的对应成本,对中小公司来说,投资并不大,完全可以接受。

所以对于大多数涉足AI业务中小企业来说,他们没有能力优化并且长期良好维护开支巨大的AI集群。同时由于规模化效应的存在,大型数据中心维护大批量AI算力主机的成本要远低于企业自建集群。

因为大型数据中心可以同时大批量购置设备,并管理维护,建造散热的场地与相关设备,对机房进行专门的能耗优化和规模化管理。相对来说整体成本会低上很多。

规模化管理的数据中心的好处并不止节省设备成本。当前,无论是自建机房还是商业数据中心大多还是采用传统的计算、存储、网络分层多级架构,每一层都独立围绕 CPU、内存、总线、硬盘等组件构成的完整计算机系统。该架构普遍存在三堵“墙”问题,即:内存墙、I/O 墙和算力墙。这些“墙”也造成了数据访问和搬移速度瓶颈,且限制了大规模分布式计算水平的扩展。

而新一代的大型数据中心,主机与服务都建设在同一物理空间内,内部分布式系统的网络传输成本极低,并且可以单独建设相关专线,保障传输速度。这种架构在分布式训练等相关领域拥有极大的优势。

显而易见,在今后的AI算力领域,一般企业将会越来越依赖大型数据中心提供的算力支撑服务,数据中心这一服务形态毫无疑问是AI时代主要的AI算力提供者。

低耗能与低碳-AI时代下数据中心的新挑战

根据《智能世界 2030》报告预测,对比2020年,2030年左右通用算力将增长10倍,人工智能算力将增长500倍,今后算力需求十年百倍的增长将成为常态。数据中心作为人工智能、云计算等新一代信息技术的重要载体,堪称新时代的“数字基建”。

但这并不意味着数据中心未来的发展会一片坦途。相反,一样有亟待解决的各种挑战。一边是算力需求以远超摩尔定律的陡峭曲线增长,而另一边却是多重的资源约束。

当下,已经有越来越多的大模型会在其论文中注明训练造成的碳排放是多少。随着单芯片摩尔定律的失效,以及全球可持续发展目标下对于碳减排的要求,未来的数据中心必须满足在更优秀的计算架构以及更低的能耗下产生更大的算力。

随着数据中心规模的不断增大,数据中心耗电量将持续攀升,使得数据中心在散热,供电等方面面临越来越多的挑战。

首先,在供电方面,当前数据中心的绿电使用率普遍还不高,并不符合双碳潮流,而且为了保证可靠性,数据中心对电网利用效率普遍较低,加上电损耗环节较多以及大量 使用柴发备用电源等问题,导致数据中心对电力的有效利用率普遍不足80%。

其次,在制冷散热方面,当前数据中心普遍依靠压缩机制冷,制冷效率低下,并且静态的制冷架构难以匹配算力快速变化的需求。AI时代,传统风冷设备在能力上已经捉襟见肘,其单位密度下的散热速率已经逼近物理极限。

另一方面,散热成本也越来越高昂。据相关数据统计,数据中心总耗电量在ICT行业的总成本中占比超过80%,其中用于降温散热花费的成本就超过了一半。

目前多个国家和国际组织都发布了数据中心相关政策,对能耗,散热,环保等方面作出了明确要求,逼迫传统数据中心在新时代进一步加速转型与变革。

如美国政府通过DCOI数据中心优化倡议,要求新建数据中心PUE值低于1.4,老旧改造数据中心PUE值低于1.5。欧洲数据中心运营商和行业协会在《欧洲的气候中心和数据中心公约》中宣布2030年要实现数据中心碳中和。

我国也在大力推动相关工作,促进数据中心绿色可持续发展,加快节能低碳技术的研发应用。有关部门要求到2025年新建大型数据中心的PUE值低于1.3。未来,随着各国相关政策的陆续出台和技术的持续发展,越来越多的先进节能技术将更广泛地应用到数据中心,推动PUE的进一步下降。预计到2030年,PUE将进入1.0x 时代。

因此,为保障数据中心行业的可持续发展,首先需要提升能源使用效率,提升绿色电力的使用水平。越来越多的数据中心开始从根本上大规模改造电力和冷却基础设施,引入更加环保与节能的技术,例如在AI服务器的机房内引入浸没式液冷等技术,对整个数据中心的全新的风冷热管理。

亦或者在传统制冷技术的基础上,探索海底数据中心等新型运营模式。通过利用大自然的天然冷源,更加高效的为数据中心降温节能,实现数据中心的绿色零碳目标,满足社会发展的需要。未来随着风光水等清洁能源使用占比的不断增加,数据中心的碳排放将进一步降低。

除了降低自身碳排放之外,数据中心还可以为其他行业的智能化转型赋能, 成为全社会降碳的赋能器。充分利用大语言模型赋能中小企业,促进数据化,智能化转型,降低各个企业的平均能耗。

数据中心行业未来展望

除了上述两方面的行业趋势,经济和政治动态也对数据中心产业有着举足轻重的影响。

由于经济周期的影响,前几年数据中心整体的资本投资量增长并没有预想的那么迅猛。但是根据DellOro Group最近发布的一份报告,随着超大规模云服务提供商重返扩张周期,企业市场的支出冻结解冻,预计2024年,全球数据中心资本支出预计将反弹至增长11%。

DellOro集团高级研究总监Baron Fung表示:“2023年,全球数据中心资本支出预计近增长4%。尽管人工智能相关投资有所增加,但通用服务器和存储部署的放缓拖累了市场。2023年,虽然微软、谷歌和甲骨文增加了他们的数据中心投资,但亚马逊和Meta等其他云服务提供商却削减了他们的数据中心资本支出。整体而言,我们对2024年的前景更加乐观。新的人工智能应用,如生成式人工智能,将成为云和企业的关键投资驱动力。此外,随着客户向能够实现更高效计算的新服务器平台过渡,通用服务器的需求将在经过长时间的调整后恢复。”

除此之外,地缘政治变化和相关的新兴出海市场也在影响着整体数据中心产业的变化。由于美国的最新出口禁令,使得许多AI计算设备短期内进口至大陆会比较困难。一部分数据中心会考虑设立在海外,如新加坡等地,也有一部分数据中心会设立在邻近东南亚和新加坡的省份,比如海南和深圳等地区,这样更有利于获取相关的计算设备。

同时,东南亚是目前势头较好的新兴经济体,也是我国当前较为热门的出海地区。该地区的特点是政治经济多元化,政治与经济的格局都较为复杂,涵盖了广泛的不同类别的政治实体,越南,印度尼西亚和新加坡等国家代表着迥异的市场类型。

将数据中心设立在新加坡、或者我国的海南和深圳等区域,有助于更贴近出海市场,既能获益于国内丰富的开发人员和产业链加持,也可以更好地快速响应东南亚的网络服务和业务需求。

整体而言,随着大型AI模型的崛起,算力需求水涨船高,在这波浪潮中,数据中心的角色将会愈发关键,成为新兴技术与产业的重要支持者。数据中心相关企业既要抓住历史机遇,满足巨大的算力需求市场,同时也要积极承担社会责任,以更先进的理念和技术应对能源和环保等领域的挑战。

相关标签:

发表评论:

评论记录:

未查询到任何数据!