智东西(公众号:zhidxcom)
作者 | 杨畅
编辑 | 三北智东西5月27日报道,昨日,华为发布了下一代数据中心理念和数据中心电力模块3.0硬件产品。
华为高级副总裁、数据中心能源军团CEO杨友桂讲述了下一代数据中心主要的四个特征:低碳共生、融合极简、自动驾驶和安全可靠。
而作为华为下一代数据中心理念下的第一款产品,华为数据中心电力模块3.0产品据称可以帮助数据中心供电系统节省占地40%,损耗降低70%,缩短交付周期,SLA故障率下降38%。
随着5G、AI等技术的发展给人类的生产、生活带来巨大的变革,与此同时,这些变化也带来了算力井喷的现象。根据相关预测,未来五年,全球算力的复合增长率将会超过50%,相应地也带来了更多的对数据中心的需求。
华为高级副总裁、数据中心能源军团CEO杨友桂谈道,低碳化时代,数据中心应该多关注各种资源的高效使用和回收。资源使用和回收方面,以一个1500机柜、每个机柜8000W的数据中心为例,这样一个数据中心每年要消耗0.7亿度的电力、89万吨的水,机架使用率却只有50%,每年产生的热量相当于0.8吨的标准煤。
杨友桂说,数据中心本身还面临着多种挑战,数据中心系统建设复杂度也在显著提升,尤其是供电系统、温控系统和管理系统。比如供电系统,一个1500机柜的数据中心可能需要225个配电箱、15万米的线缆,是非常复杂的。
同时,目前的数据中心主要依靠人工巡检,运维效率有限。杨友桂提到一个1000机柜的数据中心就需要15到20人每天巡检6-12次,如果要是上万机柜的数据中心,运维复杂度远超人工管理的能力。一方面人工巡检对数据中心的响应是被动的,当一个故障发生时,有几百个告警同时发出,人工寻找根因,不能适应未来更大型数据中心的需求;另一方面,数据中心中的设备类型多样,巡检人员需要有相当高的专业性,目前是存在人才缺口的。
面对这些问题,华为组织了两场关于下一代数据中心的研讨会,基于研讨会和诺伯特·维纳对人类社会发展的三大基本要素的理解,华为给出了其对下一大数据中心的理解:低碳共生、融合极简、自动驾驶和安全可靠。
1、低碳共生:源头绿色化,多维标准评价,资源全回收
华为认为下一代数据中心的第一个特征是低碳共生,主要涉及三个方面:
一是全绿色,做到源头绿色化,与自然共生。下一代数据中心要规模使用绿电,减少使用火电,全面使用光电、风电和水电;另外要减少清洁水使用,使用中水,甚至做到不使用水;做到土地集约化利用,让每一平方米的土地承载更多的算力;还有就是根据地理气候条件,增加自然冷源的利用。
二是全高效,下一代数据中心的低碳指标不止依靠PUE值评价,要有多个维度,包括碳排放、水资源使用情况等。
三是全回收,下一代数据中心的资源回收利用要最大化,包括余热回收和材料回收。材料回收方面,下一代数据中心要尽量使用无铅材料,回收率达到80%以上。
2、融合极简:架构、供电、温控均极简
杨友桂谈道,下一代数据中心的第二个特征是融合极简,包括三个方面的特点。
第一是下一代数据中心的架构是极简的,包括建筑预制化和机房模块化两点。传统的数据中心是钢筋混凝土式的结构,而下一代数据中心则是建筑预制化、机房模块化,数据中心模块可用在工厂生产,现场组装,将工程变成产品,建设方式从串行变成并行。杨友桂举例说,华为承建的鹏城云脑项目,从设计到交付上线,只花了5.5个月。
模块化的数据中心机房避免了传统攒建式机房分散采购、分散安装等带来的挑战,使PUE更可控。
第二是下一代的数据中心的供电模块是极简的。在传统的数据中心中,供电模块要占到15%到20%的面积,而华为通过将整个供电模块的部件融合、链路重塑,做到供电极简。
第三是下一代数据中心的温控是极简的。在冷源侧,下一代数据中心可最大化利用自然冷源,避免传统数据中心需要四次热交换才能完成将机房内部热量带到机房外的情况,一次完成热量交换。在热源侧,下一代数据中心贴近热源进行智能化升级,高密场景下液冷技术和风冷技术混合部署。
3、自动驾驶:运维、能效、运营均自动
华为下一代数据中心的第三个特征是“自动驾驶”,即可以运维自动、能效自优、运营自治。
运维自动是指下一代数据中心使用AI进行远程巡检,实现运维数字化和标准化。
数据中心的很多设备是哑设备,巡检人员需要有一定的专业性才能完成巡检维护工作。通过AI技术,一个人巡检一个2000机柜的数据中心原来需要花2小时,未来有望缩短为5分钟。数据中心运维数据化和标准化则包括将数据中心可视化和将数据中心专家的历史维护经验云化共享。
能效自优同样用到了AI技术。下一大数据中心通过华为应用云和AI技术,通过700多个采集点实时监测制冷系统运行状态,采用DNN深度神经网络,训练出PUE模型,下发推理平台,基于当前气候条件和IT负载率等情况,推理出PUE最优的调节方式。每当室外环境温度变化超过2摄氏度或IT负载率变化超过5%后,推理平台启动下一轮寻优,5分钟就可以找到最优的控制策略。采用AI技术,数据中心的年均PUE优化效果可以达到5%到15%。
运营自治是指数据中心建设完成后,投运运营时,通过AI技术实现资源优化和能源按需调度。
4、安全可靠:主动安全和架构安全
杨友桂说,华为认为下一代数据中心的第四个特征是安全可靠。下一代数据中心的安全可靠主要包括主动安全和架构安全两方面。安全可靠是数据中心最大的诉求。
主动安全方面,下一代数据中心要实现AI预测性维护和系统自动化故障响应两点。传统的数据中心都是发现事故,再进行处置。通过AI技术,数据中心管理人员可以对数据中心进行AI预测性维护,避免事故发生。或者当事故发生后,下一代数据中心无需等待人工响应,可以自动响应,实现1分钟发现,3分钟完成分析,5分钟实现业务恢复。
架构安全方面,下一代数据中心从器件到整体全方位的做到安全可靠。部件级层面,下一代数据中心可以实现5分钟完成业务恢复;设备层面,多冗余设计,单点故障时可以快速切换到备用设备,实现0毫秒切换;系统级层面,全链路可视乎加上AI技术的加持,可以达到99.999%的可用性。
在数据中心中,供电系统是最重要的子系统,随着IT部分的高密化和集约化,数据中心供电系统的占地面积逼近IT系统的占地面积,电能损耗高达5.5%。同时供电系统现场交付时交付过程错综复杂,设备有多达15家以上的供应商负责,还要现场压制上千条的线缆。在后续运维过程中,供电系统出现问题主要依靠告警驱动式的被动响应,运维效率低。
华为一直在探索电力模块的优化设计,华为数据中心能源军团CTO费珍福谈道,华为基于其对下一代数据中心的探索,推出了数据中心电力模块3.0产品,该产品可以实现省地、省电、省时、省心地助力下一代数据中心建设运营。
1、省地:面积下降40%
费珍福说,传统的攒机方案,1500机柜的数据中心的供电模块需要22个柜,单排10个柜的话,要占2排,约72平方米,而利用华为电力模块3.0产品的话,只需要11柜,单排占地44平方米,占地面积下降了40%。
2、省电:损耗降低70%
华为电力模块3.0可以做到0毫秒切换,有独立的热备份单元和滤波单元,将数据中心供电系统的效率提升3.3%,损耗减少70%,为数据中心节省大量电费。
3、省时:交付时间从2月变2周
另外,华为电力模块3.0可以使数据中心供电系统的交付周期显著缩短。传统攒机方案需要2个月才能完成的任务量,使用预制的华为电力模块3.0只用2周。交付周期加快75%。
4、省心:SLA故障率降低38%
华为电力模块3.0还做到了省心,实现了“自动驾驶”。数据中心的建设只是一个开始,后面还要长达10年左右的运维时间,之前的数据中心供配电系统都是孤岛,依靠人工巡检,存在大量安全隐患。
通过AI技术,借助在电力模块3.0里面部署的大量传感器,电力模块实现了自动预测,SLA故障率降低了38%。
华为发布了下一代数据中心理念和下一代数据中心的第一个重磅产品电力模块3.0,从华为的介绍可以看出,华为的下一代数据中心在低碳和智能化方面有明显的设计。
随着双碳政策的不断推进,作为耗能大户的数据中心不断进行着绿色化转型升级。同时作为重要的智能产业新基建的数据中心本身也在进行着智能化转型,人工智能技术也越来越多地应用在数据中心建设和运维中。
相关标签: