首页>>新闻资讯>>行业动态

Datacenter2020:数据中心节能研究(全)丨数据中心节能改造项目

2023-09-04 14:41:47 38

点击上方或扫一扫关注⬆️

本文是Intel和T-Systerm联合实验室的研究成果。基于一个实验室进行了一些列的节能研究,可以给我们几点启示:

1、数据中心室内侧节能研究方法

2、数据中心室内侧节能方法

结合本文一些研究结论,笔者也从自己的经验谈谈数据中心室内侧节能的重点和关注点:

1、选择冷热通道隔离,是必要且必须的步骤,这是成本最低,效果最好的节能模式。有钱的可以高大上,自动感应通道门、自动开合天窗、全套智能监测系统......;没钱的起码也需要用一些简易、安全的材料封住冷或热通道。

2、当你做到冷、热通道隔离,也就意味着你有很大的空间提升设备入口温度。在一个空间级冷却中,没有冷、热隔离,没有良好的气流组织。

空调回风温度=环境温度要求=设备入口温度。

然而,这是必要的吗?在以往,很多人都会觉得数据中心局部很冷,那是因为送风温度很低。可是,一个混乱的空间级冷却,要保障设备入口温度满足要求,你不得不让空间的整体环境温度=空调回风温度。但让冷、热通道隔离后,空调出风→冷通道→设备→热通道→空调回风,形成了一个明确的通道和循环。温度控制的核心是保障设备的入风口温度满足设备常温工作设计工况,那么这里当你设置出风控制时,空调出风温度≈冷通道温度,而空调回风温度≈热通道温度。无形中,提高了空调的工作工况,让空调系统更加节能。当然,对于服务器设备,当前的研究还在向进一步提高到入口温度35℃进发,这方面的节能诱惑了很多互联网企业。

3、合理布局、合理的气流组织,让你的系统更“顺滑”。在大家没有关注气流组织,没有冷热隔离之前,很多数据中心气流实际是一团糟,有的区域过热、有的区域过冷、冷量浪费、气流短路、回流......各种各样的问题。解决方式呢?哪儿热,哪儿加空调,导致整个数据中心实际配置的空调总冷量远远超过总负载,这种解决方式,解决了局部的问题,却造成的是大量的浪费。因此,精细化的气流组织分析非常重要。前几天,分享了一本书,名字直译是“把数据中心当做一台计算机”,这里也借用一下这个意思。对于一个数据中心,我们在做系统设计时,也应该向对待计算机一样,需要进行详细的布局、散热设计,利用仿真工具对方案进行优化,确保:在冗余要求下,不浪费一点冷量,不放过任何一个热点

4、高集成度、高功耗是电子设备发展不可逆转的趋势,同时如研究所述,采用高功耗设备也是一种节能方式。

5、精细化的温度控制一直是数据中心室内侧研究的重点,然而成本和收益之间,可能成本优先。

6、数据中心温度控制逐步和设备设计温度统一。例如,服务器在进行设计时,长期工作温度35℃,而数据中心定义的温度18℃~27℃,都低于35℃。现在一些互联网企业逐步提升温度,以此获得节能收益,其实这样的“温度统一”在理论上是没问题的。

7、对于地板下送风,地板下高度问题,真正的研究成果很少,在规范和实践中,为了保证地板下能形成“静压箱”,有了最低高度的限制,但这个高度、是否能保障“静压箱”的效果,其实可能和很多因素有关,例如空调、设备布局;例如空间面积。在实践中,认为越高,可解决到单机架功率密度越大,但到底是什么关系,有些仿真的研究结果,但不多,也不够有充分的说服力。

以上是临时想到的一些,欢迎大家深入讨论。

下面是前面三篇文章的整合,大家可以放在一起连贯的看看。

一、数据中心节能方法研究

实验室概况:

1、大约180台架式服务器

2、大约1800个数据点记录诸如湿度、室温、进出气温差、处理器负载和风扇转速等参数。

3、电量测试仪器

4、烟雾发生器,可以监测气流。产生的烟雾使气流的方向和速度可见。

在数据中心,气流组织起着至关重要的作用。实验进行了各种各样的测试,比如对冷通道封闭的测试。根据设定的温度、湿度和CPU负荷,测试人员可以对冷冻水供水温度、风机转速等参数进行优化。

第一次测量是通过模拟当前正在运行的数据中心的条件及其所有故障。这种环境产生的PUE值约为1.8。

启动条件:174台服务器@ 100%负载= 42 kW

8个机架,5kW/Rcak

实验设置:

1. 地板、机架安装及线缆走线存在较多的冷气流泄露

在数据中心,气流组织至关重要。必须清楚地将冷气流与热气流分开,同时避免气流回流,即不冷气流不经过发热设备就回到空调。

2. 服务器设备转速设置到最大(100%),确保尽管地板缝隙及线缆出口上有泄漏,也有足够的冷量到达冷通道。

3.负载限制在大约5 kW /架(8架共有174台服务器)或2 kW / m²。

4. 地板下入口温度(空气)设置为18℃。服务器的入口温度在22℃左右。

5. PUE代表年度平均值,DataCenter 2020的专家为冷水机组设立了一个数学年度模型,以此进行计算

在这些条件下,测量的PUE值约为1.8。

优化步骤:

1、改进气流泄露

设备安装假面板、密封地板间隙

采取的第一步是密封,防止不必要的冷气流泄露。通过密封地板间隙(例如,电力电缆通过的地方)和在机架(服务器机架单元之间)中使用假面板来消除泄漏空气。

2、调整空调风机转速

调整空调风机转速

基于将地板下压力降低到可能的最低要求,从而确保整个机架高度的进气口温度保持足够。通过降低空调风扇速度来达到这一目的。由于风扇现在旋转得更慢,因此消耗的能量更少,PUE值从1.8下降到1.55。

3、气流隔离

在这一步中,采用了严格的冷热气流分离,以防止气流短路。首先是在过道的两端安装了门。

开孔率从38%提升到98%

其次,用格栅地板替代开孔地板,加大了地板开孔率,降低了气流阻力,可以进一步降低空调风机的转速。最后,封闭通道顶部,使冷通道完全封闭。之后,PUE值再次下降,从1.55降至1.48

4. 提高冷水机组供水温度到当前限值

标准冷水机组,供水温度一般设置在14℃以内。本阶段直接设置到14℃进行测试,实际增加了冷水机组的节能模式运行时间,进一步降低PUE值,这一次从1.48降到1.43。

冷水机组供水温度从8℃提升到14℃

5. 提升设备入口温度

下一步将按照ASHRAE建议,将供水温度提高到24℃,对应服务器入口温度27℃。PUE值因此下降到最优1.4。

供水温度从14° C 提升到24° C

供水温度最大34°C

6. 达到服务器设计最大入口温度要求

目前大多数服务器设计时允许的入口温度高达35°C,测试人员下一步是达到这个极限,将入口温度提高到35°C。然而,这使得服务器风机转速运行得更快,消耗更多的能量,因此在这个实验中PUE值再次小幅增加到1.43。

7. 增加负载到10 kW /Rack或4Kw/ m²

在最后测试中,提升了设备功率密度至大约10 kW /Rack或4Kw/ m²。这使得IT设备功率从40kw增加了一倍,达到80kw。该实验过程在效率上又有了提高,PUE值为1.3。

IT设备功率密度翻倍

总结

数据中心的能耗可以通过使用容易实现的方法来降低。为了降低PUE值,研究人员尝试了不同方法。现有数据中心效率的提高主要得益于以下两项措施:

1. 严格冷热隔离。优化气流组织,仿制冷量泄露,同时也降低了空调风机转速。

2. 提高入口温度。提高了空调自身效率,增加了冷水机组节能运行模式时间。

二、提高数据中心单机架功率密度、可靠性及效率

图1a 不封闭时温度、压力分布

图1b 封闭通道、降低泄露后的温度、压力分布

图1a显示了初始温度值(目前标准数据中心的典型温度值),其中存在漏风现象,冷热空气没有严格分离。三个关键温度是:

T1 =地板下温度气流温度18℃

TR =设备进风口温度24℃

T2 =空调回风温度

空调风机100%转速,送回风温差△T=6℃

图1b显示了改进后的效果,对地板、线缆冷量泄露进行封闭、对冷通道进行了封闭。仍然保证IT设备入口温度(TR)恒定在22℃。

密封、冷热隔离,使得地板下气流压力减小,同时空调送回风温差增大。同步带来空调风机风量需求减小转速降低。冷气流经过热源换热更加充分,提升了回风温度,使得回风温度从24℃提升到38℃。同时,地板下送风温度T1则从18℃提升到21℃。

空调的耗能因风机转速从100%降低到30%而降低,其中仅风机的能耗就下降了90%。而整个空调系统因送回风温差△T从6℃提升到17℃,整体的能效有了大幅提升。

1、单机架功率密度增加到22kW/Rack

在上一篇文章的优化中,单机架密度从5Kw/Rack 增加到10Kw/Rack。这使得IT数据中心的总负载从40KW增加到80KW。这也使得PUE得到了改进。这种单纯的提升机架密度有助于提升系统整体PUE约30%。

为了了解数据中心基础设施处理更高机架密度的可能性及能效,实验将单机架密度增加到22 KW/Rack。入口温度(TR)在22℃保持恒定。

实验选择了两种场景:

1)在第一个场景中,采用单台空调,冷冻水供水温度设置为8℃。随着22kW机架密度的增加,PUE降低到1.32。

2)在第二个场景中,采用两台空调,冷冻水供水温度设置为16℃,相应降低风机转速,单机架密度10kW。将每台空调风量减少到原来的一半(50%)也会降低能耗。按照风机转速和功率之间的关系,两台½转速的风机,只相当于一台风机全速运行时¼功率。较高的冷冻水温度也降低了冷水机组压缩循环使用时间,允许更多的时间运行在节能模式,进一步降低了总能耗。这使得将PUE进一步降低到1.23。

图3 单机架功率密度和PUE之间的关系

综上所述,采用当前技术单机架功率密度可以达到22Kw/Rack。随着功率密度增加,PUE曲线变平,逐渐接近极限。实际应用中,在数据中心环境,22kW/Rack很少达到,只有在某些特定的情况下(高性能计算或高密度刀片)才会应用。因此,在大多数数据中心,更加关注低密度下的节能措施。但是,在新建数据中心时,就需要从一个高密度、最优化的方案进行考虑。

2、功率密度和可用性

向更高密度发展的数据中心的优化还必须考虑服务器的高可用性和可靠性。在数据中心向高密度方向提升时,服务器设备的可用性和可靠性是必须重点考虑的。在冷却系统发生故障时,高密度带来的好处以及风险响应时间是必须平衡考虑的重点。Datacenter 2020实验室在故障模式下进行了测试。实验包括不同功率密度、气流组织模式下,数据中心温度变化的过程。

研究方法:将服务器入口温度(TR)控制在22摄氏度以下。当前,服务器的最高入口温度(TR)一般设计为35℃。只要入口温度低于这个值,服务的可靠性是可以长期保障的。实验模拟了整个冷却系统故障,服务器继续在UPS上运行的过程。这个过程中,服务器入口温度(TR)上升。

一般情况下,冷却设备都会接在应急发电机上。停机后需要一段时间来复位,整个数据中心也就需要一段时间才能恢复到适当的运行温度。

图4中的红线显示的是临界时间(约5分钟),在此之后,可能会出现服务器因过热(>35 ℃)而产生故障或宕机。

图4 不同功率密度下温升变化

测量结果表明,在减少泄漏和冷通道封闭情况下,单机架的功率密度或IT负荷大约可以是普通数据中心的三倍,并且具有相同的可靠性。

在这个例子中,当冷却系统失效时,17.5 kW/Rack的数据中心运行时间比5.5 kW/Rack 的普通数据中心运行时间更长。

因此,一个17.5Kw/Rack、冷通道封闭可以替代相对昂贵的UPS在某些冷却中断时的必要性。

3、天花板高度的影响

T-Systems和Intel也在文献中讨论了在冷却系统发生故障时,天花板高度对室温的影响。理论上,较高的天花板高度增加了冷空气的体积,减缓了气温的上升速度。

图5 天花板高度对温度升高的影响

如图5所示,更高的天花板高度有一定好处,但没有预期的那么显著。在较高的功率密度下,这种效应更小,因为曲线更接近。在冷通道封闭的情况下,天花板高度实际没有显著影响。

4、结论

DataCenter 2020 的第二阶段研究表明,使用当前冷却技术,单机架功率密度可以大于20kW/Rack。现在,通过冷通道封闭技术,单机架密度可以进一步提升,且在冷却系统失效情况下表现更好。

DataCenter 2020 的研究人员也将继续对比冷通道封闭和热通道封闭的优劣,同时更加关注IT容量/功率密度及其对数据中心总能耗的影响。总能耗和PUE一样重要。PUE并不是数据中心能效提高的唯一指标。有趣的是,PUE值会在IT本身更高效、消耗更少的能量时上升。因此,研究人员也将IT性能作为效率的衡量标准。

三、冷通道封闭、热通道封闭,到底哪个更好?

1、冷通道封闭

来自T-Systems和Intel的研究人员通过两种简单的方法降低了数据中心的能耗:

1)冷通道封闭,优化风道,最大限度减少泄漏和气流混合。这同时也降低了空调的风机转速。

2)提高地板下送风温度(T1),同时提高冷冻水温度。这使得冷水机组压缩机运行时间最小化,并延长了间接自然冷却的时间。如果按照ASHRAE建议的上限,即服务器入口温度(TA)为27℃,则PUE结果可以进一步改善。

通过这些措施,在服务器入口温度保持在22℃不变的情况下,Datacenter2020 研究人员成功地将PUE从1.8降低到1.4。PUE值是衡量数据中心基础设施的能源使用效率。它是数据中心总能耗与IT设备总能耗的比值。PUE可以很好地衡量支持IT设备的非IT相关基础设施(配电、气流、冷却、设施安全等)的能耗。然而,PUE并不反映IT设备的能源效率或数据中心本身的整体效率。

下图描述了服务器入口温度(TA)保持在22℃不变、冷通道封闭情况下,减小高架地板泄露时变化。

通过密封地板、提供完全隔离的冷通道以及热气流,使得地板下的压力增加,同时增加了空调送回风温升。温升的提高,使得空调效率提升。同时,风扇转速也从100%降低到30%,风机耗电量降低90%。

风扇转速降低,气流速度变慢。气流吸收了更多的热量,回风温度(T2)从24℃提高到38℃。此外,高架地板下的温度(T1)可以从18℃提高到21℃。由于服务器入口温度TA仍为22℃,高架地板下的气流温度和服务器入口温度之间的温度梯度很小。

接着,Datacenter2020 团队将IT负载增加到22kW/机架,研究PUE或数据中心基础设施的效率和机架功率密度之间的关系。服务器入口温度(TA)保持在22℃不变。

选择了两种情景:

•在第一个场景中,使用了单个空调。外循环供水温度保持在8℃。当机架密度为22 kW/Rack时,PUE降至1.32。

•在第二个场景中,采用10kW/Rack的机架密度,两个空调运行,供水温度为16℃。两个空调风扇转速相应降低。在两个空调运行时只需要一半的气流,相对于单个机组运行,每个机组只需要四分之一的功率。较高的供水温度也减少了冷水机组的使用。这也允许更多地使用间接自然冷却,也减少了总能源消耗。这使得以进一步将PUE值降低到1.23。

总的来说,使用传统的基于空调的制冷技术,可以支持超过20 kW/Rack的机架密度散热,并且具有良好的可用性。

在较高的机架密度下,冷通道封闭可能更好,在失效情况下起着更为重要的支撑作用。实验结果表明,在冷热隔离(降低泄漏率,冷通道封闭)下,每个机架的密度或IT负荷可增加约三倍,但可靠性与没有密封的情况相同。同时,在制冷系统失效时,冷、热隔离会比不隔离温度升高的更慢。

2、热通道封闭

研究人员基于热通道封闭,进行了相同的测试,用来对比冷通道封闭、热通道封闭的区别和优缺点。市场上对每一种配置的存在着不同的看法,但之前还没人进行过系统性的测试。无论选择何种类型,如果服务器运行方式相同,入口温度相同,控制气流路径相同,两种系统的能耗和散热量相同。基于冷通道封闭的测试,空调在送回风温差ΔT 17°C下效率更高(空气温度38°C,气温21°C)。

在热通道封闭时,服务器出风封闭,直接送到空调回风;数据中心其他空间是冷通道。由于空调出来的冷气流进入一个相对更大的区域,风量需求更大,也就是热通道封闭需要比冷通道封闭更高的风机转速。

另一方面,热通道封闭因为服务器出来的热气流直接进入空调回风口,更高的ΔT进一步提升空调效率。同时,热通道封闭,气流扰动和混合会减少,降低了冷量损失。

基于以上的两种研究,也就给我们提了几个问题:这些理论影响是真实的吗?哪个效率更高呢?

有三个参数对于制冷系统至关重要:

1. 首先是空调的盘管,热气流通过被内部流动的冷冻水变成冷气流。ΔT(回风温度-冷冻水供水温度)越高越好。

2. 其次是空调的风机,它为数据中心提供冷气流实际流量。风速过高气流容易紊乱。在冷通道封闭时,压力进一步增大,可能导致过压和回流,可能对服务器自身风机造成负面影响。

3.第三,气流组织管理,优化高架地板下的气流,控制进入通道内的气流,防止泄露。

如果针对每种情况对上述三个参数都进行了优化,那么冷通道和热通道的封闭应该没有区别,因为产生的热量与用于消除热的能量是相同的。

可用性和风扇速度有差异,但PUE没有差异

首先,研究团队探索了机架密度和可靠性的最佳比例。为了做到这一点,他们记录了制冷系统停机期间整个数据中心的温度。这是在不同的IT密度以及不同的空间布局下完成的。Datacenter2020 依然设定服务器入口温度为22℃。服务器(以及大多数IT的典型服务器)的最高允许入口温度为35C。制冷系统因模拟断电失效。一般情况下,UPS启动,服务器会继续运行。该研究团队的经验是,数据中心UPS可以维持IT设备正常运行12分钟。之后,备用发电机开始工作,并为IT和制冷系统供电。

研究团队的目标是在三个配置(热通道封闭、冷通道封闭,不封闭)下,入口温度多长时间达到温度上限(> 35°C进气温度)。

上图可见,冷通道封闭、热通道封闭相对不封闭都有显著优势。在机架密度较低时,热通道封闭设备可以维持的时间更长。原因是冷气流在整个数据中心空间。之前,很多人认为一个不封闭、开放的空间可以维持的时间更长,从实验结果来看,这是错误的。在机架密度提高后,例如17.5kW/Rack,冷通道封闭、热通道封闭的差异就变小了。这很可能是因为更大移动气流体积以及冷通道可以利用更大的天花板空间当做散热器。

从上图可见,在机架密度为10kW/Rack时,两种系统可以维持的时间均可以满足UPS 12分钟的要求。在任何情况下,不采用封闭气流模式,都无法维持12分钟,因此气流封闭实际提高了服务器的可用性。

关于空调失效分析可以参考瑞思博创《空调失效CFD仿真-封闭通道与否对IT设备的影响》

在采用气流封闭后,空调风机转速均低于50%,显然降低了空调系统的能耗。从上图可见,当机架密度较低时,冷通道封闭风机转速更低,而当机架密度逐步升高,热通道封闭转速较低。但让机架密度高于10kW/Rack之后,发生了一个显著的变化。研究团队认为,这种变化和差异,在不同的实验系统可能不同。但可以明确的是,通道封闭对于降低空调系统风机能耗有极大的好处。

上图对比了不同机架密度是△T的变化情况。对于较低和较高机架密度时,冷通道封闭略好,但由于差异很小,可能和测量具体路径、位置有一定关系,而不能体现绝对的效率差异。

综上所述,上图证实了Datacenter研究人员的假设,即冷通道和热通道封闭实际没有太大差异,因为总热量是相同的。采用相同的优化方法(降低泄露、冷热隔离、降低空调风机风速),PUE之间的差异也很小,我们认为这些值都在测量误差范围之内。

3、系统选择标准

基于以上以上研究,我们知道冷通道封闭和热通道封闭的选择与能效没有关系。那么选择哪种系统,就可以依据其他方面的来综合考虑。例如操作空间、例如人员舒适度等。

冷通道封闭只需要将服务器机架前部空间隔离,实现比较简单,早期很多数据中心都采用一些简单的围挡和塑料帘子实现。同时,对吊顶高度要求也不高,有利于应用消防气灭系统。但是当采用冷通道封闭时,数据中心其他空间温度较高,工作人员进入数据中心后可能面临的温度高达45℃甚至更高。同时,如果是下送风冷通道封闭系统,还必须采用高架地板系统。

热通道封闭的优势在于,数据中心工作人员进入后舒适度很好。理论上来说,热通道封闭可以用于高架地板系统,也可以用于精密空调空间送风系统。适应性更好。但缺点是,消防系统设计复杂。同时,顶部的线缆对热回风也有一定的影响。

这两种情况下,因为气流隔绝,在数据中心中热通道温度更高,对于相关材料、部件的耐热、防火性能要求都要满足相应的要求。

这两种系统各有优缺点,但它们在为IT设备提供高效、管理良好的气流方面同样有效。因此,选择取决于具体的要求、操作条件和个别场地的建筑特点。

4、结论

Datacenter2020 的研究人员采用标准设备和一系列节能优化措施改进了数据中心能效。在不改变环境条件的情况下,取得了1.23的PUE。这是通过一个冷、热通道封闭下,较低的空调风机转速,较高的机架密度下实现的(两者之间没有效率差异)。冷、热通道的封闭提高了服务器的可用性和可靠性。

依据ASHRAE推荐的数据中心服务器入口温度(TA)上限27℃。高架地板下气流温度(T1)26℃。这样,冷水机组的供水量就可以上升到20°C。基于空调蒸发器盘管设计经验,水温通常比地板下的空气温度低6℃左右。较高的水温降低了冷却所需的时间,并延长了间接自由冷却外部空气的操作时间。

文末附上施耐德针对冷、热通道封闭的结论,可共同参考。

本系列三篇文章已经分享完毕,该系列的文章重点从数据中心室内气流组织方面测试、验证了一些节能方法。

你“在看”吗?点击右下角“在看”,让更多的人看到

相关标签:

发表评论:

评论记录:

未查询到任何数据!