首页>>新闻资讯>>行业动态

数据中心机房高温案例分析,元芳,你怎么看?丨数据中心机房设计规范

2023-08-20 12:48:06 70

1、 事件简述

2018年5月15日下午13:25分,某机房设施运行人员在进行水系统二次泵例行轮换时,发生因"被停止运行二次泵出口侧止回阀失效,导致被运行二次泵与被停止二次泵之间管段形成短循环,致使末端机房精密空调失去循环冷冻水,且因检测供水温度过高导致空调水阀自保护关闭,最终导致对应机房发生高温,客户设备服务器大面积宕机事故"。

此次高温事故的发现至恢复过程共持续了1个小时,且由于当值运维人员存在些许不恰当的处置方法,对机房客户设备运行产生了极为严重的影响。

2、 事件分析

通过某机房此次高温事故的发生,我们可以根据其提供的事故说明内容来进行分析、总结。众所周知,导致某一事故的发生一定不只是巧合,在事故发生前,一定存在着很多潜在隐患,当每一项隐患均达到爆发的条件,其共同作用的结果必然会是一场突如其来的大事故。下面就此次事件,仅从个人角度出发,来进行分析说明。

2.1 事故发生要素

2.1.1 泵出口止回阀故障:

此条因素是整个事故发生的根源,在所有隐患条件中占比最大。因3#二次泵出口侧止回阀故障失灵,且人员未能提前或在操作时及时发现,导致开启4#二次泵后,在3#与4#水泵区域管段形成短循环,并最终造成机房侧空调失去循环冷冻水而产生更为严重的后果。

2.1.2 精密空调水阀动作保护:

此条因素则是导致机房迅速产生高温的直接原因。因其机房使用的精密空调运行程序中规定:"若空调供水温度达到23℃时,为避免将高温冷冻水的热量反送入机房侧,将会触发空调机水阀自保护动作,由开启状态变为关闭状态"。此设置直接导致空调由于失去循环冷冻水(虽仍有少量循环水流通,但其较小流量可视为无循环冷冻水)、空调供水温度传感器监测水温渐增至保护值23℃而将空调水阀关闭,空调彻底失去制冷能力。(运行空调及热备空调均为此种问题)

2.1.3 水泵轮值周期过短:

通过某机房提供的事故报告中可以得知,其水泵轮值周期为每周五进行轮值,字面含义即可理解为"每周轮值一次,每月基本轮值四次"。这样的周期并不是水泵类设备最佳的轮值周期,且过于频繁的轮值操作,也将带来一系列运行及设备故障风险。

2.2 要素产生的原因

2.2.1 止回阀故障失灵

止回阀作为水系统管路中最为常用的阀门之一,在管路中起到保护管路及设备的作用,其重要性可想而知。

但如此常见且常用的阀门却出现了内部阀板故障失灵的问题,会是哪些因素造成的呢?

①阀门出厂质量不合格;

由于阀门在工厂生产、运输、安装等众多过程中,都有可能存在制造缺陷、运输损坏、安装工艺差等问题,致使阀门在后期使用时发生故障。

(我机房在建设至运行期间,就出现过水系统阀门因各种不良因素导致的失效问题,故可作为此判断的主要依据)

②运行过程中的自然或不自然损坏;

由其提供的故障说明可知,其系统使用的止回阀为旋启式止回阀,此类阀门经长时间使用后,肯定会存在部分老化、磨损问题。且加之运行过程中的不良操作、系统运行固有缺陷等均会加速阀门损坏、直至失效。

③精密空调水阀自保护动作不合理;

空调程序规定供水温度在达到23℃时将关闭水阀的初衷我们可以理解,但就目前机房运行环境及条件来看,其应用的实用性并不大,而且反会带来更为严重的影响。

其故障说明中提到"机房空调回风温度控制在26℃,且纵观各大机房运行环境,此温度均已为较合理温度(不会轻易在出现过大幅度温度变化)",而触发空调水阀自保护温度值设定为23℃,显然不合理。假使水系统制冷端故障,无法提供持续稳定的低温供水,再次期间,只要低于空调回风温度设定值的冷冻水仍可提供少量制冷能力,虽无法彻底避免高温事故的发生,但在一定程度可延后事故发生的时间、为人员处理周期争取有效帮助、降低事故发生的可能性。

2.3 其提供的事故说明中不认同点(仅代表个人看法)

①从其提供的说明中可知,因其运维人员轮值水泵的不恰当操作,也归结为事故发生的因素之一,即"先启动备用水泵,待其运行稳定后,在关闭运行水泵的操作不合理,应调整为先关闭运行水泵,然后再启动备用水泵"。我个人认为较为牵强。按其"先启动热备水泵,在关闭运行水泵的顺序,会在操作期间产生水锤,加速或者直接导致止回阀阀板失效。而调整为后者就可避免此问题的产生"的说法,个人存在一些不同看法。

前者的操作顺序,结合止回阀的特点,系统确实会产生水锤问题。但止回阀的阀板失效原因并不能单纯的认定为此原因造成。且作为系统承压装置,止回阀本身就具备了一定的承压、抗冲击能力。在考虑其提出的调整方式,在降低系统产生水锤所带来的影响同时,也带来了新的风险,即"机房运行负荷较大、甚至满负荷时,后者操作顺序或多或少的都会存在着某一时段无循环冷冻水的问题,且若新启动的水泵在此时发生运行故障,外加人员对此问题的应急处置时间等,将更大程度的增加了大型机房满负荷运行高温事故的发生"。

因此,针对水泵轮值的操作顺序,我个人认为"先启用备用水泵,待运行稳定后关停运行水泵"的操作较为合理,我们可以接受此操作带来的水锤问题,但可以通过优化操作手段来降低水锤的产生或影响。例如新开启水泵的启动频率不要设置过高,且不要直接以高频启动水泵等等方式来降低水锤风险。

②其提供的故障说明中提到,空调水温迅速升高至23℃的原因为回水倒流入供水罐内造成。

个人并不太认同此种说法。因其说明中也提到了人员在发现问题后对制冷设备进行检查,水泵并无故障。从字面含义中可以理解为一次泵正常运行,怎么会产生高温水倒流导致的水温升至23℃?且若供、回水压力不平衡,最先作用的也是冷冻站供、回主管路的压差平衡阀,来调节系统出现的压力波动问题,怎么会恶劣到最末端的精密空调出现回水倒流问题呢?

个人认为,空调供水由15℃迅速升高至23℃的原因,不是回水倒流导致,而是因为主管路产生的短循环导致空调失去循环水(流量较小的循环水也视为无循环水),受机房温度较高的回风影响,导致空调换热器内死水迅速升温,空调供水温度传感器监测温度达到23℃,触发水阀自保护。

③空调水阀自保护设置功能并不实用。原因上述也已经提到过,就不再赘述。

2.4 我机房水系统运行现状及此类风险分析

2.4.1 水泵轮值周期

我机房现阶段水泵运行同样在执行轮值,但轮值周期目前暂定为1月/次,后续轮值的周期可能还会适当延长。通过此方式来尽可能满足水泵类设备最佳的运行环境、并可一定程度的降低人员操作及系统固有问题所带来的隐患。

2.4.2 空调水阀保护控制

目前我机房使用的精密空调,其运行程序中暂无"供水温度高触发水阀关闭"的操作。其监测供水温度的形式为"供、回水温度高限、低限报警,但不影响空调正常运行状态"。

个人认为此种机制更为适用,在起到供水水温异常报警的同时,仍不影响空调正常运行,为人员处置争取时间。

2.4.3 目前我机房此类问题运行风险

①我机房使用的空调程序设定虽无水阀自保护问题,但存在着其他一些不合理设置,也同样为运行埋下隐患,例如空调风机的运行受风机上下两侧取压管监测压力控制,若取压误报警将会导致空调保护停机。

②现阶段水泵轮值顺序,也会存在系统产生水锤的可能。但我机房在进行水泵轮值时,均是以水泵最低允许启动频率启动,可在一定程度上降低水锤风险。

③针对系统管路中的止回阀,目前暂未将其功能性定期验证工作加入设备维保计划总,此为不足项将会尽快列入阀门类设备维保检查中,通过相关合理手段验证止回阀功能,及早发现及早处理设备异常。

④针对机房高温事件的应急物资储备及演练工作安排,并不到位,此项不足会作为今年重点工作进行开展、完善。

3、 事件总结

针对机房高温事故的产生,我们一定需要在其各种多发因素上下功夫,尽可能将各种诱发条件遏制在最初阶段,并配合制定相关有效的高温应急策略,来保障机房安全稳定运行。

综上所述均为个人针对《某机房水系统故障致机房高温事件》的看法及意见,并不代表其他。言论不恰当之处还请大家批评指正。

相关标签:

发表评论:

评论记录:

未查询到任何数据!