美国一数据中心断电，客户服务中断超40小时

2023-11-17 09:04:54 35

1、数据中心的运维管理水平跟不上，要付出多大的代价？

11月2日，全球知名网络性能与安全服务商Cloudflare发生服务中断事故，直到40个小时后，所有服务才全部恢复上线。

中断原因是Cloudflare租用的Flexential数据中心，在当日凌晨四点左右发生了变压器接地故障，导致机房断电。

据说在尝试恢复供电的过程中，有三件事阻碍了发电机的重新启动：

▪ 首先，由于接地故障导致电路跳闸，因此需要实际进入并手动重新启动；

▪ 其次，Flexential的访问控制系统没有备用电池供电，因此处于离线状态；

▪ 第三，现场值守的夜班人员中没有经验丰富的运维或电力专家，只有一名保安和一名才刚刚上岗一周的技术人员。

由于发电机没有完全重新启动，UPS电池耗尽，数据中心的所有客户都断电了。在整个过程中，Flexential从未告知Cloudflare该设施存在任何问题。

更加不幸的是，当天中午，当 Flexential试图重新启动Cloudflare的电路时，发现断路器出现了故障，而现有的断路器库存不够了，需要临时采购。

直到断电发生的11个小时后，Flexential才终于更换了发生故障的断路器，恢复了两路市电供应，确认电力供应正常。Cloudflare也随之开始逐步恢复服务。

这事儿一出，让人不禁感叹Flexential这家数据中心的运维管理也太不靠谱了。不专业的供电方式、让缺乏经验的新员工独立值班、缺少零部件、不与客户及时沟通都加深了本次事故的严重性。想必Cloudflare经历过这次“灾难”，也要重新考虑是否续租了。

数据中心设施复杂，管理难度大，专业性强，必须建立规范的运维体系和管理制度、配备专业度高的运维团队，才能真正保证数据中心安全、高效运行。

“忙”，用来形容数据中心的运维工作再合适不过。要保障业务的稳定性，除了要求运维团队7*24小时进行轮班值守、实时监控系统运行情况、对基础设备设施进行巡检，还需要电气、暖通、弱电等系统的技术人员对机房基础设施提供运维技术支持、解决技术问题、进行优化改造工程等。因此，充足的人手是至关重要的。

运维团队的配置应根据数据中心的等级和SLA（服务要求协议）来确定，要注意：

1.数量：必须有足够数量的合格员工和/或供应商来执行运维工作；

2.资质：所有工作人员必须具备必要的经验和技术资格；

3.分工：每个岗位的角色和职责都应是明确的。

高等级以及具有一定规模的数据中心，每个班组应配备具有电力、暖通、弱电专业能力的运维人员，以达到“即时应急响应”的工作状态。等级相对低的机房，每个班需要至少配备一人，达到“即时报警”的工作状态。关键管理人员或关键岗位人员应采用A、B 角色配置，以保证工作连续性。

人手够了，但真碰到事儿，能扛得住吗？

还是得练！

培训和演练可确保所有人员（包括供应商）了解在数据中心工作的政策、程序和特殊要求，对于避免计划外停机、确保对预期和计划外事件做出正确反应至关重要。

运维团队应针对所有可能发生的故障场景制定完整的应急预案，包括环境（火灾、逃生、防台防汛等）、电气、暖通、消防、弱电等专业的应急预案。然后，运维团队应对应急预案进行定期培训及演练，在条件允许的情况下尽量真实地处理故障，不断优化、完善应急预案的场景及有效性。

对新员工，更要进行完整严格的上岗培训。数据中心禁不起“试错”，实习或新入职员工禁止独立执行相关工作任务。管理者也不要松懈，应积极参与行业交流，了解行业最佳的运维管理实践，并从行业故障案例中总结经验，做好自身整改。

为了推动整个运维团队技术和素质的发展和改进，有必要建立人员的关键绩效指标，定期对所有人员的短期和长期绩效进行评估，奖优罚劣。

中科仙络深耕数据中心行业16年，运维团队超过700人，为超过30家数据中心提供长期运维服务。如需专业的运维咨询和运维外包服务，欢迎联系中科仙络！

未查询到任何数据！