最近一段时间,河南、河北等地由于连续强降雨所引发的洪涝灾害牵动着亿万国人的心,7月28号又是唐山大地震45周年纪念日。人类面对突如其来的灾难时抵抗力几乎为零,那么机器又该如何面对灾难呢?今天咱们就来聊一聊数据中心的保护方案。
数据中心面对的“无形杀手”是多种多样的,包括但不限于:洪灾(土耳其伊斯坦布尔Vodafone数据中心被淹导致手机用户无法使用通信服务),火灾(法国斯特拉斯堡OVH数据中心)、地震(日本东京IBM数据中心)、飓风/龙卷风(多发于美国)、渗水(导致短路或网络中断)和爆炸。
(图片来源于互联网)
图为OVH数据中心发生火灾,其中一个数据中心被完全烧毁,另有一个数据中心的建筑物部分受损。
保护方案
1.服务器的选址
一般地址会选择远离海边、河道、位置低洼和板块交界处附近的地震带,还会考虑其他的因素包括成本、配套设施、政策环境、社会及人文环境等。
2.进行灾备
灾备,是容灾和备份的简称,主要内容是利用科学的技术手段和方法,提前建立系统化的数据应急方式,以应对灾难的发生。整个灾备行业的起源于上世纪70年代,1979年SunGard(金仕达)在美国费城建立了全世界第一个灾备中心,后来经过不断的发展,现如今包括:数据备份和系统备份,业务连续规划、人员架构、通信保障、危机公关,灾难恢复规划、灾难恢复预案、业务恢复预案、紧急事件响应、第三方合作机构和供应链危机管理等等。
灾备两项重要指标:RTO和RPO。
RTO(Recovery Time Objective),恢复时间目标,是指灾难发生后系统宕机导致业务停顿到恢复各部门运行的时间。目前最好的灾备系统RTO可以达到分钟级。
RPO(Recovery Point Objectiv),恢复点目标,是指灾难发生后,系统进行数据恢复后数据所对应的时间点。可以是最近一次备份,也可以是上一次的系统运行的实时数据。
(图片来源于互联网)
我国的灾备认证——中国信息安全与灾难恢复认证(CISDR)
CISDR是中国唯一的灾备认证,是灾备技术国家工程实验室、教育部网络攻防重点实验室、中国信息安全认证中心联合推出唯一国家级认证。
(图片来源于互联网)
3.建立分布式系统
分布式系统由多台计算机组成,它们在地域上是分散的,故而一个单元或资源(软件或硬件)的故障不影响其他资源的正常功能。分布式系统中的各个节点都包含自己的处理机和内存,各自具有独立的处理数据的功能。通常,彼此在地位上是平等的,无主次之分,既能自治地进行工作,又能利用共享的通信线路来传送信息,协调任务处理。
4.实时监控和预警
数据中心设备多功率大,机房线缆多、布线复杂,这些都是数据中心容发生火灾隐患的原因。电气火灾串火快、烟气有毒,危害极大。电气绝缘老化击穿是引起的电气火灾最常见原因,这种可通过电气火灾探测系统或及早期火灾探测系统进行发现预警。
再比如本次河南暴雨导致郑州全城停电之前,部分地区已经停电,某知名网络服务商下的数据中心就因突然断电导致很多公司连夜更换数据中心,之前来不及备份的数据大量丢失。如果能够提前预警,损失一定会有所降低。
5.硬件升级
在应对地震等自然灾害的时候,可以在数据中心下安装减震器——用金属和橡胶制成并安放在建筑物内的隔离层,可以吸收地震发生时带来的震动。再比如预防火灾时,选用冷通道系统,提升数据中心散热能力;考虑墙壁和天花板的隔热性能,使用防火材料;安装最新的火灾侦测和预警系统等。
总结
随着网络信息化建设的不断深入发展,加强数据中心机房各类设备、系统及信息与网络安全等方面应对紧急突发事件的应对处理能力将是我们目前面临的一项重要任务。数据中心的安全无疑是整个计算机信息系统安全的前提,如果数据中心存在各种不安全的因素从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。
相关标签: