什么是灾备?
灾备,是容灾和备份的简称。
不论是自然灾难还是人为灾难,只要有数据传输、存储和交换的地方,就会产生数据失效、丢失、损坏等风险,一旦发生,就会给数据中心带来难以估计的损失;而灾备,就是业务数据安全的重要保障。
容灾的定义指在相隔较远的两地(同城或异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,侧重数据同步和系统持续可用。
备份的定义指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份或多份拷贝,以增强数据的安全性。侧重数据的备份和保存。
灾备的两个关键技术指标?
RTO:RecoveryTime Object,恢复时间目标,决定业务中断了多长时间。灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。比如说灾难发生后半天内便需要恢复,RTO值就是12小时。
RPO:Recovery Point Object,恢复点目标,决定了丢失多少数据。灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。如果企业每天凌晨零时进行备份一次,当服务恢复后,系统内储存的只会是最近灾难发生前那个凌晨零时的资料。
当灾难发生后,最理想的状态是系统立即恢复,而且完全没有数据丢失,即RTO及RPO皆为零,可这样一来,造价也是非常昂贵的,而且也不一定有这个必要。
数据中心灾备技术有哪些呢?
数据中心的灾备技术大体上可以分为五种:冷备、暖备、热备、双活、多活。
两地 = 本地 + 异地
三中心 = 本地中心 + 本地容灾中心 +异地备份中心
主备数据中心之间一般有热备、冷备、双活三种备份方式。
热备的情况下,只有主数据中心承担用户的业务,在不停机情况下对主数据中心进行备份。
冷备的情况下,也是只有主数据中心承担业务,在停机情况下对主数据中心进行备份。
双活是觉得备用数据中心只做备份太浪费了,所以让主备两个数据中心都同时承担用户的业务,此时,主备两个数据中心互为备份,并且进行实时备份。一般来说,主数据中心的负载可能会多一些,比如分担60~70%的业务,备数据中心只分担40%~30%的业务 。
冷备
冷备技术是中小型数据中心或者承载业务不重要的局点经常使用的灾备技术。冷备技术的用站点通常是空站点,一般用于紧急情况;或者仅仅是布线、通电后的设备。在整个数据中心故障时无法提供服务时,数据中心会临时找到空闲设备或者租用外界企业的数据中心临时恢复,当自己数据中心恢复时,再将业务切回。这种方式数据中心业务恢复的时间难以保证,有时临时搭建的平台也可能因为不稳定而再次出现中断。当然这种方式不必准备大量的空闲设备,维护成本可以忽略不计。冷备技术从启用到真正可以开始工作需要较高的成本和时间,通常需要几天甚至一周或者更长的时间。冷备技术算不上是一种真正意义上的灾备技术,因为冷备基本上就是数据中心从未考虑数据中心出现故障的情况,一旦出现故障,则是“姑娘上轿才扎耳朵眼”的做法,对于故障毫无预知和提前投入。当然冷备技术的缺点是显而易见的,其已经越来越无法适应数据中心高要求的发展,逐渐成为一种淘汰的技术方式。
暖备
暖备技术是在主备数据中心的基础上实现的,前提是拥有两个一主一备的数据中心。备用数据中心为暖备部署,应用业务由主用数据中心响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO(Recover Time Objective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间以内,实现数据中心的整体切换。在具体实现上,主备数据中心的两套业务系统网络配置完全一样,备用数据中心路由平时不对外发布。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。暖备技术还是手工方式,从知道主用数据中心故障到备用数据中心工作需要有人24小时值守才能完成,工作效果较低。
热备
相比暖备,热备最重要的特点是实现了整体自动切换,其它和暖备实现基本一致,实现热备的数据中心仅比暖备的数据中心要多部署一项软件,软件可以自动感知数据中心故障并且保证应用业务实现自动切换。业务由主用数据中心响应,当出现数据中心故障造成该业务不可用时,需要在规定的RTO时间内,自动将该业务切换至备用数据中心。在具体实现上,在主备数据中心均部署GTM(广域流量管理器),GTM之间同步信息,GTM各自探测本中心的应用业务,根据GTM的服务器状态判断应用业务的可用性。当GTM或数据中心链路出现DOWN时,将该业务自动切换至灾备数据中心。热备数据中心通过GTM技术实现自动主备数据中心切换。
双活
通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心的业务可根据权重做负载分担,没有主备之分,分别响应一部分用户,权重可以是按地域划分,或数据中心服务能力或对外带宽。当其中一个数据中心出现故障时,另一数据中心将承担所有业务。具体实现上,多活技术部署了很多种检测故障的方式,比如:ICMP Monitor、TCP Monitor、HTTP Monitor,FTP Monitor。还可以实时检测服务器的运行状态、服务器负载均衡的情况,即使在没有故障的时候也可以根据应用业务量在多活数据中心之间调整。多活的***特点是不会造成数据中心的资源存在浪费,数据中心都承载应用业务运行。不至于出现像热备、暖备主用数据中心几乎满载运行,而备用数据中心却很空闲的情况。除了双活技术还有多活技术,多活就是业务在多个数据中心上同时运行,当有一个或多个数据中心故障时,其它数据中心将自动接管所有应用业务。显然多活比双活可靠性更高,但投入成本也会高,实现技术也更为复杂。现在在金融行业、互联网行业的数据中心都乐于采用多活技术,虽然投入大,但稳定性是这些数据中心优先考虑的事。
下面列出了四种灾备技术的特点比对。
冷备暖备热备双活/多活RTO恢复时间长,不可预知恢复时间较短恢复时间较短恢复时间短硬件成本几乎可以忽略一般一般一般软件成本几乎可以忽略几乎可以忽略较低较高实现复杂度简单简单较易复杂运行稳定性低较低较高高自动化人工人工软件自动软件自动运维成本低低较高较高相关标签: