干货丨一文带你了解灾备系统的衡量指标丨灾备是指

2023-08-29 09:37:35 27

本文转自@灾备有道，作者：Q先生。

灾备恢复的衡量指标

核心指标：RTO，RPO

RTO（Recovery Time Objective）

RTO是指灾难发生后，从IT系统崩溃导致业务停顿开始，到IT系统完全恢复，业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。

RPO（Recovery Point Objective）

IT系统崩溃后，可以恢复到某个历史时间点，从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。

我们来举个例子，假设在业务系统正常运行的情况下，随着时间的推移，会持续产生新的业务数据。IT运维人员考虑到业务的重要性，小心又谨慎，写了个脚本对业务系统进行周期性的备份。

虽然机智的IT运维人员已经非常小心，但是还是避免不了系统出现故障。在发现系统故障后，IT运维人员迅速响应，利用最近一次的备份数据进行恢复。经过漫长的等待，IT系统最终恢复正常。

从上图可以直观看出，RPO是 “备份时间点” 到 “IT系统出现故障” 的时间长度，RTO是指 “IT系统出现故障” 到 “IT系统恢复正常” 的时间长度。

在RPO的这段时间内，存在一部分实际数据的丢失，所以一般认为RPO越小，丢失的数据量就越小。在RPO+RTO的这段时间内，本来有预期的业务数据增长，但由于IT系统故障需要时间修复，这部分的预期增长就损失掉了。可见RTO+RPO越小，对业务营收的损失也就越小。因此，越重要的业务越需要保证RPO和RTO趋近于0，当然所需要的投入也就越大。RPO和RPO也成为衡量灾难恢复的最核心指标。

其他指标

随着灾备技术的不断升级，灾备系统的建设越来越复杂，就开始出现了一些新的指标。虽然这里边部分指标实在是不怎么知名，但为了满足大家的好奇心，还是费点周折，给大家解释一下。

RRO（Recovery Reliability Objective）

恢复可靠性指标RRO，用于衡量业务恢复的可靠性。如果一个业务连续性系统在10次恢复/切换中出现了2次失败，那么这个可靠性就只有80%。虽然成功的恢复/切换可以帮助你短时间内的恢复业务，但如果恢复/切换失败了，那可能就需要花更多的时间来排查和解决问题。因此，将RRO和RTO结合起来可以更好的评估灾难恢复的时间。

基于上面的案例，假设IT运维人员写了不错的备份脚本，但是恢复脚本没有经过详细的测试，质量不咋滴。在IT系统修复过程中，总出现恢复失败的情况，需要边定位失败的原因边进行恢复。那么我们就可以认为这个脚本的RRO指标很低，会导致RTO变长。

RIO （Recovery Integrity Objective）

当灾备系统因为逻辑错误或数据丢失，就会造成实际恢复/切换的数据同样存在逻辑错误，或者数据丢失/不完整的情况。因此，单独的RPO不能保证灾备系统对数据丢失的防范能力，故引入恢复完整性指标**RIO**。RIO指标可以反映出业务系统灾难恢复到某个正确完整的状态的能力。

基于上面的案例，假设IT运维人员写的备份脚本也出了问题，数据恢复是恢复出来了，但是只恢复了一部分，还有一部分数据因为脚本存在bug漏备了。那么我们就可以认为这个脚本的RIO指标也很低，RPO数据丢失的基础上再添损失。说到这里，可怜的IT运维人员背了锅，也许你该考虑采购专业的灾备产品了。

DOO（Degraded Operations Objective）

DOO 是指灾难事件发生期间数据中心不可用时，关键业务系统在灾备中心运行的服务级别允许降低到一个可接受程度。这意味着灾难事件发生时，为了加快恢复速度，可以允许关键业务恢复到一个较低的服务级别，这个事先确定的允许降低的服务级别就是 DOO。

服务降级一般是由IT系统本身提供的能力，并不由灾备厂商来提供，当然专业的业务连续性管理也会将IT系统本身的容错、服务降级能力考虑在内。

NRO（Network Recovery Objective）

网络恢复目标NRO 是指在灾难发生后切换到灾备中心所需的时间。在这一预定时间内不仅要求将网络连接从数据中心切换到灾备中心，还要使用户的网络访问能够成功地转移到灾备中心。

灾备恢复的三个层次

在行业中，一般认为灾备分为3个等级：数据级灾备、应用级灾备、业务级灾备。其中数据级和应用级的灾备一般都在IT系统的范畴，可以通过专业的灾备产品做到。业务级灾备在数据级、应用级的基础上，还需要对IT系统之外的因素进行保障，比如办公地点、办公人员等等。

数据级灾备的关注点在于保证用户的数据不会丢失或者遭到破坏。高级的数据级灾备会考虑将本地的通过某些手段（人工/灾备工具）保存到异地。而应用级灾备更强调实际的IT系统可以在遇到灾难后能够直接接管。一般来讲应用级灾备需要在异地灾备中心有完整的设备、网络条件，借助专业灾备产品做到生产中心到灾备中心的数据同步。