灾难处理与灾难恢复制度
文档修订记录
序 号
修改时间
修 改 人
审 核 人
版本号
备 注
1
灾难恢复定义
灾难恢复,指自然或人为灾害后,重新启用信息系统的数据、硬件及软件设备,恢复正常商业运作的过程。灾难恢复规划是涵盖面更广的业务连续规划的一部分
,其核心即对企业或机构的灾难性风险做出评估、防范,特别是对关键性业务数据、流程予以及时记录、备份、保护。
数据备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。
关键控制点
购买设备时应该获取厂商相关灾难处理条款
每个项目留有备用设备、保证异地机房存在,异地机房要准备
好相关备用设备。
灾难处理
硬件损坏:
即时检测设备原因,判断硬件损坏点以及维修时长,在放生故障时15分钟内确定故障原因和故障点,并且上报运维主管。
2、机房电源故障:
立即联系运营商,确定电源恢复时间。上报管理层,由管理层联系运营商。
毁灭性灾难:
确定原因,立即启动应急响应,所有技术1—3个小时内全部到岗。
具体的灾难恢复时间目标和恢复点目标规定如下:
主机宕机:RTO(1h),RPO(24h—48h);
存储设备故障:RTO(1h),RPO(24h—48h);
操作系统故障:RTO(1h),RPO(24h—48h);
主机应用故障:RTO(1h),RPO(24h—48h);
其他故障:RTO(1h),RPO(24h-48h)。
灾难恢复
硬件损坏:
预计硬件维修时间超过1个小时的,立即启用备用设备。
机房电源电源故障:
确定电源恢复时间,电源恢复时间超过30分钟的,立即启动备用机房,备用机房设备进行相关的访问限制,停止耗费硬件资源和带宽的服务,只启动必须的访问服务,以此减少服务器和带宽压力。
毁灭性灾难:
立即成立应急小组,所有技术人员到岗,启动备用机房所有备用设备。立即由公司决策层增加硬件设备和机房网络带宽。新购买设备架构未完成之前,只提供最核心的服务和必要的服务,其余服务实现限流策略.
后续报告
灾难处理和灾难恢复后,要详细记录相关文档。书写报告,补上之前因处理灾难无法提交的报告和文
灾难处理与灾难恢复制度 来自淘豆网m.daumloan.com转载请标明出处.