DR基础知识:灾难恢复计划和灾难恢复策略

日期: 2018-04-16 作者:Antony Adshead翻译:邹铮 来源:TechTarget中国 英文

IT灾难恢复(DR)计划的主要目标是制定详细的恢复计划,以在意外中断时执行。

这种计划应该列明详细步骤,说明在灾难后如何恢复IT系统到可支持正常运营的状态。灾难恢复计划必须涵盖企业可能面临的各种事件。

但是在制定详细灾难恢复计划之前还有一些工作要做,其中最重要的是执行风险评估和/或业务影响分析,以确定对业务活动至关重要的IT服务。

这些工作可帮助你确定关键基础设施和应用的恢复事件目标(RTO)和恢复点目标(RPO),基于此,你就可以开始制定灾难恢复策略和实际计划。

在本文中,我们将列出制定灾难策略所需的关键步骤以及基本组成部分,包括如何编写灾难恢复计划。

制定DR战略

根据ISO/IEC 27031–业务连续性国际标准:“灾难恢复策略应定义部署所需恢复能力的方法,以明确事件预防、检测、响应、恢复原则。”

对于这一要求,重要的是理解战略和计划之间的区别,前者定义了在事件响应中你需要做什么,后者描述了你具体如何执行这些要求。

灾难恢复策略和机会的关键步骤包括:

  • 识别关键系统。例如,这可能是支付或者制造系统,或者对业务至关重要的系统。识别这些系统的目的是在保护或恢复水平方面给予某种程度的优先权。
  • 确定每个系统的RTO和RPO。它们需要在多少时间内得以恢复?有些系统可能完全不可接受停机时间,其他系统可能可接受数分钟或数小时的停机时间。以及从时间角度来看,你可能会丢失多少数据?你必须恢复到原来的样貌,还是有一些余地?
  • 识别每个系统或系统组的潜在威胁。例如摧毁整个建筑物的洪水或火灾,或者是影响单个系统的事件,包括硬件故障等。
  • 制定预防措施。这可应对已识别的威胁。这意味着更好的防洪措施、升级UPS或者改进的服务器/应用保护。
  • 制定应对策略。这种策略应明确当已识别威胁导致停机时应该怎样做,这可能包括故障切换到其他站点或者硬件,并根据RPO和RTP来执行。
  • 最后,应对策略应确定恢复主要系统所需的关键任务,并提供全面保护以防止未来相同情况发生。

灾难恢复战略的其他考虑因素

人员:在这方面你需要提出的问题包括:在部署DR计划时,关键领域所需员工/承包商的可用性如何?需要为他们安排哪些培训

此外,你可能需要确保关键技能的可用性,最好在关键领域安排主要和备用人员:

  • 物理场所:这里要问的问题包括:在同一站点是否有备用工作区域?我们是否需要安排其他的办公地点、第三方站点、员工家里或者便携仪建筑物?
  • 你还需要考虑备用地点的安全性、员工访问、身份证件等。
  • 根据可用的选项以及企业需求,你可能需要考虑可确保IT系统正确配置的地点。这可能包括提高地板高度;为IT系统和人员提供供电和散热;充足的电力以及语音和数据基础设施。
  • 数据:这主要是从预防角度所关注的领域。关键是根据RTO和RPO要求以及数据存储方法来备份数据,你还应该考虑备用站点的数据保护功能。
  • 供应商:你应该为所有关键系统和流程(包括人员外包)与主要和备用供应商签定合同

灾难恢复战略转变成灾难恢复计划

当制定好灾难恢复战略时,可将其转化为灾难恢复计划。

这里的主要任务是采取上面列出的步骤(根据你的响应战略得出的步骤),并增加新的步骤:灾难操作步骤。

例如,如果问题是服务器硬件故障,关键灾难操作步骤是确定故障原因,获取并安装新服务器,对其进行测试并恢复系统。

制定DR计划

灾难恢复计划为计划外停机提供步骤,这里的目标是提供易于使用且可重复的步骤,以恢复IT资产,并在RPP和RTO的限制范围内使其恢复正常运营。

DR计划的结构

灾难恢复计划的主要部分包括:

  • 概述:DR计划的前面应该介绍企业对紧急情况的整体响应水平。还应介绍IT灾难恢复计划的目标和范围。另外,应列明谁批准该计划,谁被授权启动该计划,以及其他相关计划和文档。
  • 角色和职责:应该列明灾难恢复团队成员的角色和职责。其中包括他们的联系方式、购买设备的费用限额,以及他们在灾难事件中的具体角色和职责。
  • 事件响应:应描述事件响应流程,其目的是快速评估情况,确定其沿着弄程度,在必要情况下阻止事件发展,并通知管理层和其他关键利益相关者。
  • 启动计划:根据事件响应活动发现的情况,下一步是确定是否启用灾难恢复计划,并根据所面临的情况确定具体步骤。
  • 文档历史记录:应记录灾难恢复计划文档日期和修订记录,应该包括修订日期、修订内容以及谁批准该内容修订。
  • 流程:这些是指计划中规定的响应和恢复活动(恢复操作步骤),这是文档的核心内容。这些内容越详细,IT系统恢复到正常运行水平的可能性就越大。
  • 附录:在灾难恢复计划最后,可列出系统、网络、应用拓扑和清单目录,包括合约及服务水平协议(SLA)、供应商联系人以及对恢复流程有用的任何信息。

其他活动

制定灾难恢复计划只是灾难恢复的开端。如果要确保DR计划的可行性,则需要对其进行测试。这需要员工充分了解灾难恢复计划,了解他们在灾难发生时的职责,并对此进行过培训。

DR计划成功实施的唯一途径是定期对其进行测试,并确保它们保持最新状态–无论是人员方面还是物理资产方面。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐