如何建立数据中心的灾备体系

日期: 2010-10-08 来源:TechTarget中国 英文

  想象这么一个情况,如果突然遇到了重大灾害,服务器全部宕机,而其中保存的数据将承受很大的损失。那么,在灾难发生以后,我们应该做什么?什么是应该优先考虑的?应该按照一个什么样的顺序来启动服务器恢复程序?如果去询问相关的业务专家,他们会告诉你一切都是以商业利益为重点,但是你必须要做出一些重要的决定,来取得最好的恢复效果。
  
  建立一个完善的灾备计划是必须的。如果数据中心发生了问题,并且不能够在短时间内恢复,那么服务器就要按照步骤有条不紊的来进行恢复了。
  
  数据中心的定期自检
  
  一些运行关键业务的服务器十分重要。如果数据中心一旦发生了问题,这就意味着这些客户的业务就无法运行了,由此带来的损失是巨大的。这也是为什么数据中心每年要进行两次检查的原因。定期的审查数据中心能够确保服务器运行和业务的重点与目标相一致。这些服务器定期的审查因素包括:

  • 业务影响分析和风险评估
  • 服务器恢复策略
  • 根据不同的周期决定的优先次序变化
  • 相互依存的关系
  • 不同情况下停机的考虑
  • 备份程序
  • 异地存储重要记录
  • 数据保留政策
  • 恢复时间计划(RTO)
  • 恢复重点计划(RPO)
  • 关键的硬件服务器恢复
  • 备用恢复选址
  • IT和业务管理的停机处理

  灾难恢复优先级分类系统
  
  数据中心内部堆满了处理各种业务的服务器和硬件平台。为了防患于未然,你需要建立一个详细的灾备计划。这个灾备计划应该包括关键性的服务器等基础设施的优先恢复计划。你需要了解所有在数据中心中服务器所支持的业务的重要性,来确立灾难恢复的优先级:

  • 你需要什么
  • 你想拥有什么
  • 哪些业务不是必要的

  备份恢复团队应该有限分配给服务器,因为它们涉及到一些关键的业务。而服务器按照它们对应的业务可以分为几个不同的类别,分别对应不同的恢复优先级:

  • 关键系统:这些服务器在任何业务流程中都是重要的。它们上运行的业务对客户的影响很大,如果一旦这些服务器出现了问题,不但面临的是业务的损失,甚至还可能引起财务和法律上的纠纷。因此这些服务器的优先级是处于第一序列的。
  • 基本系统:这些服务器通常是维持正常运营的部分。没有它们,这个数据中心将无法正常运行,因此,这些服务器的优先级也是处于第一序列的。
  • 必要系统:这些服务器可以有效的改善企业的经营并提高员工的工作效率,但是在数据中心出现问题后,它们的重要性就显得很一般了。即使没有它们,企业和数据中心也能够正常的运行。因此,这些服务器的优先级是处于第二序列的。
  • 可选系统:这些系统包括测试系统,归档以及历史数据等非必要组件。对于这些服务器,可以排除在灾难恢复的策略之外。

  上述的服务器分类提供了一个基本的灾难恢复优先级解决方案。但是,最重要的还是IT团队和业务恢复的团队一起合作,来划分这些服务器的业务范围。将那些不必要的服务器剔除后,灾难恢复计划中的服务器数量减少,不仅有利于提高服务器的备份和恢复效率,另一方面也节省了财政预算。
  
  软件环境
  
  如果要恢复关键任务的应用程序列表,还必须要考虑这些应用的相互依存关系。很多软件的解决方案都是模块化的,它要求所有的软件必须100%完整。换句话说,如果要完全恢复正常的工作,就必须恢复所有的应用。你可以不使用特定的业务功能,但整个解决方案必须正常运行。
  
  当编译的关键任务应用程序的列表,还必须考虑应用的相互依存关系。 首先,许多软件解决方案被认为是模块化设计,但软件必须是百分之百的完整的 – 换句话说,完全恢复正常工作。 你不能打破的应用,除了服务器的配套基础设施。 您可以选择不使用特定的业务功能,但整个解决方案必须重建百分之百正常运行。但问题是,恢复所有的应用程序是不是太浪费时间了。忽略一些非关键的库可以节省时间,可以更快的实现灾难恢复。这些非关键的库和用户目录包括:

  • 性能数据
  • 审核数据
  • 测试库
  • ERP的预装库
  • 网络教育
  • 开发者库
  • 用户测试环境
  • 数据存档
  • 电子数据交换
  • 试用软件
  • 临时工作目录产品

  不可忽视的硬件要求
  
  在确定每一个灾难恢复计划之前,必须要确定那些处理关键业务的服务器的最低硬件要求。很多人忽视灾难恢复计划后业务的连续处理能力,只是单纯的认为有总比没有好。而事实上,如果灾难恢复后的服务器只能处理一半的业务,没有企业会愿意接受的。我们不能告诉客户,由于一场灾难,我们只能处理一般的订单。即使客户接受了,可损失的还是企业。虽然通过减少一些不必要的应用可以提高服务器处理的能力。但是,最好的办法,还是在制定灾备计划之前, 就确定好这些服务器的最低硬件要求。
  
  不能忽视的人为因素
  
  如果数据中心发生了灾难,没有工作人员的操作,服务器是无法自己恢复的。很多公司只把精力放在了制定完善的灾难恢复计划上了,却忽略了工作人员的重要性。一个很好的例子是,当墨西哥湾沿岸发生飓风后,虽然当地的数据中心有着完善的灾备计划,但是由于发生灾难后,当地的交通变得很困难,导致工作人员无法到达指定地点。因此,如果工作人员无法正常操作,再完善的灾备计划也是没有用的。
  
  完善的灾难恢复计划
  
  当有了一个完善的灾难恢复计划后,一旦数据中心出现了问题,就可以有条不紊的按照步骤执行恢复。保证业务的正常运行,并将损失降低到最小。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐