任何一家企业都很担心自己会无故卷入数据中心系统宕机事件中。但是,我们往往会忽视一个现象——任意两个宕机事件的情况都不是完全相同的。数据中心瞬间的故障就可能会引发极其严重的后果。 鉴于此原因,对数据中心每台设备进行风险归类就显得至关重要,这要求我们对一家机构关乎其产业链薄弱环节的系统弱点有所了解。
从广义上讲,HVAC和电力系统、设备安全、IT基础设施运维和操控及灾害防备等相关因素都应该被放在一起考虑,从而确保数据中心设备的可靠性。 我们可以使用风险等级的概念来对企业核心设施进行可用性和可靠性评估,这无论是对现有设备来说还是对新设施的设计进程来说都是有用的。它可以帮助我们为核心任务选择合适……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
任何一家企业都很担心自己会无故卷入数据中心系统宕机事件中。但是,我们往往会忽视一个现象——任意两个宕机事件的情况都不是完全相同的。数据中心瞬间的故障就可能会引发极其严重的后果。
鉴于此原因,对数据中心每台设备进行风险归类就显得至关重要,这要求我们对一家机构关乎其产业链薄弱环节的系统弱点有所了解。从广义上讲,HVAC和电力系统、设备安全、IT基础设施运维和操控及灾害防备等相关因素都应该被放在一起考虑,从而确保数据中心设备的可靠性。
我们可以使用风险等级的概念来对企业核心设施进行可用性和可靠性评估,这无论是对现有设备来说还是对新设施的设计进程来说都是有用的。它可以帮助我们为核心任务选择合适的部件,从而起到防止数据中心宕机的作用。
以下是一个对设备进行风险等级评定的例子:
C1——指那些支持本地日常办公进程、不会进行日常备份的设施。这些设施的瘫痪可能会导致生产力的下降。但是,在经历突发宕机事件后,我们可以在短时间内轻松将其恢复。
C2——指那些支持本地和远程核心业务进程的设施。C2设施的宕机会对生产力产生广泛的影响。在发生突发宕机事件后,要对其进行全面恢复可能会花数小时时间。对这些设施的停机检修是要被排进日常工作流程当中的。
C3——指支持和/或包括核心业务进程的备用设施。这些设施的失效会对生产力产生重大影响并会直接影响到客户的使用。在发生突发宕机事故后,要对其进行全面恢复药花几小时甚至几天时间。每个几个月或每个季度都要挑选低风险时段对这些设备进行日常维护。
C4——指那些支持和/或包括核心业务进程的主要设施。这些设施的失效会对生产力产生重大影响并会直接影响到客户的使用。在发生突发宕机事件后,要花几小时甚至几天时间才能将其修复。每个月或在每个季度都要挑选中等风险时刻对这些设施进行在线维护。要想对其进行停机维修是很难的。
C5——指那些支持和/或包括核心业务进程的主要设施。这些设施的瘫痪会直接导致系统的瘫痪。在发生突发宕机事件后,要花几天甚至几周时间才能将其修复。每个季度或每年都要挑选中等风险时刻对这些设施进行在线维护。要想对其进行停机维修是很难的。
C6——指那些支持和/或包括核心业务进程的大型数据中心,通常是指一个包括多个远程数据中心在内的网络。这些设施的宕机影响极为广泛,可能会影响到国家安全和公共安全。经历宕机事件后,所有的维修措施都必须在线执行,并力图将风险降至最低,这一过程可能会花几周甚至几个月的时间。
C7及C7以上——指核心设备持续增长或演变后的等级。
这种风险等级评定方法使设施规划人员和IT主管可以对各种设备部件的重要性等级和质量要求进行评估,获取备用电源、安全性、IT配置和IT冗余性等指标是这一方法的终极目标。例如,大型数据中心内一套风险等级为C6的设施的IT冗余性肯定要比支持办公进程的C1设备要高的多。
当设施设计规划人员掌握这些风险等级之后,再结合外部运营不尽啊的评估,他们就能提供相应的业务灵活性、冗余度及安全性来为相关机构的关键业务提供支持。
翻译
相关推荐
-
圣诞节亚马逊数据中心发生宕机事件
圣诞节平安夜,亚马逊AWS位于美国东部的数据中心发生故障,其弹性负载均衡服务中断,导致Netflix和Heroku受到影响。
-
杯具大盘点:2012下半年数据中心十大宕机事件
2012年下半年宕机事件也不少,最为典型的例子是云中断,下面又到了盘点这些层出不穷的“杯具”时间。
-
2012年云计算数据中心的九个杯具
尽管投入各种高新复杂技术,尽管投入海量巨资,云计算还是显得有些脆弱,在过去的几年里不乏动辄就宕机数小时的事件,甚至有的长达一天或数天,并导致数据丢失。
-
数据中心高可用性:“五个九”意义有多大?
高可用性对于IT生命来说很关键,但是对于很多企业来说,所谓的“五个九”,也就是99.999%的情况下正常运行时间不是必要的。