面对未来的需求,数据中心的设计变得越来越困难。作为一种概念,统筹设计希望通过对每一位客户的需求、可用性要求、筹资能力以及各种商业模型的评估,来满足数据中心的需求。
在最近进行的一次调查中,要求被调查者说出所在公司对正常运行时间的最低要求。针对这一问题,大约25%的人回答,他们最低的要求是99.999%!由此不难看出,为什么现在大部分企业数据中心都将系统可用性看成是最主要的设计因素。与此同时,从业者和设计人员却很难确定针对每个公司的“理想设计”。之所以备感棘手,其中涉及到诸多原因。首要原因当属数据中心较长的使用寿命。一个数据中心有可能维持10年甚至更长,设计人员通常不会介入如此长的时间,来获得确定如何改进设计所需的反馈。
与此同时,诸如微小的设计缺陷加上低劣的操作程序等各类因素也会引发很多问题。最终,也许正是由于人们对这方面了解不够致使改进设计工作遇到困难。我们只有边做边学,将从修建上一个数据中心过程中积累的经验,应用到新的数据中心上,并加以改进。
纵观现有众多高可用性数据中心,每个数据中心的设计和运营模式差异巨大,但在很多方面却又存在着相似点。通过整合各类数据中心的数据、反馈和目标,我们希望促进并协助设计或改进数据中心的过程。
本文要讨论的主要问题是:
- 电源设计容量的供求不平衡;
- 预测未来的电源需求;
- 迅速改变数据中心的功率密度;
- 建立能够有效分配电源的基础设施;
- 增加新数据中心的热限制;
- 创建和优化电源冗余选件;
- 了解运营和培训的影响;
- 解释实现“99.999%”的可行性;
- 系统的恢复是如何影响可用性的。
UPS供电设计容量与实际需求无法平衡
在设计和建设数据中心时,人们将预测数据中心规模看成是一个基本的程序。但是,如果预测的数据中心设计寿命是10到15年,那么这项任务就变得异常困难。在这种类型的使用寿命期内,房间内的设备可能被新一代的设备“刷新”或更换四五次。IT设备的快速更新使得最基本的未来容量预测成为泡影。
例如,摩尔定律指出集成电路的集成度每18个月翻一番。对于每一代产品来说,附加的晶体管需要成比例地增加电源容量。相应地,微处理器的热量输出也显著上升。Intel最新的Pentium 4芯片大约产生100W的热量。相比486,后者发热量不足10W。芯片密度的增加以同样的比率增大了热量的产生。由此联想到数据中心的设计,我们所看到的是,功率密度的要求在过去的几年中迅速膨胀。不久前,每平方米50W还是一个比较典型的数值,但是目前的大部分设计人员则将这一数值增大到每平方米150~200W甚至更多。仅仅在最近几年中,系统基础结构就实现了惊人的扩展,以应对数据中心的电源容量和冷却不断变化的要求。
预测未来电源需要这一极富挑战性的任务引发了最严重的数据中心问题之一,即UPS设计容量供求的不平衡。这一问题的出现不仅影响了数据中心的效率、利用率和支持能力,而且还妨碍了资本的最优使用。例如,一个大型数据中心建成后,经常需要2~4年才能达到或接近设计能力。因此,在前几年的运营中对电源容量的需求很少。而这时的用户经常会斥资数百万美元建设能够达到全部设计容量的数据中心,包括购买数兆瓦的冗余电源系统来支持数据中心。系统在以最小限度的低容量运行几年后,才能使用全部容量。在这种情况下,大量的资金用于最初的容量建设,以满足多年以后才会出现的需要。具有讽刺意味的是,在使用全部电源容量的同时,数据中心仍有很大的占地面积可供使用。出现这种情况是因为设备的功率密度在两年内不断增加,电源容量已被全部使用,但占地面积却十分充足。瞬息万变的设备技术使这种情况变得更糟,通常数据中心每四年就需要一次大修。除了大修的费用,数据中心的宕机风险也在实施过程中大幅度增加。
图1 大型互联网数据中心的利用率典型曲线
这对于以出租数据中心为主要收入来源的设备托管和互联网服务商来说尤其危险。这些公司在正式运营以前就要支付整个设施的费用,但是与此成本对应的收入经常是在多年以后才会收到。对于这类资本密集型行业来说,在获得收入之前承担巨大的成本负荷是极其危险的(如图1所示)。应注意的是,利用率曲线可能有很大的变化,而且两年通常是一个非常乐观的数字。从图1中可以看出,供求平衡点几乎永远也不存在,这样就会导致巨大的成本,无法实现最优的利用率。
图2 可扩展系统中电源供求的关系曲线
图2所示为具有更高可扩展性的设计方案电源供求关系。
在图2中,系统的设计允许容量升级。供给始终大于需求。但是这个特别的阶段性设计方法也有局限性。由于基础设施的变更会给数据中心运营带来的风险,分四个阶段建设非常罕见。实际上,在完成数据中心最初的建设之后,通常需要在一两个阶段内就要完成整个工程。
为了改善电源设计容量与实际需要容量间的不平衡,首先预测未来的需要是很重要的。尽管困难很大,结果也总是不尽如人意,但对于长期的成功却至关重要。其次,设计过程中需要融合以前设计缺少的灵活性和可扩展性。第三,设计数据中心须注意的另一个方面是实现解决方案的定制化,使其更加标准。这不仅可以降低设计费用,而且可以加速项目的实施。
局部热量增大将改变制冷系统设计观念
另一个与不断增长的功率密度相关的重要问题是数据中心环境中增长的热量。在数据中心,所有电力实际上都转化为热量,之后热量又被排放回运行环境中。
多数数据中心机房制冷系统都存在各种基本的设计和配置缺陷,这可能会导致无法获得既定的冷却性能,同时阻碍冷空气的流通。这些问题通常不会被发现,因为计算机机房运行的功率密度通常远低于设计目标。然而,随着IT设备功率密度的增加,使得数据中心机架微环境逐渐接近其设计极限,进而暴露出了无法提供有效冷却性能的问题。
图3 典型数据中心功率消耗分布
低效的冷却性能除可能降低系统可用性外,还可能导致成本大幅增加。设计的缺陷可能将冷却系统的效率降低20%或更多。图3所示为典型数据中心功率消耗分布,冷却系统消耗的功率接近整个IT负载消耗的功率。冷却效率降低20%,便可能导致整个功率消耗增加8%。
要对数据中心的冷却系统进一步优化,不仅要考虑冷却设备自身的设计和规范问题,还要注意整个冷却系统为设备提供冷空气的过程。
事实上,不断增加的散热需求对于目前的数据中心来说无异于又多了一个负担。当环境温度超过一定限度时会导致系统发生故障,而系统故障最终会导致意外的宕机。尽管现在的高架地板上通常可以放置新的空气处理器,但是高架地板的高度对额外的空气流动不利。尤其是电源和数据电缆数量的增加以及更大的冷却水管可能会妨碍地板下空气的适当流动,最终导致缺少足够的静压来冷却高密度的机架设备。解决问题的一个办法是在相应的设备前增加额外的出风口。这通常可以增加该点上的制冷量,但同时也会影响其他区域的静压。
另一个类似的方法是增加空气处理器的功率。如果能够用更大的风扇吹出更多的空气,出风口就会得到所需的静压和冷却。但是在某些的情况下,结果恰好相反。功率大的马达产生的流速快的气流可能会在邻近的出风口处产生文德里效应。文德里效应是一个基本的空气动力学定律。根据此定律,当流体以相对较高的速度通过一个表面时,对表面的压力就会降低。
文德里效应会导致某些部位致冷效果变差,使设备运行变得不安全。过去,即便数据中心失去致冷功能1个小时甚至更长时间,也能保持安全运行。但是如今,高密度数据中心产生的巨大热量意味着如果致冷暂停几分钟,温度就会上升,从而威胁设备的运行。
快速散热的要求不仅影响系统设计,而且会影响致冷设备的维护。过去,在更换过滤器或维护空气处理器时,出现短时间断电不会有太大影响,但现在所带来的危险已不可同日而语了。
图4 热通道—冷通道方法
因此,更高级别的空气处理器冗余配置变得越来越普遍。附加的冗余配置使维护工作和设备故障不至于威胁到整个系统。这方面,一些基本的方法已经取得了较好的效果,例如“热通道—冷通道方法”。该方法是一种机柜布局方式,有助于最大限度地增加设备机柜入口处的冷气量。如图4所示。
使用这种方法,机柜的前端彼此相对,并在相应的通道中装有出风口。这样就形成了“冷通道”,有助于设备入口接受冷却空气。在后通道上,每个机柜的背面彼此相对,热空气排进该通道中就会上升并产生更强的对流循环。
致冷问题还表现在一些采用电信设计规范的数据中心。这些数据中心拆除了高架地板,在顶部使用大流量空气处理器实现冷却。但实际上,采用这种做法冷却的是整个房间,而不是机柜。同时该方式还可能存在诸如冷却水泄漏和冷热空气混合的问题。
在本文的下半部分中,我们将为你介绍数据中心系统可靠性和可用性方面的概念。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
看IBM数据科学团队如何助力企业用户AI项目
在下面的Q&A中,IBM公司的Seth Dobrin探讨了如何提高企业用户对机器学习和AI项目的兴趣, […]
-
DR基础知识:灾难恢复计划和灾难恢复策略
IT灾难恢复(DR)计划的主要目标是制定详细的恢复计划,以在意外中断时执行。 这种计划应该列明详细步骤,说明在 […]
-
为超融合架构选择合适的数据中心冷却系统
超融合基础架构会给新的数据中心冷却方面带来一些新的挑战,在选择和实施之前,我们来看看哪些温度和冷却单元的效率是最好的……
-
IDC Directions 2017:值得期待的智能数据中心技术
智能技术能够让数据中心变得更为自动化、简单,不过企业需要为其实施做好准备,了解如何从旧的设备平稳过渡至智能的数据中心。