把好春节大关:IT运维安全管理支招

日期: 2013-02-07 来源:TechTarget中国

    初识IT运维管理:内外有别

    一年一度的春节即将到来。在大家纷纷想着回家的时候,有这样一群人却还在紧张忙碌着。他们就是各大企业的IT运维人员。由于时值传统佳节,各行各业都安排假期,在这举国上下欢欢喜喜过大年之际,往往会给IT行业的管理和运维带来松懈。在这种情况下,我们有必要为大家讲解,在春节假期如何做好IT运维。

  在介绍IT运维与管理之前,首先我们要明确,根据ITSM的解释,IT运维管理主要包括以下两大部分:

  1、Helpdesk call center ,呼叫中心管理;主要以值班形式;

  2、机房设施和系统管理;现代机房都有软硬件系统告警设备,任何系统异常,都会有邮件、短信、电话等形式第一时间通知维护人员。

  因此,在探讨春节期间的IT运维与管理,我们要对其IT系统进行分类逐一分析。不同行业,其IT运维管理在节假日期间的执行要求并不相同。一般来说,在春节期间,春节联欢晚会在线直播、体育赛事、相声小品等多媒体平台,以及团购促销等平台,都会迎来海量的高并发访问量,并对其IT系统和业务支撑带来严峻挑战。这些不同行业的IT服务公司,其IT运维管理的特点也不尽相同。

  比如,主要服务内部客户的公司,由于节假日内部客户都休假,IT部门业务量也下降,只需安排call center的值班人员应对突发事件。如果面向外包客户的公司,比如互联网、电商公司,由于节假日业务量反而比平常增加,需要增加人手,并采取轮流值班形式保证正常运行。

    服务领域IT运维管理:有备无患

    正如前文所述,IT系统的运维管理视不同行业而有所不同。对于一般的企业来说,如果它并不对外提供IT服务,而仅仅是日常工作时间,为企业内部员工提供平台支持,企业邮箱也完全外包采用第三方服务的话,他们就无需在春节这个节假日刻意安排人手轮流值班。也就是说对于一般的公司,其网络系统并不重要的话,可以将更多精力放在节后。

    对于比较重要的、对外提供服务的IT系统来说,确保7*24正常运行是最基本的要求。在这种情况下,IT运维管理就显得非常重要了。而这,也是我们要介绍的应用服务领域的IT运维管理。

    IDC、SDC、NDC等行业公司,由于规模较大,其服务的用户群体和服务内容都比较广,因此,这些企业都安排有专人24小时值班。当然,即使是春节这样的传统佳节,也会有专人值班,以应对突发事件的发生。

    然而即便如此,在春节这样的重大节日面前,我们在IT运维管理的时候仍然特别需要注意以下几个问题:

    1、硬件设备检修

    IDC这类运营商的数据中心,其IT系统都提供有冗余设备(冗余电源、灾备等),可提供在硬件设备宕机的情况下,自动切换并保证系统持久稳定运行的机制。也正是冗余设备的重要性,运维人员在春节这样的节假日,特别需要了解各个硬件设备的现状。

     这种了解包括两部分:机器本身的可用性和使用周期。如果超出使用周期,需要调配新的机器设备,以满足突发性的高并发访问需求。另外还需要了解冗余设备的可用性。而这种冗余设备的检修往往会被忽视,如果一旦发生异常情况,系统自动切换到冗余设备上而设备发生故障,那么后果也是不堪设想的。

    2、保证电源持久供给

    “有了电,多方便”。春节期间,家家户户闹新年,往往各大电器都超长时间满负荷运行,从而会给电力的使用带来安全隐患。对于应用服务提供商来说也同样如此,如果电力供给出现故障,那么其他的所有一切工作都白费,而且还会造成难以挽回的巨大财产损失。

    对于IDC、SDC等应用来说,在电源方面通常都是采取双备份的机制来确保电源持久供应。有些服务器通常都有四个电源模块,而有些移动运营商甚至配备有UPS直流电源模块房,如果整个大楼停电,可以通过该模块房提供长达一周的用电需求。当然,更有甚者,将数据中心楼宇中的电梯也纳入到UPS供电的体系中,以方便管理员更高效、安全的提供运维、管理工作。

    3、职责明确 落实到人

    由于这类IT运维管理需要有专人值守,因此,在春节期间应该有职责明确、分工落实到个人的事先安排。通常情况下,这种24小时专人值守,可以采用轮流、现场和远程结合的形式来做出安排。比如,现场值班人员可以安排负责整个机房、数据中心的安全、防护工作,而作为系统监控、常规性故障处理,则可以由远处异地、通过手机、PC终端接入网络进行处理。当然,为了应对严重的突发事件,现场必须配备有专业技术人员。

    另外,有些IDC是根据业务区块(数据中心不同的业务区)来分派不同的专业技术人员进行值班监管,在这种情况下,每个运维人员特别需要留意所在的服务器访问情况(包括以往访问记录和高并发访问下的负载分担设备),以便有的放矢做出重点监测。而对于一般的网络设备,由于它们都具有堆叠和级联的功能(将多个交换机整合成单个),在高并发访问的情况下也能确保正常工作。

    通信领域IT运维管理:电话畅通

    除了运营服务领域的IT运维管理,其实还有一个重要领域的运维也需要予以重视,也就是通信领域的服务运维与管理。通信领域通常包括运营支撑(类似前面所介绍内容)、核心网、无线网络和传输四大块领域。通常每逢节假日,国家通信网络都会进入一个封网期——也就是节前一周至节后一周的这段时间内,其他工程项目都停止,所有网络都进入安全维护期,以确保高强度通信需求。

    和应用服务提供商有点不同的是,设备厂家和通信运营商都在安全维护期安排工程师7*24小时待命,以便支持运营商的维护人员解决故障,如果故障严重,厂家往往都会安排专人前往现场解决故障。

    在此次专门针对通信的IT运维管理进行讨论,主要是考虑到新春佳节之际,人们走亲访友,电话量、短信量暴增,会对整个国家网络通信系统、尤其是各个基站带来巨大压力。

    在一般情况下,短信并不会像电话(移动电话)那样,在大年三十的凌晨之际出现“打不通”的困恼。因为短信一般采用的是基于IP的通信原理,不太会出现网络拥堵的情况(但可能会存有延迟)。而电话则是通过基站来建立连接的。基站的呼叫是按照载频来计算,一般每个基站都是2000个载频,每个载频可以带12个电话。也就是说,单个基站其所能承受的是同时支持最多24000个移动电话的呼叫。

    在这种情况下,CS领域的IT运维管理应该注意一些什么问题呢?在笔者看来,在春节这样的节假日期间的IT运维管理,CS会比PS相对简单些,毕竟如果出现了话务量过大的情况,可以通过爱尔兰告警(单位时间内呼叫量)在接入层进行限制。除此之外,我们还需要特别注意以下两点:

    合理设置 事先防范

    不同热点不同城市,其移动电话用户规模也不同。因此,在春节这样的节假日期间,用户群密度不大的地区,其基站载频所带的电话数量应该取8-12个为宜,也就是说,每个基站所能同时承载的话务量应该控制在16000-24000之间,最好不要满载,否则设备容易出现故障。

    另外,对于核心网这块,在重视设备检修之余,还应该特别各个通信局间的通信机制。比如局内呼叫,局间呼叫,省内呼叫,省间呼叫,其呼叫持续时间不能过长,而且应该优化大规模漫游电话的呼叫流程,从而减轻各个基站和系统负担。

    编后语:

    以上,我们从当今IT运维的主要行业进行了梳理,寄希望于春节期间举国上下都在闹新春之际,能对IT运维管理给予更多的重视。这一方面不仅是IT系统运维的需求,同时更是某些移动通信、在线点播、电商促销和业务支撑平台公司的需求。而对于呼叫中心管理,则主要有赖于公司自己的人员值班安排与制度规范来确保。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 并非所有风险都是危险的

    “没人会因为选择IBM产品(此处指代成熟的已有技术,相对于新技术,译者注)而丢掉工作。”这是句圈内早就有的谚语 […]

  • IT运维机器人的崛起

    机器人真的以软件形式来到IT世界了吗?很有可能。机器人,以某种有效方式模拟人类技能或人类功能特性,是一种自动化实施方式……

  • 揭秘应用程序容器火热原因

    容器技术在当下正是火热。我们是怎么走到这一步的?是谁在驱动应用程序容器的采用?容器对IT运维提供了哪些帮助?为了寻求答案,我们采访了红帽集成解决方案业务部门的总经理Lars Herrmann先生。

  • 换角度思考 像云供应商那样改进IT运维

    现在是时候重新检修您的IT运营计划,使其更加敏捷更加创新。如果公司业务部门对您的IT服务不满意,那就把自己当做云供应商来思考提升IT运维效率。