技术锦囊:金融行业容灾最佳实践

日期: 2010-08-18 来源:TechTarget中国 英文

  数据越来越突出地成为社会正常运作的核心。对于一个企业来讲,数据更是影晌其生存和发展的关键,各行业的用户和企业对网络应用和数据信息的依赖日益强烈,使得突发性灾难如火灾,洪水,地震或者恐怖事件对整个企业的数据和业务生产会造成重大影响,所以如何保证在灾难发生时,企业数据不丢失,保证系统服务尽快恢复运行成为人们关注的话题,容灾技术日益成为各个行业关注的焦点。
  
  随着信息化建设的不断发展,人们已经越来越意识到数据的重要性。数据的价值体现有两个前提,既数据的安全和可用,这就要求数据信息系统具有高可用性。基于这种认识,各种存储技术被快速发展起来,保证数据的安全性有专业存储系统和备份解决方案。
  
  灾难备份是今天的一个重要的课题,如何保证数据中心在经历一定级别的故障和灾难后能够尽快恢复运营,对干此务连续性较为敏感的企业是至关重要的。
  
  一、基本概念
  
  容灾,就是在灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断运行。
  
  1、容灾的评价指标
  
  现在工业界都以数据丢失量和系统恢复时间作为标准,对某个容灾系统进行评价,公认的评价标准是RPO和RTO。
  
  RPO(RecoveryPointObjective):恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量,系统容忍丢失的数据量越小,RPO的值越小。
  
  RTO(RecoveryTimeObjective):恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。
  
  RPO针对的是数据丢失,RTO针对的是服务丢失,两者没有必然的联系,并且两者的确必须在进行风险分析和业务影响分析之后根据业务的需求来确定。
  
  2、容灾的分类
  
  由于容灾包含的内容比较广泛,对容灾的分类也可以从多个方面进行。总的来讲,可以从容灾的范围和容灾的内容来区分。
  
  从容灾的范围讲,容灾可以分成本地容灾,近距离容灾和远距离容灾。这三种容灾能容忍的灾难是不相同的,采用的容灾技术也是不同的。
  
  从容灾的层次讲,容灾又可以分成数据容灾和应用容灾,本质上讲,这两种容灾是密不可分的。数据容灾是应用容灾的基础,没有数据的一致性,就没有应用的连续性,应用容灾也是无法保证的。数据容灾是指建立一个备用的数据系统,该备用系统对生产系统的关键数据进行备份。

  应用容灾则是在数据容灾之上,建立一套与生产系统相当的备份应用系统。在灾难发生后,将应用迅速切换到备用系统,备份系统承担生产系统的业务运行。
  
  二、容灾技术选择
  
  容灾系统的建设需要多种技术相互配合,选择容灾技术的原则和策略是容灾系统建设的关键。
  
  1、容灾技术选择要素
  
  容灾技术的选择,是一个以业务容灾需求为核心,多种因素综合权衡的过程。容灾技术选择所需考虑的因素如图1:
  
  1)业务分析结果
  
  容灾系统建设应根据业务分析结果选择合适的容灾技术并确定具体的实现策略,以满足业务恢复时相应的RTO、RPO指标。
  
  2)业务关联程度
  
  在进行容灾技术选择时,需要考虑到核心业务系统各种业务之间的关联关系。业务关联紧密,数据的藕合程度高,可能会造成所有关联的业务都要采用同一种容灾技术,业务关联松散,数据的藕合程度低,可能会针对不同的业务要求进行区分,分别采用不同的容灾技术。
  
  3)系统现状
  
  核心业务系统容灾技术必须充分考虑与现有系统的配合。现有核心业务系统的应用分布、应用的实现方式、硬件设备平台的种类、存储数据量的大小、IO吞吐量的大小等,都会对容灾技术的选择产生影响。
  
  4)技术成熟度
  
  容灾系统必须采用成熟可靠的技术,保证系统特续,稳定的运行。该技术应具有类似于电信业务运营支撑系统容灾建设的成功案例,不能由于技术手段的不成熟或不稳定而增加核心业务系统新的风险。
  
  5)容灾系统环境
  
  核心业务系统容灾技术必须考虑生产中心与容灾中心之间的距离,网络环境等因素,不同的技术对距离,网络带宽的要求会有所不同。
  
  6)管理维护难度
  
  不同的容灾技术对管理维护的要求各不相同,在同等条件下,应采用易于管理和维护的容灾技术。
  
  7)成本分析
  
  不同的容灾技术对软硬件投资,实施维护成本的要求各不相同,在同等条件下,应采用总体成本最小的容灾技术。

  2、容灾技术选择策略
  
  同一技术领域内存在多种技术可供选择,对这些技术进行综合评估是方案设计阶段最重要的工作之一。
  
  判断容灾技术的可行性,须根据现有应用环境,采用理论和实践相结合的方式,对可能采用的多种技术手段逐一进行评估。容灾技术的选择流程如图2。

技术锦囊:金融行业容灾最佳实践

  1)现有系统的梳理
  
  容灾系统与生产系统有着紧密的关系。对任何一种容灾技术适用性的评估,必须基于企业的叮系统现状。因此,企业应首先对现有系统的各种信息进行统计和收集。
  
  对现有系统梳理要收集和统计的信息包括,主机信息收集:网络信息收集,存储设备信息:应用软件的功能、种类、与其它系统的接口等信息;外围接口信息;系统监控信息;组织人员管理。
  
  对以上的信息进行收集和梳理,可以起到很好的作用;了解现有系统的硬件平台资源情况,为容灾规模决策提供依据;了解现有系统的应用情况,为容灾范围和容灾的运营方式决策提供依据;了解现有系统的外围接口情况,为容灾接口规划提供决策依据;了解现有系统的监控手段,为容灾技术的选择提供参考;了解现有的人员和管理现状,为容灾技术的选择提供参考。
  
  2)系统结构抽象
  
  从灾难对客户满意度的影响,对企业直接的影响和对企业间接的影响几个角度去分析,核心业务系统中的业务功能有着不同的容灾要求。对于需要实施容灾的业务功能,必须明确支持这一业务的IT系统结构,绘制系统结构图。IT系统结构包括IT基础设施结构和业务数据流程结构。系统结构抽象的过程是一个IT系统映射的过程。

技术锦囊:金融行业容灾最佳实践

  IT基础设施结构包括:服务器、存储器、网络及其他相关设备的配置情况;服务器与服务器、服务器与存储器之间的连接;业务数据存储的逻辑位置;该IT系统和外部系统的接口;核心业务系统应用的分布情况:针对各种应用,在核心业务系统IT基础设施中的分布情况,使用的主机、存储设备、网络资源情况、以及在网络结构中的位置;核心业务系统各个业务间的关联关系,业务间彼此的影响和依赖程度。
  
  通过丁基础设施结构抽象可以明确不同的业务功能与硬件资源的映射关系,可以梳理出不同业务问的关联以及对硬件设备的相互影响情况,以及不同的业务与外部系统接口的情况。IT基础设施结构抽象的过程,有助于在选择容灾技术时明确该技术所涉及的硬件平台、业务种类、业务关联关系以及外围系统接口的要求。
  
  3)运行情况数据获取
  
  为了获得对系统完整的描述,除了系统结构抽象外,还应收集正常业务状态、业务高峰状态,当前运行状态和历史运行状态数据,同时根据业务发展趋势以及历史状态数据推测系统今后的运行状态特性。根据需评估的不同技术,需要采集如下的一些系统运行状况:

  1.存储关键业务数据的数据库,文件系统及相应的服务器,存储设备的平均写入容量、写入高峰值、数据块大小,整体IO值,工作负载高峰值;
  
  2.网络连接之间的LAN/WAN/SAN当前的容量和使用率,数据传输的延迟;
  
  3.服务器系统的CPU的平均/高峰使用率,内存的平均/高峰使用率,IO通道的平均/高峰使用率;
  
  4.软件功能模块的批处理任务的吞吐能力、在线交易的响应时间。
  
  4)容灾技术理论分析
  
  容灾技术验证中的一项重要工作是对容灾技术进行理论分析。根据不同容灾技术的技术参数、推导方法、实现原则和相关要求对容灾技术进行可行性分析。
  
  根据对现有系统的梳理,结合这些技术参数和推导方法,对该技术进行理论上的可行性分析,判断:该技术是否能满足业务需求提出的RPO、RTO指标、该技术实现数据保护的方式、能否确保数据的安全、是否需要其它的辅助手段、共同完成核心业务系统容灾功能,该技术所适应的业务容灾范围和运营方式,该技术能够满足的容灾规模,该技术实施时对网络带宽,存储容量的要求,该技术在实施过程中是否会对生产系统造成不可接受的影响,该技术在投入运行后是否会对生产系统造成不可接受的影晌,该技术在投入实际运行后对管理维护方面的影晌和要求,该技术实施的总体成本。

  5)容灾技术案例考察
  
  通过考察该技术在类似应用环境下的真实表现也可对技术进行评估。环境越相近,可借鉴的程度越高。考察技术案例时要着重关注的要点包括:系统的规模、系统的体系结构;容灾系统的功能,以及相应功能的技术实现方式;容灾技术对网络资源的要求;容灾技术的使用对生产系统的影晌;容灾技术的可管理性和可维护性。
  
  6)实际测试
  
  为了保证容灾系统真正发挥为核心业务系统提供风险预防机制和抵御灾难手段的能力;对于采用理论分析方法难以确定的技术,或者十分关键的新技术;应当结合实际测试进行判断。测试环境应尽可能模拟现有生产系统;实际测试需要从功能和负载两方面进行。
  
  ①功能测试
  
  在进行容灾技术功能测试时需制定功能测试计划,功能测试计划应包括数据故障切换,数据故障恢复,应用故障切换和应用故障恢复以及网络故障切换和网络故障恢复等。功能测试部分还包括确定该技术和其他技术的集成能力。
  
  ②负载测试
  
  测试环境可以通过采用部分现有系统中的数据进行,包括对现有环境实际运行状况的模拟,通过调整系统负载,观察技术在不同负载下的表现,以评估该技术的处理能力,同时对测试过程中的网络带宽,IO资源消耗、对生产系统的影响等性能指标进行评估。
  
  除了功能和负载考察外,还应对技术实施情况和遗留问题等进行了解。
  
  7)模拟运行
  
  对于通过测试验证的容灾技术,应当结合实际测试的情况进行模拟试运行,根据试运行的结果确定该技术的可用性,尤其需要考虑该技术对生产系统的实际运行所产生的影响情况,以及该技术所需的系统资源。
  
  8)方案确定
  
  最终根据实际测试的结果和模拟运行的结果,确定适用于核心业务系统的容灾技术。

    三、容灾技术
  
  传统的容灾技术通常对生产系统的灾难采用远程备份系统技术。但是,随着对容灾系统要求的不断提高,现在的容灾技术包括了可能引起生产系统服务停止的所有防范和保护技术。一般来讲,一个容灾系统中实现数据容灾和应用容灾采取不同的实现技术,数据容灾的技术包括数据备份技术,数据复制技术和数据管理技术等,而应用容灾包括灾难检测技术、系统迁移技术和系统恢复技术等等。

  1、数据复刨技术的作用
  
  数据复制技术作为数据保护手段之一,正在被越来越多的机构所采用。随着时间的发展,数据复制己经演进成灾难恢复(DR)不可缺少的组成部分,能够提供更短的恢复点目标(RPO)和恢复时间目标(RTO)。
  
  2、复制技术的差异
  
  数据复制将来自一个存储位置的数据拷贝到一个或更多的其他本地或远程存储系统。但是,跳出这种基础任务之外,会发现数据复制在几个关键方面是不同的:
  
  1)复制发生的不同位置
  
  复制发生的位置是主要差别之一。数据复制服务或软件可以运行在存储阵列上,网络中或主机(服务器)上。
  
  2复制实现的不同方式
  
  有同步复制与异步复制两种:复制可以同步发生,数据同时写入到主级和次级存储系统;或者可以异步执行,数据经过延时后复制到复制目标。
  
  在同步复制中,主存储系统只在复制目标确认数据被成功写入后才执行I/O操作。同步复制取决于充足的带宽和低延时,支持的复制距离从50公里到300公里。它一般在要求零RPO和RTO的应用(如高可用群集和要求主系统与目标系统之间100%同步的关键任务应用)中使用。
  
  在异步复制中,首先将数据写入主阵列,并且根据实现方法,将数据复制到内存或基于硬盘的日志中,然后实时或按照计划的间隔将数据拷贝到复制目标。与同步复制不同,异步复制适用于长距离复制,并降低了带宽要求。
  
  当前市面上大多数基于阵列和基于网络的复制产品同时支持同步和异步复制,而基于主机的复制产品通常只提供异步复制。
  
  3)复制的不同类型
  
  实施复制,可以复制卷或逻辑设备号(LUN)上的数据块,或者执行文件级的复制。
  
  多数基于主机的复制产品运行在文件级上,基于文件的复制产品高度依赖干特定操作系统。
  
  与基于文件的复制不同,基于块的复制独立于平台上,可无缝地跨不同操作系统运行,对连接的平台、文件系统或应用一无所知,它们依靠像快照这样的辅助服务实现任何类型的应用集成。

  3、复创技术基于不同设备的实现
  
  实现复制功能的设备分布可大体分为三层,分别为服务器层,存储交换机层和存储层。
  
  1)基干阵列的复制
  
  在基于阵列的复制中,复制软件运行在一个或多个存储控制器上。这项技术在大中型企业中较为普遍,主要是由于规模大的公司部署了提供数据复制特性的高端存储阵列。
  
  基于阵列的复制具有15年以上历史,是最成熟和经过实践证明的复制方法,其可伸缩性只受到阵列的存储控制器处理能力的限制。
  
  由于复制软件安装在阵列上,它非常适合拥有大量服务器的环境。原因如下:它独立于操作系统,能够支持Windows和基于Unix的操作系统,以及大型机(高端阵列);许可费一般基干存储量而不是连接的服务器数量;它不需要连接服务器上的任何管理工作。由于复制工作被交给存储控制器来完成,因此避免了服务器上的处理开销,从而使基于阵列的复制非常适合关键任务和高端交易应用。
  
  基于阵列复制的最大劣势是缺少对异构存储系统的支特,除非阵列提供存储虚拟化选择如HDS(HitachiDataSystems)为其UniversalStoragePlatform(USP)、HPXP系列高端存储所做的那样一一基于阵列的复制通常只能在类似机型的阵列之间发挥作用。除了高度的厂商锁定外,基于阵列复制的入门费用也比较高,对于必须支持大量不同位置的公司来说尤其昂贵。总的来说,基于阵列的复制最适合统一采用一家存储阵列厂商的产品。
  
  2)基于主机的复制
  
  在基于主机的复制产品中,复制软件运行在服务器上,不依赖额外的硬件组件。这就使基于主机的复制成为部署起来费用最低廉和最容易的复制方式。
  
  大多数基于主机的复制产品都支特Windows,但对Linux和Unix的支持较为薄弱。因此,平台支持显然是选择基于主机复制产品的关键评估标准之一。
  
  在缺点方面,基于主机的复制给服务器增加了额外开销,安装的复制软件带来了引入未知行为的风险。许可费和系统管理任务随服务器的数量成比例增加。
  
  3)基干网络的复制
  
  在基于网络的复制中,复制发生在存储阵列与服务器之间。I/O在联机专用设备或光纤通道止(FC)结构中被分离;I/O分流器分析入站的写I/O的目的地址,如果地址是复制卷的组成部分,则将这次I/O的副本转发给复制目标。基于网络的复制集基于阵列的和基于主机的复制的好处于一体,通过卸载服务器和阵列的复制工作负载,它可以跨大量的服务器平台和存储阵列运行,因而使它成为高度异构环境的理想选择。多数基于网络的复制产品还作为选件或核心产品的组成部分,提供存储虚拟化。
  
  四、复制技术在现实环境中的应用
  
  1数据库级数据复制
  
  1)数据库的数据导入导出功能
  
  在本地通过数据库的导出命令导出数据到文本文件,将文本文件传送到异地服务器,并使用数据库导入命令导入数据库。
  
  这种方法在全国物理大集中过程中使用非常广泛,对于一些业务量较小的企业,如果数据库的容量在100G以下,可以考虑继续使用该项技术。数据库导出后将数据文件进行压缩,ftp至生产机房进行恢复,再恢复应用。
  
  该项技术好处在于简单,风险低、易于操作,而且不用进行专门的迁移技术采购,节省投资。缺点在于对于数据量大的数据库导出时间太长(可达20多小时),因此业务停机时间也特别长。
  
  2)数据库的数据同步功能
  
  利用数据库提供的数据同步功能,将生产数据库同步到异地数据库实例。目前利用该项技术可进行过渡性灾各系统的建设。
  
  当备用数据库的HDR启动时,它首先进入本地同步更新状态。并根据本地日志路径配置参数及日志归档方法的设置检索本地系统中的日志文件并重放。当本地日志文件重放完毕,备用数据库进入远程同步暂挂状态。当与主数据库建立连接之后,备用数据库进入远程同步更新状态。即主数据库将自己的日志文件通过TCPIP协议发送给备用数据库,备用数据库接收到日志文件并重放,直到所有日志文件都重放完毕,备用数据库和主数据库进入对等状态。

技术锦囊:金融行业容灾最佳实践

  如上,可以首先建立起HDR灾各系统,在规定的时间进行HDR模式切换,即将Secondary切换成primary,将Primary切换成Secondary,实现应用切换。
  
  该项技术好处在于切换时间短,不用进行专门的迁移技术采购,节省投资,而且有很多实施经验。缺点在于HDR实施时也需要有停机时间,而且曲干数据库实例多,实施工作量也非常大。HDR另外一个好处是可以同步实施灾备。建议如果不进行专门的迁移技术采购的话,可采用该项迁移技术。

  2、存储级数据复制
  
  数据的复制过程通过本地的存储系统和远端的存储系统之间的通信完成。这种方式的复制对应用来讲是透明的,可以直接实现数据容灾功能,也可以提供很高的性能。可是,对存储系统的要求比较高。
  
  存储复制技术是指存储系统结合操作系统软件,可以实现两个或多个存储系统的硬件底层数据复制。智能存储复制技术在最大限度地保证数据完整十致的前提下,提高了数据复制的速度。
  
  存储系统是信息的真正物理所在地,利用存储系统复制可以独立于服务器,操作系统、卷管理软件、数据库、文件系统、中间件、应用程序。存储系统数据的物理构成单位为扇区(Sector)、簇(Cluster)、磁道(Track)、柱面(Cylinder)、卷(Volume)。一般基于卷建立起复制对应关系,复制过程中的数据传输单位可能为簇,磁道或柱面。
  
  从生产中心和容灾中心之间数据是否保持完全一致看,传输模式可分为如下两种:
  
  同步:当生产中心发生数据更新时,容灾中心相应的镜像磁盘卷组也会同时被更新。例如:生产中心服务器对本地磁盘阵列执行一个I/O写操作时,数据先写入磁盘阵列的Cache中,然后向容灾中心磁盘阵列复制该I/O数据;容灾中心完成复制后,会返回写成功操作信息到生产中心。这时,生产中心的磁盘阵列cache中的数据才写入磁盘,并向生产服务器确认本次写操作完成。由于同步方式要求每一个写I/O操作均得到容灾中心的确认才能够在生产中心完成,所以当生产中心和容灾中心距离较远时(距离的远近受环境制约,需要考虑地形,地势等诸多因素),会产生较大延迟,对性能影晌较大。

技术锦囊:金融行业容灾最佳实践

  异步:生产中心服务器对磁盘阵列的磁盘卷组进行写入操作时,数据进入Cache后会立即对服务器发出写操作完成信号,容灾中心的镜像卷组更新不会马上执行。需要等到生产中心磁盘卷组数据更新到一定量后,才会更新容灾中心镜像卷组。在采用异步方式时,生产中心服务器的I/O写操作在本地磁盘阵列完成之后,立即返回到应用,表示写操作完成。生产中心磁盘阵列会首先在Cache里保存一份更改的数据块,随后会将被更改的块传到容灾中心的磁盘阵列。

技术锦囊:金融行业容灾最佳实践

  需要指出,对于某些引起宕机的因素,如误操作,病毒对数据的破坏,智能存储底层复制技术都会将故障因素复制到容灾中心,此时容灾中心的数据失去了恢复业务的作用。结合定点复制技术生成的磁盘备份或磁盘快照,可以弥补智能存储底层复制技术的不足,预防此类灾难。
  
  五、如何选择数据复制解决方案
  
  数据复制技术的发展正在逐渐改变数据保护和灾难恢复的模式。基于复制的数据保护方式正在增加,并将与传统的数据保护融合,更好地帮助企业实现备份。

  选择数据复制解决方案应从以下几方面着手:
  
  首先,应从业务影响分析入手来确定所需要的恢复时间目标(RTO)和恢复点目标(RPO)。对于不能接受数据丢失(RTO等于零)的应用,则需要同步复制。请注意同步复制的延时,因为它将拖累应用I/O的性能。如果存在任何延时风险或不可靠的带宽,或是对干超过一定距离(50到300公里)的复制,异步复制是比较理想的选择。
  
  其次,应用性能也会受到复制平台的影晌。基于主机的复制会与应用争夺宝贵的处理器,内存和I/O资源。需要了解数据复制对带宽的需求,对带宽费用的影晌,以及会给其他应用造成什么影晌。可考虑采用广域网(WAN)优化设备来保持带宽。
  
  再者,支持异构环境的复制产品由于支持较便宜或老阵列,可以大大降低成本。
  
  几种数据保护手段的比较见表1,这些技术只是应用在容灾系统中最广泛的技术,随着技术的更新发展,现在有许多技术都已经开始应用于容灾系统,例如存储技术中的SAN,NAS,虚拟化技术和快照技术等等,数据管理中的数据归档、迁移和内容存储等技术,还有基于冗余技术和机群技术的高可用技术等等。这些技术的引入必将对容灾产生深远的影响。
  
  随着各个国家和大型企业对容灾越来越重视,容灾技术获得飞速发展,容灾技术涉及的范围也越来越广泛,并且新技术也层出不穷,本文仅仅对当前容灾的主要技术做了介绍和总结,希望能对同行有所帮助。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 支招:如何进行“灾备演练”

    相信大家对“灾备演练”一词都不陌生,但是如何进行灾备演练?灾备演练的方法有哪些?通常,灾备系统建设完成后,面临的灾难不外乎数据级别、应用系统级别……

  • 别让灾备中心成摆设

    尽管在此前莫拉克的肆虐中,通信业少量基站和海底光纤受到影响,未对大部分人的通信生活造成困扰,但是需要时刻警醒:安全措施和保障是否足够应对灾害?

  • 企业如何进行容灾建设?(下)

    在本文的上半部分中,我们介绍了企业在进行容灾建设时如何选择合适的技术与工具,并制定合理的规划策略。接下来我们将为大家介绍如何建立模型、制度及管理流程等相关问题。

  • 企业如何进行容灾建设?(上)

    实现了数据集中处理之后,企业的业务运行和经营管理将更依赖于信息系统的可靠运行。而企业在构建容灾系统时有必要根据信息价值的变化实施分级存储,以合理调配存储资源。