如何净化数据中心数据存储?

日期: 2010-03-14 来源:TechTarget中国 英文

  对于一个超过了100TB的数据中心内存储的数据,如果进行清理将是一个巨大的工程,在整理过程中必会遇到一些隐藏起来或被以往在角落里的垃圾数据。对于这些数据的取舍过程又充满了反复。
  
  对于网民来说,数据垃圾已经充斥了我们的生活,邮件、视频,企业的处境就跟糟糕了,数据垃圾像病毒一般肆意增长,吞噬一切。ERP、CRM、BI、SOA这些信息化工具都离不开数据,而企业对于数据的渴望也在剧烈膨胀,似乎拥有越多的数据就拥有越多的信息,却未曾想过那些无用的数据带来只是噪声而已。就拿很多公司的CRM中客户数据来说,由于缺乏事先的计划,用户数据的质量不高且不完整,加上没有长效管理,导致重复的、过期的以及错误的数据不仅占据了大量的数据存储资源,还使得整个CRM的作用大打折扣,不断增长的开支并没有带来多少价值,长此以往数据垃圾像雪球一样越滚越大,将企业拖入不可靠信息的泥沼。
  
  另一方面在行业规则和法律纠纷的压力下,IT部门的负责人往往倾向于保留所有可以保留的数据。电子邮件首当其冲,网络带宽的提升又使得大附件邮件变得普遍。其次是网络信息安全数据的存储,单从数据存储方面来看,历史数据的存储量将是非常惊人的。此外,企业需要管理的数据类型越来越多样化,大量非文本格式的文档如Word和PDF、图片、多媒体资料难以用经济有效的方式进行压缩归档。所有这些通常只是为了归档而存储的数据,在经过简单的处理后就被塞进了数据中心,于是问题被简化成了数据中心的容量不足,而随着存储成本的降低,扩充存储容量的方式显然成为最直接的解决方法,结果就是大量极少用到或不会被用到的数据垃圾被保存在高成本的主存储或者归档系统。正是在这种数据存储策略导致数据中心变成了垃圾填埋场。
  
  诚然,管理垃圾数据是非常复杂的,涉及到数据辨识、清理、优化等等,而这些工作又是周期性,需要花费时间和一定的人力资源,且不会带来明显的收益,因此常常被忽视。然而,数据的有效存储工作将对公司的业务产生长期和正面的收益,且越早行动收益越明显。
  
  虽然有部分企业意识到了这个问题,但市场上很难找到有效的数据审查和数据垃圾清理的工具。目前,存储厂商更为关心的是使得单位字节的存储成本不断下降,一些最新流行的概念从虚拟化到云存储无不体现了这一趋势。但数据存储中最为重要一条定理是:“数据的质量远比数据的数量重要”。企业为了不断增长的数据而在软硬件上连续投资的做法,实在是一个代价昂贵的错误,而存储厂商是不是也能反思一下呢?
  
  下面是以一些笔者认为在现有的技术手段和人力资源情况下可以减少垃圾数据的建议:
  
  1.考虑建立二级数据中心。将陈旧和极少用到的数据转移到二级数据中心去。由于二级数据中心对于备份级别和速度的要求都不如一级数据中心,因此可以采用更加经济的设备,如SATA、低端快照存储软件等。
  
  2.尝试采用重复数据删除技术。常见的重复数据删除技术有三种:第一种是基于散列(hash)的方法,DataDomain、飞康、昆腾的DXi系列设备都是此技术。第二种方法是基于内容识别的重复删除,ExaGridSystems的InfiniteFiler和Sepaton的DeltaStor都采用此方法。第三种方法是DiligentTechnologies用于其ProtecTierVTL的技术,它先用散列方法将数据分成块,并采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。
  
  3.优化备份机制,减少同一个数据在不同的系统里重复备份。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐