对于一个超过了100TB的数据中心内存储的数据,如果进行清理将是一个巨大的工程,在整理过程中必会遇到一些隐藏起来或被以往在角落里的垃圾数据。对于这些数据的取舍过程又充满了反复。
对于网民来说,数据垃圾已经充斥了我们的生活,邮件、视频,企业的处境就跟糟糕了,数据垃圾像病毒一般肆意增长,吞噬一切。ERP、CRM、BI、SOA这些信息化工具都离不开数据,而企业对于数据的渴望也在剧烈膨胀,似乎拥有越多的数据就拥有越多的信息,却未曾想过那些无用的数据带来只是噪声而已。就拿很多公司的CRM中客户数据来说,由于缺乏事先的计划,用户数据的质量不高且不完整,加上没有长效管理,导致重复的、过期的以及错误的数据不仅占据了大量的数据存储资源,还使得整个CRM的作用大打折扣,不断增长的开支并没有带来多少价值,长此以往数据垃圾像雪球一样越滚越大,将企业拖入不可靠信息的泥沼。
另一方面在行业规则和法律纠纷的压力下,IT部门的负责人往往倾向于保留所有可以保留的数据。电子邮件首当其冲,网络带宽的提升又使得大附件邮件变得普遍。其次是网络信息安全数据的存储,单从数据存储方面来看,历史数据的存储量将是非常惊人的。此外,企业需要管理的数据类型越来越多样化,大量非文本格式的文档如Word和PDF、图片、多媒体资料难以用经济有效的方式进行压缩归档。所有这些通常只是为了归档而存储的数据,在经过简单的处理后就被塞进了数据中心,于是问题被简化成了数据中心的容量不足,而随着存储成本的降低,扩充存储容量的方式显然成为最直接的解决方法,结果就是大量极少用到或不会被用到的数据垃圾被保存在高成本的主存储或者归档系统。正是在这种数据存储策略导致数据中心变成了垃圾填埋场。
诚然,管理垃圾数据是非常复杂的,涉及到数据辨识、清理、优化等等,而这些工作又是周期性,需要花费时间和一定的人力资源,且不会带来明显的收益,因此常常被忽视。然而,数据的有效存储工作将对公司的业务产生长期和正面的收益,且越早行动收益越明显。
虽然有部分企业意识到了这个问题,但市场上很难找到有效的数据审查和数据垃圾清理的工具。目前,存储厂商更为关心的是使得单位字节的存储成本不断下降,一些最新流行的概念从虚拟化到云存储无不体现了这一趋势。但数据存储中最为重要一条定理是:“数据的质量远比数据的数量重要”。企业为了不断增长的数据而在软硬件上连续投资的做法,实在是一个代价昂贵的错误,而存储厂商是不是也能反思一下呢?
下面是以一些笔者认为在现有的技术手段和人力资源情况下可以减少垃圾数据的建议:
1.考虑建立二级数据中心。将陈旧和极少用到的数据转移到二级数据中心去。由于二级数据中心对于备份级别和速度的要求都不如一级数据中心,因此可以采用更加经济的设备,如SATA、低端快照存储软件等。
2.尝试采用重复数据删除技术。常见的重复数据删除技术有三种:第一种是基于散列(hash)的方法,DataDomain、飞康、昆腾的DXi系列设备都是此技术。第二种方法是基于内容识别的重复删除,ExaGridSystems的InfiniteFiler和Sepaton的DeltaStor都采用此方法。第三种方法是DiligentTechnologies用于其ProtecTierVTL的技术,它先用散列方法将数据分成块,并采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。
3.优化备份机制,减少同一个数据在不同的系统里重复备份。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
德讯科技能耗控管解决方案介绍
在数据中心容量日益增加的今天,提高能源利用效率是解决数据中心能源危机的最佳途径。因为数据中心发展到今天,正面临着一个现实而紧迫的冲突。
-
应对“大数据”分析 透视数据中心变更
到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。
-
Gartner:高效数据中心设计可使容量翻两番
一些组织习惯以扩大物理基础设施占地面积的方式来减轻数据中心的能量和冷却问题,但是随着服务器需求的增加以及占地的花费,这种方式已经不再可取。
-
开开眼界:看跨国公司如何应对数据中心扩建问题
在数据中心扩建、云建设和管理问题上,服务商面临严峻的选择:他们可以选择低成本的商品服务器,也可以选择像Cisco统一计算系统那种价格昂贵的刀片服务器环境。