近几年来,随着企业信息化应用的逐步深入以及数据信息的不断扩展,使得上海烟草开始从更深层面去探索数据应用,并以建设企业数据中心作为载体,推进企业各个层面的人员去使用和分析数据。
然而,数据分析和管理信息系统是不完全相同的两类信息化项目,数据中心建设工作要想做得更好,企业除了要营造一定的实施氛围(如企业的氛围、人员的意识等)外,从信息化本身的角度来看,数据分析的管理方法也需要尽快完善。正是在这样的企业信息化建设背景下,数据挖掘的过程模型CRISP-DM成为了构建企业数据中心的重要参考。
与数据挖掘的过程模型CRISP-DM中的要求相比较,目前,我们在数据中心建设过程中还存在一些问题,主要表现在以下几个方面。
1. 以需求分析代替了商业理解
在CRISP-DM过程模型中,“商业理解”的重点是根据商业目标的要求找出存在的商业问题,并把商业问题转化为数据分析问题,这一过程主要回答了“为什么要做?”的问题。而我们目前所做的“需求分析”往往是从业务问题出发并转化成了数据分析问题,这一过程只回答了“怎么做?”的问题。这就使得一些数据分析往往没有什么实际作用或者是作用不大,这主要就是因为业务问题解决的商业目标并不清晰。
2. 数据理解工作还不成系统
“数据理解”应该是一个独立的过程,其在整个数据分析应用项目实施过程中非常重要。而我们在做数据中心建设项目的可行性研究时,只是很粗略地对源数据进行了一些了解,比如了解了源数据是来源于业务系统的数据库还是手工编制的Excel文件,数据大致包含了什么信息等,却并没有对源数据进行细致的分析。此外,对数据质量问题的分析在可行性研究阶段根本尚未建立。因此,数据中心建设项目中分析主题的数学模型虽然建立了,但却缺少足够的数据支持,有时甚至是在项目实施后的阶段才去了解源数据的情况,并仓促将源数据导入数据中心,也并未建立源数据准确、及时提供的保障机制,这就造成了数据分析应用中,数据质量较差、可信度很低的情况。
3. 数据准备不充分
在CRISP-DM过程模型中,“数据准备”也是一个独立的过程,且需要与建立模型的过程互动,通过多次的数据准备,使数据能够被所建立的模型使用。而目前,企业在数据中心的建设中,业务人员和数据中心建设人员并不熟悉业务系统数据库中源数据的情况,也就无法对所需要的数据做准确的描述,而熟悉源数据的人员又不熟悉数据中心建设的需求,因此数据准备阶段的工作量很大,协调成本也很高。
4. 模型评估机制未建立
目前,对模型的评估主要体现在检查功能的实现情况,比如检查所需要的报表、图表、数据是否按要求建立。由于之前并没有很好地落实商业理解阶段确定商业目标的工作,以及根据商业目标提出商业问题的工作,因此对模型的评估不能真正体会其为商业目标服务的作用,只能停留在技术和功能的层面上。
解决问题的五个方法
根据CRISP-DM过程模型的要求,总结我们目前在数据中心建设中所存在的一些问题,不难看出,数据中心建设项目的实施不仅要有方法论,而且还要有一些关键的实施要点。因此,在企业数据中心建设过程中,要做好以下几个方面的工作。
1. 抓好商业理解阶段的工作
在数据中心建设过程中,商业理解阶段的核心是要正确把握好业务目标以及需要解决的业务问题,并将这些业务问题转化为数据分析问题,这就是将人的经验(隐性知识)转化为显性知识的过程,需要回答“业务目标清晰吗?”“业务问题是为实现业务目标服务的吗?”“业务问题的解决是可以被量化的吗?”等问题。
虽然对于数据中心建设和信息系统建设这两类信息化项目来说,需求理解阶段都是项目建设的关键环节,但相比较,数据中心项目在这一阶段更需要引起高度重视,因为其是在解决“为什么?”的问题,一旦这一问题业务部门没有思考好、信息化部门没有理解好,数据中心项目将会在开始阶段就埋下了失败的因子。
2. 把数据理解作为可行性研究中的重要工作
在数据中心建设项目中,数据理解阶段的任务是从数据的完整性角度对项目做可行性研究,关键是要回答“数据分析所要解决的商业问题有数据支持吗?这些数据在哪里可以被收集到?”等问题。可以说,数据理解阶段的工作是商业理解的延续,也是数据准备的前提,承上启下,非常重要。
通过可行性研究,如果数据质量存在问题,那么在商业理解阶段确立的业务问题将没有条件通过数据分析的手段被解决。这时应该重新确立所要解决的业务问题,避免接下来各阶段数据分析工作的失败。在确认数据条件具备以后,数据理解阶段还需要进一步定义数据中心的元数据,包括描述源数据,定义源数据的传输、抽取、清洗、加载标准、数据周期等,并确定源数据的标准化要求、元数据的使用周期和共享范围等。
此外,数据中心的数据是为共享而存在的,这是数据中心数据的一个主要特征,要实现数据共享,一方面可以借助技术手段,提供数据导航系统;另一方面在数据理解阶段就要有意识、有目的性地确定数据的共享范围。
3. 建立提高数据质量的标准
对于企业数据中心而言,数据质量(完整性、准确性、及时性)从某种意义上来说比建立的模型水平更为重要,数据质量不好、建立的模型再好也只是一个错误的结果。而数据质量受两个方面的因素影响:一是源数据是否缺失;二是源数据与数据中心元数据之间传输、抽取、清洗、加载等相关机制是否健全。第一种情况在数据理解阶段就可以被分析出来并加以规避;第二种情况需要在数据准备阶段建立完善的提高数据质量的标准。
在数据准备阶段,要使源数据相对固化和稳定下来,表结构、字段的属性、长度和含义、源数据与数据中心元数据之间的传输、抽取、清洗和加载方式都要处于相对静止的状态。对以上这些信息的变更需要有一套严格的工作流程加以规范,使相关人员及时知晓并维护好数据中心的元数据。
此外,在建立数据中心元数据的校对机制时,在准备数据的同时,还要跟业务人员共同商量,因为数据中心的元数据来源于业务系统中的源数据,了解业务人员是如何判断数据中心元数据的准确性,这有助于在数据准备的同时建立依托技术手段的自动校对程序并建立预警功能。
4. 加强对分析模型的评估工作
分析模型评估的目标就是验证分析模型是否解决了在商业理解阶段所确定的业务问题。通过加强商业理解、数据理解以及数据准备阶段的工作,就为分析模型的评估提供了较好的环境。同时,在可行性研究阶段可以淘汰一些不具备条件的分析需求,这也对建立高质量、满足需求的分析模型提出了更高要求。
从目前的实施经验来看,除非高度综合类的分析需要必须建立复杂的数据模型,一般的分析需求都可以借助分析工具加以实现,并验证模型的优劣。由于数据中心分析模型在展现形式和共享上的要求,因此有时还需要开发一定的程序来满足这些要求,而开发就会带来较大的成本,分析模型的评估就是要降低无效的投资。所以,借助一定的分析工具在较低的成本上先建立一些可被评估的分析模型是下一阶段数据中心建设中较为关键的环节,这也将成为数据中心建立模型的一个有效方法。
5. 促进数据分析主题的使用
数据中心数据分析主题的使用是推进数据应用和信息资源开发的基础,使用范围以及使用深度都是很重要的考察指标。
为此,对于信息化部门来说,就要建立数据中心的导航系统,其目的是借助企业的门户介绍数据中心已经积累的数据以及已经建立的应用等,这样可以增加企业各级员工对数据中心的了解,并提出应用需求或是直接使用一些已经被积累的数据和已经投入使用的应用;同时,业务部门和信息化部门必须一起按照数据质量的要求,对数据规范的执行情况进行跟踪检查和实施考核,以保证数据中心数据的准确性和及时性。
CRISP-DM模型定义的六个过程
数据挖掘是通过自动或半自动化的工具对大量数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。数据挖掘的过程模型CRISP -DM与以往仅仅局限在技术层面上的数据挖掘方法论不同,CRISP-DM把数据挖掘看做是一个商业过程,这一过程将其具体的商业目标映射为数据挖掘目标。CRISP-DM模型定义了六个过程,分别是:商业理解、数据理解、数据准备、建立模型、模型评估和结果发布。
一. 商业理解阶段的主要任务是理解项目的背景,即商业愿景和商业目标,把要实现的商业目标转化为相对应的数据挖掘问题,并制定完成目标的工作计划。
二. 数据理解阶段是着手对源数据进行收集,鉴别数据的质量问题,从数据中发现隐藏的信息或探测臆想的数据子集。
三. 数据准备阶段是在源数据的基础上运用建模工具建立最终的数据集。数据准备可能会重复多次,其主要任务是使用建模工具来传输和清洗数据,包括表、记录和属性等。
四. 建立模型阶段,多种建模技术被选择和应用,它们的参数被校对到最理想的数值。一些技术解决同样的数据挖掘问题,一些技术需要特定的数据格式,因此建立模型阶段有时也需要重新进行数据准备。
五. 模型评估阶段,将从数据分析的观点建立了一个或一些高质量的模型。在配置这些模型前,最重要的就是对已经建立的模型进行彻底的评估,并回顾建造模型的每一个步骤,确定商业目标被完全达到。关键目标是确定一些重要的商业问题是否被充分考虑,最终决定数据挖掘结果的使用目的是否达到。
六. 结果发布阶段,根据用户需要可能只是简单地创建一个报表,也可能是实现一个重复的、复杂的数据挖掘过程。在大多数情况下,模型应该由用户,而不是数据分析师来配置,并且,重要的是让用户预先理解所要执行的配置动作,目的是让用户使用创建的模型。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
2016年大讨论:提升数据中心预算vs.数据中心托管
当下正是不少IT团队制定预算计划表的时候,大家都希望在2016年可以投入更多资金用于数据中心建设。是时候讨论是应该自建数据中心还是进行托管了。
-
如何高效地管理数据中心全生命周期?
IT产品的平均生命周期大约为五年。如何在这短短的时间内让它们在自己的岗位上发光发热,确保在数据中心高效可靠地运行,这是IT生命周期管理需要解决的问题。
-
建高效数据中心有径可循
针对 “高能耗、设计不合理、运维成本高”的问题,国内要如何构建出高效的数据中心?事实上,这是有径可循的。
-
BAT是如何实现数据中心建设变革的?
以BAT为代表的互联网企业的数据中心在加速扩张的同时,也以创新的思维、严格的成本控制、快速的部署与绿色高效的运维需求挑战着传统建设理念。