数据仓库与数据挖掘的原理及应用

节选

[

nbsp;   言
    随着计算方法和信息技术的不断发展,大量数据的产生和收集导致信息爆
炸。现代社会的竞争趋势要求对这些数据进行实时的和深层次的分析。虽然现
在已经出现更强大的存储系统和检索系统,但是使用者发现在分析所拥有的信
息方面变得越来越困难。数据仓库提供了容纳大量.信息的场所,但它只有和数
据挖掘技术相结合才能*终解决用户的困惑,使用户能够从繁杂的数据中找出
真正有价值的信息和知识。数据仓库可以加强企业对信息的管理能力,数据挖
掘可以改善企业的经营状况,使企业的决策制定过程更加科学化和快速,为企业
带来巨大的收益,增强企业的竞争优势。
    数据仓库和数据挖掘是20世纪90年代中期兴起的决策支持新技术,它们
是基于大规模数据库的决策支持系统的核心。数据仓库是区别于数据库的一种
新型数据存储形式,它是面向主题的、集成的、不可更新的、随时间不断变化的数
据集合,用以支持经营管理中的决策制定。数据挖掘是从数据库中发现知识的
核心技术,它从大量的数据中提取隐含的、人所未知的、可信而有效的知识。数
据挖掘能够对数据进行再分析,以期获得更加深入的了解。它具有预测功能,可
以通过已有数据预测发展趋势。数据仓库与数据挖掘技术相结合,与现代的管
理决策方法相结合,就能够使数据仓库在组织机构的经营管理决策中发挥巨大
的作用。
    我国数据挖掘技术的研究始于20世纪90年代,经过十几年的发展,这一领
域目前正处于蓬勃发展时期。但是由于数据仓库、数据挖掘技术都是数据处理
与分析领域出现的新技术,大部分人把目光投向基于这两项技术的基础理论的
研究,特别是具体技术和算法的实现,而忽略对数据仓库、数据挖掘理论与实践
相结合的应用研究。因此,笔者在结合科研项目的基础上,对数据仓库、数据挖
掘技术进行较系统的研究,并将研究成果应用于财经、证券投资等领域;同时笔
者在研究过程中不断地学习,既对原有的理论和实践进行总结,又不断地将所学
到的知识运用到实践中去,丰富了原有的理论。
    本书详细阐述数据仓库与数据挖掘的基本原理,系统而全面地介绍数据仓
库与数据挖掘的概念、作用、算法以及应用领域、相关学科和发展趋势,并着重讨
论数据仓库和数据挖掘在企业管理中的应用及构建策略。基于sQL ser、rer 2005
介绍数据仓库与数据挖掘工具的操作和应用,并结合具体实例,阐述企业数据仓
库和数据挖掘的实施过程。*后.以证券行业为对象提供一个数据挖掘的开发
 实例。本书的指导思想是在系统阐述基本知识和基本理论的基础上,强调实际
应用能力的培养,充分体现数据仓库和数据挖掘技术作为解决实际问题的方法
和工具的特点。本书兼顾理论性与通俗性,注重理论联系实际,叙述时力求深入
浅出,着重阐述理论的基本思路与方法的基本步骤。
    本书的目的旨在向读者系统阐述数据仓库与数据挖掘的基本原理、方法和
实用工具,介绍国内外的*新研究成果。全书共有11章,第l章介绍数据仓库
的基本概念和知识;第2章介绍联机分析处理的基本理论;第3章介绍数据仓库
的设计思想、方法和技巧;第4章介绍数据仓库的规划与开发;第5章介绍各种
数据仓库工具的基本功能及SQL Server 2005数据仓库工具的应用;第6章介绍
数据挖掘的概念和相关知识;第7章介绍数据挖掘的算法;第8章介绍文本挖
掘、Web挖掘等数据挖掘新技术;第9章介绍数据挖掘的工具及其应用;第10章
介绍数据仓库与数据挖掘的综合应用;第1l章介绍基于数据挖掘的上市公司财
务危机预警应用实例,使读者能结合具体应用进行上机操作,消化和理解所学的
知识。
    本书由李志刚负责全书的整体策划和*后统稿。编写任务的分工如下:第
1章、第2章、第6章、第7章由马刚编写;第3章由李志刚、宛石锋编写;第4章
由李志刚、黄艳编写;第5章由马刚、李志刚编写;第8章、第10章由李志刚编
写;第9章由李志刚、彭易成编写;第11章由彭易成、李志刚编写。郭丰恺、聂运
洁参加部分的文字和图形处理工作。
    在本书的编写过程中,笔者借鉴国内外一些文献和网上资料,由于编写体例
的限制未将其在文中一一注明,只在参考文献中列出,在此谨向各位学者表示由
衷的敬意和感谢。由于数据仓库和数据挖掘技术发展迅速,尽管笔者付出艰苦
的努力,但由于本人水平所限,疏漏甚至错误之处在所难免,恳请专家与读者批
评指正。
  李志刚
2007年12月

,

数据挖掘的-I-具及其应用
    本章介绍数据挖掘软件的特征、国外数据挖掘产品与工具、国内数据挖掘
产品与工具、数据挖掘工具的功能分类、评价数据挖掘工具优劣的指标:阐述
SQL Server 2005数据挖掘工具的功能、数据挖掘算法,及数据源的准备与创
 建、数据挖掘模型的创建与处理过程。
    数据信息量的日趋庞大促使数据挖掘技术兴起,META Group曾经做出这
样的评论:“全球重要的企业、组织机构会发现,到21世纪数据挖掘技术将是它
们商业成功与否的至关重要的影响因素。”现在许多研究机构和企业开发出系
列数据挖掘软件或者宣称其产品支持数据挖掘,希望抢占数据挖掘软件的主导
地位。IBM公司发布了基于标准的数据挖掘技术DB2智能挖掘器积分服务,可
用于开发个性化解决方案。两大统计软件公司SAS和SPSS也推出了各自的数
据挖掘工具Enterprise Miner和Clementine。而数据挖掘软件的应用也显示出它
们在具体的数据挖掘中的有效性,例如NBA教练就运用Advanced Scout来挖掘
信息,安排阵形,提高了获胜的概率。数据挖掘软件的层出不穷也推动了数据挖
掘技术的不断发展,但大量的数据、复杂的分析、形式多样的挖掘工具也使得人
们对这类软件的深入了解变得越来越困难。
9.1  国内外数据挖掘’1-具及评价
9.1.1数据挖掘软件的特征
    通常人们认为数据挖掘就是从海量的数据中挖掘信息,以供决策制定者使
用。其主要功能是:分类、聚类、关联规则和序列模式发现、预测、偏差检测。数
 据挖掘综合运用统计学、数据库和机器学习的方法。目前应用*广泛的算法和
模型有:传统的统计学方法;可视化技术;决策树;人工神经网络;遗传算法;关联
规则挖掘算法,等等。
    从数据挖掘的定义、功能和方法中可以大致了解数据挖掘软件所应具备的
特性。因此,评价数据挖掘软件需要从以下几个方面考虑。
    (1)软件开发的目的或解决问题的领域    ·
    数据挖掘软件可分为通用的和专业的数据挖掘软件,主要由软件所要解决
的问题而定,而这也是评价软件时*先要考虑的因素之一。
    (2)软件实现的功能和方法
    不同软件的实现算法可能是不同的,这也就决定了软件的运行速度、对数据
处理的有效性和正确性。同时,此软件实现功能的多寡也是需要重点考虑的因素。
    (3)对数据的操作能力
    数据挖掘所面对的海量数据可能有不同的格式,如多媒体数据、多维数据
等,还可能是不完全的,如何快速地操作这些数据也就显得非常关键。这些数据
可能以不同的形式存储在不同的介质上,一个强大的数据挖掘软件应能支持
ODBC等连接,可以对DB2、Informix、Microsoft SQL和Oracle数据进行操作。
    (4)软件使用的难易程度
    软件的目的在于应用,其使用的难易程度决定它是否可以为人接受,易于推广。
现在的一种趋势是提供以Web为基础的操作界面和允许XML数据输入输出。
    (5)软件的运行平台等因素
    软件的适用性在很大程度上取决于其运行平台。理想的数据挖掘软件应该
适应客户一服务器的结构。    
    软件的销售价格和服务也是必须考虑的因素。
9.1.2  国外数据挖掘工具
    目前,国外许多科研机构、公司从事数据挖掘工具的研制与开发,我国在这
方面的研发也已经起步,如今世界上已出现几十种具有较大影响力的数据挖掘
工具。这些软件各有其特点,差别很大,这不仅体现在关键技术上,还体现在其
运行平台和数据存取等方面。
    国外的数据挖掘软件由于开发时间早、使用时间长,并积累了大量数据挖掘
工具的开发和使用经验,因此其应用范围较广,也比较专业。当前国外推出的数
据挖掘软件有很多,其功能和方法都不同。鉴于以上评价软件的标准,选择部分
软件介绍如下。
    1.Intelligent Miner系列
    IBM公司无疑是世界上*强大的IT公司之一,其商业智能软件InteIligent
 Miner也是主流产品之一。Intelligent Miner系列是IBM公司研发的数据挖掘工
具,提供基于DB2的数据操作能力,实现神经网络、决策树、聚类、关联和序列模
式及时间序列等,可以运行在Windows和IBM OS/2环境上。
    Intelligent Miner系列中的DB2 Intelligent Miner lor Data与Siebel电子商务应
用的集成允许用户将数据挖掘的结果应用于Siebel电子商务中,这使得IBM公司
的DB2 Intelligent Miner妇Data和Siebel系统的用户可以通过数据挖掘来分析、
发现和利用市场数据,并将挖掘结果应用于对客户的排序、分类或评分等,从而以
更加个性化的方式为客户服务。Intelligent Miner系列数据挖掘工具的特点如下。
    (1)具有*广泛的数据挖掘技术和算法集,使用各种算法以支持大量数据
分析,其中包括交易过程中(市场分析)对关联模式的勘测、时间序列、客户分类
与剖析、聚类和预测值;
    (2)具有开发数据挖掘应用程序的编程接口;
    (3)所有的数据挖掘引擎和数据操纵函数能通过共享c++库被访问;
    (4)在数据规模和计算性能方面有很高的可扩缩性;
    (5)支持分类、预测、关联规则产生、聚类、顾序模式侦测和时间序列分析算
法,集成大量复杂的数据挖掘操纵函数;
    (6)此工具是一个客户一服务器系统,客户机用于控制用户界面和数据可
视化函数,而数据挖掘引擎和数据操纵函数位于服务器上;
    (7)此工具采用复杂的可视化技术和稳健的基于Java的用户界面(主要面
向有经验的用户),具有较强的可用性。
    Intelligent Miner专业性极强,这一方面标志着其数据挖掘质量高,另一方面
也要求使用者必须具备一定的技术水平和操作经验,才能驾驭这台大型的“挖
掘机”,使用者的水平和经验将直接影响挖掘质量。
    2.SAS Enterprise Miner SAS
    SAS Enterprise Miner SAS(statistical analysis system,统计分析系统)是由美
国北卡罗来纳大学研究所开发的软件包,是目前*好的统计软件之一。此研究
所提出数据挖掘模型SEMMA(Sample,Explore,Modify,Model,Assess),结合
SAS/EM进行数据挖掘。由于它提供了强大的统计技术,使得SAS/EM成为*
好的数据挖掘软件之一。SAS/EM可以对Oracle、Informix、Sybase和DB2的数据
集进行操作,实现神经网络、决策树、统计、预测、时间序列和关联等,可以运行在
多种操作平台上。
    3.QUEST
    QUEST是IBM公司Almaden研究中心开发的通用多任务数据挖掘工具,为
新一代决策支持系统的应用开发提供高效的数据开采基本构件。
    由于QUEST是一个多任务数据挖掘系统,它具有以下一些特点。

]

本书特色

[

,

高等学校信息管理与信息系统专业系列教材
本书特色:
从技术和管理的角度,系统介绍了数据仓库、数据挖掘的基本知识;在
阐述基本知识的同时,强调在现实领域中的应用与实现。
易教、易学,尽可能采用浅显易懂的语言,循序渐进地表述知识内容。
突出理论与实践相结合,概念与具体方法、工具相结合,使知识具体而不
枯燥;并基于SQL Server*新的技术工具,结合实例介绍了数据仓库与
数据挖掘技术工具的应用与操作,达到学以致用的目的。

]

封面

数据仓库与数据挖掘的原理及应用

书名:数据仓库与数据挖掘的原理及应用

作者:李志刚

页数:338

定价:¥27.8

出版社:高等教育出版社

出版日期:2008-02-01

ISBN:9787040230147

PDF电子书大小:79MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注