大数据挖掘及应用

本书特色

[

本书围绕大数据背景下的数据挖掘及应用问题,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍了大数据挖掘分析过程中的数据准备和预处理方法、数据可视化技术、数据挖掘理论和经典算法、常用大数据分析计算平台的编程模型、并行化程序设计技术、统计分析R语言基础等内容。其中数据挖掘理论和经典算法不仅覆盖了传统的关联分析、分类和聚类,还包括深度学习理论等数据挖掘研究和发展的潮流主题。每一章内容都尽量从不同角度进行深入浅出的剖析,还配以丰富的习题和参考文献,对于读者掌握大数据挖掘及应用领域的基本知识和进一步研究都具有参考价值。本书可以作为高校本科相关专业数据分析类课程教材和面向各专业的数据科学通识教材,也可供广大IT从业人员参考。

]

内容简介

[

“大数据系列丛书”由多本既独立又有丰富内在联系的大数据时代思维、技术与应用的教材组成。《大数据挖掘及应用》是其中的又一力作。本书内容宽泛,图文并茂,文字流畅,技术先进,是全新设计的数据挖掘及应用课程的教材,适合不同层次读者的学习需要。全书分导论、方法论和进阶应用三大部分,共11章,涵盖大数据挖掘及应用领域的基础理论知识和方法、数据可视化技术、深度学习技术、R语言基础、大数据分析算法的并行化基础理论,大数据分布式存储与并行计算平台及编程框架等重要概念。全书提供大量案例,不仅包括简单程序的代码,也包括较大应用程序代码,结合一系列案例和学生竞赛作品,把数据分析技术的概念、理论融入实践中。每章配有习题,以加深对知识的认识、理解和掌握,激发读者浓厚的学习兴趣,巩固所学知识,提高编程能力。本书可作为高等院校计算机、软件工程、大数据等专业的教材,也可作为教辅资料,还可作为学习应用技术的参考书。以本书内容为主题的在线微视频开放课程已经在http://cqupt.gaoxiaobang.com上线。与本书配套的电子课件,每章案例涉及的软件程序、课后习题解答及部分案例的演示视频均可登录清华大学出版社网站下载使用。

]

目录

目录

第1章大数据挖掘及应用概论1
1.1大数据智能分析处理的普及和应用1
1.1.1云计算1
1.1.2大数据3
1.1.3云计算与大数据的智能应用4
1.2大数据的发展及挑战10
1.2.1大数据的发展催生三元空间世界10
1.2.2大数据智能分析处理面临的挑战12
1.3数据挖掘概述14
1.3.1数据挖掘的概念14
1.3.2数据挖掘的功能15
1.3.3数据挖掘运用的技术16
1.3.4大数据挖掘与传统数据挖掘16
1.4大数据挖掘的计算框架17
1.4.1大数据挖掘计算框架17
1.4.2大数据挖掘处理基本流程21
1.5大数据时代“互联网 ”的未来: 智能互联23
1.6本书架构26
1.7小结27
1.8习题27
1.9参考文献28第2章数据认知与预处理29
2.1数据分析的定义和流程30
2.1.1如何理解和描述数据分析的问题30
2.1.2数据获取与准备31
2.1.3数据质量评估32
2.2数据类型33
2.2.1属性的定义33
2.2.2标称属性33
2.2.3二元属性34
2.2.4序值属性34
2.2.5数值属性34
2.3数据的统计描述方法35
2.3.1数据的中心趋势度量35
2.3.2数据的离散趋势度量37
2.4数据对象关系的计算方法39
2.4.1数据相似性计算方法40
2.4.2数据相关性计算方法46
2.5数据准备48
2.5.1数据清洗与集成48
2.5.2数据归约52
2.5.3数据转换58
2.6数据统计分析常用工具介绍61
2.6.1Excel统计分析工具61
2.6.2SPSS统计分析工具63
2.6.3SAS统计分析工具64
2.6.4R语言统计分析工具66
2.7SPSS案例分析68
2.7.1日志文件数据准备68
2.7.2数据录入与编辑68
2.7.3数据清洗与转换70
2.7.4数据方差分析72
2.7.5数据相关性分析74
2.7.6数据间距离分析74
2.8小结77
2.9习题78
2.10参考文献79第3章数据可视化80
3.1可视化简介80
3.2高维数据可视化81
3.2.1降维方法82
3.2.2非降维方法84
3.3网络数据可视化90
3.3.1节点�擦唇臃�90
3.3.2邻接矩阵布局96
3.3.3混合布局98
3.4可视化案例分析99
3.4.1案例一: China VIS 2015竞赛题99
3.4.2案例二: VAST Challenge 2016竞赛题107
3.5小结120
3.6习题121
3.7参考文献122第4章数据关联分析123
4.1数据关联分析简介123
4.2基本概念125
4.2.1频繁项集和关联规则126
4.2.2闭项集和极大频繁项集128
4.2.3稀有模式和负模式129
4.3Apriori算法130
4.3.1Apriori算法的核心思想131
4.3.2Apriori算法描述132
4.3.3改进的Apriori算法133
4.4FP�睪rowth算法137
4.4.1FP�睪rowth算法的核心思想138
4.4.2FP�睪rowth算法描述139
4.5面向大数据的有效数据结构142
4.6关联规则有效性的评估方法143
4.6.1关联规则兴趣度评估144
4.6.2关联规则相关度评估144
4.6.3其他相关评估度量方法146
4.7多维关联规则挖掘148
4.8多层关联规则挖掘151
4.9基于Python平台的案例分析156
4.10小结158
4.11习题159
4.12参考文献161第5章数据分类分析163
5.1基本概念和术语163
5.1.1数据分类163
5.1.2解决分类问题的一般方法165
5.2决策树算法166
5.2.1决策树归纳166
5.2.2决策树构建167
5.2.3属性测试条件的表示方法169
5.2.4选择*佳划分的度量171
5.2.5决策树归纳算法175
5.2.6树剪枝176
5.2.7决策树归纳的特点178
5.3贝叶斯分类算法180
5.3.1贝叶斯定理181
5.3.2朴素贝叶斯分类182
5.3.3贝叶斯信念网络184
5.4支持向量机算法185
5.4.1数据线性可分的情况185
5.4.2数据非线性可分的情况189
5.5粗糙集分类算法190
5.6分类器评估方法191
5.6.1评估分类器性能的度量192
5.6.2保持方法和随机二次抽样195
5.6.3交叉验证195
5.6.4自助法195
5.6.5使用统计显著性检验选择模型196
5.7组合分类器技术197
5.7.1组合分类方法简介198
5.7.2装袋198
5.7.3提升和AdaBoost199
5.7.4随机森林200
5.7.5提高类不平衡数据的分类准确率200
5.8惰性学习法(k*近邻分类)201
5.9基于Python平台的案例分析203
5.9.1数据集准备203
5.9.2算法描述204
5.9.3算法测试206
5.10小结209
5.11习题209
5.12参考文献211第6章数据聚类分析214
6.1基本概念和术语214
6.1.1聚类分析简介215
6.1.2对聚类的基本要求215
6.1.3聚类分析方法216
6.2基于划分的方法218
6.2.1k�瞞eans算法218
6.2.2k中心点算法221
6.3基于层次的方法224
6.3.1凝聚的与分裂的层次聚类224
6.3.2簇间距离度量225
6.4基于密度的方法229
6.4.1传统的密度: 基于中心的方法230
6.4.2DBSCAN算法231
6.5基于概率模型的聚类方法233
6.5.1模糊聚类233
6.5.2基于概率模型的聚类235
6.5.3期望*大化算法237
6.6聚类评估239
6.6.1聚类趋势的估计239
6.6.2聚类簇数的确定241
6.6.3聚类质量的测定242
6.7基于Python平台的案例分析245
6.7.1数据准备245
6.7.2聚类分析结果探讨246
6.8小结248
6.9习题249
6.10参考文献253第7章深度学习255
7.1引言255
7.1.1发展背景255
7.1.2基本概念256
7.2深信网257
7.2.1玻尔兹曼机258
7.2.2受限玻尔兹曼机258
7.2.3深信网260
7.3深玻尔兹曼机264
7.4栈式自动编码器266
7.4.1自动编码器266
7.4.2栈式自动编码器267
7.5卷积神经网络269
7.5.1卷积269
7.5.2池化270
7.5.3CNN训练过程272
7.5.4CNN网络构造的案例分析276
7.6深度学习开源框架278
7.6.1开源框架简介278
7.6.2开源案例分析278
7.7深度学习应用技巧284
7.8小结285
7.9习题286
7.10参考文献286第8章R语言288
8.1下载和安装R语言288
8.1.1下载R语言288
8.1.2安装R语言288
8.2使用R语言292
8.2.1运行R语言292
8.2.2R语言常用操作294
8.2.3包的使用298
8.3R语言的数据结构300
8.3.1向量300
8.3.2矩阵301
8.3.3数组302
8.3.4因子303
8.3.5列表304
8.3.6数据框305
8.4R语言的编程结构306
8.4.1条件语句306
8.4.2循环语句308
8.5R语言的数据挖掘和图形绘制包310
8.6实际案例312
8.7小结314
8.8习题314
8.9参考文献315第9章Hadoop大数据分布式处理生态系统316
9.1Hadoop集群基础316
9.1.1Hadoop安装317
9.1.2Hadoop配置319
9.2HDFS基础操作324
9.3MapReduce并行计算框架331
9.3.1MapReduce程序实例: WordCount332
9.3.2Hadoop Streaming333
9.4基于Storm的分布式实时计算334
9.4.1Storm简介334
9.4.2Storm基本概念334
9.4.3Storm编程338
9.5基于Spark Streaming的分布式实时计算346
9.5.1Spark内存计算框架346
9.5.2Spark Streaming简介347
9.5.3Spark Streaming编程349
9.6小结352
9.7参考文献353第10章大数据分析算法的并行化355
10.1并行算法设计基础355
10.1.1并行算法概念355
10.1.2并行计算模型356
10.1.3并行算法设计的策略和技术360
10.2典型数据挖掘算法并行化案例362
10.2.1MR k�瞞eans算法分析362
10.2.2Mahout聚类算法案例364
10.2.3Spark MLlib聚类算法案例369
10.3大数据分析应用案例371
10.3.1搜索引擎日志数据分析371
10.3.2出租车轨迹数据分析374
10.3.3新闻组数据分析377
10.4小结383
10.5习题383
10.6参考文献384第11章大数据挖掘及应用展望385
11.1大数据时代的发展回顾与展望385
11.1.1大数据发展回顾385
11.1.2从“小”到“大”的数据分析处理387
11.1.3大数据的智能分析与挖掘389
11.2大数据中的新数据类型391
11.3大数据挖掘的新方法394
11.3.1深度学习394
11.3.2知识计算395
11.3.3社会计算396
11.3.4特异群组挖掘397
11.4未来发展趋势398
11.5小结399
11.6参考文献399

封面

大数据挖掘及应用

书名:大数据挖掘及应用

作者:王国胤

页数:400

定价:¥59.5

出版社:清华大学出版社

出版日期:2017-07-01

ISBN:9787302469278

PDF电子书大小:159MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注