基于Rattle的可视化数据挖掘技术

本书特色

[

数据挖掘技术近年来发展异常迅猛,已成为大数据时代*热门的技术和研究热点,不仅产生了大量不同类型、功能强大的数据挖掘算法,而且推动了众多数据挖掘工具软件的发展。在这些软件中,R语言是数据挖掘领域*重要的软件之一。Rattle是一种用于数据挖掘的R语言的图形交互界面,或称为可视化数据挖掘工具。Rattle给出了从数据整理到模型评价的完整解决方案。
本书主要介绍如何用Rattle包进行数据挖掘,全书共9章,通过大量精选实例,循序渐进、全面系统地讲述数据挖掘过程。
本书不仅是从事数据挖掘和大数据分析工程技术人员开发相关系统的技术资料,也可作为学习数据挖掘和大数据分析等课程的参考用书。

]

内容简介

[

1. 介绍数据挖掘新技术——Rattle可视化数据挖掘。2. 关注的是数据挖掘全过程的实践,包括数据理解、数据准备、模型建立、模型评估、模型优化和应用部署。3. 通过大量精选实例,循序渐进,全面系统地讲述数据挖掘过程。

]

目录

目 录
第1章绪论1
1.1数据挖掘的认识1
1.1.1为什么要进行数据挖掘1
1.1.2数据挖掘过程1
1.1.3数据挖掘九大定律3
1.2R与Rattle3
1.2.1R语言3
1.2.2R语言的基本语法4
1.2.3R语言的优势10
1.2.4Rattle包10
1.3本章小结12

第2章入门指南13
2.1概述13
2.2认识Rstudio13
2.2.1Rstudio的界面13
2.2.2R脚本编辑区14
2.2.3R命令控制台15
2.2.4工作空间16
2.2.5结果展示区18
2.3认识Rattle20
2.3.1Rattle的安装与启动20
2.3.2选项卡21
2.3.3工具栏24基于Rattle的可视化数据挖掘技术目录2.3.4菜单栏24
2.3.5属性面板26
2.4本章小结26

第3章数据准备28
3.1概述28
3.2数据28
3.2.1术语28
3.2.2变量29
3.2.3数据集30
3.3可用数据30
3.4数据质量31
3.4.1数据质量概述31
3.4.2数据质量评估维度31
3.4.3影响数据质量的因素31
3.5数据匹配32
3.6数据仓库33
3.7数据访问34
3.8载入数据35
3.8.1载入CSV数据35
3.8.2载入数据库36
3.8.3载入SPSS类型数据38
3.8.4载入自带数据集38
3.8.5载入网页数据38
3.8.6载入其他格式的数据39
3.9本章小结39

第4章数据理解41
4.1概述41
4.2汇总数据41
4.2.1查看数据的简单信息41
4.2.2查看数据的细节信息43
4.2.3查看数据的分布信息43
4.2.4查看数据的缺失值44
4.3数据分布图46
4.3.1数值型变量分布图46
4.3.2分类变量分布图50
4.3.3散点图矩阵52
4.4相关分析53
4.4.1相关矩阵和相关图53
4.4.2缺失值的相关分析55
4.4.3相关树56
4.5主成分分析60
4.6交互式探索数据62
4.6.1安装GGobi63
4.6.2安装rggobi63
4.6.3实验指导64
4.7本章小结64

第5章数据检验66
5.1概述66
5.2K�睸正态性检验67
5.3Wilcoxon检验68
5.4t检验70
5.5F检验72
5.6本章小结73

第6章数据变换75
6.1概述75
6.2取值范围调整77
6.3缺失值填充79
6.4变量类型转换81
6.4.1数值变量离散化81
6.4.2分类变量指标化81
6.4.3分类变量合并83
6.4.4分类变量和数值变量互相转换83
6.4.5变量和数据的删除83
6.5离群点数据的处理84
6.6本章小结86

第7章数据建模87
7.1概述87
7.2聚类模型96
7.2.1背景96
7.2.2K�瞞eans聚类96
7.2.3Ewkm聚类100
7.2.4层次聚类101
7.2.5双向聚类105
7.3关联规则挖掘106
7.3.1背景106
7.3.2基本术语107
7.3.3关联规则分类108
7.3.4Apriori算法108
7.3.5实验指导109
7.4传统决策树模型114
7.4.1背景114
7.4.2ID3算法115
7.4.3C4.5算法116
7.4.4实验指导117
7.5随机森林决策树模型120
7.5.1背景120
7.5.2随机森林算法121
7.5.3实验指导122
7.6自适应选择决策树模型126
7.6.1背景126
7.6.2Boosting算法127
7.6.3Adaboost算法127
7.6.4实验指导128
7.7SVM131
7.7.1背景131
7.7.2SVM算法131
7.7.3实验指导133
7.8线性回归模型134
7.8.1背景134
7.8.2一元线性回归方法135
7.8.3实验指导137
7.9神经网络模型138
7.9.1背景138
7.9.2人工神经网络模型139
7.9.3实验指导142
7.10本章小结143

第8章模型评估147
8.1概述147
8.2数据集148
8.3混淆矩阵149
8.3.1二分类混淆矩阵149
8.3.2模型评价指标150
8.3.3多分类混淆矩阵151
8.4风险图151
8.4.1风险图的作用151
8.4.2实验指导152
8.5ROC曲线154
8.5.1ROC曲线的定义154
8.5.2ROC曲线的作用154
8.5.3实验指导155
8.6其他模型评估图156
8.7本章小结157

第9章模型部署159
9.1概述159
9.2模型的应用159
9.3转换为PMML161
9.4电商数据挖掘案例162
9.4.1背景162
9.4.2数据理解162
9.4.3数据准备163
9.4.4清洗数据166
9.4.5探索数据167
9.4.6数据建模172
9.5本章小结174

参考文献175

封面

基于Rattle的可视化数据挖掘技术

书名:基于Rattle的可视化数据挖掘技术

作者:张冬慧

页数:174

定价:¥39.0

出版社:清华大学出版社

出版日期:2017-08-01

ISBN:9787302474326

PDF电子书大小:102MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注