R语言数据挖掘

本书特色

[

本书介绍了关联规则、分类、聚类分析、异常值探测、数据流挖掘、时间序列、图形挖掘、网络分析、文本挖掘和网络分析等流行的数据挖掘算法,给出了具体算法以及这些算法的伪代码和R语言实现。本书可以作为统计学、计算机等相关专业高年级本科生或研究生的教材,也可以作为数据分析和挖掘等相关研究人员的参考资料。

]

作者简介

[

作者简介 About the AuthorBater Makhabel(LinkedIn: BATERMJ和GitHub: BATERMJ)为系统构架师,生活在中国北京、上海和乌鲁木齐等地。他于1995至2002年之间在清华大学学习,并获得计算机科学和技术的学士和博士学位。他在机器学习、数据挖掘、自然语言处理(NLP)、分布系统、嵌入系统、网络、移动平台、算法、应用数学和统计领域有丰富的经验。他服务过的客户包括CA Technologies、META4ALL和EDA(DFR的一家子公司)。同时,他也拥有在中国创办公司的经历。 Bater的生活开创性地在计算机科学和人文科学之间取得了平衡。在过去的12年中,他在应用多种先进计算机技术于文化创作方面获得了经验,其中一项是人机界面,通过哈萨克语与计算机系统进行交互。他一直和他工作领域中的其他作家有合作,但是本书是他的正式作品。 About the Reviewers 审校者简介Jason H.D. Cho在伊利诺伊大学香槟分校获得计算机硕士学位,现在在攻读博士。他对应用自然语言处理和大数据解决医学信息问题特别感兴趣。尤其是,他希望能在社交媒体上找到病人关心的健康需求。他曾带领一个学员小组在美国一项主要的保健竞赛(CIMIT)中跻身前10名。Jason也为自然语言处理和大数据研究领域的文章进行审稿。 Gururaghav Gopal现在在Paterson证券公司工作,其职位是量化分析员、开发人员、交易员和分析师。以前,他是一个和电商行业相关的数据科学咨询师。他曾经在印度韦洛尔的韦洛尔理工大学教授大学生和研究生模式识别课程。他曾经在一些研究机构做过研究助理,包括IFMR和NAL。 Gururaghav获得了电子工程的学士学位、计算机科学和工程的硕士学位,并在IFMR辅修金融工程和风险管理方面的课程。之后,他便在金融相关领域工作。他获得过多个奖项并以他的名字发表过多篇文章。他对编程、教学和咨询感兴趣。在闲暇时间,他会听音乐。 Vibhav Kamath获得了位于孟买的印度理工学院工业工程和运筹学的硕士学位,并具有位于浦那的工学院的电子工程学士学位。大四期间,他对算法和数学模型产生了兴趣,从此便进入分析领域。Vibhav现在在班加罗尔的一家IT服务公司工作,其工作的一部分内容是应用R编程语言基于优化和线性回归技术来开发统计和数学模型。他曾经审阅过Packt出版社出版的两本R语言图书:R Graphs Cookbook, Second Edition和Social Media Mining with R,他曾经应用SAS、SQL和Excel/VBA做过数据可视化,为一家银行开发过仪表盘程序。 过去,Vibhav从事过离散时间仿真和语言处理(均基于MATLAB)等方面的学术工作。他涉猎过机器人领域,建立了一个浏览魔方的机器人Micromouse。除了分析和编程之外,Vibhav喜欢阅读小说类读物。空闲时,他打乒乓球、板球和网球,实在无聊时就玩田字格游戏(数独和数谜)。可以通过邮件vibhav.kamath@hotmail.com或者领英in.linkedin.com/in/vibhavkamath与他联系。 Hasan Kurban于2012年在布卢明顿的印度大学获得计算机硕士学位,现在在该校的信息与计算机学院攻读博士学位,专业为计算机科学同时辅修统计学。他的研究方向为数据挖掘、机器学习和统计学。信息

]

目录

目  录 Contents译者序作者简介审校者简介前言致谢第1章 预备知识 11.1 大数据 21.2 数据源 31.3 数据挖掘 41.3.1 特征提取 41.3.2 总结 41.3.3 数据挖掘过程 51.4 社交网络挖掘 71.5 文本挖掘 91.5.1 信息检索和文本挖掘 101.5.2 文本挖掘预测 101.6 网络数据挖掘 101.7 为什么选择R 121.8 统计学 121.8.1 统计学与数据挖掘 131.8.2 统计学与机器学习 131.8.3 统计学与R语言 131.8.4 数据挖掘中统计学的局限性 131.9 机器学习 131.9.1 机器学习方法 141.9.2 机器学习架构 141.10 数据属性与描述 151.10.1 数值属性 161.10.2 分类属性 161.10.3 数据描述 161.10.4 数据测量 171.11 数据清洗 181.11.1 缺失值 181.11.2 垃圾数据、噪声数据或异常值 191.12 数据集成 191.13 数据降维 201.13.1 特征值和特征向量 201.13.2 主成分分析 201.13.3 奇异值分解 201.13.4 CUR分解 211.14 数据变换与离散化 211.14.1 数据变换 211.14.2 标准化数据的变换方法 221.14.3 数据离散化 221.15 结果可视化 231.16 练习 241.17 总结 24第2章 频繁模式、关联规则和相关规则挖掘 252.1 关联规则和关联模式概述 262.1.1 模式和模式发现 262.1.2 关系或规则发现 292.2 购物篮分析 302.2.1 购物篮模型 312.2.2 Apriori算法 312.2.3 Eclat算法 352.2.4 FP-growth算法 372.2.5 基于*大频繁项集的GenMax算法 412.2.6 基于频繁闭项集的Charm算法 432.2.7 关联规则生成算法 442.3 混合关联规则挖掘 462.3.1 多层次和多维度关联规则挖掘 462.3.2 基于约束的频繁模式挖掘 472.4 序列数据集挖掘 482.4.1 序列数据集 482.4.2 GSP算法 482.5 R语言实现 502.5.1 SPADE算法 512.5.2 从序列模式中生成规则 522.6 高性能算法 522.7 练习 532.8 总结 53第3章 分类 543.1 分类 553.2 通用决策树归纳法 563.2.1 属性选择度量 583.2.2 决策树剪枝 593.2.3 决策树生成的一般算法 593.2.4 R语言实现 613.3 使用ID3算法对高额度信用卡用户分类 613.3.1 ID3算法 623.3.2 R语言实现 643.3.3 网络攻击检测 643.3.4 高额度信用卡用户分类 663.4 使用C4.5算法进行网络垃圾页面检测 663.4.1 C4.5算法 673.4.2 R语言实现 683.4.3 基于MapReduce的并行版本 693.4.4 网络垃圾页面检测 703.5 使用CART算法判断网络关键资源页面 723.5.1 CART算法 733.5.2 R语言实现 743.5.3 网络关键资源页面判断 743.6 木马程序流量识别方法和贝叶斯分类 753.6.1 估计 753.6.2 贝叶斯分类 763.6.3 R语言实现 773.6.4 木马流量识别方法 773.7 垃圾邮件识别和朴素贝叶斯分类 793.7.1 朴素贝叶斯分类 793.7.2 R语言实现 803.7.3 垃圾邮件识别 803.8 基于规则的计算机游戏玩家类型分类和基于规则的分类 813.8.1 从决策树变换为决策规则 823.8.2 基于规则的分类 823.8.3 序列覆盖算法 833.8.4 RIPPER算法 833.8.5 计算机游戏玩家类型的基于规则的分类 853.9 练习 863.10 总结 86第4章 高级分类算法 874.1 集成方法 874.1.1 Bagging算法 884.1.2 Boosting和AdaBoost算法 894.1.3 随机森林算法 914.1.4 R语言实现 914.1.5 基于MapReduce的并行版本 924.2 生物学特征和贝叶斯信念网络 924.2.1 贝叶斯信念网络算法 934.2.2 R语言实现 944.2.3 生物学特征 944.3 蛋白质分类和k近邻算法 944.3.1 kNN算法 954.3.2 R语言实现 954.4 文档检索和支持向量机 954.4.1 支持向量机算法 974.4.2 R语言实现 994.4.3 基于MapReduce的并行版本 994.4.4 文档检索 1004.5 基于频繁模式的分类 1004.5.1 关联分类 1004.5.2 基于判别频繁模式的分类 1014.5.3 R语言实现 1014.5.4 基于序列频繁项集的文本分类 1024.6 基于反向传播算法的分类 1024.6.1 BP算法 1044.6.2 R语言实现 1054.6.3 基于MapReduce的并行版本 1054.7 练习 1064.8 总结 107第5章 聚类分析 1085.1 搜索引擎和k均值算法 1105.1.1 k均值聚类算法 1115.1.2 核k均值聚类算法 1125.1.3 k模式聚类算法 1125.1.4 R语言实现 1135.1.5 基于MapReduce的并行版本 1135.1.6 搜索引擎和网页聚类 1145.2 自动提取文档文本和k中心点算法 1165.2.1 PAM算法 1175.2.2 R语言实现 1175.2.3 自动提取和总结文档文本 1175.3 CLARA算法及实现 1185.3.1 CLARA算法 1195.3.2 R语言实现 1195.4 CLARANS算法及实现 1195.4.1 CLARANS算法 1205.4.2 R语言实现 1205.5 无监督的图像分类和仿射传播聚信息

封面

R语言数据挖掘

书名:R语言数据挖掘

作者:贝特.麦克哈贝尔

页数:201

定价:¥49.0

出版社:机械工业出版社

出版日期:2016-11-01

ISBN:9787111547693

PDF电子书大小:31MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注