大数据基础与应用

本书特色

[

《大数据基础与应用》共分为12章,第1章介绍了大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化、大数据相关工具与发展前景。第2~9章为基础知识部分,介绍了大数据的生态系统全貌,重点对计算平台Hadoop、分布式文件系统HDFS、计算框架MapReduce、开源数据库HBase、典型工具NoSQL、集群计算Spark、流计算Storm和分布式协调系统Zookeeper等相关技术进行了详细介绍,通过实例使读者具备解决实际问题的能力。第10~12章为典型应用案例部分,介绍了大数据分析应用系统的开发过程,涵盖了数据采集、数据分析、数据转换和结果显示的整个交互式大数据处理和分析流程。
《大数据基础与应用》内容丰富、条理清晰、示例指导性强,读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场景及实验分析技巧。
《大数据基础与应用》适合作为大中专院校数据科学与大数据专业、计算机类专业的教材,也可以作为读者自学或者科研技术人员的参考书。

]

内容简介

[

本书按照读者学习的一般规律由浅入深、循序渐进,并配以大量的图片说明和实例讲解。
读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场景及实验分析技巧。
三个典型应用案例部分涵盖了数据采集、数据分析、数据转换和结果显示的整个交互式大数据处理和分析流程。

]

目录

前言第1章初识大数据1.1大数据产生的背景1.2大数据的结构与特征1.2.1大数据的结构1.2.2大数据的特征1.3大数据相关概念1.3.1大数据关键技术1.3.2数据类型与数据管理1.3.3数据仓库1.3.4数据挖掘1.4大数据可视化1.4.1什么是数据可视化1.4.2数据可视化的工具与方法1.4.3数据可视化的建模1.4.4数据可视化分类1.5大数据相关工具1.5.1Hadoop1.5.2R语言1.5.3Python语言1.5.4RapidMiner1.5.5Tableau1.6大数据时代的新机遇1.6.1数据价值1.6.2应用价值1.6.3发展前景1.7本章小结1.8习题第2章大数据处理架构Hadoop2.1Hadoop简介2.2Hadoop发展史及特点2.3Hadoop体系结构2.3.1HDFS体系结构2.3.2MapReduce体系结构2.4配置Linux环境2.4.1安装VMware12虚拟机2.4.2部署CentOS 64位操作系统2.4.3配置网络2.4.4Linux终端2.5Hadoop环境搭建2.5.1JDK安装和测试2.5.2Hadoop安装和配置2.5.3SSH免密码配置2.6Hadoop关键组件2.6.1HDFS2.6.2HBase2.6.3MapReduce2.6.4Hive2.6.5Pig2.6.6Mahout2.6.7ZooKeeper2.6.8Flume2.6.9Sqoop2.6.10Ambari2.7本章小结2.8习题第3章分布式文件系统HDFS3.1HDFS概念3.1.1HDFS简介3.1.2HDFS相关概念3.2HDFS体系结构3.3HDFS文件存储机制3.4HDFS的数据读写过程3.4.1读数据的过程3.4.2写数据的过程3.5HDFS应用实践3.5.1HDFS常用命令3.5.2HDFS的Web界面 3.5.3HDFS常用Java API及应用实例3.6本章小结3.7习题 第4章计算系统MapReduce4.1MapReduce概述4.1.1MapReduce简介4.1.2MapReduce 数据类型与格式4.1.3数据类型Writable接口4.1.4Hadoop序列化与反序列化机制4.2MapReduce架构4.2.1数据分片4.2.2MapReduce的集群行为4.2.3MapReduce作业执行过程4.3MapReduce接口类4.3.1MapReduce输入的处理类4.3.2MapReduce输出的处理类4.4MapReduce应用案例——单词计数程序4.4.1WordCount代码分析4.4.2WordCount处理过程4.5本章小结4.6习题第5章分布式数据库HBase5.1初识HBase5.1.1HBase的来源5.1.2HBase的特点5.1.3HBase的系统架构5.2HBase安装与配置5.2.1HBase运行模式分类5.2.2Hbase的安装5.2.3HBase基本API实例5.2.4HBase Shell工具使用5.3Hbase的存储结构5.3.1存储结构中重要模块5.3.2HBase物理存储和逻辑视图5.3.3数据坐标5.4HBase的实现原理5.4.1Hbase的读写流程5.4.2表和Region5.4.3Region的定位5.5HBase表结构设计5.5.1列族定义5.5.2表设计原则5.5.3Rowkey设计5.6本章小结5.7习题第6章NoSQL数据库6.1NoSQL简介6.1.1NoSQL的含义6.1.2NoSQL的产生6.1.3NoSQL的特点6.2NoSQL技术基础6.2.1一致性策略6.2.2数据分区与放置策略6.2.3数据复制与容错技术6.2.4数据的缓存技术6.3NoSQL的类型6.3.1键值存储6.3.2列存储6.3.3面向文档存储6.3.4图形存储6.4NoSQL典型工具6.4.1Redis6.4.2CouchDB6.5本章小结6.6习题第7章集群计算Spark7.1深入理解Spark7.1.1Spark简介7.1.2Spark与Hadoop差异7.1.3Spark的适用场景7.1.4Spark成功案例7.2Spark的安装与配置7.2.1安装模式7.2.2Spark的安装7.2.3启动并验证Spark7.3Spark程序的运行模式7.3.1Spark on Yarn-cluster7.3.2Spark on Yarn-client7.4Spark编程实践7.4.1启动Spark Shell7.4.2Spark RDD基本操作7.4.3Spark应用程序7.5Spark的三个典型应用案例7.5.1词频数统计7.5.2人口的平均年龄7.5.3搜索频率*高的K个关键词7.6本章小结7.7习题第8章流计算Storm8.1流计算概述8.1.1流计算的概念8.1.2流计算与Hadoop8.1.3流计算框架8.2开源流计算框架Storm8.2.1Storm简介8.2.2Storm的特点8.2.3Storm的设计思想8.2.4Storm的框架设计8.3实时计算处理流程8.3.1数据实时采集和计算8.3.2数据查询服务8.4典型的流引擎Spark Streaming8.4.1Spark Streaming8.4.2Storm和Spark Streaming框架对比8.5流计算的应用案例——电商实时销售额的监控8.5.1技术架构8.5.2技术实现8.5.3项目预案8.6本章小结8.7习题第9章分布式协调系统ZooKeeper9.1ZooKeeper概述9.1.1ZooKeeper简介9.1.2ZooKeeper数据模型9.1.3ZooKeeper特征9.1.4ZooKeeper工作原理9.2ZooKeeper的安装和配置9.2.1安装ZooKeeper9.2.2配置ZooKeeper9.2.3运行ZooKeeper9.3ZooKeeper的简单操作及步骤9.4ZooKeeper Shell操作9.4.1ZooKeeper服务命令9.4.2ZooKeeper客户端命令9.5ZooKeeper API操作9.6ZooKeeper应用案例——Master选举9.6.1使用场景及结构9.6.2编码实现9.7本章小结9.8习题第10章销售数据分析系统10.1数据采集10.1.1在Windows下安装JDK10.1.2在Windows下安装Eclipse10.1.3将WebCollector项目导入Eclipse10.1.4在Windows下安装MySQL10.1.5连接JDBC10.1.6运行爬虫程序10.2在HBase集群上准备数据10.2.1将数据导入到MySQL10.2.2将MySQL表中的数据导入到HBase表中10.3安装Phoenix中间件10.3.1Phoenix架构10.3.2解压安装Phoenix 10.3.3Phoenix环境配置10.3.4使用Phoenix 10.4基于Web的前端开发10.4.1将Web前端项目导入Eclipse10.4.2安装Tomcat10.4.3在Eclipse中配置Tomcat 10.4.4在Web浏览器中查看执行结果10.5本章小结10.6习题第11章交互式数据处理 11.1数据预处理11.1.1查看数据11.1.2数据扩展11.1.3数据过滤11.1.4数据上传11.2创建数据仓库11.2.1创建数据仓库的基本命令11.2.2创建Hive区分表11.3数据分析11.3.1基本统计11.3.2用户行为分析11.3.3实时数据 11.4本章小结11.5习题第12章协同过滤推荐系统12.1推荐算法概述12.1.1基于人口统计学的推荐12.1.2基于内容的推荐12.1.3基于协同过滤的推荐12.2协同过滤推荐算法分析12.2.1基于用户的协同过滤推荐12.2.2基于物品的协同过滤推荐12.3Spark MLlib推荐算法应用12.3.1ALS算法原理12.3.2ALS的应用设计12.4本章小结12.5习题附录课后习题答案参考文献

封面

大数据基础与应用

书名:大数据基础与应用

作者:赵国生

页数:288

定价:¥59.0

出版社:机械工业出版社

出版日期:2019-10-01

ISBN:9787111637974

PDF电子书大小:50MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注