大数据导论/李建伟

本书特色

[

本书系统地介绍了大数据技术的基础知识。本书实战环节的知识是在大数据培训的基础上总结提炼出来的,案例都为企业实际开发中的案例,所以内容的科学性和有效性已经被证实过,期望读者通过对本书的学习和对本书案例的实践,理解大数据技术的概念和原理,掌握Hadoop大数据技术中*基础和*重要的知识和实践。��
本书的主要内容包括大数据的概念及价值,Hadoop2.0介绍,分布式文件系统HDFS的原理、常用命令操作和编程实践,分布式计算框架MapReduce的原理、基础编程和高级编程,分布式资源管理系统YARN平台,分布式锁服务ZooKeeper,Hadoop高可用集群搭建和Hadoop实战项目。��
本书可作为高等院校成人教育数据科学与大数据技术、计算机科学与技术和软件工程等专业的大数据课程教材,也可作为相关技术人员的参考书。

]

作者简介

[

李建伟,2005年毕业于北京邮电大学,美国Marist College访问学者,主要研究方向:智能自适应学习系统和大数据学习分析,曾主持研发了北京邮电大学网络教育学院远程教育平台。主要参与的国家级、省部级科研项目有国家“十五”重大科技攻关计划“网络教育关键技术及示范工程项目”,国家科技支撑计划项目“虚拟实验智能指导与管理系统的研发”,国家科技重大专项“宽带无线校园创新实验网体系架构与关键技术研究”等,已发表论文19篇,获得国家发明专利2项,获得北京市教学成果二等奖1次。

]

目录

第1章大数据概述1 1.1大数据概念及价值1 1.2大数据数据源4 1.3大数据技术应用场景5 1.4大数据处理流程及技术7 1.5大数据与云计算的关系9 1.6大数据与人工智能的关系10 本章小结11 习题一11 第2章Hadoop介绍12 2.1Hadoop简介12 2.1.1Hadoop由来12 2.1.2Hadoop发展历程12 2.1.3Hadoop生态系统14 2.2Hadoop的体系架构17 2.2.1分布式文件系统HDFS17 2.2.2分布式计算框架MapReduce18 2.2.3分布式资源调度系统YARN18 2.3Hadoop依赖的技术基础19 2.3.1Java编程基础19 2.3.2Web可视化技术基础27 2.3.3关系数据库基础30 2.3.4Linux基础31 2.4Hadoop2.0集群搭建69 2.4.1伪分布式安装部署69 2.4.2全分布式安装部署74 本章小结80 习题二80 第3章分布式文件系统HDFS81 3.1HDFS简介81 3.2HDFS的设计目标81 3.3HDFS的体系架构82 3.3.1主从架构83 3.3.2HDFS高可用性架构84 3.4HDFS的核心设计87 3.4.1数据复制87 3.4.2健壮性设计90 3.4.3数据组织91 3.4.4存储空间回收机制91 3.4.5可访问性92 3.5HDFS中数据流的读写93 3.5.1RPC实现流程93 3.5.2文件的读取94 3.5.3文件的写入95 3.5.4一致性模型97 3.6HDFS的联邦机制98 本章小结99 习题三100 第4章访问HDFS的常用接口101 4.1HDFS常用命令接口101 4.2HDFS编程环境准备105 4.2.1IDEA的安装配置及特性105 4.2.2Maven的安装配置114 4.3Java接口119 4.3.1在本地Windows机器上配置Hadoop环境变量121 4.3.2编写Java客户端程序122 本章小结130 习题四130 第5章分布式计算框架MapReduce131 5.1MapReduce编程模型简介131 5.1.1产生背景131 5.1.2MapReduce编程模型133 5.1.3MapReduce工作流程134 5.1.4MapReduce两个版本比较139 5.2MapReduce入门编程140 5.2.1认识Map和Reduce140 5.2.2MapTask阶段140 5.2.3ReduceTask阶段145 本章小结147 习题五148 第6章MapReduce基础编程149 6.1MapReduce编程设计149 6.1.1MapReduce分布式计算模型149 6.1.2MapReduce分布式编程框架150 6.2MapReduce编程实例wordcount151 6.2.1wordcount开发需求分析151 6.2.2编程环境准备152 6.2.3编写Mapper类152 6.2.4编写Reducer类154 6.2.5MapReduce程序在YARN集群的运行机制155 6.2.6编写YARN的客户端156 6.2.7YARN集群的配置、作业打包和启动161 本章小结163 习题六163 第7章分布式资源管理系统YARN165 7.1YARN简介165 7.2发展史165 7.2.1Hadoop1.0165 7.2.2Hadoop2.0和Hadoop1.0的区别166 7.2.3MapReduce计算框架的演变166 7.3YARN的架构167 7.4YARN集群执行应用程序的工作流程169 7.5Hadoop如何使用YARN运行一个Job170 7.6YARN的调度策略173 7.7YARN的重要概念总结176 本章小结176 习题七177 第8章MapReduce高级编程178 8.1Combiner178 8.2Partitioner179 8.3计数器180 8.4排序188 8.5Join连接197 8.6倒排索引205 8.7求平均值和数据去重210 本章小结215 习题八216 第9章分布式锁服务ZooKeeper217 9.1ZooKeeper基本概念介绍217 9.1.1ZooKeeper的定义217 9.1.2ZooKeeper的基本原理和应用场景217 9.1.3ZooKeeper的选举机制218 9.1.4ZooKeeper的存储机制220 9.2ZooKeeper集群部署220 9.3ZooKeeper编程实例222 9.3.1ZooKeeper API基础知识222 9.3.2ZooKeeper API介绍及编程实例222 本章小结229 习题九229 第10章Hadoop高可用集群搭建230 10.1HDFS高可用的工作机制230 10.2集群规划231 10.3Hadoop HA集群搭建232 10.3.1前期准备232 10.3.2安装ZooKeeper集群233 10.3.3安装Hadoop集群234 10.3.4启动集群242 10.3.5测试245 本章小结247 习题十247 参考文献248

封面

大数据导论/李建伟

书名:大数据导论/李建伟

作者:李建伟

页数:0

定价:¥42.0

出版社:北京邮电大学出版社

出版日期:2018-02-01

ISBN:9787563558810

PDF电子书大小:99MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注