大数据技术基础

本书特色

[

本书的知识架构是在培训了多届学员的基础上总结整理得来的,已经经过了实践的考验,证实了其科学性;本书当中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,帮助学生在进入企业后可以很快融入大数据工作岗位。
本书包括大数据概论、初识hadoop、认识hdfs、hdfs的运行机制、访问hdfs、hadoop i/o 详解、认识mapreduce编程模型、mapreduce应用编程开发、mapreduce的工作机制与yarn平台、mapreduce高级开发、mapreduce实例共11章内容。
本书既可作为高等院校学习大数据技术的教材,亦可作为广大大数据技术学习者的入门用书。

]

内容简介

[

本书针对初学者的知识体系,适当简化大数据学习的难度,使得学习更加容易上手;知识架构是在培训了多届学员的基础上总结整理得来的,已经经历了实践的考验,证实了其的科学性;本书凝聚了10余位技术大牛的研发和授课经验,教学资料完整;书中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。
 

]

作者简介

[

中科普开(北京)科技有限公司成立于2010年,是国内首家致力于IT新技术传播、普及的领航者,专注于云计算、大数据、物联网、移动互联网技术的培训及咨询服务。

]

目录

第1章大数据概论0011.1大数据时代背景0011.1.1大数据的数据源0011.1.2大数据的价值和影响0021.1.3大数据技术应用场景0031.1.4大数据技术的发展前景0041.2大数据基本概念0051.2.1大数据定义0051.2.2大数据结构类型0071.2.3大数据核心特征0071.2.4大数据技术0081.2.5行业应用大数据实例0101.3大数据系统0111.3.1设计目标和原则0111.3.2当前大数据系统0121.4大数据与企业0161.4.1大数据对企业的挑战性0161.4.2企业大数据的发展方向0191.4.3企业大数据观020本章小结020习题021第2章初识hadoop0222.1hadoop简介0222.1.1hadoop概况0222.1.2hadoop的功能和作用0232.1.3hadoop的优势0232.1.4hadoop的发展史0242.1.5hadoop的应用前景0252.2深入了解hadoop0252.2.1hadoop的体系结构0252.2.2hadoop与分布式开发0272.2.3hadoop生态系统0292.3hadoop与其他系统0302.3.1hadoop与关系型数据库管理系统0302.3.2hadoop与云计算0322.4hadoop应用案例0322.4.1hadoop在百度的应用0322.4.2hadoop在yahoo!的应用0332.4.3hadoop在ebay的应用035本章小结037习题037大数据技术基础目录第3章认识hdfs0393.1hdfs简介0393.2hdfs的特性和设计目标0403.2.1hdfs的特性0403.2.2hdfs的设计目标0413.3hdfs的核心设计0423.3.1数据块0423.3.2数据复制0423.3.3数据副本的存放策略0433.3.4机架感知0453.3.5安全模式0463.3.6负载均衡0473.3.7心跳机制0483.4hdfs的体系结构0493.4.1master/slave架构0493.4.2namenode、secondarynamenode、datanode050本章小结055习题055第4章hdfs的运行机制0564.1hdfs中数据流的读写0564.1.1rpc实现流程0564.1.2rpc实现模型0574.1.3文件的读取0594.1.4文件的写入0604.1.5文件的一致模型0614.2hdfs的ha机制0624.2.1为什么有ha机制0624.2.2ha集群和架构0634.3hdfs的federation机制0644.3.1为什么引入federation机制0644.3.2federation架构0664.3.3多命名空间管理067本章小结067习题068第5章访问hdfs0695.1命令行常用接口0695.1.1hdfs操作体验0695.1.2hdfs常用命令0715.2java接口0735.2.1从hadoop url中读取数据0745.2.2通过filesystem api读取数据0755.2.3写入数据0765.2.4创建目录0785.2.5查询文件系统0785.2.6删除数据0815.3其他常用接口0815.3.1thrift0815.3.2c语言0825.3.3http082本章小结082习题083第6章hadoop i/o详解0846.1数据完整性0846.1.1hdfs的数据完整性0846.1.2验证数据完整性0856.2文件压缩0866.2.1hadoop支持的压缩格式0866.2.2压缩�步庋顾跛惴╟odec0876.2.3压缩和输入分片0916.3文件序列化0926.3.1writable接口0936.3.2writablecomparable接口0946.3.3writable实现类0956.3.4自定义writable接口1006.3.5序列化框架1046.4hadoop文件的数据结构1046.4.1sequencefile存储1046.4.2mapfile存储108本章小结111习题111第7章识识mapreduce编程模型1137.1mapreduce编程模型简介1137.1.1什么是mapreduce1137.1.2mapreduce程序的设计方法1147.1.3新旧mapreduce简介1157.1.4hadoop mapreduce架构1167.1.5mapreduce的优缺点1177.2wordcount编程实例1187.2.1wordcount的设计思路1187.2.2编写wordcount代码1187.2.3运行程序1197.2.4代码讲解1207.3mapreduce的编程1227.3.1配置开发环境1227.3.2编写mapper类1247.3.3编写reducer类1257.3.4编写main函数1257.4mapreduce在集群上的运作1277.4.1作业的打包和启动1277.4.2mapreduce的web界面1287.4.3获取结果130本章小结131习题131第8章mapreduce应用编程开发1328.1mapreduce类型与格式1328.1.1mapreduce的类型1328.1.2输入格式1378.1.3输出格式1488.2java api解析1508.2.1作业配置与提交1518.2.2inputformat接口的设计与实现1528.2.3outputformat接口的设计与实现1578.2.4mapper与reducer解析159本章小结163习题163第9mapreduce的工作机制与yarn平台1659.1yarn平台简介1659.1.1yarn的诞生1659.1.2yarn的作用1669.2yarn的架构1669.2.1resourcemanager1679.2.2applicationmaster1689.2.3nodemanager1689.2.4资源模型1699.2.5resourcerequest和container1699.2.6container规范1709.3剖析mapreduce作业运行机制1709.4基于yarn的运行机制剖析1719.5shuffle和排序1759.5.1map端1759.5.2reduce端1769.6任务的执行1789.6.1任务执行环境1789.6.2推测执行1799.6.3关于outputcommitters1809.6.4任务jvm重用1819.6.5跳过坏记录1829.7作业的调度1829.7.1公平调度器1839.7.2容量调度器1839.8在yarn上运行mapreduce实例1849.8.1运行pi实例1849.8.2使用web gui监控实例185本章小结189习题190第10章mapreduce高级开发19110.1计数器19110.1.1内置计数器19110.1.2自定义的java计数器19310.2数据去重19410.2.1实例描述19410.2.2设计思路19410.2.3程序代码19410.3排序19510.3.1实例描述19610.3.2设计思路19610.3.3程序代码19610.4二次排序19710.4.1二次排序原理19710.4.2二次排序的算法流程19810.4.3代码实现19910.5平均值20210.5.1实例描述20210.5.2设计思路20210.5.3程序代码20310.6join联接20410.6.1map端join20410.6.2reduce端join20510.6.3join实现表关联20510.7倒排索引20910.7.1倒排索引的分析和设计20910.7.2倒排索引完整源码21310.7.3运行代码结果214本章小结215习题215第11章mapreduce实例21611.1搜索引擎日志处理21611.1.1背景介绍21611.1.2数据收集21611.1.3数据结构21611.1.4需求分析21711.1.5mapreduce编码实现21711.2汽车销售数据分析22311.2.1背景介绍22411.2.2数据收集22411.2.3数据结构 22411.2.4需求分析22411.2.5mapreduce编码实现22511.3农产品价格分析23411.3.1背景介绍23411.3.2数据收集23511.3.3数据结构23511.3.4需求分析23611.3.5mapreduce编码实现236参考文献248

封面

大数据技术基础

书名:大数据技术基础

作者:本书编委会

页数:247

定价:¥39.0

出版社:清华大学出版社

出版日期:2016-06-01

ISBN:9787302437574

PDF电子书大小:50MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注