hadoop大数据处理_PDF下载[140MB-百度云]刘军编著

节选

[

差异性。兼顾理论基础与开发案例,便于自学和教学,且实用性强。系统性。以北邮研究生教材为雏形,经过数年应用修改完善,成熟度高。

]

本书特色

[

差异性。兼顾理论基础与开发案例，便于自学和教学，且实用性强。
系统性。以北邮研究生教材为雏形，经过数年应用修改完善，成熟度高。

]

内容简介

[

　　《hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点，深入浅出地介绍了如何使用hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用hadoop进行大数据处理的实践性知识和示例，还以图文并茂的形式系统性地揭示了hadoop技术族中关键组件的运行原理和优化手段，为读者进一步提升hadoop使用技巧和运行效率提供了颇具价值的参考。
　　《hadoop大数据处理》共10章，涉及的主题包括大数据处理概论、基于hadoop的大数据处理框架、mapreduce计算模式、使用hdfs存储大数据、hbase大数据库、大数据的分析处理、hadoop环境下的数据整合、hadoop集群的管理与维护、基于mapreduce的数据挖掘实践及面向未来的大数据处理技术。*后附有一个在windows环境下搭建hadoop开发及调试环境的参考手册。
　　《hadoop大数据处理》适合需要使用hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料，也可作为高校研究生和本科生教材。

]

作者简介

[

刘军，1994年至2003年，就读于北京邮电大学信息工程学院，获得博士学位。2003年至2007年，IBM中国研究院担任高级研究员及部门经理，研究方向为电信开放业务平台及IP融合网络管理。2007年至2012年，创办欢城（北京）科技有限公司，为中国网页游戏产业开创者之一，研发的产品曾多次获得互联网业界奖项。2012年至今，北邮任教，在宽带网络监控教研中心从事电信网络数据分析相关教学与研究工作。

]

目　录第1章　大数据处理概论　11.1　什么是大数据　21.2　数据处理平台的基础架构　51.3　大数据处理的存储　71.3.1　提升容量　71.3.2　提升吞吐量　111.4　大数据处理的计算模式　171.4.1　多处理技术　171.4.2　并行计算　201.5　大数据处理系统的容错性　261.5.1　数据存储容错　271.5.2　计算任务容错　281.6　大数据处理的云计算变革　30本章参考文献　32第2章　基于hadoop的大数据处理架构　352.1　google核心云计算技术　352.1.1　并行计算编程模型mapreduce　362.1.2　分布式文件系统gfs　382.1.3　分布式结构化数据存储bigtable　392.2　hadoop云计算技术及发展　412.2.1　hadoop的由来　412.2.2　hadoop原理与运行机制　422.2.3　hadoop相关技术及简介　452.2.4　hadoop技术的发展与演进　472.3　基于云计算的大数据处理架构　482.4　基于云计算的大数据处理技术的应用　512.4.1　百度　512.4.2　阿里巴巴　562.4.3　腾讯　582.4.4　华为　602.4.5　中国移动　622.5　hadoop运行实践　63本章参考文献　64第3章　mapreduce计算模式　663.1　mapreduce原理　663.2　mapreduce工作机制　693.2.1　mapreduce运行框架的组件　703.2.2　mapreduce作业的运行流程　703.2.3　作业调度　723.2.4　异常处理　733.3　mapreduce应用开发　743.3.1　mapreduce应用开发流程　743.3.2　通过web界面分析mapreduce应用　763.3.3　mapreduce任务执行的单步跟踪　783.3.4　多个mapreduce过程的组合模式　793.3.5　使用其他语言编写mapreduce程序　813.3.6　不同数据源的数据联结(join)　823.4　mapreduce设计模式　873.4.1　计数(counting)　883.4.2　分类(classfication)　883.4.3　过滤处理(filtering)　893.4.4　排序(sorting)　893.4.5　去重计数(distinct counting)　903.4.6　相关计数(cross-correlation)　913.5　mapreduce算法实践　923.5.1　*短路径算法　923.5.2　反向索引算法　943.5.3　pagerank算法　953.6　mapreduce性能调优　973.6.1　mapreduce参数配置优化　973.6.2　使用cominber减少数据传输　993.6.3　启用数据压缩　1003.6.4　使用预测执行功能　1013.6.5　重用jvm　101本章参考文献　102第4章　使用hdfs存储大数据　1034.1　大数据的云存储需求　1034.2　hdfs架构与流程　1044.2.1　系统框架　1044.2.2　数据读取过程　1054.2.3　数据写入过程　1064.3　文件访问与控制　1084.3.1　基于命令行的文件管理　1084.3.2　通过api操作文件　1104.4　hdfs性能优化　1144.4.1　调整数据块尺寸　1144.4.2　规划网络与节点　1144.4.3　调整服务队列数量　1164.4.4　预留磁盘空间　1164.4.5　存储平衡　1174.4.6　根据节点功能优化磁盘配置　1174.4.7　其他参数　1194.5　hdfs的小文件存储问题　1194.5.1　hadoop archive工具　1204.5.2　combinefileinputformat　1214.5.3　sequencefile格式　1214.5.4　相关研究　1224.6　hdfs的高可用性问题　1234.6.1　基于配置的元数据备份　1234.6.2　基于drbd的元数据备份　1244.6.3　secondary namenode/checkpointnode　1254.6.4　backup node　1254.6.5　namenode热备份　1264.6.6　hdfs的ha方案总结　126本章参考文献　127第5章　hbase大数据库　1285.1　大数据环境下的数据库　1285.2　hbase架构与原理　1295.2.1　系统架构及组件　1295.2.2　数据模型与物理存储　1315.2.3　regionserver的查找　1355.2.4　物理部署与读写流程　1365.3　管理hbase中的数据　1385.3.1　shell　1385.3.2　java api　1415.3.3　非java语言访问　1465.4　从rdbms到hbase　1475.4.1　行到列与主键到行关键字　1495.4.2　联合查询(join)与去范例化(denormalization)　1515.5　在hbase上运行mapreduce　1525.6　hbase性能优化　1555.6.1　参数配置优化　1555.6.2　表设计优化　1565.6.3　更新数据操作优化　1575.6.4　读数据操作优化　1585.6.5　数据压缩　1595.6.6　jvm gc优化　1595.6.7　负载均衡　1605.6.8　性能测试工具　160本章参考文献　161第6章　大数据的分析处理　1626.1　大数据的分析处理概述　1626.2　hive　1636.2.1　系统架构及组件　1636.2.2　hive数据结构　1646.2.3　数据存储格式　1666.2.4　hive支持的数据类型　1686.2.5　使用hiveql访问数据　1706.2.6　自定义函数扩展功能　1756.3　pig　1776.3.1　pig架构　1786.3.2　pig latin语言　1796.3.3　使用pig处理数据　1846.4　hive与pig的对比　187本章参考文献　188第7章　hadoop环境下的数据整合　1897.1　hadoop计算环境下的数据整合问题　1897.2　数据库整合工具sqoop　1917.2.1　使用sqoop导入数据　1927.2.2　使用sqoop导出数据　1957.2.3　sqoop与hive结合　1967.2.4　sqoop对大对象数据的处理　1977.3　hadoop平台内部数据整合工具hcatalog　1977.3.1　hcatalog的需求与实现　1987.3.2　mapreduce使用hcatalog管理数据　2027.3.3　pig使用hcatalog管理数据　2047.3.4　hcatalog的命令行与通知功能　205本章参考文献　207第8章　hadoop集群的管理与维护　2088.1　云计算平台的管理体系　2088.2　zookeeper——集群中的配置管理与协调者　2118.2.1　集群环境下的配置管理　2118.2.2　zookeeper架构　2128.2.3　zookeeper的数据模型　2138.3　hadoop集群监控的基础组件　2148.3.1　nagios　2148.3.2　ganglia　2178.3.3　jmx　2198.4　ambari——hadoop集群部署与监控集成工具　2208.5　基于cacti的hadoop集群服务器监控　2238.6　chukwa——集群日志收集及分析　2258.7　基于kerberos的hadoop安全管理　2278.8　hadoop集群管理工具分析　230本章参考文献　231第9章　基于mapreduce的数据挖掘　2329.1　数据挖掘及其分布式并行化　2329.2　基于mapreduce的数据挖掘与mahout　2379.3　经典数据挖掘算法的mapreduce实例　2429.3.1　矩阵乘法　2439.3.2　相似度计算　2469.4　基于云计算的数据挖掘实践及面临的挑战　252本章参考文献　256第10章　面向未来的大数据处理　25710.1　下一代计算框架yarn　25710.2　大数据的实时交互式分析　26010.2.1　google dremel　26110.2.2　cloudera impala　26510.3　大数据的图计算　26610.3.1　bsp模型　26710.3.2　google pregel计算框架　26810.3.3　apache hama开源项目　271本章参考文献　275附录　基于cygwin的hadoop环境搭建　276附录a　安装和配置cygwin　276附录b　安装和配置hadoop　281附录c　运行示例程序验证hadoop安装　285附录d　安装和配置eclipse下的hadoop开发环境　286

封面

hadoop大数据处理

书名:hadoop大数据处理

作者:刘军编著

页数:289

定价:¥59.0

出版社:人民邮电出版社

出版日期:2013-09-01

ISBN:9787115323248

PDF电子书大小:140MB 高清扫描完整版

百度云下载：http://www.chendianrong.com/pdf

hadoop大数据处理

节选

本书特色

内容简介

作者简介

目录

封面

发表评论