ad holder

精通Hadoop

精通Hadoop 下载 mobi epub pdf 电子书 2024


简体网页||繁体网页
[印] Sandeep Karanth 著,刘淼,唐觊隽,陈智威 译



点击这里下载
    


想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-04-27

类似图书 点击查看全场最低价

图书介绍

出版社: 人民邮电出版社
ISBN:9787115411051
版次:1
商品编码:11851339
包装:平装
丛书名: 图灵程序设计丛书
开本:16开
出版时间:2016-01-01
用纸:胶版纸
页数:249
正文语种:中文


相关图书





图书描述

编辑推荐

  Hadoop是大数据处理的同义词。Hadoop的编程模型简单,“一次编码,任意部署”,且生态圈日益完善,已成为一个可供不同技能水平的程序员共同使用的全方位平台。今天,面临着处理和分析大数据的任务,Hadoop成了理所当然的工具。Hadoop 2.0扩展了羽翼,能覆盖各种类型的应用模式,并解决更大范围的问题。
  本书是一本循序渐进的指导手册,重点介绍了Hadoop的高级概念和特性。内容涵盖了Hadoop 2.X版的改进,MapReduce、Pig和Hive等的优化及其高级特性,Hadoop 2.0的专属特性(如YARN和HDFS联合),以及如何使用Hadoop 2.0版本扩展Hadoop的能力。
  如果你想拓展自己的Hadoop知识和技能,想应对具有挑战性的数据处理问题,想让Hadoop作业、Pig脚本和Hive查询运行得更快,或者想了解升级Hadoop的好处,那么本书便是你的不二选择。
  通过阅读本书,你将能够:
  理解从Hadoop 1.0到Hadoop 2.0的变化
  定制和优化Hadoop 2.0中的MapReduce作业
  探究Hadoop I/O和不同的数据格式
  深入学习YARN和Storm,并通过YARN集成Hadoop和Storm
  基于***Elastic MapReduce部署Hadoop
  探究HDFS替代品,学习HDFS联合
  掌握Hadoop安全方面的主要内容
  使用Mahout和RHadoop进行Hadoop数据分析

内容简介

  这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。主要内容包括:Hadoop MapReduce、Pig 和Hive 优化策略,YARN 审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。

作者简介

  Sandeep Karanth,Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。他的Twitter账号是@karanths,GitHub账号是https://github.com/Karanth。

目录

第1 章 Hadoop 2.X 1
1.1 Hadoop 的起源 1
1.2 Hadoop 的演进 2
1.3 Hadoop 2.X 6
1.3.1 Yet Another Resource Negotiator(YARN) 7
1.3.2 存储层的增强 8
1.3.3 支持增强 11
1.4 Hadoop 的发行版 11
1.4.1 选哪个Hadoop 发行版 12
1.4.2 可用的发行版 14
1.5 小结 16
第2 章 MapReduce 进阶 17
2.1 MapReduce 输入 18
2.1.1 InputFormat 类 18
2.1.2 InputSplit 类 18
2.1.3 RecordReader 类 19
2.1.4 Hadoop 的“小文件”问题 20
2.1.5 输入过滤 24
2.2 Map 任务 27
2.2.1 dfs.blocksize 属性 28
2.2.2 中间输出结果的排序与溢出 28
2.2.3 本地reducer 和Combiner 31
2.2.4 获取中间输出结果——Map 侧 31
2.3 Reduce 任务 32
2.3.1 获取中间输出结果——Reduce 侧 32
2.3.2 中间输出结果的合并与溢出 33
2.4 MapReduce 的输出 34
2.5 MapReduce 作业的计数器 34
2.6 数据连接的处理 36
2.6.1 Reduce 侧的连接 36
2.6.2 Map 侧的连接 42
2.7 小结 45
第3 章 Pig 进阶 47
3.1 Pig 对比SQL 48
3.2 不同的执行模式 48
3.3 Pig 的复合数据类型 49
3.4 编译Pig 脚本 50
3.4.1 逻辑计划 50
3.4.2 物理计划 51
3.4.3 MapReduce 计划 52
3.5 开发和调试助手 52
3.5.1 DESCRIBE 命令 52
3.5.2 EXPLAIN 命令 53
3.5.3 ILLUSTRATE 命令 53
3.6 Pig 操作符的高级特性 54
3.6.1 FOREACH 操作符进阶 54
3.6.2 Pig 的特殊连接 58
3.7 用户定义函数 61
3.7.1 运算函数 61
3.7.2 加载函数 66
3.7.3 存储函数 68
3.8 Pig 的性能优化 69
3.8.1 优化规则 69
3.8.2 Pig 脚本性能的测量 71
3.8.3 Pig 的Combiner 72
3.8.4 Bag 数据类型的内存 72
3.8.5 Pig 的reducer 数量 72
3.8.6 Pig 的multiquery 模式 73
3.9 最佳实践 73
3.9.1 明确地使用类型 74
3.9.2 更早更频繁地使用投影 74
3.9.3 更早更频繁地使用过滤 74
3.9.4 使用LIMIT 操作符 74
3.9.5 使用DISTINCT 操作符 74
3.9.6 减少操作 74
3.9.7 使用Algebraic UDF 75
3.9.8 使用Accumulator UDF 75
3.9.9 剔除数据中的空记录 75
3.9.10 使用特殊连接 75
3.9.11 压缩中间结果 75
3.9.12 合并小文件 76
3.10 小结 76
第4 章 Hive 进阶 77
4.1 Hive 架构 77
4.1.1 Hive 元存储 78
4.1.2 Hive 编译器 78
4.1.3 Hive 执行引擎 78
4.1.4 Hive 的支持组件 79
4.2 数据类型 79
4.3 文件格式 80
4.3.1 压缩文件 80
4.3.2 ORC 文件 81
4.3.3 Parquet 文件 81
4.4 数据模型 82
4.4.1 动态分区 84
4.4.2 Hive 表索引 85
4.5 Hive 查询优化器 87
4.6 DML 进阶 88
4.6.1 GROUP BY 操作 88
4.6.2 ORDER BY 与SORT BY 88
4.6.3 JOIN 类型 88
4.6.4 高级聚合 89
4.6.5 其他高级语句 90
4.7 UDF、UDAF 和UDTF 90
4.8 小结 93
第5 章 序列化和Hadoop I/O 95
5.1 Hadoop 数据序列化 95
5.1.1 Writable 与WritableComparable 96
5.1.2 Hadoop 与Java 序列化的区别 98
5.2 Avro 序列化 100
5.2.1 Avro 与MapReduce 102
5.2.2 Avro 与Pig 105
5.2.3 Avro 与Hive 106
5.2.4 比较Avro 与Protocol Buffers/Thrift 107
5.3 文件格式 108
5.3.1 Sequence 文件格式 108
5.3.2 MapFile 格式 111
5.3.3 其他数据结构 113
5.4 压缩 113
5.4.1 分片与压缩 114
5.4.2 压缩范围 115
5.5 小结 115
第6 章 YARN——其他应用模式进入Hadoop 的引路人 116
6.1 YARN 的架构 117
6.1.1 资源管理器 117
6.1.2 Application Master 118
6.1.3 节点管理器 119
6.1.4 YARN 客户端 120
6.2 开发YARN 的应用程序 120
6.2.1 实现YARN 客户端 120
6.2.2 实现AM 实例 125
6.3 YARN 的监控 129
6.4 YARN 中的作业调度 134
6.4.1 容量调度器 134
6.4.2 公平调度器 137
6.5 YARN 命令行 139
6.5.1 用户命令 140
6.5.2 管理员命令 140
6.6 小结 141
第7 章 基于YARN 的Storm——Hadoop中的低延时处理 142
7.1 批处理对比流式处理 142
7.2 Apache Storm 144
7.2.1 Apache Storm 的集群架构 144
7.2.2 Apache Storm 的计算和数据模型 145
7.2.3 Apache Storm 用例 146
7.2.4 Apache Storm 的开发 147
7.2.5 Apache Storm 0.9.1 153
7.3 基于YARN 的Storm 154
7.3.1 在YARN 上安装Apache Storm 154
7.3.2 安装过程 154
7.4 小结 161
第8 章 云上的Hadoop 162
8.1 云计算的特点 162
8.2 云上的Hadoop 163
8.3 亚马逊Elastic MapReduce 164
8.4 小结 175
第9 章 HDFS 替代品 176
9.1 HDFS 的优缺点 176
9.2 亚马逊AWS S3 177
9.3 在Hadoop 中实现文件系统 179
9.4 在Hadoop 中实现S3 原生文件系统 179
9.5 小结 189
第10 章 HDFS 联合 190
10.1 旧版HDFS 架构的限制 190
10.2 HDFS 联合的架构 192
10.2.1 HDFS 联合的好处 193
10.2.2 部署联合NameNode 193
10.3 HDFS 高可用性 195
10.3.1 从NameNode、检查节点和备份节点 195
10.3.2 高可用性——共享edits 196
10.3.3 HDFS 实用工具 197
10.3.4 三层与四层网络拓扑 197
10.4 HDFS 块放置策略 198
10.5 小结 200
第11 章 Hadoop 安全 201
11.1 安全的核心 201
11.2 Hadoop 中的认证 202
11.2.1 Kerberos 认证 202
11.2.2 Kerberos 的架构和工作流 203
11.2.3 Kerberos 认证和Hadoop 204
11.2.4 HTTP 接口的认证 204
11.3 Hadoop 中的授权 205
11.3.1 HDFS 的授权 205
11.3.2 限制HDFS 的使用量 208
11.3.3 Hadoop 中的服务级授权 209
11.4 Hadoop 中的数据保密性 211
11.5 Hadoop 中的日志审计 216
11.6 小结 217
第12 章 使用Hadoop 进行数据分析 218
12.1 数据分析工作流 218
12.2 机器学习 220
12.3 Apache Mahout 222
12.4 使用Hadoop 和Mahout 进行文档分析 223
12.4.1 词频 223
12.4.2 文频 224
12.4.3 词频-逆向文频 224
12.4.4 Pig 中的Tf-idf 225
12.4.5 余弦相似度距离度量 228
12.4.6 使用k-means 的聚类 228
12.4.7 使用Apache Mahout 进行k-means 聚类 229
12.5 RHadoop 233
12.6 小结 233
附录 微软Windows 中的Hadoop 235

前言/序言

  我们处在一个由数据主导决策的时代。存储成本在降低,网络速度在提升,周围的一切都在变得可以数字化,因此我们会毫不犹疑地下载、存储或与周围的其他人分享各类数据。大约20年前,相机还是一个使用胶片来捕捉图片的设备,每张照片所捕捉的都要是一个近乎完美的镜头,且底片的存储也要小心翼翼,以防损坏。要冲洗这些照片则需要更高的成本。从你按动快门到看到拍摄的图片几乎需要一天的时间。这意味着捕捉下来的信息要少得多,因为上述因素阻碍了人们记录生活的各个瞬间,只有那些被认为重要的时刻才被记录下来。
  然而,随着相机的数字化,这种情况得到了改变。我们几乎随时随地都会毫不犹疑地拍照;我们从来不担心存储的问题,因为TB级别(240)的外部磁盘可以提供可靠的备份;我们也很少到哪儿都带着相机,因为可以使用移动设备拍摄照片;我们还有如Instagram这样的应用给照片添加特效并分享这些美图;我们收集关于图片的意见和信息,还会基于这些内容做出决策;我们几乎不放过任何时刻,无论它们重要与否,都会将其存入纪念册中。大数据的时代来临啦!
  在商业上,大数据时代也带来了类似的变化。每项商业活动的方方面面都被记录了下来:为提高服务质量,记录下用户在电子商务页面上的所有操作;为进行交叉销售或追加销售,记录下用户买下的所有商品。商家连客户的DNA恨不得都想掌握,因此只要是能得到的客户数据,他们都会想办法得到,并一个一个掐指研究。商家也不会受到数据格式的困扰,无论是语音、图像、自然语言文本,还是结构化数据,他们都会欣然接受。利用这些数据点,他们可以驱使用户做出购买决定,并且为用户提供个性化的体验。数据越多,越能为用户提供更好、更深入的个性化体验。
  从某些方面来讲,我们已经准备好接受大数据的挑战了。然而,分析这些数据的工具呢?它们能处理如此庞大、快速、多样化的新数据吗?理论上说,所有数据都可以放到一台机器上,但这样一台机器的成本要多少?它能满足不断变化的负载需求吗?我们知道超级计算机可以做到这一点,但是全世界的超级计算机也就那么几台,而且都不具有伸缩性。替代方案就是构建一组机器、一个集群或者串联的计算单元来完成一项任务。一组使用高速网络互相连接的机器可以提供更好的伸缩性和灵活性,但那还不够。这些集群还要可编程。大量的机器,就像一群人,需要更多的协调和同步。机器的数量越多,集群中出现故障的可能性就越大。如何使用一种简单的方法处理同步和容错,从而减轻程序员的负担呢?答案是使用类似于Hadoop的系统。
  Hadoop可以认为是大数据处理的同义词。简单的编程模型,“一次编码,任意部署”,和日益增长的生态圈,使得Hadoop成为一个可供不同技能水平的程序员共同使用的平台。今天,它是数据科学领域首屈一指的求职技能。要去处理和分析大数据,Hadoop成为了理所当然的工具。Hadoop 2.0扩张了它的羽翼,使其能覆盖各种类型的应用模式,并解决更大范围的问题。它很快成为所有数据处理需求的一个通用平台,并将在不久的将来成为各个领域中每个工程师的必备技能。
  本书涵盖了对MapReduce、Pig和Hive的优化及其高级特性,同时也展示了如何使用Hadoop 2.0版本扩展Hadoop的能力。
  Hadoop 2.0版本的发布使其成为一个通用群机计算平台。本书阐明了为实现这一点而在平台层面所做出的改变,也介绍了对MapReduce作业以及像Pig、Hive这种高级抽象功能进行优化的行业准则,并对一些高级作业模式以及它们的应用进行了讨论。这些论述将帮助Hadoop用户优化已有的应用作业,并将它们迁移到Hadoop 2.0版本。随后,本书深入探讨了Hadoop 2.0的专属特性,如YARN(Yet Another Resource Negotiator)、HDFS联合,并辅以实例。本书后半部分还探讨了使用其他文件系统替换HDFS的问题。只要理解了上述这些问题,Hadoop用户就可以将Hadoop应用扩展到其他的应用模式和存储格式,使集群的资源得到更高效的利用。
  这是一本聚焦于Hadoop高级概念和特性的参考书,每一个基本概念都使用代码段或者示意图来解释,而这些概念在章节中出现的顺序则是由数据处理流程的先后决定的。

精通Hadoop 下载 mobi epub pdf txt 电子书 格式

精通Hadoop mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024

精通Hadoop 下载 mobi pdf epub txt 电子书 格式 2024

精通Hadoop 下载 mobi epub pdf 电子书
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

评分

适合有一定经验人员的进一步提高

评分

内容不错,正在学习中

评分

看后再说看后再说

评分

才发给过

评分

很好很好很好很好很好很好

评分

喜欢

评分

不错,挺好用的.

评分

都是好书,值得精读!

评分

不错的书

类似图书 点击查看全场最低价

精通Hadoop mobi epub pdf txt 电子书 格式下载 2024


分享链接








相关图书


本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 book.qciss.net All Rights Reserved. 图书大百科 版权所有