Hadoop权威指南:大数据的存储与分析(第4版)+HBase权威指南+Hive编程指南

Hadoop权威指南:大数据的存储与分析(第4版)+HBase权威指南+Hive编程指南 pdf epub mobi txt 电子书 下载 2025

承接 住宅 自建房 室内改造 装修设计 免费咨询 QQ:624617358 一级注册建筑师 亲自为您回答、经验丰富,价格亲民。无论项目大小,都全力服务。期待合作,欢迎咨询!QQ:624617358
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 蓝墨水图书专营店
出版社: 清华大学出版社
ISBN:9787302465133
商品编码:19864790881
出版时间:2017-07-01

具体描述

套装三册:

HBase权威指南


Hive编程指南


Hadoop权威指南:大数据的存储与分析(第4版)修订版


9787302465133 9787115333834 9787115318893



本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。

本书是一本专业、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。



第Ⅰ部分Hadoop基础知识

第1章初识Hadoop3

1.1数据!数据!3

1.2数据的存储与分析5

1.3查询所有数据6

1.4不仅仅是批处理7

1.5相较于其他系统的优势8

1.6ApacheHadoop发展简史12

1.7本书包含的内容16

第2章关于MapReduce19

2.1气象数据集19

2.2使用Unix工具来分析数据21

2.3使用Hadoop来分析数据22

2.4横向扩展31

2.5HadoopStreaming37

第3章Hadoop分布式文件系统42

3.1HDFS的设计42

3.2HDFS的概念44

3.3命令行接口50

3.4Hadoop文件系统52

3.5Java接口56

3.6数据流68

3.7通过distcp并行复制76

第4章关于YARN78

4.1剖析YARN应用运行机制79

4.2YARN与MapReduce1相比82

4.3YARN中的调度85

4.4延伸阅读95

第5章Hadoop的I/O操作96

5.1数据完整性96

5.2压缩99

5.3序列化109

5.4基于文件的数据结构127

第Ⅱ部分关于MapReduce

第6章MapReduce应用开发141

6.1用于配置的API142

6.2配置开发环境144

6.3用MRUnit来写单元测试152

6.4本地运行测试数据156

6.5在集群上运行160

6.6作业调优174

6.7MapReduce的工作流176

第7章MapReduce的工作机制184

7.1剖析MapReduce作业运行

机制184

7.2失败191

7.3shuffle和排序195

7.4任务的执行201

第8章MapReduce的

类型与格式207

8.1MapReduce的类型207

8.2输入格式218

8.3输出格式236

第9章MapReduce的特性243

9.1计数器243

9.2排序252

9.3连接264

9.4边数据分布270

9.5MapReduce库类276

第Ⅲ部分Hadoop的操作

第10章构建Hadoop集群279

10.1集群规范280

10.2集群的构建和安装284

10.3Hadoop配置288

10.4安全性305

10.5利用基准评测程序测试

Hadoop集群311

第11章管理Hadoop314

11.1HDFS314

11.2监控327

11.3维护329

第Ⅳ部分Hadoop相关开源项目

第12章关于Avro341

12.1Avro数据类型和模式342

12.2内存中的序列化和

反序列化特定API347

12.3Avro数据文件349

12.4互操作性351

12.5模式解析352

12.6排列顺序354

12.7关于AvroMapReduce356

12.8使用AvroMapReduce

进行排序359

12.9其他语言的Avro362

第13章关于Parquet363

13.1数据模型364

13.2Parquet文件格式367

13.3Parquet的配置368

13.4Parquet文件的读/写369

13.5ParquetMapReduce374

第14章关于Flume377

14.1安装Flume378

14.2示例378

14.3事务和可靠性380

14.4HDFSSink382

14.5扇出385

14.6通过代理层分发387

14.7Sink组391

14.8Flume与应用程序的集成395

14.9组件编目395

14.10延伸阅读397

第15章关于Sqoop398

15.1获取Sqoop398

15.2Sqoop连接器400

15.3一个导入的例子401

15.4生成代码404

15.5深入了解数据库导入405

15.6使用导入的数据409

15.7导入大对象412

15.8执行导出414

15.9深入了解导出功能416

15.10延伸阅读419

第16章关于Pig420

16.1安装与运行Pig421

16.2示例425

16.3与数据库进行比较428

16.4PigLatin429

16.5用户自定义函数446

16.6数据处理操作455

16.7Pig实战465

16.8延伸阅读468

第17章关于Hive469

17.1安装Hive470

17.2示例472

17.3运行Hive473

17.4Hive与传统数据库相比480

17.5HiveQL483

17.6表488

17.7查询数据501

17.8用户定义函数508

17.9延伸阅读516

第18章关于Crunch517

18.1示例518

18.2Crunch核心API521

18.3管线执行537

18.4Crunch库545

18.5延伸阅读547

第19章关于Spark548

19.1安装Spark549

19.2示例549

19.3弹性分布式数据集555

19.4共享变量564

19.5剖析Spark作业运行机制565

19.6执行器和集群管理器570

19.7延伸阅读574

第20章关于HBase575

20.1HBase基础575

20.2概念576

20.3安装581

20.4客户端584

20.5创建在线查询应用589

20.6HBase和RDBMS的比较598

20.7Praxis601

20.8延伸阅读602

第21章关于ZooKeeper604

21.1安装和运行ZooKeeper605

21.2示例607

21.3ZooKeeper服务615

21.4使用ZooKeeper来构建

应用629

21.5生产环境中的ZooKeeper640

21.6延伸阅读643

第Ⅴ部分案例学习

第22章医疗公司塞纳(Cerner)

0........





书名:HBase权威指南(“十二五”国家重点图书出版规划项目)

原价:89.00元

作者:[美]Lars George 著

出版社:人民邮电出版社

出版日期:2013-10-1

ISBN:9787115318893

字数:646000

页码:476

版次:1

装帧:平装

开本:16开

 

编辑推荐


Apache HBase项目管理委员会主席Michael Stack作序推荐。
作者Lars George是HBase Committer,HBase文档的主要贡献者,Cloudera公司解决方案架构师,主要为Hadoop和HBase提供技术支持、咨询和培训工作。
这是一本介绍HBase内部机制的书,是·权威的HBase开发指南。



目录


目 录

第1章 简介 1
1.1 海量数据的黎明 1
1.2 关系数据库系统的问题 5
1.3 非关系型数据库系统Not-Only-SQL(简称NoSQL) 7
1.3.1 维度 9
1.3.2 可扩展性 12
1.3.3 数据库的范式化和反范式化 12
1.4 结构 15
1.4.1 背景 15
1.4.2 表、行、列和单元格 16
1.4.3 自动分区 20
1.4.4 存储API 21
1.4.5 实现 22
1.4.6 小结 25
1.5 HBase:Hadoop数据库 25
1.5.1 历史 26
1.5.2 命名 27
1.5.3 小结 27

第2章 安装 28
2.1 快速启动指南 28
2.2 必备条件 31
2.2.1 硬件 31
2.2.2 软件 37
2.3 HBase使用的文件系统 47
2.3.1 本地模式 48
2.3.2 HDFS 49
2.3.3 S3 49
2.3.4 其他文件系统 50
2.4 安装选项 50
2.4.1 Apache二进制发布包 50
2.4.2 编译源码 52
2.5 运行模式 53
2.5.1 单机模式 53
2.5.2 分布式模式 53
2.6 配置 57
2.6.1 hbase-site.xml与hbase-default.xml 58
2.6.2 hbase-env.sh 59
2.6.3 regionserver 59
2.6.4 log4j.properties 59
2.6.5 配置示例 59
2.6.6 客户端配置 61
2.7 部署 61
2.7.1 基于脚本 62
2.7.2 Apache Whirr 63
2.7.3 Puppet与Chef 63
2.8 操作集群 64
2.8.1 确定安装运行 64
2.8.2 Web UI介绍 65
2.8.3 Shell介绍 66
2.8.4 关闭集群 66

第3章 客户端API:基础知识 68
3.1 概述 68
3.2 CRUD操作 69
3.2.1 put方法 69
3.2.2 get方法 87
3.2.3 删除方法 97
3.3 批量处理操作 107
3.4 行锁 110
3.5 扫描 114
3.5.1 介绍 114
3.5.2 ResultScanner类 117
3.5.3 缓存与批量处理 119
3.6 各种特性 125
3.6.1 HTable的实用方法 125
3.6.2 Bytes类 127

第4章 客户端API:高级特性 129
4.1 过滤器 129
4.1.1 过滤器简介 129
4.1.2 比较过滤器 132
4.1.3 专用过滤器 139
4.1.4 附加过滤器 147
4.1.5 FilterList 151
4.1.6 自定义过滤器 153
4.1.7 过滤器总结 159
4.2 计数器 160
4.2.1 计数器简介 160
4.2.2 单计数器 163
4.2.3 多计数器 164
4.3 协处理器 166
4.3.1 协处理器简介 167
4.3.2 Coprocessor类 168
4.3.3 协处理器加载 171
4.3.4 RegionObserver类 174
4.3.5 MasterObserver类 180
4.3.6 endpoint 184
4.4 HTablePool 190
4.5 连接管理 194

第5章 客户端API:管理功能 197
5.1 模式定义 197
5.1.1 表 197
5.1.2 表属性 199
5.1.3 列族 202
5.2 HBaseAdmin 207
5.2.1 基本操作 208
5.2.2 表操作 209
5.2.3 模式操作 217
5.2.4 集群管理 219
5.2.5 集群状态信息 222

第6章 可用客户端 230
6.1 REST、Thrift和Avro的介绍 230
6.2 交互客户端 233
6.2.1 原生Java 233
6.2.2 REST 233
6.2.3 Thrift 240
6.2.4 Avro 244
6.2.5 其他客户端 245
6.3 批处理客户端 246
6.3.1 MapReduce 246
6.3.2 Hive 246
6.3.3 Pig 252
6.3.4 Cascading 256
6.4 Shell 257
6.4.1 基础 257
6.4.2 命令 259
6.4.3 脚本 263
6.5 基于Web的UI 265
6.5.1 master的UI 265
6.5.2 region服务器的UI 270
6.5.3 共享页面 272

第7章 与MapReduce集成 275
7.1 框架 275
7.1.1 MapReduce介绍 275
7.1.2 类 276
7.1.3 支撑类 279
7.1.4 MapReduce的执行地点 279
7.1.5 表拆分 280
7.2 在HBase之上的MapReduce 281
7.2.1 准备 281
7.2.2 数据流向 286
7.2.3 数据源 291
7.2.4 数据源与数据流向 293
7.2.5 自定义处理 296

第8章 架构 299
8.1 数据查找和传输 299
8.1.1 B 树 299
8.1.2 LSM树 300
8.2 存储 302
8.2.1 概览 303
8.2.2 写路径 304
8.2.3 文件 305
8.2.4 HFile格式 313
8.2.5 KeyValue格式 316
8.3 WAL 316
8.3.1 概述 317
8.3.2 HLog类 318
8.3.3 HLogKey类 319
8.3.4 WALEdit类 319
8.3.5 LogSyncer类 319
8.3.6 LogRoller类 320
8.3.7 回放 321
8.3.8 持久性 324
8.4 读路径 325
8.5 region查找 328
8.6 region生命周期 330
8.7 ZooKeeper 330
8.8 复制 333
8.8.1 Log Edit的生命周期 334
8.8.2 内部机制 335

第9章 高级用法 339
9.1 行键设计 339
9.1.1 概念 339
9.1.2 高表与宽表 341
9.1.3 部分键扫描 342
9.1.4 分页 343
9.1.5 时间序列 344
9.1.6 时间顺序关系 348
9.2 高级模式 350
9.3 辅助索引 350
9.4 搜索集成 354
9.5 事务 357
9.6 布隆过滤器 358
9.7 版本管理 361
9.7.1 隐式版本控制 361
9.7.2 自定义版本控制 364

第10章 集群监控 366
10.1 介绍 366
10.2 监控框架 367
10.2.1 上下文、记录和监控指标 367
10.2.2 master监控指标 372
10.2.3 region服务器监控指标 373
10.2.4 RPC监控指标 375
10.2.5 JVM监控指标 376
10.2.6 info监控指标 377
10.3 Ganglia 378
10.3.1 安装 379
10.3.2 用法 383
10.4 JMX 386
10.4.1 JConsole 388
10.4.2 JMX远程API 390
10.5 Nagios 394

第11章 性能优化 395
11.1 垃圾回收优化 395
11.2 本地memstore分配缓冲区 398
11.3 压缩 399
11.3.1 可用的编解码器 400
11.3.2 验证安装 401
11.3.3 启用压缩 403
11.4 优化拆分和合并 404
11.4.1 管理拆分 404
11.4.2 region热点 405
11.4.3 预拆分region 406
11.5 负载均衡 407
11.6 合并region 408




商品名称: Hive编程指南 开本:  
作者: (美)卡普廖洛//万普勒//卢森格林|译者:曹坤 页数:
定价: 69 出版时间: 2013-12-01
ISBN号: 9787115333834 印刷时间: 2013-12-01
出版社: 人民邮电 版次: 1
商品类型: 图书 印次: 1
目录: ***章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用JDBC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive中“一次使用”命令
2.7.4 从文件中执行Hive查询
2.7.5 hiverc文件
2.7.6 使用Hive CLI的***多介绍
2.7.7 查看操作命令历史
2.7.8 执行shell命令
2.7.9 在Hive内使用Hadoop的dfs命令
2.7.10 Hive脚本中如何进行注释
2.7.11 显示字段名称
第3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式
第4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.3.1 管理表
4.3.2 外部表
4.4 分区表、管理表
4.4.1 外部分区表
4.4.2 自定义表的存储格式
4.5 删除表
4.6 修改表
4.6.1 表重命名
4.6.2 增加、修改和删除表分区
4.6.3 修改列信息
4.6.4 增加列
4.6.5 删除或者替换列
4.6.6 修改表属性
4.6.7 修改存储属性
4.6.8 众多的修改表语句
第5章 HiveQL:数据操作
5.1 向管理表中装载数据
5.2 通过查询语句向表中插入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据
第6章 HiveQL:查询
6.1 SELECT…FROM语句
6.1.1 使用正则表达式来指定列
6.1.2 使用列值进行计算
6.1.3 算术运算符
6.1.4 使用函数
6.1.5 LIMIT语句
6.1.6 列别名
6.1.7 嵌套SELECT语句
6.1.8 CASE…WHEN…THEN 句式
6.1.9 什么情况下Hive可以避免进行MapReduce
6.2 WHERE语句
6.2.1 谓词操作符
6.2.2 关于浮点数比较
6.2.3 LIKE和RLIKE
6.3 GROUP BY 语句
6.4 JOIN语句
6.4.1 INNER JOIN
6.4.2 JOIN优化
6.4.3 LEFT OUTER JOIN
6.4.4 OUTER JOIN
6.4.5 RIGHT OUTER JOIN
6.4.6 FULL OUTER JOIN
6.4.7 LEFT SEMI-JOIN
6.4.8 笛卡尔积JOIN
6.4.9 map-side JOIN
6.5 ORDER BY和SORT BY
6.6 含有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.9.1 数据块抽样
6.9.2 分桶表的输入裁剪
6.10 UNION ALL
第7章 HiveQL:视图
7.1 使用视图来降低查询复杂度
7.2 使用视图来限制基于条件过滤的数据
7.3 动态分区中的视图和map类型
7.4 视图零零碎碎相关的事情
第8章 HiveQL:索引
8.1 创建索引
8.2 重建索引
8.3 显示索引
8.4 删除索引
8.5 实现一个定制化的索引处理器
第9章 模式设计
9.1 按天划分的表
9.2 关于分区
9.3 ***键和标准化
9.4 同一份数据多种处理
9.5 对于每个表的分区
9.6 分桶表数据存储
9.7 为表增加列
9.8 使用列存储表
9.8.1 重复数据
9.8.2 多列
9.9 (几乎)总是使用压缩
***0章 调优
10.1 使用EXPLAIN
10.2 EXPLAIN EXTENDED
10.3 限制调整
10.4 JOIN优化
10.5 本地模式
10.6 并行执行
10.7 严格模式
10.8 调整mapper和reducer个数
10.9 JVM重用
10.10 索引
10.11 动态分区调整
10.12 推测执行
10.13 单个MapReduce中多个GROUP BY
10.14 虚拟列
***1章 其他文件格式和压缩方法
11.1 确定安装编解码器
11.2 选择一种压缩编/解码器
11.3 开启中间压缩
11.4 ***终输出结果压缩
11.5 sequence file存储格式
11.6 使用压缩实践
11.7 存档分区
11.8 压缩:包扎
***2章 开发
12.1 修改Log4J属性
12.2 连接Java调试器到Hive
12.3 从源码编译Hive
12.3.1 执行Hive测***例
12.3.2 执行hook
12.4 配置Hive和Eclipse
12.5 Maven工程中使用Hive
12.6 Hive中使用hive_test进行单元测试
12.7 新增的插件开发工具箱(PDK)
***3章 函数
13.1 发现和描述函数
13.2 调用函数
13.3 标准函数
13.4 聚合函数
13.5 表生成函数
13.6 一个通过日期计算其星座的UDF
13.7 UDF与GenericUDF
13.8 不变函数
13.9 用户自定义聚合函数
13.10 用户自定义表生成函数
13.10.1 可以产生多行数据的UDTF
13.10.2 可以产生具有多个字段的单行数据的UDTF
13.10.3 可以模拟复杂数据类型的UDTF
13.11 在 UDF中访问分布式缓存
13.12 以函数的方式使用注解
13.12.1 定数性(deterministic)标注
13.12.2 状态性(stateful)标注
13.12.3 ***性
13.13 宏命令
***4章 Streaming
14.1 恒等变换
14.2 改变类型
14.3 投影变换
14.4 操作转换
14.5 使用分布式内存
14.6 由一行产生多行
14.7 使用streaming进行聚合计算
14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY
14.9 GenericMR Tools for Streaming to Java
14.10 计算cogroup
***5章 自定义Hive文件和记录格式
15.1 文件和记录格式
15.2 阐明CREATE TABLE句式
15.3 文件格式
15.3.1 SequenceFile
15.3.2 RCfile
15.3.3 示例自定义输入格式:DualInputFormat
15.4 记录格式:SerDe
15.5 CSV和TSV SerDe
15.6 ObjectInspector
15.7 Thing Big Hive Reflection ObjectInspector
15.8 XML UDF
15.9 XPath相关的函数
15.10 JSON SerDe
15.11 Avro Hive SerDe
15.11.1 使用表属性信息定义Avro Schema
15.11.2 从指定URL中定义Schema
15.11.3 进化的模式
15.12 二进制输出
***6章 Hive的Thrift服务
16.1 启动Thrift Server
16.2 配置Groovy使用HiveServer
16.3 连接到HiveServer
16.4 获取集群状态信息
...

用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.qciss.net All Rights Reserved. 图书大百科 版权所有