Hadoop大数据处理技术基础与实践 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

安俊秀，王鹏，靳宇倡著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

承接住宅自建房室内改造装修设计免费咨询 QQ：624617358 一级注册建筑师亲自为您回答、经验丰富，价格亲民。无论项目大小，都全力服务。期待合作，欢迎咨询！QQ：624617358

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：人民邮电出版社

ISBN：9787115400741

版次：01

商品编码：11808226

包装：平装

丛书名： 21世纪高等院校云计算和大数据人才培养规划教材

开本：16开

出版时间：2015-12-01

页数：291

正文语种：中文

具体描述

编辑推荐

热门技术
院校关注
市场空白
专家团队
广泛调研
内容基础
循序渐进
资源丰富
本书的体系结构及内容做了精心的设计，实现理论指导实践、实践提升理论的良性循环。按照“模块理论－模块实践”这一思路进行编排，通过不断地螺旋迭代逐渐让学生掌握Hadoop的体系架构及各组件的功能及相应典型案例。在内容编写方面，注意难点分散、循序渐进；在实例选取方面，注意实用性强、针对性强。

内容简介

全书共有12章，从Hadoop起源开始，介绍了Hadoop的安装和配置，并对Hadoop的组件分别进行了介绍，包括HDFS分布式存储系统，MapReduce计算框架，海量数据库HBase，Hive数据仓库，Pig、ZooKeeper管理系统等知识，最后对Hadoop实时数据处理技术作了简单介绍，旨在让读者了解当前的其它的大数据处理技术。本书除了对Hadoop的理论进行说明之外，还对如何使用各组件进行了介绍，但介绍的只是基础的使用，没有涉及到底层的高级内容，所以本书只是起一个引导作用，旨在让读者了解Hadoop并能够使用Hadoop的基本功能，并不是学习Hadoop的完全手册。
本书适用于高等院校的学生；是云计算专业、物联网专业及云计算与大数据专业的核心基础课程，也是计算机相关专业的一门新增专业课或选修课；适合于零售及云计算与大数据技术相关的培训班等使用。

作者简介

　安俊秀，女，教授，西安交通大学攻读计算机科学与技术专业，获工学硕士学位。中国计算机学会高级会员；中国电子学会高级会员；成都市科技攻关计划评审专家；成都军区项目评审专家；汕尾市科技顾问团首席顾问。

　　在科研工作方面，一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近五年来就此发表论文40余篇，其中**作者20余篇，核心期刊以上占15余篇。主编或参与完成专著3部、教材4部，6部由***出版社出版。获得国家发明专利2项（2014授权），实用新型专利授权12项。获得软件著作权13项。科研项目20项，其中作为项目负责人承担省部级项目3项；作为主研人员参与***项目6项、省级项目6项。

Hadoop基础与实践
第1章Hadoop概述
1．1 Hadoop来源和动机
1．2 Hadoop体系架构
1．3 Hadoop与分布式开发
1．4 Hadoop行业应用案例分析
1．4．1 Hadoop在门户网站的应用
1．4．2 Hadoop在搜索引擎中的应用
1．4．3 Hadoop在电商平台中的应用
1．5小结
第2章Hadoop安装与配置管理
2．1 实验准备
2．2 配置一个单节点环境
2．2．1 运行一个虚拟系统CentOS
2．2．2 配置网络
2．2．3创建新的用户组和用户
2．2．4上传文件到CentOS并配置Java、Hadoop环境
2．2．5 修改Hadoop2．2配置文件
2．2．6修改CentOS主机名
2．2．7绑定hostname与IP
2．2．8关闭防火墙
2．3节点之间的免密码通信
2．3．1什么是SSH
2．3．2 拷贝虚拟机节点
2．3．3 配置SSH免密码登录
2．4 Hadoop的启动和测试
2．4．1 格式化文件系统
2．4．2启动HDFS
2．4．3 启动Yarn
2．4．4 管理JobHistory Server
2．4．5 集群验证
2．4．6 需要了解的默认配置
2．5动态管理节点
2．5．1 动态增加和删除datanode
2．5．2 动态修改TaskTracker
2．6小结
第3章HDFS技术
3．1HDFS的特点
3．2HDFS架构
3．2．1数据块
3．2．2元数据节点与数据节点
3．2．3辅助元数据节点
3．2．4安全模式
3．2．5负载均衡
3．2．6垃圾回收
3．3HDFS Shell命令
3．3．1文件处理命令
3．3．2dfsadmin命令
3．3．3namenode命令
3．3．4fsck命令
3．3．5pipes命令
3．3．6job命令
3．4HDFS中Java API的使用
3．4．1上传文件
3．4．2新建文件
3．4．3查看文件详细信息
3．4．4下载文件
3．5RPC通信
3．5．1反射机制
3．5．2代理模式与动态代理
3．5．3Hadoop RPC机制与源码分析
3．6小结
第4章Map/Reduce技术
4．1 什么是Map/Reduce
4．2 Map/Reduce编程模型
4．2．1 MapReduce编程模型简介
4．2．2 Map/Reduce简单模型
4．2．3 Map/Reduce复杂模型
4．2．4 Map/Reduce编程实例–WordCount
4．3 Map/Reduce数据流
4．3．1分片、格式化数据源（InputFormat）
4．3．2 Map过程
4．3．3 Shuffle过程
4．3．4 Reduce过程
4．3．5文件写入（OutputFormat）
4．4 Map/Reduce任务流程
4．4．1 MRv2基本组成
4．4．2 Yarn基本组成
4．4．3 任务流程
4．5 Map/Reduce的Streaming和Pipe
4．5．1 Hadoop Streaming
4．5．2 Hadoop Pipe
4．6 Map/Reduce性能调优
4．7Map/Reduce实战
4．7．1 快速入门
4．7．2简单使用Eclipse插件
4．8小结
第5章Hadoop I/O操作
5．1HDFS数据完整性
5．1．1校验和
5．1．2DataBlockScanner
5．2基于文件的数据结构
5．2．1SequenceFile存储
5．2．2MapFile
5．2．3SequenceFile转换为MapFile
5．3压缩
5．3．1Codec
5．3．2本地库
5．3．3如何选择压缩格式
5．4序列化
5．4．1Writable接口
5．4．2WritableComparable
5．4．3Hadoop writable基本类型
5．4．4自定义writable类型
5．5小结
第6章海量数据库HBase技术
6．1 初识HBase
6．2 HBase表视图
6．2．1概念视图
6．2．2物理视图
6．3HBase物理存储模型
6．4安装HBase
6．4．1HBase单节点安装
6．4．2HBase伪分布式安装
6．4．3HBase完全分布式安装
6．5HBaseShell
6．5．1general一般操作
6．5．2ddl操作
6．5．3dml操作
6．5．4小结
6．6小结
第7章ZooKeeper技术
7．1 分布式协调技术
7．2 实现者
7．3 角色
7．4 ZooKeeper数据模型
7．4．1Znode
7．4．2ZooKeeper中的时间
7．4．3ZooKeeper节点属性
7．4．4watch触发器
7．5 ZooKeeper集群安装
7．6 ZooKeeper主要Shell操作
7．7 典型运用场景
7．7．1数据发布与订阅
7．7．2统一命名服务（Name Service）
7．7．3分布通知/协调（Distribution of notification/coordination）
7．8小结
第8章分布式数据仓库技术Hive
8．1 Hive出现原因
8．2 Hive服务组成
8．3 Hive安装
8．3．1 Hive基本安装
8．3．2 MySQL安装
8．3．3 Hive配置
8．4 Hive Shell介绍
8．5HiveQL详解
8．5．1 Hive管理数据方式
8．5．2 Hive表DDL操作
8．5．3 Hive表DML操作
8．6小结
第9章分布式数据分析工具Pig
9．1 Pig的安装和配置
9．2 Pig基本概念
9．3 Pig保留关键字
9．4使用Pig
9．4．1 Pig命令行选项
9．4．2 Pig的两种运行模式
9．4．3 Pig相关Shell命令详解
9．4．4Pig程序运行方式
9．4．5 Pig输入与输出
9．5模式（Schemas）
9．6 Pig相关函数详解
9．7小结
第10章 Hadoop与RDBMS数据迁移工具Sqoop
10．1 Sqoop基本安装
10．2 Sqoop配置
10．3 Sqoop相关功能
10．4 Hive、Pig和Sqoop三者之间的关系
10．5小结
第11章Hadoop1．x与Hadoop2．x的比较
11．1 Hadoop发展历程
11．2 Hadoop1．x与Hadoop2．x之间的差异
11．2．1 Hadoop1与Hadoop2体系结构对比
11．2．2 Hadoop1与Hadoop2之间配置差异
11．2．3 Hadoop2的Yarn框架
11．2．4 HDFS联邦机制（Federation）
11．3小结
第12章Hadoop实时数据处理技术
12．1 Storm-Yarn
12．1．1 Apache Storm组成结构
12．1．2 Storm数据流
12．1．3 Storm-Yarn产生背景
12．1．4 Storm-Yarn功能介绍
12．2 Apache Spark
12．2．1 Apache Spark组成结构
12．2．2 Apache Spark扩展功能
12．3 Storm与Spark的比较
12．4小结
附录一：使用Eclipse提交Hadoop任务相关错误解决
附录二：常用Pig内置函数简介