精通Hadoop 下載 mobi epub pdf 電子書 2025

簡體網頁||繁體網頁

☆☆☆☆☆

[印] Sandeep Karanth 著，劉淼，唐覬雋，陳智威譯

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到圖書大百科

book.qciss.net

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：人民郵電齣版社

ISBN：9787115411051

版次：1

商品編碼：11851339

包裝：平裝

叢書名：圖靈程序設計叢書

開本：16開

齣版時間：2016-01-01

用紙：膠版紙

頁數：249

正文語種：中文

具體描述

編輯推薦

　　Hadoop是大數據處理的同義詞。Hadoop的編程模型簡單，“一次編碼，任意部署”，且生態圈日益完善，已成為一個可供不同技能水平的程序員共同使用的全方位平颱。今天，麵臨著處理和分析大數據的任務，Hadoop成瞭理所當然的工具。Hadoop 2.0擴展瞭羽翼，能覆蓋各種類型的應用模式，並解決更大範圍的問題。
　　本書是一本循序漸進的指導手冊，重點介紹瞭Hadoop的高級概念和特性。內容涵蓋瞭Hadoop 2.X版的改進，MapReduce、Pig和Hive等的優化及其高級特性，Hadoop 2.0的專屬特性（如YARN和HDFS聯閤），以及如何使用Hadoop 2.0版本擴展Hadoop的能力。
　　如果你想拓展自己的Hadoop知識和技能，想應對具有挑戰性的數據處理問題，想讓Hadoop作業、Pig腳本和Hive查詢運行得更快，或者想瞭解升級Hadoop的好處，那麼本書便是你的不二選擇。
　　通過閱讀本書，你將能夠：
　　理解從Hadoop 1.0到Hadoop 2.0的變化
　　定製和優化Hadoop 2.0中的MapReduce作業
　　探究Hadoop I/O和不同的數據格式
　　深入學習YARN和Storm，並通過YARN集成Hadoop和Storm
　　基於***Elastic MapReduce部署Hadoop
　　探究HDFS替代品，學習HDFS聯閤
　　掌握Hadoop安全方麵的主要內容
　　使用Mahout和RHadoop進行Hadoop數據分析

內容簡介

　　這本高階教程將通過大量示例幫助你精通Hadoop，掌握Hadoop實踐和技巧。主要內容包括：Hadoop MapReduce、Pig 和Hive 優化策略，YARN 審讀剖析，如何利用Storm，等等。如果你熟悉Hadoop，並想將自己的技能再提高一個層次，本書是你的不二之選。

作者簡介

　　Sandeep Karanth，Scibler公司聯閤創始人，負責數據智能産品的架構；DataPhi Labs公司聯閤創始人兼首席架構師，專注於構建和實施軟件係統。他擁有14年以上的軟件行業從業經驗，既設計過企業數據應用，也開發過新一代移動應用。他曾就職於微軟總部和微軟印度研究院。他的Twitter賬號是@karanths，GitHub賬號是https://github.com/Karanth。

第1 章 Hadoop 2．X 1
1．1 Hadoop 的起源 1
1．2 Hadoop 的演進 2
1．3 Hadoop 2．X 6
1．3．1 Yet Another Resource Negotiator（YARN） 7
1．3．2 存儲層的增強 8
1．3．3 支持增強 11
1．4 Hadoop 的發行版 11
1．4．1 選哪個Hadoop 發行版 12
1．4．2 可用的發行版 14
1．5 小結 16
第2 章 MapReduce 進階 17
2．1 MapReduce 輸入 18
2．1．1 InputFormat 類 18
2．1．2 InputSplit 類 18
2．1．3 RecordReader 類 19
2．1．4 Hadoop 的“小文件”問題 20
2．1．5 輸入過濾 24
2．2 Map 任務 27
2．2．1 dfs．blocksize 屬性 28
2．2．2 中間輸齣結果的排序與溢齣 28
2．2．3 本地reducer 和Combiner 31
2．2．4 獲取中間輸齣結果——Map 側 31
2．3 Reduce 任務 32
2．3．1 獲取中間輸齣結果——Reduce 側 32
2．3．2 中間輸齣結果的閤並與溢齣 33
2．4 MapReduce 的輸齣 34
2．5 MapReduce 作業的計數器 34
2．6 數據連接的處理 36
2．6．1 Reduce 側的連接 36
2．6．2 Map 側的連接 42
2．7 小結 45
第3 章 Pig 進階 47
3．1 Pig 對比SQL 48
3．2 不同的執行模式 48
3．3 Pig 的復閤數據類型 49
3．4 編譯Pig 腳本 50
3．4．1 邏輯計劃 50
3．4．2 物理計劃 51
3．4．3 MapReduce 計劃 52
3．5 開發和調試助手 52
3．5．1 DESCRIBE 命令 52
3．5．2 EXPLAIN 命令 53
3．5．3 ILLUSTRATE 命令 53
3．6 Pig 操作符的高級特性 54
3．6．1 FOREACH 操作符進階 54
3．6．2 Pig 的特殊連接 58
3．7 用戶定義函數 61
3．7．1 運算函數 61
3．7．2 加載函數 66
3．7．3 存儲函數 68
3．8 Pig 的性能優化 69
3．8．1 優化規則 69
3．8．2 Pig 腳本性能的測量 71
3．8．3 Pig 的Combiner 72
3．8．4 Bag 數據類型的內存 72
3．8．5 Pig 的reducer 數量 72
3．8．6 Pig 的multiquery 模式 73
3．9 最佳實踐 73
3．9．1 明確地使用類型 74
3．9．2 更早更頻繁地使用投影 74
3．9．3 更早更頻繁地使用過濾 74
3．9．4 使用LIMIT 操作符 74
3．9．5 使用DISTINCT 操作符 74
3．9．6 減少操作 74
3．9．7 使用Algebraic UDF 75
3．9．8 使用Accumulator UDF 75
3．9．9 剔除數據中的空記錄 75
3．9．10 使用特殊連接 75
3．9．11 壓縮中間結果 75
3．9．12 閤並小文件 76
3．10 小結 76
第4 章 Hive 進階 77
4．1 Hive 架構 77
4．1．1 Hive 元存儲 78
4．1．2 Hive 編譯器 78
4．1．3 Hive 執行引擎 78
4．1．4 Hive 的支持組件 79
4．2 數據類型 79
4．3 文件格式 80
4．3．1 壓縮文件 80
4．3．2 ORC 文件 81
4．3．3 Parquet 文件 81
4．4 數據模型 82
4．4．1 動態分區 84
4．4．2 Hive 錶索引 85
4．5 Hive 查詢優化器 87
4．6 DML 進階 88
4．6．1 GROUP BY 操作 88
4．6．2 ORDER BY 與SORT BY 88
4．6．3 JOIN 類型 88
4．6．4 高級聚閤 89
4．6．5 其他高級語句 90
4．7 UDF、UDAF 和UDTF 90
4．8 小結 93
第5 章序列化和Hadoop I/O 95
5．1 Hadoop 數據序列化 95
5．1．1 Writable 與WritableComparable 96
5．1．2 Hadoop 與Java 序列化的區彆 98
5．2 Avro 序列化 100
5．2．1 Avro 與MapReduce 102
5．2．2 Avro 與Pig 105
5．2．3 Avro 與Hive 106
5．2．4 比較Avro 與Protocol Buffers/Thrift 107
5．3 文件格式 108
5．3．1 Sequence 文件格式 108
5．3．2 MapFile 格式 111
5．3．3 其他數據結構 113
5．4 壓縮 113
5．4．1 分片與壓縮 114
5．4．2 壓縮範圍 115
5．5 小結 115
第6 章 YARN——其他應用模式進入Hadoop 的引路人 116
6．1 YARN 的架構 117
6．1．1 資源管理器 117
6．1．2 Application Master 118
6．1．3 節點管理器 119
6．1．4 YARN 客戶端 120
6．2 開發YARN 的應用程序 120
6．2．1 實現YARN 客戶端 120
6．2．2 實現AM 實例 125
6．3 YARN 的監控 129
6．4 YARN 中的作業調度 134
6．4．1 容量調度器 134
6．4．2 公平調度器 137
6．5 YARN 命令行 139
6．5．1 用戶命令 140
6．5．2 管理員命令 140
6．6 小結 141
第7 章基於YARN 的Storm——Hadoop中的低延時處理 142
7．1 批處理對比流式處理 142
7．2 Apache Storm 144
7．2．1 Apache Storm 的集群架構 144
7．2．2 Apache Storm 的計算和數據模型 145
7．2．3 Apache Storm 用例 146
7．2．4 Apache Storm 的開發 147
7．2．5 Apache Storm 0．9．1 153
7．3 基於YARN 的Storm 154
7．3．1 在YARN 上安裝Apache Storm 154
7．3．2 安裝過程 154
7．4 小結 161
第8 章雲上的Hadoop 162
8．1 雲計算的特點 162
8．2 雲上的Hadoop 163
8．3 亞馬遜Elastic MapReduce 164
8．4 小結 175
第9 章 HDFS 替代品 176
9．1 HDFS 的優缺點 176
9．2 亞馬遜AWS S3 177
9．3 在Hadoop 中實現文件係統 179
9．4 在Hadoop 中實現S3 原生文件係統 179
9．5 小結 189
第10 章 HDFS 聯閤 190
10．1 舊版HDFS 架構的限製 190
10．2 HDFS 聯閤的架構 192
10．2．1 HDFS 聯閤的好處 193
10．2．2 部署聯閤NameNode 193
10．3 HDFS 高可用性 195
10．3．1 從NameNode、檢查節點和備份節點 195
10．3．2 高可用性——共享edits 196
10．3．3 HDFS 實用工具 197
10．3．4 三層與四層網絡拓撲 197
10．4 HDFS 塊放置策略 198
10．5 小結 200
第11 章 Hadoop 安全 201
11．1 安全的核心 201
11．2 Hadoop 中的認證 202
11．2．1 Kerberos 認證 202
11．2．2 Kerberos 的架構和工作流 203
11．2．3 Kerberos 認證和Hadoop 204
11．2．4 HTTP 接口的認證 204
11．3 Hadoop 中的授權 205
11．3．1 HDFS 的授權 205
11．3．2 限製HDFS 的使用量 208
11．3．3 Hadoop 中的服務級授權 209
11．4 Hadoop 中的數據保密性 211
11．5 Hadoop 中的日誌審計 216
11．6 小結 217
第12 章使用Hadoop 進行數據分析 218
12．1 數據分析工作流 218
12．2 機器學習 220
12．3 Apache Mahout 222
12．4 使用Hadoop 和Mahout 進行文檔分析 223
12．4．1 詞頻 223
12．4．2 文頻 224
12．4．3 詞頻－逆嚮文頻 224
12．4．4 Pig 中的Tf-idf 225
12．4．5 餘弦相似度距離度量 228
12．4．6 使用k-means 的聚類 228
12．4．7 使用Apache Mahout 進行k-means 聚類 229
12．5 RHadoop 233
12．6 小結 233
附錄微軟Windows 中的Hadoop 235

前言/序言

　　我們處在一個由數據主導決策的時代。存儲成本在降低，網絡速度在提升，周圍的一切都在變得可以數字化，因此我們會毫不猶疑地下載、存儲或與周圍的其他人分享各類數據。大約20年前，相機還是一個使用膠片來捕捉圖片的設備，每張照片所捕捉的都要是一個近乎完美的鏡頭，且底片的存儲也要小心翼翼，以防損壞。要衝洗這些照片則需要更高的成本。從你按動快門到看到拍攝的圖片幾乎需要一天的時間。這意味著捕捉下來的信息要少得多，因為上述因素阻礙瞭人們記錄生活的各個瞬間，隻有那些被認為重要的時刻纔被記錄下來。
　　然而，隨著相機的數字化，這種情況得到瞭改變。我們幾乎隨時隨地都會毫不猶疑地拍照；我們從來不擔心存儲的問題，因為TB級彆（240）的外部磁盤可以提供可靠的備份；我們也很少到哪兒都帶著相機，因為可以使用移動設備拍攝照片；我們還有如Instagram這樣的應用給照片添加特效並分享這些美圖；我們收集關於圖片的意見和信息，還會基於這些內容做齣決策；我們幾乎不放過任何時刻，無論它們重要與否，都會將其存入紀念冊中。大數據的時代來臨啦！
　　在商業上，大數據時代也帶來瞭類似的變化。每項商業活動的方方麵麵都被記錄瞭下來：為提高服務質量，記錄下用戶在電子商務頁麵上的所有操作；為進行交叉銷售或追加銷售，記錄下用戶買下的所有商品。商傢連客戶的DNA恨不得都想掌握，因此隻要是能得到的客戶數據，他們都會想辦法得到，並一個一個掐指研究。商傢也不會受到數據格式的睏擾，無論是語音、圖像、自然語言文本，還是結構化數據，他們都會欣然接受。利用這些數據點，他們可以驅使用戶做齣購買決定，並且為用戶提供個性化的體驗。數據越多，越能為用戶提供更好、更深入的個性化體驗。
　　從某些方麵來講，我們已經準備好接受大數據的挑戰瞭。然而，分析這些數據的工具呢？它們能處理如此龐大、快速、多樣化的新數據嗎？理論上說，所有數據都可以放到一颱機器上，但這樣一颱機器的成本要多少？它能滿足不斷變化的負載需求嗎？我們知道超級計算機可以做到這一點，但是全世界的超級計算機也就那麼幾颱，而且都不具有伸縮性。替代方案就是構建一組機器、一個集群或者串聯的計算單元來完成一項任務。一組使用高速網絡互相連接的機器可以提供更好的伸縮性和靈活性，但那還不夠。這些集群還要可編程。大量的機器，就像一群人，需要更多的協調和同步。機器的數量越多，集群中齣現故障的可能性就越大。如何使用一種簡單的方法處理同步和容錯，從而減輕程序員的負擔呢？答案是使用類似於Hadoop的係統。
　　Hadoop可以認為是大數據處理的同義詞。簡單的編程模型，“一次編碼，任意部署”，和日益增長的生態圈，使得Hadoop成為一個可供不同技能水平的程序員共同使用的平颱。今天，它是數據科學領域首屈一指的求職技能。要去處理和分析大數據，Hadoop成為瞭理所當然的工具。Hadoop 2.0擴張瞭它的羽翼，使其能覆蓋各種類型的應用模式，並解決更大範圍的問題。它很快成為所有數據處理需求的一個通用平颱，並將在不久的將來成為各個領域中每個工程師的必備技能。
　　本書涵蓋瞭對MapReduce、Pig和Hive的優化及其高級特性，同時也展示瞭如何使用Hadoop 2.0版本擴展Hadoop的能力。
　　Hadoop 2.0版本的發布使其成為一個通用群機計算平颱。本書闡明瞭為實現這一點而在平颱層麵所做齣的改變，也介紹瞭對MapReduce作業以及像Pig、Hive這種高級抽象功能進行優化的行業準則，並對一些高級作業模式以及它們的應用進行瞭討論。這些論述將幫助Hadoop用戶優化已有的應用作業，並將它們遷移到Hadoop 2.0版本。隨後，本書深入探討瞭Hadoop 2.0的專屬特性，如YARN（Yet Another Resource Negotiator）、HDFS聯閤，並輔以實例。本書後半部分還探討瞭使用其他文件係統替換HDFS的問題。隻要理解瞭上述這些問題，Hadoop用戶就可以將Hadoop應用擴展到其他的應用模式和存儲格式，使集群的資源得到更高效的利用。
　　這是一本聚焦於Hadoop高級概念和特性的參考書，每一個基本概念都使用代碼段或者示意圖來解釋，而這些概念在章節中齣現的順序則是由數據處理流程的先後決定的。