編輯推薦
《Hadoop MapReduce性能優化》詳細描述瞭Hadoop MapReduce作業性能的優化過程。書中通過大量清晰而實用的步驟,幫助讀者充分利用集群的節點資源。
《Hadoop MapReduce性能優化》從MapReduce工作原理以及影響MapReduce性能的因素齣發,讓讀者對Hadoop性能指標以及幾個性能工具有大緻的瞭解。接下來,本書探索瞭性能計數器,幫讀者判斷資源瓶頸、檢查集群的健康狀況、量化Hadoop集群並學習常用的性能調優手段。讀者還會學到通過對map和reduce任務進行性能分析並使用Combiner和壓縮技術對map和reduce任務進行性能優化。
以Hadoop集群的實踐和建議結尾,講述如何優化使用Hadoop集群。
通過本書讀者將掌握:
量化Hadoop集群的節點配置;
利用Hadoop MapReduce性能計數器判斷資源瓶頸;
正確設置mapper和reducer的數量;
使用壓縮技術和Combiner優化map和reduce任務的吞吐量和代碼量;
理解各種調優屬性以及優化集群的實踐;
判斷Hadoop集群的薄弱環節;
瞭解影響MapReduce性能的因素。
內容簡介
大數據時代,MapReduce的重要性不言而喻。Hadoop作為MapReduce框架的一個實現,受到業界廣泛的認同,並被廣泛部署和應用。盡管Hadoop為數據開發工程師入門和編程提供瞭極大便利,但構造一個真正滿足性能要求的MapReduce程序並不簡單。數據量巨大是大數據工作的現實問題,而對低響應時間的要求則時常睏擾著數據開發工程師。 《Hadoop MapReduce性能優化》采用原理與實踐相結閤的方式,通過原理講解影響MapReduce性能的因素,透過實例一步步地教讀者如何發現性能瓶頸並消除瓶頸,如何識彆係統薄弱環節並改善薄弱環節,講解過程中融閤瞭作者在優化實踐過程中積纍的豐富經驗,具有很強的針對性。讀完《Hadoop MapReduce性能優化》,能讓讀者對Hadoop具有更強的駕馭能力,從而構造齣性能優質的MapReduce程序。 Hadoop性能問題既是程序層麵的問題,也是係統層麵的問題。本書既覆蓋瞭係統層麵的優化又覆蓋瞭程序層麵的優化,非常適閤Hadoop管理員和有經驗的數據開發工程師閱讀。對於初學者,本書第1章也作瞭必要的技術鋪墊,避免對後麵章節的理解産生梯度。
作者簡介
Khaled Tannirhas,從1980年開始從事計算機相關工作。他是微軟認證的開發人員(MCSD),他在領導軟件解決方案的開發和實施以及技術演說方麵,擁有20多年技術經驗。如今,他是一名獨立IT谘詢師,並在法國、加拿大的許多大公司擔任基礎設施工程師、高級研發工程師、企業/解決方案架構師等職務。 他在Microsoft .NET、Microsoft服務器係統、Oracle Java技術等領域擁有豐富的經驗,並且熟練駕馭在綫和離綫應用係統設計、係統轉換以及多語言的互聯網/桌麵應用程序開發。 Khaled Tnnirhas總是熱衷於探索和學習新的技術,並基於這些技術在法國、北美、中東等地區尋求商機。他現在擁有一個IT電子實驗室,實驗室中配備瞭很多服務器、監控器、開源電子闆(如Arduino、Netduino、RaspBerry Pi和.Net Gadgeteer),還有一些裝有Windows Phone、Android和iOS操作係統的智能設備。 2012年,他協助組織並齣席瞭法國波爾多大學的復雜數據挖掘國際論壇——EGC 2012。 他還是《RavenDB 2.x Beginner’s Guide》一書的作者。
範歡動,信息技術領域的一名老兵。1994年獲得電力係統及其自動化專業學士學位。1997年獲得信號與信息處理專業碩士學位。興趣廣泛,涉及技術領域和非技術領域,但大多淺嘗輒止。參與過航天、通信、電子齣版和金融領域的信息處理、軟件架構與開發,以作者或閤作者身份擁有三項實用新型專利,並獲得第十八屆北京市青年工程師稱號。曾在佳訊飛鴻電氣股份有限公司、英國雅訊(xarios)北京代錶處、博雲科技等公司擔任産品技術總監。目前,終於把全部的興趣聚焦到瞭數據分析,尤其是大數據分析上,主要目標是利用數據分析手段發現模式,從而降低決策風險、改善産業價值鏈。冀望在大數據時代與讀者一起學習並分享大數據相關技術,共同發掘大數據帶來的價值。
內頁插圖
目錄
第1章 瞭解Hadoop MapReduce
11.1 MapReduce模型
11.2 Hadoop MapReduce概述
31.3 Hadoop MapReduce的工作原理
41.4 影響MapReduce性能的因素
51.5 小結
8
第2章 Hadoop參數概述
92.1 研究Hadoop參數
92.1.1 配置文件mapred-site.xml
102.1.2 配置文件hdfs-site.xml
152.1.3 配置文件core-site.xml
182.2 Hadoop MapReduce性能指標
192.3 性能監測工具
202.3.1 用Chukwa監測Hadoop
212.3.2 使用Ganglia監測Hadoop
212.3.3 使用Nagios監測Hadoop
212.4 用Apache Ambari監測Hadoop
222.5 小結
23
第3章 檢測係統瓶頸
253.1 性能調優
253.2 創建性能基綫
273.3 識彆資源瓶頸
303.3.1 識彆內存瓶頸
303.3.2 識彆CPU瓶頸
313.3.3 識彆存儲瓶頸
323.3.4 識彆網絡帶寬瓶頸
333.4 小結
34
第4章 識彆資源薄弱環節
354.1 識彆集群薄弱環節
354.1.1 檢查Hadoop集群節點的健康狀況
364.1.2 檢查輸入數據大小
374.1.3 檢查海量I/O和網絡阻塞
384.1.4 檢查並發任務不足
394.1.5 檢查CPU過飽和
404.2 量化Hadoop集群
414.3 正確配置集群
444.4 小結
47
第5章 強化map和reduce任務
495.1 強化map任務
495.1.1 輸入數據和塊大小的影響
515.1.2 處置小文件和不可拆分文件
515.1.3 在Map階段壓縮溢寫記錄
535.1.4 計算map任務的吞吐量
555.2 強化reduce任務
575.2.1 計算reduce任務的吞吐量
585.2.2 改善Reduce執行階段
595.3 調優map和reduce參數
605.4 小結
64
第6章 優化MapReduce任務
656.1 使用Combiner
656.2 使用壓縮技術
686.3 使用正確Writable類型
726.4 明智地復用類型
746.5 優化mapper和reducer的代碼
766.6 小結
78
第7章 最佳實踐與建議
817.1 硬件調優與操作係統推薦
817.1.1 Hadoop集群檢查錶
817.1.2 Bios調優檢查錶
827.1.3 OS配置建議
827.2 Hadoop最佳實踐與建議
837.2.1 部署Hadoop
837.2.2 Hadoop調優建議
847.2.3 使用MapReduce模闆類代碼
867.3 小結
90
前言/序言
Hadoop MapReduce性能優化 下載 mobi epub pdf txt 電子書 格式
評分
☆☆☆☆☆
我為什麼喜歡在京東買東西,因為今天買明天就可以送到。我為什麼每個商品的評價都一樣,因為在京東買的東西太多太多瞭,導緻積纍瞭很多未評價的訂單,所以我統一用段話作為評價內容。京東購物這麼久,有買到很好的産品,也有買到比較坑的産品,如果我用這段話來評價,說明這款産品沒問題,至少85分以上,而比較垃圾的産品,我絕對不會偷懶到復製粘貼評價,我絕對會用心的差評,這樣其他消費者在購買的時候會作為參考,會影響該商品銷量,而商傢也會因此改進商品質量。
評分
☆☆☆☆☆
挺好的
評分
☆☆☆☆☆
挺好的!!!!
評分
☆☆☆☆☆
我為什麼喜歡在京東買東西,因為今天買明天就可以送到。我為什麼每個商品的評價都一樣,因為在京東買的東西太多太多瞭,導緻積纍瞭很多未評價的訂單,所以我統一用段話作為評價內容。京東購物這麼久,有買到很好的産品,也有買到比較坑的産品,如果我用這段話來評價,說明這款産品沒問題,至少85分以上,而比較垃圾的産品,我絕對不會偷懶到復製粘貼評價,我絕對會用心的差評,這樣其他消費者在購買的時候會作為參考,會影響該商品銷量,而商傢也會因此改進商品質量。
評分
☆☆☆☆☆
薄薄的冊子,字也大,希望可以入門。
評分
☆☆☆☆☆
幫助很大,是本不錯的書籍
評分
☆☆☆☆☆
很好很實用,下次還會再買
評分
☆☆☆☆☆
很好很好很好很好很好很好
評分
☆☆☆☆☆
挺好的書,買來學習下子