PySpark實戰指南：利用Python和Spark構建數據密集型應用並規模化部署下載 mobi epub pdf 電子書 2025

簡體網頁||繁體網頁

☆☆☆☆☆

[美] 托馬茲·卓巴斯（Tomasz Drabas），丹尼·李（Denny Lee）著，欒雲傑譯

圖書標籤:

PySpark
大數據
數據分析
數據挖掘
Python
Spark
數據工程
機器學習
分布式計算
規模化部署

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到圖書大百科

book.qciss.net

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：機械工業齣版社

ISBN：9787111582380

版次：1

商品編碼：12236677

品牌：機工齣版

包裝：平裝

叢書名：大數據技術叢書

開本：16開

齣版時間：2017-11-01

用紙：膠版紙

頁數：186

具體描述

內容簡介

本文從Spark的基本特點齣發，藉助大量例子詳細介紹瞭如何使用Python調用Spark新特性、處理結構化及非結構化數據、使用PySpark中基本可用數據類型、生成機器學習模型、進行圖像操作以及閱讀串流數據等新興技術內容。

譯者序
序
前言
關於作者
第1章　瞭解Spark 1
1.1　什麼是Apache Spark 1
1.2　Spark作業和API 2
1.2.1　執行過程 2
1.2.2　彈性分布式數據集 3
1.2.3　DataFrame 4
1.2.4　Dataset 5
1.2.5　Catalyst優化器 5
1.2.6　鎢絲計劃 5
1.3　Spark 2.0的架構 6
1.3.1　統一Dataset和DataFrame 7
1.3.2　SparkSession介紹 8
1.3.3　Tungsten Phase 2 8
1.3.4　結構化流 10
1.3.5　連續應用 10
1.4　小結 11
第2章　彈性分布式數據集 12
2.1　RDD的內部運行方式 12
2.2　創建RDD 13
2.2.1　Schema 14
2.2.2　從文件讀取 14
2.2.3　Lambda錶達式 15
2.3　全局作用域和局部作用域 16
2.4　轉換 17
2.4.1　.map(...)轉換 17
2.4.2　.filter(...)轉換 18
2.4.3　.flatMap(...)轉換 18
2.4.4　.distinct(...)轉換 18
2.4.5　.sample(...)轉換 19
2.4.6　.leftOuterJoin(...)轉換 19
2.4.7　.repartition(...)轉換 20
2.5　操作 20
2.5.1　.take(...)方法 21
2.5.2　.collect(...)方法 21
2.5.3　.reduce(...)方法 21
2.5.4　.count(...)方法 22
2.5.5　.saveAsTextFile(...)方法 22
2.5.6　.foreach(...)方法 23
2.6　小結 23
第3章　DataFrame 24
3.1　Python到RDD之間的通信 24
3.2　Catalyst優化器刷新 25
3.3　利用DataFrame加速PySpark 27
3.4　創建DataFrame 28
3.4.1　生成自己的JSON數據 29
3.4.2　創建一個DataFrame 29
3.4.3　創建一個臨時錶 30
3.5　簡單的DataFrame查詢 31
3.5.1　DataFrame API查詢 32
3.5.2　SQL查詢 32
3.6　RDD的交互操作 33
3.6.1　使用反射來推斷模式 33
3.6.2　編程指定模式 34
3.7　利用DataFrame API查詢 35
3.7.1　行數 35
3.7.2　運行篩選語句 35
3.8　利用SQL查詢 36
3.8.1　行數 36
3.8.2　利用where子句運行篩選語句 36
3.9　DataFrame場景——實時飛行性能 38
3.9.1　準備源數據集 38
3.9.2　連接飛行性能和機場 39
3.9.3　可視化飛行性能數據 40
3.10　Spark數據集（Dataset）API 41
3.11　小結 42
第4章　準備數據建模 43
4.1　檢查重復數據、未觀測數據和異常數據（離群值） 43
4.1.1　重復數據 43
4.1.2　未觀測數據 46
4.1.3　離群值 50
4.2　熟悉你的數據 51
4.2.1　描述性統計 52
4.2.2　相關性 54
4.3　可視化 55
4.3.1　直方圖 55
4.3.2　特徵之間的交互 58
4.4　小結 60
第5章　 MLlib介紹 61
5.1　包概述 61
5.2　加載和轉換數據 62
5.3　瞭解你的數據 65
5.3.1　描述性統計 66
5.3.2　相關性 67
5.3.3　統計測試 69
5.4　創建最終數據集 70
5.4.1　創建LabeledPoint形式的RDD 70
5.4.2　分隔培訓和測試數據 71
5.5　預測嬰兒生存機會 71
5.5.1　MLlib中的邏輯迴歸 71
5.5.2　隻選擇最可預測的特徵 72
5.5.3　MLlib中的隨機森林 73
5.6　小結 74
第6章　ML包介紹 75
6.1　包的概述 75
6.1.1　轉換器 75
6.1.2　評估器 78
6.1.3　管道 80
6.2　使用ML預測嬰兒生存幾率 80
6.2.1　加載數據 80
6.2.2　創建轉換器 81
6.2.3　創建一個評估器 82
6.2.4　創建一個管道 82
6.2.5　擬閤模型 83
6.2.6　評估模型的性能 84
6.2.7　保存模型 84
6.3　超參調優 85
6.3.1　網格搜索法 85
6.3.2　Train-validation 劃分 88
6.4　使用PySpark ML的其他功能 89
6.4.1　特徵提取 89
6.4.2　分類 93
6.4.3　聚類 95
6.4.4　迴歸 98
6.5　小結 99
第7章　GraphFrames 100
7.1　GraphFrames介紹 102
7.2　安裝GraphFrames 102
7.2.1　創建庫 103
7.3　準備你的航班數據集 105
7.4　構建圖形 107
7.5　執行簡單查詢 108
7.5.1　確定機場和航班的數量 108
7.5.2　確定這個數據集中的最長延誤時間 108
7.5.3　確定延誤和準點/早到航班的數量對比 109
7.5.4　哪一班從西雅圖齣發的航班最有可能齣現重大延誤 109
7.5.5　西雅圖齣發到哪個州的航班最有可能齣現重大延誤 110
7.6　理解節點的度 110
7.7　確定最大的中轉機場 112
7.8　理解Motif 113
7.9　使用PageRank確定機場排名 114
7.10　確定最受歡迎的直飛航班 115
7.11　使用廣度優先搜索 116
7.12　使用D3將航班可視化 118
7.13　小結 119
第8章　TensorFrames 120
8.1　深度學習是什麼 120
8.1.1　神經網絡和深度學習的必要性 123
8.1.2　特徵工程是什麼 125
8.1.3　橋接數據和算法 125
8.2　TensorFlow是什麼 127
8.2.1　安裝PIP 129
8.2.2　安裝TensorFlow 129
8.2.3　使用常量進行矩陣乘法 130
8.2.4　使用placeholder進行矩陣乘法 131
8.2.5　討論 132
8.3　TensorFrames介紹 133
8.4　TensorFrames快速入門 134
8.4.1　配置和設置 134
8.4.2　使用TensorFlow嚮已有列添加常量 136
8.4.3　Blockwise reducing操作示例 137
8.5　小結 139
第9章　使用Blaze實現混閤持久化

前言/序言

據估計，2013年全世界産生瞭大約4.4ZB（詞頭Z代錶1021）信息量的數據！而到2020年，預計人類將會産生10倍於2013年的數據量。隨著字麵上的數字越來越大，加上人們需求的日益增長，為瞭使這些數據更有意義，2004年來自Google的Jeffrey Dean和Sanjay Ghemawat發錶瞭一篇開創性的論文《MapReduce：Simplified Data Processing on Large Clusters》。至此，利用這一概念的技術開始快速增多，Apache Hadoop也開始迅速變得流行起來，最終創建瞭一個Hadoop的生態係統，包括抽象層的Pig、Hive和Mahout，都是利用瞭map和reduce的簡單概念。
然而，即使擁有每天都分析過濾海量數據的能力，MapReduce始終是一個限製相當嚴格的編程框架。此外，大多數的任務還要求讀取、寫入磁盤。認識到這些缺點，2009年Matei Zaharia將Spark作為他博士課題的一部分開始研究。Spark在2012年首次發布。雖然Spark是基於和MapReduce相同的概念，但其先進的數據處理方法和任務組織方式使得它比Hadhoop要快100倍（對於內存計算）。
在這本書中，我們將指導你使用Python瞭解Apache Spark的最新性能，包括如何看懂結構化和非結構化的數據，如何使用PySpark中一些基本的可用數據類型，生成機器學習模型，圖像操作，閱讀串流數據，在雲上部署模型。每一章力求解決不同的問題，並且我們也希望看完這本書之後，你可以掌握足夠的知識來解決其他我們還沒來得及在書中講解的問題。
本書的主要內容第1章通過技術和作業的組織等概念提供瞭對Spark的介紹。
第2章介紹瞭RDD、基本原理、PySpark中可用的非模式化數據結構。
第3章詳細介紹瞭DataFrame數據結構，它可以彌閤Scala和Python之間在效率方麵的差距。
第4章引導讀者瞭解Spark環境中的數據清理和轉換的過程。
第5章介紹瞭適用於RDD的機器學習庫，並迴顧瞭最有用的機器學習模型。
第6章涵蓋瞭當前主流的機器學習庫，並且提供瞭目前可用的所有模型的概述。
第7章引導你瞭解能輕鬆利用圖解決問題的新結構。
第8章介紹瞭Spark和張量流（TensorFlow）領域中深度學習（Deep Learning）的連接橋梁。
第9章描述Blaze是如何跟Spark搭配使用以更容易地對多源數據進行抽象化的。
第10章介紹瞭PySpark中可用的流工具。
第11章一步步地指導你運用命令行界麵完成代碼模塊化並提交到Spark執行。
本書中我們隨意使用瞭Anaconda的預裝版Python模塊。GraphFrames和TensorFrames也可以在啓動Spark實例時動態加載：載入時你的電腦需要聯網。如果有的模塊尚未安裝到你的電腦裏，也沒有關係，我們會指導你完成安裝過程。
本書的讀者對象想要學習大數據領域發展最迅速的技術即Apache Spark的每一個人，都可以閱讀此書。我們甚至希望還有來自於數據科學領域更高級的從業人員，能夠找到一些令人耳目一新的例子以及更有趣的主題。
本書約定警告或重要的筆記提示和技巧下載代碼示例你可以從http://www.packtpub.com下載代碼文件。你也可以訪問華章圖書官網通過注冊並登錄個人賬號，下載本書的源代碼。
下載本書彩圖我們還提供瞭一個PDF文件，其中包含本書中使用的截圖和彩圖，可以幫助讀者更好地瞭解輸齣的變化。

數據分析與應用開發的革命浪潮：掌握PySpark，駕馭海量數據，釋放無限可能在這個數據爆炸的時代，如何有效地處理、分析和利用海量數據，已經成為企業和開發者麵臨的核心挑戰。傳統的數據處理方式在麵對PB甚至EB級彆的數據時，顯得力不從心。而分布式計算框架的齣現，則為我們打開瞭通往數據智能新世界的大門。在眾多分布式計算框架中，Apache Spark憑藉其卓越的性能、易用性和強大的生態係統，迅速成為大數據領域的翹楚。而PySpark，作為Spark的Python API，更是極大地降低瞭Python開發者進入大數據領域的門檻，讓更多人能夠藉助Python的強大錶現力，輕鬆構建和部署數據密集型應用。本書並非簡單地羅列PySpark的API手冊，也不是枯燥的技術術語堆砌。我們旨在為您提供一條清晰、實用且富有洞察力的學習路徑，幫助您從零開始，循序漸進地掌握PySpark的核心概念、核心技術，並最終能夠獨立開發、優化和規模化部署高性能的數據密集型應用。我們將深入淺齣地剖析Spark的運行機製，揭示其在分布式計算領域的獨特優勢；我們將通過豐富的實戰案例，引導您親手構建各種復雜的數據處理管道、機器學習模型以及實時數據流應用。本書將帶您踏上一段深入PySpark世界的旅程，您將收獲：第一部分：奠定堅實基礎，理解分布式計算的精髓為何需要分布式計算？我們將從問題的根源齣發，探討單機處理的局限性，以及為什麼分布式計算成為應對大數據挑戰的必然選擇。您將理解並行處理、容錯機製以及數據分布等關鍵概念。 Apache Spark的革命性設計：深入理解Spark的RDD（彈性分布式數據集）模型，它是Spark一切計算的基礎。我們將詳細解析RDD的創建、轉換（transformations）和行動（actions）操作，以及Spark如何通過DAG（有嚮無環圖）調度器實現高效的作業執行。 Spark的核心架構：瞭解Spark的Master/Worker架構、Driver和Executor的角色，以及它們如何在集群中協同工作，完成大規模數據處理任務。這將幫助您從宏觀上把握Spark的運行流程。 PySpark：Python與Spark的完美結閤：學習如何安裝和配置PySpark環境，掌握PySpark的基本語法和API，包括DataFrame和Spark SQL，它們為結構化數據處理帶來瞭前所未有的便利和效率。您將瞭解如何使用Pythonic的方式錶達分布式計算邏輯。第二部分：掌握核心數據處理能力，駕馭結構化與半結構化數據 DataFrame：結構化數據處理的利器：深入學習PySpark DataFrame的強大功能。您將掌握數據的加載、轉換、過濾、聚閤、連接等常用操作，並學會利用Spark SQL進行聲明式的數據查詢。我們將通過實際數據場景，展示如何高效地清洗、轉換和探索數據。數據清洗與預處理的最佳實踐：在實際數據分析中，數據質量至關重要。本書將為您提供一套係統性的數據清洗和預處理方法，包括缺失值處理、異常值檢測、數據格式轉換、文本數據預處理等。您將學會如何利用PySpark高效地完成這些任務。高級數據轉換與操作：探索PySpark DataFrame更高級的轉換操作，如窗口函數（window functions）的應用，用於實現復雜的分析場景，例如排名、纍積求和等。您還將學習如何進行自定義UDF（用戶定義函數）的編寫，以滿足特定的計算需求。文件格式與存儲：掌握PySpark與各種常見文件格式（如CSV, JSON, Parquet, ORC）的交互，並瞭解如何在分布式存儲係統（如HDFS, S3）上高效地讀寫數據。您將學習如何選擇閤適的文件格式和存儲策略，以優化數據訪問性能。第三部分：釋放數據洞察力，構建強大的數據分析與機器學習應用 Spark MLlib：分布式機器學習的引擎：深入探索Spark的機器學習庫MLlib。您將學習如何使用MLlib進行數據特徵工程，包括特徵縮放、編碼、降維等。構建和訓練模型：掌握MLlib提供的各種監督學習和無監督學習算法，例如邏輯迴歸、綫性迴歸、決策樹、隨機森林、K-means聚類等。我們將通過實際案例，演示如何構建和訓練這些模型。模型評估與調優：學習如何使用MLlib提供的評估指標來衡量模型性能，並掌握模型調優的技術，例如交叉驗證、網格搜索等，以獲得最優的模型參數。管道（Pipelines）的藝術：學習如何利用Spark MLlib的Pipeline API，將特徵工程、模型訓練、模型評估等步驟串聯起來，形成端到端的數據科學工作流，簡化模型開發和迭代過程。第四部分：實時數據處理與流式計算，擁抱實時分析的未來 Spark Streaming：實時數據處理的核心：深入理解Spark Streaming的工作原理，它如何將連續的數據流切分成微批次（micro-batches）進行處理。您將學習如何構建實時的ETL（Extract, Transform, Load）管道。構建實時數據管道：學習如何從各種數據源（如Kafka, Kinesis）接收實時數據，並利用PySpark進行實時轉換、聚閤和分析。您將學會如何處理事件時間、窗口操作等流式計算特有的概念。結構化流（Structured Streaming）：下一代流處理引擎：探索Spark 2.x引入的革命性技術——結構化流。它將DataFrame和Spark SQL的強大能力帶入瞭流處理領域，讓實時數據處理變得更加直觀和高效。您將學習如何使用DataFrame API構建復雜的流處理應用。部署和監控流式應用：瞭解如何在生産環境中部署Spark Streaming或結構化流應用，並學習如何監控應用的運行狀態，確保數據的實時性和準確性。第五部分：規模化部署與性能優化，讓您的應用馳騁於生産環境 Spark集群部署與管理：學習如何在各種集群管理器（如YARN, Mesos, Kubernetes）上部署和管理Spark集群。您將瞭解不同部署模式的優劣，以及如何根據實際需求選擇閤適的部署方案。性能調優的藝術：深入剖析Spark作業的性能瓶頸，掌握各種性能調優的策略和技巧。這包括數據分區、緩存、廣播變量、Shuffle優化、內存管理等。您將學會如何使用Spark UI來診斷性能問題。生産環境的最佳實踐：總結在生産環境中部署和運維PySpark應用的最佳實踐，包括代碼的可維護性、可測試性、監控告警機製、故障恢復策略等。與大數據生態係統的集成：瞭解PySpark如何與其他大數據組件（如Hive, Hbase, Kafka, Cassandra）無縫集成，構建完整的端到端數據解決方案。本書的特色：強調實踐導嚮：每一章都配有大量的代碼示例和實戰項目，讓您在動手中學習，在實踐中成長。由淺入深，循序漸進：從基礎概念到高級主題，清晰的結構設計確保您能夠逐步掌握PySpark的精髓。深入原理，知其然更知其所以然：不僅教您如何使用PySpark，更會深入剖析其背後的原理，幫助您從根本上理解其強大之處。貼近實際應用場景：案例選取基於真實世界的數據問題，讓您學到的知識能夠直接應用於解決實際工作中的挑戰。麵嚮廣泛的讀者群體：無論您是初入數據科學領域的數據分析師，還是希望擴展技能棧的Python開發者，亦或是尋求解決方案的數據工程師，都能從本書中獲益。掌握PySpark，您將擁有駕馭海量數據的能力，能夠構建齣高性能、可擴展的數據密集型應用，釋放數據中蘊藏的巨大價值。本書將是您在數據科學和大數據領域邁嚮成功的堅實基石。現在，就讓我們一同開啓這場激動人心的PySpark之旅吧！

用戶評價

评分☆☆☆☆☆

這本書的內容，尤其是關於“規模化部署”的章節，簡直是為我量身定做的。我所在的公司正處於快速擴張期，數據量呈指數級增長，現有的數據處理架構已經不堪重負。我們迫切需要引入更強大的工具來支撐業務發展，而PySpark無疑是其中的佼佼者。這本書並沒有僅僅停留在理論層麵，而是非常注重實踐操作，從環境的搭建、集群的配置，到作業的提交、監控和調優，都給齣瞭非常具體的操作步驟和注意事項。我之前一直擔心在生産環境中部署和維護Spark集群會非常復雜，但這本書的詳細講解，讓我對此有瞭更強的信心。它還提到瞭許多在實際生産環境中會遇到的常見問題，以及相應的解決方案，這為我節省瞭大量摸索的時間。此外，書中還穿插瞭許多關於性能優化的技巧，比如如何選擇閤適的數據格式、如何進行RDD的轉換和行動操作、如何利用Spark SQL和DataFrame等，這些都是提升應用效率的寶貴經驗。總而言之，這本書為我提供瞭一個從零開始，逐步掌握PySpark並在實際生産環境中成功部署和應用的全方位指導。

评分☆☆☆☆☆

說實話，一開始我選擇這本書，很大程度上是被“實戰指南”這幾個字所吸引。我之前也看過一些Spark的入門書籍，但總覺得過於理論化，看完之後仍然不知道如何實際應用。而這本書，從標題上看，就充滿瞭解決實際問題的決心。果然，翻開目錄，我就看到瞭諸如“數據預處理與特徵工程”、“模型訓練與評估”、“流式數據處理”、“實時分析與可視化”等一係列與實際工作緊密相關的章節。書中的代碼示例非常豐富，而且都是經過精心設計的，能夠清晰地展示PySpark在各種場景下的應用。我特彆喜歡它在講解過程中，不僅僅是羅列API，而是會深入分析背後的原理，以及在不同場景下如何選擇最優的解決方案。這對於我這種希望能夠知其然，也知其所以然的讀者來說，是極大的幫助。而且，書中還探討瞭如何將PySpark應用與現有的數據生態係統集成，以及如何處理大規模數據集時的常見挑戰，這些內容對於提升我的實戰能力非常有價值。

评分☆☆☆☆☆

這本書的封麵設計就透露著一股“硬核”的氣息，深藍色的背景搭配金色的立體文字，仿佛預示著即將踏入一個充滿挑戰但迴報豐厚的領域。拿到手裏沉甸甸的，一看目錄，果然內容翔實，涵蓋瞭從Spark的基礎概念到高級特性的方方麵麵，特彆是關於數據密集型應用的構建和規模化部署這部分，更是戳中瞭我的痛點。我目前的工作中，數據量越來越大，傳統的處理方式已經捉襟見肘，而PySpark這個名字，就像是黑暗中的一盞明燈，給瞭我解決問題的希望。目錄中詳細列齣瞭如何利用Python和Spark進行數據清洗、轉換、聚閤、建模等一係列操作，並且強調瞭實際應用中的最佳實踐和性能調優技巧。讀到“規模化部署”這幾個字，我簡直眼前一亮，這正是我最迫切需要學習的內容。我一直擔心自己學到的技術無法真正落地，麵臨實際的生産環境時會束手無策，但這本書似乎為我指明瞭方嚮，提供瞭可以參考的策略和方法。從前期的環境搭建，到後期的集群管理，再到應用的監控和優化，這本書都給齣瞭詳細的指導，讓我對PySpark的實戰應用有瞭更清晰的認識，也更加期待能夠通過這本書，真正掌握這門強大的數據處理利器。

评分☆☆☆☆☆

作為一名對分布式計算和大數據處理充滿好奇的研究生，我一直在尋找一本能夠係統學習PySpark並將其應用於科研項目的書籍。《PySpark實戰指南》正好滿足瞭我的需求。這本書的講解深入淺齣，從Spark的基本原理到復雜的應用場景，都梳理得非常清晰。我尤其欣賞書中關於“構建數據密集型應用”的章節，它詳細介紹瞭如何利用PySpark進行大規模數據的ETL、特徵提取、機器學習模型訓練等過程，這對於我開展大數據分析類研究非常有幫助。書中提供的代碼示例不僅易於理解，而且可以直接應用於我的項目，大大縮短瞭開發周期。更讓我驚喜的是，本書還涉及瞭“規模化部署”的內容，這對於我未來將研究成果轉化為實際應用非常有指導意義。我不再擔心自己的研究停留在理論層麵，而是可以通過這本書，學習如何將PySpark應用部署到實際環境中，並實現高效的數據處理和分析。這本書無疑是我大數據學習道路上的一塊重要基石。

评分☆☆☆☆☆

作為一名有幾年Python數據分析經驗的開發者，我一直對Spark這個分布式計算框架心生嚮往，但總覺得它門檻較高，學習資料也相對零散。這次看到《PySpark實戰指南：利用Python和Spark構建數據密集型應用並規模化部署》這本書，感覺像是及時雨。我特彆關注書中關於“構建數據密集型應用”的部分，因為在我日常工作中，經常會遇到需要處理海量數據的場景，而傳統的單機Python腳本已經難以勝任。這本書的結構設計非常閤理，從基礎概念的鋪墊，到具體功能的講解，再到實際案例的演示，層層遞進，邏輯清晰。我尤其喜歡它在講解每個概念時，都會附帶相應的PySpark代碼示例，並且對代碼的每一個細節都做瞭詳盡的解釋，這對於我這種喜歡動手實踐的學習者來說，簡直是太友好瞭。書中還深入探討瞭Spark的內存管理、任務調度、容錯機製等核心原理，這些都是提升數據處理效率和穩定性的關鍵。而且，它還強調瞭如何根據實際業務場景選擇閤適的Spark組件和優化策略，而不是生搬硬套，這種實用主義的教學方式讓我覺得非常受用。

評分☆☆☆☆☆

不錯，內容蠻詳細的，物流挺快，美滋滋

評分☆☆☆☆☆

618買的，很實惠，400-300，400-280，優惠很大，就是400-300的券不好搶。趁機會拿之前喜歡的書。快遞速度超快。

評分☆☆☆☆☆

數據庫技術叢書·數據庫查詢優化器的藝術：原理解析與SQL性能優化

評分☆☆☆☆☆

趕上活動，多買兩本，好好學習下scala和spark

評分☆☆☆☆☆

學習學習，質量看著不錯，送貨速度快，還是紙質學習比較有感覺

評分☆☆☆☆☆

活動購買不管好壞慢慢看吧不過據說很一般那就也隨便看看吧活動最重要