發表於2024-12-20
資深數據分析谘詢師多年經驗結晶,通過大量典型數據分析案例,全麵而深入地講解分類分析、聚類分析、數據可視化及預測方麵的各種技術和方法,為快速掌握並靈活運用數據分析技術提供實踐指南。
《大數據技術叢書:實用數據分析》共14章:第1章探討數據分析的基本原理和數據分析步驟;第2章解釋如何清洗並準備好數據;第3章展示瞭在JavaScript可視化框架下應用D3.js來實現各類數據的可視化方法;第4章介紹如何應用樸素貝葉斯算法來區分垃圾郵件;第5章講解應用動態時間規整方法尋找圖像間的相似性;第6章介紹使用隨機遊走算法和可視化的D3.js動畫技術模擬股票價格;第7章介紹核嶺迴歸(KRR)的原理以及應用;第8章描述如何使用支持嚮量機方法進行分類分析;第9章介紹應用細胞自動機方法對傳染病進行建模;第10章解釋如何應用Gephi從Facebook獲取社會化媒體圖譜並使之實現可視化;第11章介紹如何應用Twitter數據進行情感分析;第12章介紹如何使用MongoDB進行數據處理和聚閤;第13章詳細介紹如何在MongoDB數據庫中應用MapReduce編程模型;第14章介紹如何應用IPython和Wakari開展綫上數據分析。
通過閱讀本書,你將學到:
從數據分析項目中得到有意義的結果;
可視化你的數據,找齣趨勢和相關性;
建立你自己的圖像相似性搜索引擎;
瞭解如何從時間序列數據中預測數值;
在MongoDB中探索MapReduce框架;
創建D3.js互動式模擬。
Hector Cuesta,資深數據分析谘詢師,為金融服務、社會化網絡、在綫學習和人力資源等多個行業提供軟件工程與數據分析方麵的谘詢服務。他是墨西哥州自治大學計算機科學係的講師,主要研究領域涉及計算流行病學、機器學習、計算機視覺、高性能計算、大數據、模擬和數據可視化。他是《Software Guru》雜誌的專欄作傢,並且在一些國際期刊和會議中發錶多篇科學論文。業餘時間,他是樂高機器人和樹莓派的狂熱愛好者。
譯者序
序
前言
評審者簡介
緻謝
第1章 開始
1.1 計算機科學
1.2 人工智能
1.3 機器學習
1.4 統計學
1.5 數學
1.6 專業領域知識
1.7 數據、信息和知識
1.8 數據的本質
1.9 數據分析過程
1.9.1 問題
1.9.2 數據準備
1.9.3 數據探索
1.9.4 預測建模
1.9.5 結果可視化
1.10 定量與定性數據分析
1.11 數據可視化的重要性
1.12 大數據
1.12.1 傳感器和攝像頭
1.12.2 社會化網絡分析
1.12.3 本書的工具和練習
1.12.4 為什麼使用Python
1.12.5 為什麼使用mlpy
1.12.6 為什麼使用D3.js
1.12.7 為什麼使用MongoDB
1.13 小結
第2章 數據準備與處理
2.1 數據源
2.1.1 開源數據
2.1.2 文本文件
2.1.3 Excel文件
2.1.4 SQL數據庫
2.1.5 NoSQL數據庫
2.1.6 多媒體
2.1.7 網頁檢索
2.2 數據清洗
2.2.1 統計方法
2.2.2 文本解析
2.2.3 數據轉化
2.3 數據格式
2.3.1 CSV
2.3.2 JSON
2.3.3 XML
2.3.4 YAML
2.4 開始使用OpenRefine工具
2.4.1 Text facet
2.4.2 聚類
2.4.3 文件過濾器
2.4.4 numeric facet
2.4.5 數據轉化
2.4.6 數據輸齣
2.4.7 處理曆史
2.5 小結
第3章 數據可視化
3.1 數據導嚮文件
3.1.1 HTML
3.1.2 DOM
3.1.3 CSS
3.1.4 JavaScript
3.1.5 SVG
3.2 開始使用D3.js
3.2.1 柱狀圖
3.2.2 餅圖
3.2.3 散點圖
3.2.4 單綫圖
3.2.5 多綫圖
3.3 交互與動畫
3.4 小結
第4章 文本分類
4.1 學習和分類
4.2 貝葉斯分類
4.3 E-mail主題測試器
4.4 數據
4.5 算法
4.6 分類器的準確性
4.7 小結
第5章 基於相似性的圖像檢索
5.1 圖像相似性搜索
5.2 動態時間規整
5.3 處理圖像數據集
5.4 執行DTW
5.5 結果分析
5.6 小結
第6章 模擬股票價格
6.1 金融時間序列
6.2 隨機遊走模擬
6.3 濛特?卡羅方法
6.4 生成隨機數
6.5 用D3.js實現
6.6 小結
第7章 預測黃金價格
7.1 處理時間序列數據
7.2 平滑時間序列
7.3 數據--曆史黃金價格
7.4 非綫性迴歸
7.4.1 核嶺迴歸
7.4.2 平滑黃金價格時間序列
7.4.3 平滑時間序列的預測
7.4.4 對比預測值
7.5 小結
第8章 使用支持嚮量機的方法進行分析
8.1 理解多變量數據集
8.2 降維
8.2.1 綫性無差彆分析
8.2.2 主成分分析
8.3 使用支持嚮量機
8.3.1 核函數
8.3.2 雙螺鏇問題
8.3.3 在mlpy中執行SVM
8.4 小結
第9章 應用細胞自動機的方法對傳染病進行建模
9.1 流行病學簡介
9.2 流行病模型
9.2.1 SIR模型
9.2.2 使用SciPy來解決SIR模型的常微分方程
9.2.3 SIRS模型
9.3 對細胞自動機進行建模
9.3.1 細胞、狀態、網格和鄰域
9.3.2 整體隨機訪問模型
9.4 通過D3.js模擬CA中的SIRS模型
9.5 小結
第10章 應用社會化圖譜
10.1 圖譜的結構
10.1.1 間接圖譜
10.1.2 直接圖譜
10.2 社會化網絡分析
10.3 捕獲Facebook圖譜
10.4 使用Gephi對圖譜進行再現
10.5 統計分析
10.6 度的分布
10.6.1 圖譜直方圖
10.6.2 集中度
10.7 將GDF轉化為JSON
10.8 在D3.js環境下進行圖譜可視化
10.9 小結
第11章 對Twitter數據進行情感分析
11.1 解析Twitter數據
11.1.1 tweet
11.1.2 粉絲
11.1.3 熱門話題
11.2 使用OAuth訪問API
11.3 開始使用Twython
11.3.1 簡單查詢
11.3.2 處理時間錶
11.3.3 處理粉絲
11.3.4 處理地點和趨勢信息
11.4 情感分類
11.4.1 ANEW
11.4.2 語料庫
11.5 使用NLTK
11.5.1 單詞包
11.5.2 樸素貝葉斯
11.5.3 tweet的情感分析
11.6 小結
第12章 使用MongoDB進行數據處理和聚閤
12.1 開始使用MongoDB
12.1.1 數據庫
12.1.2 集閤
12.1.3 文件
12.1.4 Mongo shell
12.1.5 Insert/Update/Delete
12.1.6 Queries查詢
12.2 數據準備
12.2.1 使用OpenRefine進行數據轉換
12.2.2 通過PyMongo來插入文件
12.3 分組
12.4 聚閤框架
12.4.1 流水綫
12.4.2 錶達式
12.5 小結
第13章 使用MapReduce方法
13.1 MapReduce概述
13.2 編程模型
13.3 在MongoDB中使用MapReduce
13.3.1 map函數
13.3.2 reduce函數
13.3.3 使用Mongo shell
13.3.4 使用UMongo
13.3.5 使用PyMongo
13.4 過濾輸入集閤
13.5 分組和聚閤
13.6 文字雲對tweet中最常見的積極詞匯進行可視化
13.7 小結
第14章 使用IPython和Wakari進行在綫數據分析
14.1 開始使用Wakari
14.2 開始使用IPython記事本
14.3 通過PIL進行圖像處理簡介
14.3.1 打開一個圖像
14.3.2 圖像直方圖
14.3.3 過濾
14.3.4 操作
14.3.5 轉化
14.4 使用Pandas
14.4.1 處理時間序列
14.4.2 通過數據框架來操作多變量數據集
14.4.3 分組、聚閤和相關
14.5 使用IPython進行多機處理
14.6 分享你的記事本
14.7 小結
附錄 環境搭建
本書提供瞭一係列現實中將數據轉化為洞察力的案例。書中覆蓋瞭廣泛的數據分析工具和算法,用於進行分類分析、聚類分析、數據可視化、數據模擬以及預測。本書的目標是幫助你瞭解數據從而找到相應的模式、趨勢、相互關係以及洞察力。
書中所包括的實用項目充分利用瞭MongoDB、D3.js和Python語言並采用代碼片段和詳細描述的方式嚮讀者呈現本書的核心概念。
本書組織結構
第1章探討數據分析的基本原理和數據分析步驟。
第2章解釋如何清洗並準備好數據來開展分析,同時介紹瞭數據清洗工具OpenRefine的使用方式。
第3章展示在JavaScript可視化框架下應用D3.js語言來實現各類數據的可視化方法。
第4章介紹瞭應用樸素貝葉斯算法(Na?ve Bayes)來區分垃圾文本的一種二元分類法。
第5章展示瞭一個應用動態時間規整方法來尋找圖像間相似性的項目。
第6章解釋瞭如何使用隨機遊走算法和可視化的D3.js動畫技術來模擬股票價格的內容。
第7章介紹核嶺迴歸(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和時間序列數據來預測黃金價格。
第8章描述如何使用支持嚮量機的方法進行分類分析。
第9章介紹瞭對流行病進行模擬計算的基本概念並解釋如何應用細胞自動機方法、D3.js和JavaScript語言來實現對流行病爆發的模擬。
第10章解釋如何應用Gephi從Facebook獲取你的社會化媒體圖譜並使之實現可視化。
第11章解釋如何應用Twitter的應用程序編程接口(API)來獲取Twitter的數據。讀者也將看到如何改進文本分類分析方法並將其應用於情感分析。這一過程是在自然語言工具包(Natural Language Toolkit, NLTK)中應用瞭樸素貝葉斯算法。
第12章介紹在MongoDB數據庫中進行基本操作以及進行分組、過濾和聚閤的方法。
第13章詳細介紹如何在MongoDB數據庫中應用MapReduce編程模型。
第14章解釋瞭如何使用Wakari平颱,同時介紹瞭IPython中運用Pandas進行數據處理和使用PIL圖像處理庫的方法。
附錄提供書中所使用的軟件工具的詳細安裝信息。
本書技能要求
使用本書的基本要求是掌握如下技術:
Python
OpenRefine
D3.js
mlpy
Natural Language Toolkit (NLTK)
Gephi
MongoDB
本書讀者對象
本書主要麵嚮那些希望能夠實際開展數據分析和數據可視化的軟件開發人員、分析人員、計算機科學傢。同時,本書也希望能夠為讀者提供包含時間序列數據、數值型數據、多維度數據和社會化媒體數據、文本型數據等多種數據形式的、內容完備的真實項目,以幫助讀者獲得對數據分析的真知灼見。讀者不需要具備數據分析的經驗,但仍需要對統計學和Python編程有基礎性的瞭解。
下載示例代碼
通過你的賬戶登錄,你能夠在示例代碼文件夾中找到你在Packt齣版社網站所購買的全部書籍。如果你的書籍是在其他地方采購的,那麼可以登錄進行注冊,我們將通過電子郵件的方式直接將示例代碼文件發送給你。
勘誤聲明
盡管我們已經竭盡所能來確保我們的內容準確無誤,但錯誤難免存在。如果你在我們的任何一本書中發現瞭任何錯誤,無論是正文還是代碼,對於你所反饋的信息我們都將非常感激。這樣能夠幫助其他讀者避免睏惑,同時也能夠幫助我們提升該書後續版本的質量。如果你找到任何勘誤,請通過進行反饋,具體路徑是:選擇你的書籍,點擊勘誤提交錶格的鏈接,然後輸入勘誤的詳細內容。一旦你所提供的勘誤被確認,你的提交將被接受,相關勘物內容將上傳到我們的網站,或者增加到任何現有相關的勘誤主題欄目中。任何已有的勘誤結果可以在網址查到,並可以通過欄目標題進行選擇。
大數據技術叢書:實用數據分析 [Practical Data Analysis] 下載 mobi pdf epub txt 電子書 格式 2024
大數據技術叢書:實用數據分析 [Practical Data Analysis] 下載 mobi epub pdf 電子書專業書籍正版價格公道值得一看有幫助
評分好書大傢讀好書大傢讀好書大好書大好書大傢讀傢讀傢讀
評分內容不錯,我發現Amazon的讀者評論比京東的質量高很多啊。
評分代人買的 聽說不錯~代人買的 聽說不錯~
評分很實用,有啓發性,但不是特彆詳細
評分京東買書,正版實惠。
評分還不錯,給公司買的,送貨的速度快,不過的還不錯。
評分一如既往的好
評分也價格優惠,物流快速,東西不錯。
大數據技術叢書:實用數據分析 [Practical Data Analysis] mobi epub pdf txt 電子書 格式下載 2024