大數據基礎編程、實驗和案例教程下載 mobi epub pdf 電子書 2025

簡體網頁||繁體網頁

☆☆☆☆☆

林子雨著

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到圖書大百科

book.qciss.net

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：清華大學齣版社

ISBN：9787302472094

版次：1

商品編碼：12143471

包裝：平裝

開本：16開

齣版時間：2017-07-01

用紙：膠版紙

頁數：368

字數：568000

正文語種：中文

具體描述

編輯推薦

步步引導，循序漸進，詳盡的安裝指南為順利搭建大數據實驗環境鋪平道路
? 深入淺齣，去粗取精，豐富的代碼實例幫助快速掌握大數據基礎編程方法
? 精心設計，巧妙融閤，五套大數據實驗題目促進理論與編程知識的消化和吸收
? 結閤理論，聯係實際，大數據課程綜閤實驗案例精彩呈現大數據分析全流程

內容簡介

本書以大數據分析全流程為主綫，介紹瞭數據采集、數據存儲與管理、數據處理與分析、數據可視化等環節典型軟件的安裝、使用和基礎編程方法。本書內容涵蓋操作係統（Linux和Windows）、開發工具（Eclipse）以及大數據相關技術、軟件（Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔鏡、ECharts、Tableau）等。同時，本書還提供瞭豐富的課程實驗和綜閤案例，以及大量免費的在綫教學資源，可以較好地滿足高等院校大數據教學實際需求。
本書是《大數據技術原理與應用——概念、存儲、處理、分析與應用》的“姊妹篇”，可以作為高等院校計算機、信息管理等相關專業的大數據課程輔助教材，用於指導大數據編程實踐；也可供相關技術人員參考。

作者簡介

林子雨（1978－），男，博士，廈門大學計算機科學係助理教授，廈門大學雲計算與大數據研究中心創始成員，廈門大學數據庫實驗室負責人，中國計算機學會數據庫專委會委員，中國計算機學會信息係統專委會委員。於2001年獲得福州大學水利水電專業學士學位，2005年獲得廈門大學計算機專業碩士學位，2009年獲得北京大學計算機專業博士學位。中國高校*“數字教師”提齣者和建設者（http://www.cs.xmu.edu.cn/linziyu），2009年至今，“數字教師”大平颱纍計嚮網絡免費發布超過100萬字高價值的教學和科研資料，纍計網絡訪問量超過100萬次。
主要研究方嚮為數據庫、數據倉庫、數據挖掘、大數據和雲計算，發錶期刊和會議學術論文多篇，並作為課題組負責人承擔瞭國傢自然科學基金和福建省自然科學基金項目。曾作為誌願者翻譯瞭Google Spanner、BigTable和《Architecture of a Database System》等大量英文學術資料，與廣大網友分享，深受歡迎。2013年在廈門大學開設大數據課程，並因在教學領域的突齣貢獻和學生的認可，成為2013年度廈門大學教學類奬教金獲得者。

第1章大數據技術概述/1
1.1大數據時代/1
1.2大數據關鍵技術/2
1.3大數據軟件/3
1.3.1Hadoop/4
1.3.2Spark/5
1.3.3NoSQL數據庫/5
1.3.4數據可視化/6
1.4內容安排/7
1.5在綫資源/8
1.5.1在綫資源一覽錶/9
1.5.2下載專區/9
1.5.3在綫視頻/10
1.5.4拓展閱讀/11
1.5.5大數據課程公共服務平颱/11
1.6本章小結/12第2章Linux係統的安裝和使用/13
2.1Linux係統簡介/13
2.2Linux係統安裝/13
2.2.1下載安裝文件/14
2.2.2Linux係統的安裝方式/14
2.2.3安裝Linux虛擬機/15
2.2.4生成Linux虛擬機鏡像文件/36
2.3Linux係統及相關軟件的基本使用方法/38
2.3.1Shell/38
2.3.2root用戶/38
2.3.3創建普通用戶/38〖2〗〖4〗大數據基礎編程、實驗和案例教程目錄〖3〗2.3.4sudo命令/39
2.3.5常用的Linux係統命令/40
2.3.6文件解壓縮/40
2.3.7常用的目錄/41
2.3.8目錄的權限/41
2.3.9更新APT/41
2.3.10切換中英文輸入法/43
2.3.11vim編輯器的使用方法/43
2.3.12在Windows係統中使用SSH方式登錄Linux係統/44
2.3.13在Linux中安裝Eclipse/48
2.3.14其他使用技巧/49
2.4關於本書內容的一些約定/49
2.5本章小結/50第3章Hadoop的安裝和使用/51
3.1Hadoop簡介/51
3.2安裝Hadoop前的準備工作/52
3.2.1創建hadoop用戶/52
3.2.2更新APT/52
3.2.3安裝SSH/52
3.2.4安裝Java環境/53
3.3安裝Hadoop/55
3.3.1下載安裝文件/55
3.3.2單機模式配置/56
3.3.3僞分布式模式配置/57
3.3.4分布式模式配置/66
3.3.5使用Docker搭建Hadoop分布式集群/75
3.4本章小結/87第4章HDFS操作方法和基礎編程/88
4.1HDFS操作常用Shell命令/88
4.1.1查看命令使用方法/88
4.1.2HDFS目錄操作/90
4.2利用HDFS的Web管理界麵/92
4.3HDFS編程實踐/92
4.3.1在Eclipse中創建項目/93
4.3.2為項目添加需要用到的JAR包/94
4.3.3編寫Java應用程序/96
4.3.4編譯運行程序/98
4.3.5應用程序的部署/100
4.4本章小結/102第5章HBase的安裝和基礎編程/103
5.1安裝HBase/103
5.1.1下載安裝文件/103
5.1.2配置環境變量/104
5.1.3添加用戶權限/104
5.1.4查看HBase版本信息/104
5.2HBase的配置/105
5.2.1單機模式配置/105
5.2.2僞分布式配置/107
5.3HBase常用Shell命令/109
5.3.1在HBase中創建錶/109
5.3.2添加數據/110
5.3.3查看數據/110
5.3.4刪除數據/111
5.3.5刪除錶/112
5.3.6查詢曆史數據/112
5.3.7退齣HBase數據庫/112
5.4HBase編程實踐/113
5.4.1在Eclipse中創建項目/113
5.4.2為項目添加需要用到的JAR包/116
5.4.3編寫Java應用程序/117
5.4.4編譯運行程序/123
5.4.5應用程序的部署/124
5.5本章小結/124第6章典型NoSQL數據庫的安裝和使用/125
6.1Redis安裝和使用/125
6.1.1Redis簡介/125
6.1.2安裝Redis/125
6.1.3Redis實例演示/127
6.2MongoDB的安裝和使用/128
6.2.1MongDB簡介/129
6.2.2安裝MongoDB/129
6.2.3使用Shell命令操作MongoDB/130
6.2.4Java API編程實例/136
6.3本章小結/139第7章MapReduce基礎編程/140
7.1詞頻統計任務要求/140
7.2MapReduce程序編寫方法/141
7.2.1編寫Map處理邏輯/141
7.2.2編寫Reduce處理邏輯/141
7.2.3編寫main方法/142
7.2.4完整的詞頻統計程序/143
7.3編譯打包程序/144
7.3.1使用命令行編譯打包詞頻統計程序/145
7.3.2使用Eclipse編譯運行詞頻統計程序/145
7.4運行程序/154
7.5本章小結/156第8章數據倉庫Hive的安裝和使用/157
8.1Hive的安裝/157
8.1.1下載安裝文件/157
8.1.2配置環境變量/158
8.1.3修改配置文件/158
8.1.4安裝並配置MySQL/159
8.2Hive的數據類型/161
8.3Hive基本操作/162
8.3.1創建數據庫、錶、視圖/162
8.3.2刪除數據庫、錶、視圖/163
8.3.3修改數據庫、錶、視圖/164
8.3.4查看數據庫、錶、視圖/165
8.3.5描述數據庫、錶、視圖/165
8.3.6嚮錶中裝載數據/166
8.3.7查詢錶中數據/166
8.3.8嚮錶中插入數據或從錶中導齣數據/166
8.4Hive應用實例: WordCount/167
8.5Hive編程的優勢/167
8.6本章小結/168第9章Spark的安裝和基礎編程/169
9.1基礎環境/169
9.2安裝Spark/169
9.2.1下載安裝文件/169
9.2.2配置相關文件/170
9.3使用 Spark Shell編寫代碼/171
9.3.1啓動Spark Shell/171
9.3.2讀取文件/172
9.3.3編寫詞頻統計程序/174
9.4編寫Spark獨立應用程序/174
9.4.1用Scala語言編寫Spark獨立應用程序/175
9.4.2用Java語言編寫Spark獨立應用程序/178
9.5本章小結/182第10章典型的可視化工具的使用方法/183
10.1Easel.ly信息圖製作方法/183
10.1.1信息圖/183
10.1.2信息圖製作基本步驟/183
10.2D3可視化庫的使用方法/186
10.2.1D3可視化庫的安裝/187
10.2.2基本操作/187
10.3可視化工具Tableau使用方法/194
10.3.1安裝Tableau/195
10.3.2界麵功能介紹/195
10.3.3Tableau簡單操作/197
10.4使用“魔鏡”製作圖錶/202
10.4.1“魔鏡”簡介/202
10.4.2簡單製作實例/202
10.5使用ECharts圖錶製作/206
10.5.1ECharts簡介/206
10.5.2ECharts圖錶製作方法/206
10.5.3兩個實例/210
10.6本章小結/217第11章數據采集工具的安裝和使用/218
11.1Flume/218
11.1.1安裝Flume/218
11.1.2兩個實例/220
11.2Kafka/225
11.2.1Kafka相關概念/225
11.2.2安裝Kafka/225
11.2.3一個實例/225
11.3Sqoop/227
11.3.1下載安裝文件/227
11.3.2修改配置文件/228
11.3.3配置環境變量/228
11.3.4添加MySQL驅動程序/228
11.3.5測試與MySQL的連接/229
11.4實例: 編寫Spark程序使用Kafka數據源/230
11.4.1Kafka準備工作/230
11.4.2Spark準備工作/232
11.4.3編寫Spark程序使用Kafka數據源/234
11.5本章小結/239第12章大數據課程綜閤實驗案例/241
12.1案例簡介/241
12.1.1案例目的/241
12.1.2適用對象/241
12.1.3時間安排/241
12.1.4預備知識/241
12.1.5硬件要求/242
12.1.6軟件工具/242
12.1.7數據集/242
12.1.8案例任務/242
12.2實驗環境搭建/243
12.3實驗步驟概述/244
12.4本地數據集上傳到數據倉庫Hive/245
12.4.1實驗數據集的下載/245
12.4.2數據集的預處理/246
12.4.3導入數據庫/249
12.5Hive數據分析/253
12.5.1簡單查詢分析/253
12.5.2查詢條數統計分析/255
12.5.3關鍵字條件查詢分析/256
12.5.4根據用戶行為分析/258
12.5.5用戶實時查詢分析/259
12.6Hive、MySQL、HBase數據互導/260
12.6.1Hive預操作/260
12.6.2使用Sqoop將數據從Hive導入MySQL/261
12.6.3使用Sqoop將數據從MySQL導入HBase/265
12.6.4使用HBase Java API把數據從本地導入到HBase中/269
12.7利用R進行數據可視化分析/275
12.7.1安裝R/275
12.7.2安裝依賴庫/277
12.7.3可視化分析/278
12.8本章小結/283第13章實驗/284
13.1實驗一：熟悉常用的Linux操作和Hadoop操作/284
13.1.1實驗目的/284
13.1.2實驗平颱/284
13.1.3實驗步驟/284
13.1.4實驗報告/286
13.2實驗二: 熟悉常用的HDFS操作/286
13.2.1實驗目的/286
13.2.2實驗平颱/286
13.2.3實驗步驟/287
13.2.4實驗報告/287
13.3實驗三: 熟悉常用的HBase操作/288
13.3.1實驗目的/288
13.3.2實驗平颱/288
13.3.3實驗步驟/288
13.3.4實驗報告/290
13.4實驗四: NoSQL和關係數據庫的操作比較/290
13.4.1實驗目的/290
13.4.2實驗平颱/290
13.4.3實驗步驟/290
13.4.4實驗報告/293
13.5實驗五: MapReduce初級編程實踐/294
13.5.1實驗目的/294
13.5.2實驗平颱/294
13.5.3實驗步驟/294
13.5.4實驗報告/297附錄A大數據課程實驗答案/298
A.1實驗一: 熟悉常用的Linux操作和Hadoop操作/298
A.1.1實驗目的/298
A.1.2實驗平颱/298
A.1.3實驗步驟/298
A.2實驗二: 熟悉常用的HDFS操作/303
A.2.1實驗目的/303
A.2.2實驗平颱/303
A.2.3實驗步驟/303
A.3實驗三: 熟悉常用的HBase操作/323
A.3.1實驗目的/323
A.3.2實驗平颱/323
A.3.3實驗步驟/323
A.4實驗四: NoSQL和關係數據庫的操作比較/331
A.4.1實驗目的/331
A.4.2實驗平颱/331
A.4.3實驗步驟/332
A.5實驗五: MapReduce初級編程實踐/349
A.5.1實驗目的/349
A.5.2實驗平颱/349
A.5.3實驗步驟/350附錄BLinux係統中的MySQL安裝及常用操作/360
B.1安裝MySQL/360
B.2MySQL常用操作/363參考文獻/367

精彩書摘

第3章Hadoop的安裝和使用
Hadoop是一個開源的、可運行於大規模集群上的分布式計算平颱，它主要包含分布式並行編程模型MapReduce和分布式文件係統HDFS等功能，已經在業內得到廣泛的應用。藉助於Hadoop，程序員可以輕鬆地編寫分布式並行程序，將其運行於計算機集群上，完成海量數據的存儲與處理分析。
本章首先簡要介紹Hadoop的發展情況；然後，闡述安裝Hadoop之前的一些必要準備工作；最後，介紹安裝Hadoop的具體方法，包括單機模式、僞分布式模式、分布式模式以及使用Docker搭建Hadoop集群。
3.1Hadoop簡介
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平颱，為用戶提供瞭係統底層細節透明的分布式基礎架構。Hadoop是基於Java語言開發的，具有很好的跨平颱特性，並且可以部署在廉價的計算機集群中。Hadoop的核心是分布式文件係統（Hadoop Distributed File System，HDFS）和MapReduce。
Hadoop被公認為行業大數據標準開源軟件，在分布式環境下提供瞭海量數據的處理能力。幾乎所有主流廠商都圍繞Hadoop提供開發工具、開源軟件、商業化工具和技術服務，如榖歌、微軟、思科、淘寶等，都支持Hadoop。
Apache Hadoop版本分為兩代：第一代Hadoop稱為Hadoop 1.0；第二代Hadoop稱為Hadoop 2.0。第一代Hadoop包含0.20.x、0.21.x和0.22.x三大版本，其中，0.20.x最後演化成1.0.x，變成瞭穩定版，而0.21.x和0.22.x則增加瞭HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x兩大版本，它們完全不同於Hadoop 1.0，是一套全新的架構，均包含HDFS Federation和YARN（Yet Another Resource Negotiator）兩個組件。本書采用Hadoop 2.7.1版本。
除瞭免費開源的Apache Hadoop以外，還有一些商業公司推齣的Hadoop發行版。2008年，Cloudera成為第一個Hadoop商業化公司，並在2009年推齣第一個Hadoop發行版。此後，很多大公司也加入瞭做Hadoop産品化的行列，如MapR、Hortonworks、星環等。一般而言，商業化公司推齣的Hadoop發行版，也是以Apache Hadoop為基礎，但是，前者比後者具有更好的易用性、更多的功能和更高的性能。〖2〗〖4〗大數據基礎編程、實驗和案例教程第3章Hadoop的安裝和使用〖3〗3.2安裝Hadoop前的準備工作
本節介紹安裝Hadoop之前的一些準備工作，包括創建hadoop用戶、更新APT、安裝SSH和安裝Java環境等。
3.2.1創建hadoop用戶
本書全部采用hadoop用戶登錄Linux係統，並為hadoop用戶增加瞭管理員權限。在第2章中已經介紹瞭hadoop用戶創建和增加權限的方法，一定要按照該方法創建hadoop用戶，並且使用hadoop用戶登錄Linux係統，然後再開始下麵的學習內容。
3.2.2更新APT
第2章介紹瞭APT軟件作用和更新方法，為瞭確保Hadoop安裝過程順利進行，建議按照第2章介紹的方法，用hadoop用戶登錄Linux係統後打開一個終端，執行下麵命令更新APT軟件:$ sudo apt-get update
3.2.3安裝SSH
SSH是 Secure Shell 的縮寫，是建立在應用層和傳輸層基礎上的安全協議。SSH 是目前較可靠、專為遠程登錄會話和其他網絡服務提供安全性的協議。利用SSH協議可以有效防止遠程管理過程中的信息泄露問題。SSH最初是UNIX係統上的一個程序，後來又迅速擴展到其他操作平颱。SSH是由客戶端和服務端的軟件組成，服務端是一個守護進程，它在後颱運行並響應來自客戶端的連接請求，客戶端包含ssh程序以及像scp（遠程復製）、slogin（遠程登錄）、sftp（安全文件傳輸）等其他的應用程序。
為什麼在安裝Hadoop之前要配置SSH呢？這是因為，Hadoop名稱節點（NameNode）需要啓動集群中所有機器的Hadoop守護進程，這個過程需要通過SSH登錄來實現。Hadoop並沒有提供SSH輸入密碼登錄的形式，因此，為瞭能夠順利登錄集群中的每颱機器，需要將所有機器配置為“名稱節點可以無密碼登錄它們”。
Ubuntu默認已安裝瞭SSH客戶端，因此，這裏還需要安裝SSH服務端，在Linux的終端中執行以下命