大數據分布式計算與案例(大數據分析統計應用叢書)

大數據分布式計算與案例(大數據分析統計應用叢書) 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
李豐 著



點擊這裡下載
    


想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-22

類似圖書 點擊查看全場最低價

圖書介紹

齣版社: 中國人民大學齣版社
ISBN:9787300230276
版次:1
商品編碼:11990410
包裝:平裝
叢書名: 大數據分析統計應用叢書
開本:16開
齣版時間:2016-07-01
頁數:148


相關圖書





圖書描述

內容簡介

大數據分布式計算課程是大數據方嚮應用統計專業碩士學生的專業必修課,通過本課程的學習使學生能夠掌握目前大數據挖掘領域常用的並行計算方法,加深學生對統計並行計算的理解,培養學生使用在現代並行架構下利用統計方法深入挖掘大數據中的數據結構並能解決一些實際問題的能力。

作者簡介

李豐 中央財經大學統計與數學學院碩士生導師,院長助理。瑞典斯德哥爾摩大學統計學係統計學博士。研究方嚮與興趣:大數據與復雜模型、貝葉斯推斷與統計計算、計量經濟與預測方法、多元模型等。曾獲國際貝葉斯協會青年旅行奬勵、瑞典Knut and Alice Wallenberg 基金會奬勵。任中國統計教育學會高等教育分會副秘書長。金融工程與風險管理國際研討會執行秘書等。

目錄

目錄
第1章 統計分析與並行計算
1.1 並行計算與並行計算機
1.2 統計計算的並行原理||以矩陣乘法為例
1.3 基於R 的單機並行計算
1.4 基於Python 的單機並行計算
1.5 大數據背景下的數據采集和存儲
1.6 參考文獻
第2章 Hadoop 基礎
2.1 Hadoop 曆史、生態係統
2.2 Hadoop 的分布式文件係統(HDFS)
2.3 MapReduce 工作原理
2.4 Hadoop 上運行MapReduce
2.5 MapReduce 實例: 分層隨機抽樣
2.6 MapReduce 實例: 聚類分析
2.7 參考文獻
第3章 基於Hadoop 的分布式算法和模型實現
3.1 R 中實現Hadoop 分布式計算
3.2 Mahout 與大數據機器學習
3.3 利用Mahout 進行數據挖掘
3.4 Mahout 實例: Logistics 迴歸和隨機森林分類算法
3.5 Mahout 實例: 隨機森林的分布式實現
3.6 參考文獻
第4章 統計模型的MapReduce 實現詳解
4.1 泊鬆迴歸模型: 付費搜索廣告分析
4.2 判彆分析: 氣象因素對霧霾影響分析
4.3 分塊Logistics 迴歸
4.4 文本分類
4.5 樸素貝葉斯模型
4.6 嶺迴歸模型
4.7 推薦係統
4.8 參考文獻
第5章 分布式文件訪問與計算
5.1 Hive 基礎
5.2 HiveQL 數據定義(DDL)
5.3 HBase
5.4 Hive 實例: FoodMart 案例
5.5 Hive 實例: Hive Streaming 交互計算
5.6 參考文獻
第6章 Spark 與統計模型
6.1 Spark 簡介
6.2 Spark 工作原理介紹
6.3 Pyspark 命令介紹
6.4 Spark 實例: 通過Word Count 瞭解Spark 工作流程
6.5 Spark 實例: 二分類學習
6.6 Spark 實例: 決策樹模型
6.7 參考文獻
附錄A Hadoop 安裝運行
A.1 單機僞分布式安裝
A.2 全分布式集群
附錄B Mahout 安裝與運行
附錄C Hive 安裝運行
C.1 準備
C.2 安裝Hive
C.3 配置Hive
附錄D HBase 安裝運行
D.1 安裝配置HBase
D.2 啓動HBase
附錄E Spark 的配置與安裝
E.1 安裝配置Scala
E.2 安裝配置Spark

精彩書摘

前言
本書的編寫受益於中央財經大學聯閤中國人民大學、北京大學、中國科學院大學和首都經濟貿易大學五所高校與政府部門和産業界聯閤共建的大數據分析碩士培養協同創新平颱。我有幸作為該平颱主要課程設計和講授的教師之一, 負責大數據分析方嚮研究生課程大數據分布式計算" 的建設和教學。本教材是以該課程2014|2015 年的教學內容和講義輔以教學案例為藍本編寫的。
目前市麵上與大數據相關的計算類書籍有很多, 但是均麵嚮計算機相關專業人員。有的側重於大數據分布式平颱Hadoop 或者Spark 的架構, 有的側重於大數據計算相關計算機語言介紹, 有的側重於大數據平颱的係統開發, 但是針對大數據分析最為重要和骨髓部分之一的統計模型, 相關實踐類書籍還相對較少。
本書側重於統計和機器學習模型在大數據分布式平颱的應用, 從案例入手, 介紹常見統計模型的大數據分布式計算原理。基於單機共享內存背景開發的統計軟件很難直接應用於分布式存儲的海量數據。對於初學者而言, 在大數據平颱下, 即便是開發簡單的迴歸模型或者邏輯斯蒂模型都非常睏難, 更不用說復雜的統計、機器學習算法, 這直接阻礙瞭高效的統計模型在大數據中的開發和部署。
考慮到數據相關工作者在企業實際策略開發和建模中R 語言與Python 語言是基礎語言, 為瞭方便相關讀者快速入門, 本書的主要語言采用R 語言和Python 語言, 但是本書中提到的大數據建模思想是不受語言限製的, 讀者可以根據自己擅長的語言實現相關模型的大數據開發。
與傳統的大數據計算類書籍不同, 本書的側重點是統計模型的實際案例解決, 因此本書每章均附有較完整的統計案例。考慮到市麵上對於大數據平颱的搭建和配置書籍已經很多,而且對於企業而言, 這樣的平颱往往已經很完善, 本書淡化瞭該部分, 感興趣的讀者可以參考相關書籍或者本書的附錄。
本書按照如下結構組織: 第1 章介紹大數據分布式計算的背景和基於R 語言和Python語言的單機並行原理, 讓讀者熟悉分布式的基本概念。第2 章介紹目前流行的大數據分布式計算框架Hadoop 的曆史、文件存儲係統以及大數據分布式計算的各個擊破原理, 即MapRe-duce。與Hadoop 相關的安裝配置參見附錄A。第3 章介紹現有大數據分布式平颱中常見的統計模型的原理以及案例分析。與之相關的Mahout 安裝和配置參見附錄B。第4 章以多個案例的形式介紹如何在大數據平颱開發常見統計模型。第5 章介紹分布式文件係統的訪問和操作。與此相關的Hive、HBase 的安裝參見附錄C 和附錄D。第6 章對學有餘力的讀者介紹Spark 平颱下統計分析的基礎, 並配有PySpark 使用基礎和基於Scala 語言的案例。附錄E 介紹Spark 和Scala 的安裝和配置。
在此要特彆感謝中國人民大學統計學院呂曉玲老師以及李天博、王小寜、丁維悅、曹昕、李榮慶、王張浩、王高斌同學在本書的編寫過程中對文字和內容的大力貢獻。感謝參加五校大數據分析方嚮研究生課程的同學對本書案例的貢獻, 他們是成慧敏、陳思聰、陳晞、劉利恒、劉智彬、魏詩韻、吳雅雯、辛思、張楚妍、張詩玉、趙哲匯、鄭巧筠、硃述政。沒有呂老師和幾位同學的協助, 就沒有《大數據分布式計算與案例》一書的最終及時成稿。感謝百度大數據部高級工程師康雁飛博士、中央財經大學統計與數學學院方劍和劉靜同學對本書的認真校對。
由於編寫時間倉促和本人水平有限, 書中的錯誤和紕漏一定有很多, 懇請讀者不吝指齣以便作齣修正。

前言/序言


大數據分布式計算與案例(大數據分析統計應用叢書) 下載 mobi epub pdf txt 電子書 格式

大數據分布式計算與案例(大數據分析統計應用叢書) mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

大數據分布式計算與案例(大數據分析統計應用叢書) 下載 mobi pdf epub txt 電子書 格式 2024

大數據分布式計算與案例(大數據分析統計應用叢書) 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

不錯,統計碩士用書

評分

哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

評分

質量還不錯,京東送貨速度一直很快。為京東的。遞員點贊

評分

多讀書,為祖國發展獻齣自己的一份力量。

評分

挺好的,老師要求的教材。

評分

配送速度很快,書是正版的。

評分

包裝不錯,內容待學習堅定,準備好好學習,天天嚮上!

評分

很基礎的東西。。。。

評分

貨收到瞭,包裝完好無損,還沒開始看

類似圖書 點擊查看全場最低價

大數據分布式計算與案例(大數據分析統計應用叢書) mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.qciss.net All Rights Reserved. 圖書大百科 版權所有