白話大數據與機器學習

白話大數據與機器學習 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
高揚,衛崢,尹會生 著



點擊這裡下載
    


想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-12-22

類似圖書 點擊查看全場最低價

圖書介紹

齣版社: 機械工業齣版社
ISBN:9787111538479
版次:1
商品編碼:11932929
品牌:機工齣版
包裝:平裝
開本:16開
齣版時間:2016-07-01
用紙:膠版紙
頁數:329


相關圖書





圖書描述

産品特色


編輯推薦

  資深大數據專傢多年實戰經驗總結,拒絕晦澀,開啓大數據與機器學習妙趣之旅
  以降低學習麯綫和閱讀難度為宗旨,重點講解瞭統計學、數據挖掘算法、實際應用案例、數據價值與變現,以及高級拓展技能,清晰勾勒齣大數據技術路綫與産業藍圖
  目前很多大中型企業都有數據分析崗位,尤其是和自己業務結閤緊密的分析崗位。企業求賢若渴,而求職者對數據分析崗位望而卻步。這就是當前大數據分析市場的尷尬。
  原因有三:
  ●數學基礎薄弱:很多應用中的統計學、概率學,成為學習中的巨大阻力。
  ●學習成本高:數學和相關的算法過於抽象,布道者往往忽略瞭很多解釋性的內容,使得讀者學習起來費時費力。
  ●變現不確定:這也是數據分析人員的尷尬。個人對數據的加工增值以及變現有多大的貢獻難以度量。
  本書通俗易懂,有高中數學基礎即可看懂,同時結閤大量案例與漫畫,將高度抽象的數學、算法與應用,與現實生活中的案例和事件一一做瞭關聯,將源自生活的抽象還原齣來,幫助讀者理解後,又帶領大傢將這些抽象的規律與算法應用於實踐,貼閤讀者需求。同時,本書不是割裂講解大數據與機器學習的算法和應用,還講解瞭其生態環境與關聯內容,讓讀者更全麵地知曉淵源與未來,是係統學習大數據與機器學習的不二之選:
  ●大數據産業解讀——剖析産業情況,人纔供需、職業選擇與相應“武器”庫;
  ●步入大數據之門——解讀數據、信息、算法,以及與大數據應用的關係;
  ●大數據基石——結閤大量示例和漫畫,趣味講解大數據算法應掌握的數學知識,無障礙學習;
  ●大數據算法奧義——信息論、嚮量空間、迴歸、聚類、分類等*為核心的算法的釋義與應用,舉重若輕;
  ●大數據熱門應用——關聯分析、用戶畫像、推薦算法、文本挖掘、人工神經網絡等*實用、*需要瞭解的應用的原理與實現;
  ●大數據主流框架——介紹瞭主流的大數據框架(Hadoop、Spark和Cassandra);
  ●係統架構與調優——從速度與穩定性方麵給齣調優的一般性“內功心法”;
  ●大數據價值與變現——從運營指標、AB測試、大數據價值與變現場景多維度解讀。

內容簡介

  資深大數據專傢多年實戰經驗總結,拒絕晦澀,開啓大數據與機器學習妙趣之旅。以降低學習麯綫和閱讀難度為宗旨,係統講解統計學、數據挖掘算法、實際應用案例、數據價值與變現,以及高級拓展技能,並清晰勾勒齣大數據技術路綫與産業藍圖。
  本書共分18章。用通俗易懂的語言,結閤大量案例與漫畫,不枯燥,實用、接地氣。
  第1~5章,這部分是大數據入門所需的係統性知識,剖析大數據産業、數據與信息算法等的關係,妙解數學基礎(排列組閤、概率、統計與分布),以及指標化運營及體係構建。這部分補足讀者的産業與相關概念認知,以及所需的數學知識。為下麵的數據挖掘算法的理解與應用夯實基礎。
  第6~8章,這部分介紹數據挖掘基礎知識與算法,講解瞭與數據息息相關的信息論,重點講解瞭:多維嚮量空間(嚮量和維度、矩陣及其計算、上捲和下鑽);
  迴歸(綫性迴歸、殘差分析、擬閤相關問題);
  聚類(K-Means算法、有趣模式、孤立點、層次與密度聚類,聚類的評估等);
  分類(樸素貝葉斯、決策樹歸納、隨機森林、隱馬爾科夫模型、SVM、遺傳算法)。
  第11~18章,這部分介紹生産應用與高級擴展。其中第11~15章介紹生産應用實踐,涵蓋關聯分析、用戶畫像、推薦算法、文本挖掘、人工神經網絡。這些也是工業界和學術界研究的熱點。第16章講解瞭著名的大數據框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩定性維度介紹瞭大數據係統的架構與調優。第18章則從數據運營、評估、展現與變現場景層麵進行瞭解讀。
  附錄部分給齣瞭大數據平颱運行可能需要的軟件和庫,以及群眾如何看待炙手可熱的大數據。

作者簡介

  高揚,金山軟件西山居資深大數據架構師與大數據專傢,有多年編程經驗(多年日本和澳洲工作經驗)和多年大數據架構設計與數據分析、處理經驗,目前負責西山居的大數據産品市場戰略與産品戰略。專注於大數據係統架構以及變現研究。擅長數據挖掘、數據建模、關係型數據庫應用以及大數據框架Hadoop、Spark、Cassandra、Prestodb等的應用。負責西山居紫霞係統——大數據日誌處理係統的係統架構與設計工作。

  衛崢,西山居軟件架構師,多年的軟件開發和架構經驗,精通C/C++、Python、Golang、JavaScript等多門編程語言,近幾年專注於數據處理、機器學算法的研究、應用與服務研發。曾在新浪網平颱架構部負責音視頻轉碼平颱的架構和研發工作,為新浪微博,新浪微盤,秒拍等提供視頻在綫觀看服務。51CTO講師。

  尹會生,西山居高級係統工程師。曾任新浪研發中心技術經理、北京尚觀科技高級講師。在新浪廣告、微博廣告、西山居大數據平颱架構中擔任關鍵角色。擅長企業集群解決方案和內核調優經驗,並提供高性能和高可用性集群谘詢服務。近4年專注於Hadoop集群、Spark集群在推薦係統和BI相關領域的解決方案。

  萬娟,星盤科技有限公司UI設計師平麵,對VI設計、包裝、海報設計等、商業插畫、App交互、網頁設計等有獨到認識。多次參與智能傢居和智能音箱等項目的UI設計。多次參加國際和國內藝術和工業設計比賽,並獲奬。從小酷愛繪畫,理想是開一個屬於自己的畫室。

目錄

第1章大數據産業1
1.1大數據産業現狀1
1.2對大數據産業的理解2
1.3大數據人纔3
1.3.1供需失衡3
1.3.2人纔方嚮3
1.3.3環節和工具5
1.3.4門檻障礙6
1.4小結8
第2章步入數據之門9
2.1什麼是數據9
2.2什麼是信息10
2.3什麼是算法12
2.4統計、概率和數據挖掘13
2.5什麼是商業智能13
2.6小結14
第3章排列組閤與古典概型15
3.1排列組閤的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組閤的應用示例18
3.2.1雙色球彩票18
3.2.2購車搖號20
3.2.3德州撲剋21
3.3小結25
第4章統計與分布27
4.1加和值、平均值和標準差27
4.1.1加和值28
4.1.2平均值29
4.1.3標準差30
4.2加權均值32
4.2.1混閤物定價32
4.2.2決策權衡34
4.3眾數、中位數35
4.3.1眾數36
4.3.2中位數37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環比41
4.7抽樣43
4.8高斯分布45
4.9泊鬆分布49
4.10伯努利分布52
4.11小結54
第5章指標55
5.1什麼是指標55
5.2指標化運營58
5.2.1指標的選擇58
5.2.2指標體係的構建62
5.3小結63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計算65
6.2.2信息量的理解66
6.3香農公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結75
第7章多維嚮量空間76
7.1嚮量和維度76
7.1.1信息冗餘77
7.1.2維度79
7.2矩陣和矩陣計算80
7.3數據立方體83
7.4上捲和下鑽85
7.5小結86
第8章迴歸87
8.1綫性迴歸87
8.2擬閤88
8.3殘差分析94
8.4過擬閤99
8.5欠擬閤100
8.6麯綫擬閤轉化為綫性擬閤101
8.7小結104
第9章聚類105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點110
9.4層次聚類110
9.5密度聚類113
9.6聚類評估116
9.6.1聚類趨勢117
9.6.2簇數確定119
9.6.3測定聚類質量121
9.7小結124
第10章分類125
10.1樸素貝葉斯126
10.1.1天氣的預測128
10.1.2疾病的預測130
10.1.3小結132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續型變量137
10.3隨機森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前嚮算法151
10.5支持嚮量機SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠158
10.5.4N維度空間中的距離159
10.5.5超平麵怎麼畫160
10.5.6分不開怎麼辦160
10.5.7示例163
10.5.8小結164
10.6遺傳算法164
10.6.1進化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結181
第11章關聯分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經典的Apriori算法187
11.1.4求齣所有頻繁模式190
11.2關聯分析與相關性分析192
11.3稀有模式和負模式193
11.4小結194
第12章用戶畫像195
12.1標簽195
12.2畫像的方法196
12.2.1結構化標簽196
12.2.2非結構化標簽198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底“像不像”204
12.4小結205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜索記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4優化問題215
13.5小結217
第14章文本挖掘218
14.1文本挖掘的領域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持嚮量機SVM算法226
14.3小結227
第15章人工神經網絡228
15.1人的神經網絡228
15.1.1神經網絡結構229
15.1.2結構模擬230
15.1.3訓練與工作231
15.2FANN庫簡介233
15.3常見的神經網絡235
15.4BP神經網絡235
15.4.1結構和原理236
15.4.2訓練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機244
15.5.1退火模型244
15.5.2玻爾茲曼機245
15.6捲積神經網絡247
15.6.1捲積248
15.6.2圖像識彆249
15.7深度學習255
15.8小結256
第16章大數據框架簡介257
16.1著名的大數據框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計算WordCount271
16.4分布式列存儲框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什麼那麼快273
16.5.2安裝Presto274
16.6小結277
第17章係統架構和調優278
17.1速度——資源的配置278
17.1.1思路一:邏輯層麵的優化279
17.1.2思路二:容器層麵的優化279
17.1.3思路三:存儲結構層麵的優化280
17.1.4思路四:環節層麵的優化280
17.1.5資源不足281
17.2穩定——資源的可用282
17.2.1藉助雲服務282
17.2.2鎖分散282
17.2.3排隊283
17.2.4謹防“雪崩”283
17.3小結285
第18章數據解讀與數據的價值286
18.1運營指標286
18.1.1互聯網類型公司常用指標287
18.1.2注意事項288
18.2AB測試289
18.2.1網頁測試290
18.2.2方案測試290
18.2.3灰度發布292
18.2.4注意事項293
18.3數據可視化295
18.3.1圖錶295
18.3.2錶格299
18.4多維度——大數據的靈魂299
18.4.1多大算大299
18.4.2大數據網絡300
18.4.3去中心化纔能活躍301
18.4.4數據會過剩嗎302
18.5數據變現的場景303
18.5.1數據價值的衡量的討論303
18.5.2場景1:徵信數據307
18.5.3場景2:宏觀數據308
18.5.4場景3:畫像數據309
18.6小結310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機的安裝方法314
附錄CPython語言簡介318
附錄DScikit-learn庫簡介323
附錄EFANNforPython安裝324
附錄F群眾眼中的大數據325
寫作花絮327
參考文獻329

前言/序言

  為什麼要寫這本書
  不知從何時開始我們已周身沒入大數據時代的潮流,不知不覺被捲入瞭大數據時代。
  無論是每天上網看網頁、聊QQ、聊微信,或者登錄銀行、網購、買票,或者齣行、投宿,甚至是齣入任何公眾場閤、駕車、用水用電……我們無時無刻不在生産著各種數據。而同時我們也在消費著其他人生産的數據,我們使用的眾多傢電産品,每一個設計細節都融入瞭設計者對用戶體驗數據的調查與分析;我們使用的每一部手機、每一颱電腦,每一個部件的産齣都融入著多得無法想象的指標數據控製下的生産與監控;我們訪問的每一個網頁、每一個軟件,每一次享受到的貼心的産品改動和服務的升級,無不浸透著無數的數據匯集與精細的分析和反饋。這是一場慢慢到來的、貫穿所有産業的革命,這是一次潤物細無聲的各行業精耕細作的開端。
  不管我們是不是願意,不管我們有沒有意識到,我們現在已經身處大數據時代的奇點,而未來要迎接的是大數據奇點爆炸給我們帶來的衝擊力。我們需要力量來駕馭浪裏的航船,我們需要乘風破浪前進的動力。
  在這一次遠航中,我們不必擔心自己的能力水平無法感知數據這種磅礴之力的氣魄,不必擔心晦澀難懂的公式定理會讓我們感到阻力。
  請相信我,這是一本通俗易懂的大數據圖書,這是一本輕鬆愉悅的數據挖掘和機器學習的讀本,這是一本沒有門檻的機器學習實戰手冊。讓我們一起揚帆遠航吧!
  本書特色
  從行為脈絡來看,本書基本上是從數據統計、數據指標理解、數據模型、聚類/分類與機器學習、數據應用、大數據框架補充知識,以及擴展討論這樣的角度來層層深入完成的。
  這種方式會給讀者比較好的帶入感,讓大傢——尤其是不擅長數學的讀者降低對大數據與機器學習算法的恐懼感。如果讀者朋友對排列組閤、統計分布這些基礎知識比較瞭解,完全可以考慮跳過這些部分直接去讀後麵更感興趣的內容。
  為瞭調節閱讀氣氛,我們還嘗試加入瞭一些漫畫插圖。為瞭讓讀者朋友能夠更快地進行實踐,我們幾乎在每一個算法講解後都配有Python或者SQL語言的實現部分。相信這些能夠幫助大傢更快、更輕鬆地閱讀本書。
  讀者對象
  (1)對大數據感興趣但是完全不瞭解的技術人員。
  (2)對機器學習和數據挖掘比較感興趣的技術人員。
  (3)大數據初級從業人員。
  如何閱讀本書
  本書一共分為18章。
  第1章~第5章為入門所需基礎知識及對數據指標運營的闡述。
  第6章~第10章是對數據挖掘基礎知識與算法的介紹。
  第11章~第18章為生産應用與高級擴展。
  其中,第1章~第15章正文內容,以及第17章、第18章的正文內容由高揚編寫。
  全書所有的Python代碼由衛崢編寫與補充整理。
  第16章、附錄全部由尹會生編寫。
  全書所有的漫畫插畫由萬娟創作完成。
  勘誤和支持
  由於水平有限,編寫時間倉促,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者批評指正。如果你有更多的寶貴意見,歡迎掃描下方的二維碼,關注“奇點大數據”微信公眾號和我們進行互動討論。關注大數據尖端技術發展,關注“奇點大數據”。
  同時,你也可以通過郵箱聯係到我,期待能夠得到你的真摯反饋,在技術之路上互勉共進。
  緻謝
  特彆感謝:萬娟女士為本書做的漫畫插畫內容。
  萬娟女士現任深圳星盤科技有限公司UI設計師,是我在多年工作中遇到過的最敬業的UI設計師之一,在2013年一起閤作的過程中給我留下瞭非常深刻的印象。
  她多次參加全國和國際藝術比賽,曾獲得全國青少年繪畫大賽銅奬,中國–新加坡國際青少年繪畫比賽優秀奬,以及全國大學生工業設計大賽三等奬。從小酷愛繪畫,理想是開一個屬於自己的畫室。
  她給我留下的最深刻的印象用兩個詞可以描述:一個詞是“敬業”,不管是在過去共事期間的閤作,還是在為本書創作插畫的過程中,為瞭保證進度帶病堅持創作,都讓我非常感動;另一個詞是“唯美”,不僅人長得美,作品設計風格也透齣現代與時尚的氣息。
  此外還要對所有支持和關心本書成書的各界朋友錶示由衷的感謝:
  衷心感謝北京郵電大學軟件學院楊談老師對本書的審校工作。
  衷心感謝騰訊公司數據分析師彭瑤女士對本書的審校工作。
  衷心感謝重慶工商大學黃輝老師、楊藝老師對本書的大力支持。
  衷心感謝機械工業齣版社華章公司對本書的支持與幫助。
  衷心感謝“奇點大數據”微信群友對本書的關注與支持。
  高揚



白話大數據與機器學習 下載 mobi epub pdf txt 電子書 格式

白話大數據與機器學習 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

白話大數據與機器學習 下載 mobi pdf epub txt 電子書 格式 2024

白話大數據與機器學習 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

內容很好,質量不錯,送貨很快

評分

好好好棒棒棒物超所值,棒棒棒省時省力方便快捷。

評分

物流非常快,包裝也很精美。贊??????

評分

正版書,京東的速度夠快,第二天就收到瞭,贊

評分

非常好的書推薦一讀,物流快,紙張好!

評分

東西不錯,快遞小哥很專業。

評分

挺好的,一直在京東買東西,很靠譜,支持

評分

經常網購,總有大量的包裹收,感覺寫評語花掉瞭我大量的時間和精力!所以在一段時間裏,我總是我又總是覺得好像不去評價或者隨便寫寫!但是,有點對不住那些辛苦工作的賣傢客服、倉管、老闆。於是我寫下瞭一小段話,給我覺得能拿到我五星好評的賣傢的寶貝評價裏麵以示感謝和尊敬!首先,寶貝是性價比很高的,我每次都會先試用再評價的,雖然寶貝不一定是最好的,但在同等的價位裏麵絕對是錶現最棒的。京東的配送絕對是一流的,送貨速度快,配送員服務態度好,每樣東西都是送貨上門。希望京東能再接再厲,做得更大更強,提供更多更好的東西給大傢。為京東的商品和服務點贊。

評分

正版,送貨快,慢慢學習

類似圖書 點擊查看全場最低價

白話大數據與機器學習 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.qciss.net All Rights Reserved. 圖書大百科 版權所有