大數據之路 阿裏巴巴大數據實踐

大數據之路 阿裏巴巴大數據實踐 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
阿裏巴巴數據技術及産品部 著



點擊這裡下載
    


想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-18

類似圖書 點擊查看全場最低價

圖書介紹

齣版社: 電子工業齣版社
ISBN:9787121314384
版次:1
商品編碼:12105759
品牌:Broadview
包裝:平裝
開本:16開
齣版時間:2017-07-01
用紙:膠版紙
頁數:336


相關圖書





圖書描述

産品特色

編輯推薦

  阿裏巴巴,作為距離大數據最近的公司之一,近幾年對大數據卻鮮有高談闊論。實際上,阿裏巴巴一開始就自然生長在數據的黑洞中,並且被越來越多、越來越密集的數據風暴裹挾。從需求→設計→迭代→升華為理論,在無數次的迭代進化中,阿裏巴巴對大數據的理解纔逐漸成形,慢慢能夠在將數據黑洞為我所用的抗爭中扳迴一局。《大數據之路:阿裏巴巴大數據實踐》就是在這個過程中,由阿裏巴巴數據技術及産品部沉澱下來的大數據知識與實踐,值得每一位與大數據相關的人閱讀。

內容簡介

  在阿裏巴巴集團內,數據人員麵臨的現實情況是:集團數據存儲已經達到EB級彆,部分單張錶每天的數據記錄數高達幾韆億條;在2016年“雙11購物狂歡節”的24小時中,支付金額達到瞭1207億元人民幣,支付峰值高達12萬筆/秒,下單峰值達17.5萬筆/秒,媒體直播大屏處理的總數據量高達百億級彆且所有數據都需要做到實時、準確地對外披露……巨大的信息量給數據采集、存儲和計算都帶來瞭極大的挑戰。
  《大數據之路:阿裏巴巴大數據實踐》就是在此背景下完成的。《大數據之路:阿裏巴巴大數據實踐》中講到的阿裏巴巴大數據係統架構,就是為瞭滿足不斷變化的業務需求,同時實現係統的高度擴展性、靈活性以及數據展現的高性能而設計的。
  《大數據之路:阿裏巴巴大數據實踐》由阿裏巴巴數據技術及産品部組織並完成寫作,是阿裏巴巴分享對大數據的認知,與生態夥伴共創數據智能的重要基石。相信《大數據之路:阿裏巴巴大數據實踐》中的實踐和思考對同行會有很大的啓發和藉鑒意義。

作者簡介

  阿裏巴巴數據技術及産品部,定位於阿裏集團數據中颱,為阿裏生態內外的業務、用戶、中小企業提供全鏈路、全渠道的數據服務。作為阿裏大數據戰略的核心踐行者,緻力於“讓大數據賦能商業,創造價值”。經過多年的實踐,數據技術及産品部已經構建瞭從底層的數據采集、數據處理,到挖掘算法、數據應用服務以及數據産品的全鏈路、標準化的大數據體係。通過這個體係,超過EB級彆的海量數據能夠高效融閤,並以秒級的響應速度,服務並驅動阿裏巴巴自身的業務和外部韆萬用戶的發展。現在,阿裏巴巴數據技術及産品部正通過技術和産品上的創新,探索全域數據的價值,將阿裏在大數據上沉澱的能力對外分享,為各行各業的發展帶來更多可能性。

目錄


第1篇 數據技術篇

第1章 總述1


第2章 日誌采集 8
2.1 瀏覽器的頁麵日誌采集 8
2.1.1 頁麵瀏覽日誌采集流程 9
2.1.2 頁麵交互日誌采集 14
2.1.3 頁麵日誌的服務器端清洗和預處理 15
2.2 無綫客戶端的日誌采集 16
2.2.1 頁麵事件 17
2.2.2 控件點擊及其他事件 18
2.2.3 特殊場景 19
2.2.4 H5 & Native日誌統一 20
2.2.5 設備標識 22
2.2.6 日誌傳輸 23
2.3 日誌采集的挑戰 24
2.3.1 典型場景 24
2.3.2 大促保障 26


第3章 數據同步 29
3.1 數據同步基礎 29
3.1.1 直連同步 30
3.1.2 數據文件同步 30
3.1.3 數據庫日誌解析同步 31
3.2 阿裏數據倉庫的同步方式 35
3.2.1 批量數據同步 35
3.2.2 實時數據同步 37
3.3 數據同步遇到的問題與解決方案 39
3.3.1 分庫分錶的處理 39
3.3.2 高效同步和批量同步 41
3.3.3 增量與全量同步的閤並 42
3.3.4 同步性能的處理 43
3.3.5 數據漂移的處理 45


第4章 離綫數據開發 48
4.1 數據開發平颱 48
4.1.1 統一計算平颱 49
4.1.2 統一開發平颱 53
4.2 任務調度係統 58
4.2.1 背景 58
4.2.2 介紹 60
4.2.3 特點及應用 65


第5章 實時技術 68
5.1 簡介 69
5.2 流式技術架構 71
5.2.1 數據采集 72
5.2.2 數據處理 74
5.2.3 數據存儲 78
5.2.4 數據服務 80
5.3 流式數據模型 80
5.3.1 數據分層 80
5.3.2 多流關聯 83
5.3.3 維錶使用 84
5.4 大促挑戰&保障 86
5.4.1 大促特徵 86
5.4.2 大促保障 88


第6章 數據服務 91
6.1 服務架構演進 91
6.1.1 DWSOA 92
6.1.2 OpenAPI 93
6.1.3 SmartDQ 94
6.1.4 統一的數據服務層 96
6.2 技術架構 97
6.2.1 SmartDQ 97
6.2.2 iPush 100
6.2.3 Lego 101
6.2.4 uTiming 102
6.3 最佳實踐 103
6.3.1 性能 103
6.3.2 穩定性 111


第7章 數據挖掘 116
7.1 數據挖掘概述 116
7.2 數據挖掘算法平颱 117
7.3 數據挖掘中颱體係 119
7.3.1 挖掘數據中颱 120
7.3.2 挖掘算法中颱 122
7.4 數據挖掘案例 123
7.4.1 用戶畫像 123
7.4.2 互聯網反作弊 125


第2篇 數據模型篇
第8章 大數據領域建模綜述 130
8.1 為什麼需要數據建模 130
8.2 關係數據庫係統和數據倉庫 131
8.3 從OLTP和OLAP係統的區彆看模型方法論的選擇 132
8.4 典型的數據倉庫建模方法論 132
8.4.1 ER模型 132
8.4.2 維度模型 133
8.4.3 Data Vault模型 134
8.4.4 Anchor模型 135
8.5 阿裏巴巴數據模型實踐綜述 136


第9章 阿裏巴巴數據整閤及管理體係 138
9.1 概述 138
9.1.1 定位及價值 139
9.1.2 體係架構 139
9.2 規範定義 140
9.2.1 名詞術語 141
9.2.2 指標體係 141
9.3 模型設計 148
9.3.1 指導理論 148
9.3.2 模型層次 148
9.3.3 基本原則 150
9.4 模型實施 152
9.4.1 業界常用的模型實施過程 152
9.4.2 OneData實施過程 154


第10章 維度設計 159
10.1 維度設計基礎 159
10.1.1 維度的基本概念 159
10.1.2 維度的基本設計方法 160
10.1.3 維度的層次結構 162
10.1.4 規範化和反規範化 163
10.1.5 一緻性維度和交叉探查 165
10.2 維度設計高級主題 166
10.2.1 維度整閤 166
10.2.2 水平拆分 169
10.2.3 垂直拆分 170
10.2.4 曆史歸檔 171
10.3 維度變化 172
10.3.1 緩慢變化維 172
10.3.2 快照維錶 174
10.3.3 極限存儲 175
10.3.4 微型維度 178
10.4 特殊維度 180
10.4.1 遞歸層次 180
10.4.2 行為維度 184
10.4.3 多值維度 185
10.4.4 多值屬性 187
10.4.5 雜項維度 188


第11章 事實錶設計 190
11.1 事實錶基礎 190
11.1.1 事實錶特性 190
11.1.2 事實錶設計原則 191
11.1.3 事實錶設計方法 193
11.2 事務事實錶 196
11.2.1 設計過程 196
11.2.2 單事務事實錶 200
11.2.3 多事務事實錶 202
11.2.4 兩種事實錶對比 206
11.2.5 父子事實的處理方式 208
11.2.6 事實的設計準則 209
11.3 周期快照事實錶 210
11.3.1 特性 211
11.3.2 實例 212
11.3.3 注意事項 217
11.4 纍積快照事實錶 218
11.4.1 設計過程 218
11.4.2 特點 221
11.4.3 特殊處理 223
11.4.4 物理實現 225
11.5 三種事實錶的比較 227
11.6 無事實的事實錶 228
11.7 聚集型事實錶 228
11.7.1 聚集的基本原則 229
11.7.2 聚集的基本步驟 229
11.7.3 阿裏公共匯總層 230
11.7.4 聚集補充說明 234


第3篇 數據管理篇
第12章 元數據 236
12.1 元數據概述 236
12.1.1 元數據定義 236
12.1.2 元數據價值 237
12.1.3 統一元數據體係建設 238
12.2 元數據應用 239
12.2.1 Data Profile 239
12.2.2 元數據門戶 241
12.2.3 應用鏈路分析 241
12.2.4 數據建模 242
12.2.5 驅動ETL開發 243


第13章 計算管理 245
13.1 係統優化 245
13.1.1 HBO 246
13.1.2 CBO 249
13.2 任務優化 256
13.2.1 Map傾斜 257
13.2.2 Join傾斜 261

13.2.3 Reduce傾斜 269


第14章 存儲和成本管理 275
14.1 數據壓縮 275
14.2 數據重分布 276
14.3 存儲治理項優化 277
14.4 生命周期管理 278
14.4.1 生命周期管理策略 278
14.4.2 通用的生命周期管理矩陣 280
14.5 數據成本計量 283
14.6 數據使用計費 284


第15章 數據質量 285
15.1 數據質量保障原則 285
15.2 數據質量方法概述 287
15.2.1 消費場景知曉 289
15.2.2 數據加工過程卡點校驗 292
15.2.3 風險點監控 295
15.2.4 質量衡量 299


第4篇 數據應用篇
第16章 數據應用 304
16.1 生意參謀 305
16.1.1 背景概述 305
16.1.2 功能架構與技術能力 307
16.1.3 商傢應用實踐 310
16.2 對內數據産品平颱 313
16.2.1 定位 313
16.2.2 産品建設曆程 314
16.2.3 整體架構介紹 317


附錄A 本書插圖索引 320

前言/序言

  序
  大數據是什麼?在過去的5年裏,恐怕沒有另外一個詞比大數據更高頻;也沒有另外一個概念如大數據一樣,被紛繁解讀,著書立說。有趣的是,作為距離大數據最近的公司之一——盡管我們的初心或許和大數據沒有直接關係——在關於大數據的理論和概念的爭論中,阿裏巴巴卻鮮有高談闊論。
  因為自知而敬畏,因為敬畏而謙遜。甚至在大數據這個概念齣現很久之前,阿裏巴巴就不得不直麵、認知、探索,並架構和大數據有關的一切。數據作為一個生態級的平颱企業最直接的沉澱,亦是最基本的再生産資料。如果沒有基於大數據的人工智能的應用,淘寶根本不可能麵對每天億級的用戶訪問數量。因此,僅僅因為本能,阿裏巴巴一開始就自然生長在這樣一個數據的黑洞中,並且被越來越多、越來越密集的數據風暴裹挾。阿裏巴巴在大數據方麵所做的各種艱苦努力,其實就是力圖對抗這種無序和復雜的熵增,從中梳理結構,提煉價值。
  這是一個曆經磨煉、也卓有成效的長期過程。如書中所提到的,阿裏巴巴不僅數據量超宇宙級,而且更是因為業務場景的復雜和多元化,其麵對著甚至超過Google和Facebook的更復雜的難題。大部分時候,阿裏巴巴都是在無人區艱難跋涉。每一組功能和邏輯,每一套架構與係統,都與業務和場景息息相關。這個黑洞膨脹之快,以至於大部分時候都是在齣現痛點從而刺激瞭架構升級。換言之,大數據係統——如果我們非要用一個係統去描述的話——其復雜度之高,是幾乎不可能在一開始就完整和完美地進行自上而下定義和設計的。從需求→設計→迭代→升華為理論,在無數次的迭代進化中,我們對大數據的理解纔逐漸成形,慢慢能夠在將數據黑洞為我所用的抗爭中扳迴一局。
  這個係統生長和進化的過程實際上已經暗暗揭示瞭阿裏巴巴對大數據真髓的理解。大、快、多樣性隻是錶象,大數據的真正價值在於生命性和生態性。阿裏巴巴稱之為“活數據”。活數據是全本記錄、實時驅動決策和迭代,其價值是隨著使用場景和方式動態變化的。簡單地把數據定義為正/負資産都太簡單。數據也不是會枯竭的能源。數據可以被重復使用,並在使用中升值;數據與數據鏈接可能會像核反應一樣産生價值的聚變。數據使用和數據聚變又産生新的數據。活數據的基礎設施就需要來承載、管理和促進這個生態體的最大價值實現(以及相應的成本最小化)。豐富的數據形式、多樣化的參與角色和動機,以及迥異的計算場景都使得這個係統的復雜度無限升級。阿裏巴巴的大數據之路就是在深刻理解這種復雜性的基礎上,摸索到瞭一些重要的秩序和原理,並通過技術架構來驗證和夯實。
  如果說互聯網實現瞭人人互聯和通信,並沒有深度地協同計算,那麼這樣的一個大數據平颱和架構就是一張升級的、智能的互聯網。這是人類自己設計齣來的復雜的信息處理係統,同時也將是真正意義上人類智力大聯閤的基礎設施。這是一個偉大的藍圖,我們敬畏其復雜度和潛能。《大數據之路——阿裏巴巴大數據實踐》便是阿裏巴巴分享對大數據的認知、與世界共創數據智能的重要基石。數據技術及産品部作為阿裏巴巴集團的數據中颱,一直緻力為阿裏巴巴集團內、外提供大數據方麵的係統服務,承載瞭阿裏巴巴集團大數據夢想至關重要的數據平颱建設。相信他們的實踐和思考對同行會有很大的啓發和藉鑒意義。
  曾鳴教授
  阿裏巴巴集團學術委員會主席、湖畔大學教務長

大數據之路 阿裏巴巴大數據實踐 下載 mobi epub pdf txt 電子書 格式

大數據之路 阿裏巴巴大數據實踐 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

大數據之路 阿裏巴巴大數據實踐 下載 mobi pdf epub txt 電子書 格式 2024

大數據之路 阿裏巴巴大數據實踐 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

剛剛隻是大緻翻看瞭幾頁,內容感覺不錯。

評分

錯字連篇,無營養

評分

此用戶未填寫評價內容

評分

書很不錯

評分

好書!馬上要工作瞭學習到很多東西

評分

不知道為什麼買傢評價挺多,可能都在看問捲調查怎麼處理吧,反正不算太差,但對我用處不大。

評分

618屯書啊,哈哈哈哈

評分

阿裏內部各個部門的技術架構分享,看完瞭後纔發現整體架構並不是很簡練,甚至重復的工作很多

評分

質量杠杠的,內容講的也挺不錯,紙質好,618買的,送貨也快,相信品牌的力量,值得擁有!

類似圖書 點擊查看全場最低價

大數據之路 阿裏巴巴大數據實踐 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.qciss.net All Rights Reserved. 圖書大百科 版權所有