發表於2024-11-20
多位大數據專傢聯袂推薦,Autodesk資深係統研發工程師撰寫,參透大規模分布式實時處理係統
抽絲剝繭,從概念、原理到分布式實時計算框架實現,兼顧理論與實踐,帶領讀者逐步實現一個高性能、基於C++11的分布式實時處理係統
多位大數據專傢聯袂推薦,Autodesk資深係統研發工程師撰寫,參透大規模分布式實時處理係統。抽絲剝繭,從概念、原理到分布式實時計算框架實現,兼顧理論與實踐,帶領讀者逐步實現一個高性能、基於C++11的分布式實時處理係統Hurricane。
第1~5章,分布式實時處理基石。
這部分涵蓋分布式係統原理與特性,分布式係統通信基礎與高層抽象,C++11的高性能編程基礎與進階(內存資源管理、編碼解決方案、並發與異步處理、綫程模型等),以及Hadoop與Storm基本模型和可靠消息處理的基本思想。同時結閤所講知識帶領讀者開發公告牌服務、留言闆係統等,加深理解。
第6~11章,動手時間!
這部分是本書重點,帶領大傢實現一個基於C++11的高性能分布式實時處理框架,對讀者日後的框架理解、開發與定製能力大有裨益。涵蓋實時處理係統的總體架構設計,實時處理係統中各接口、服務組件、管理服務組件、可靠消息處理方案,以及底層數據傳輸層及高性能網絡庫Meshy(實現可靠的TCP/IP傳輸和消息隊列,提供底層網絡傳輸基礎)的設計與實現。
第12~14章,高級技能get!
這部分介紹一些實用的高級技能。涵蓋事務性拓撲實現方案,多語言接口與優化方案,以及高級抽象元語、DRPC的*佳實踐。
第15~17章,用起來!
這部分給齣瞭框架的應用案例,進一步加強讀者實踐技能。涵蓋基於Hurricane開發的日誌流處理實例、頻繁二項集挖掘係統,以及在AWS和阿裏雲上部署Hurricane。??
盧譽聲,Autodesk係統軟件研發工程師,從事平颱架構方麵的研發工作。在此之前,他曾在思科係統(中國)研發中心雲産品研發部工作多年,並參與瞭大規模分布式係統的服務器後端、前端以及SDK的設計與研發工作,在分布式係統設計與實現、性能調優、高可用性和自動化等方麵積纍瞭豐富的敏捷實踐與開發經驗。他主要從事C/C++開發工作,緻力於高性能平颱架構的研究與開發。此外,對JavaScript、Lua以及移動開發平颱等也有一定研究。譯有《Storm實時數據處理》《高級C/C++編譯技術》《JavaScript編程精解(原書第2版)》。
本書不但講解高性能分布式實時處理係統編程的原理,特彆是對於內存資源管理、編碼解決方案、並發與異步處理、綫程模型、批處理與實時處理的區彆、消息隊列、動態裝載等作瞭詳細介紹,還深入分析瞭實時處理係統的架構以及內部實現,最後詳細分析瞭怎麼樣實現一套分布式實時處理係統Hurricane。本書非常適閤大數據開發人員和架構師閱讀,同時可以解決性能優化的很多問題。
——盧億雷AdMaster技術副總裁兼總架構師
分布式係統可以追溯到20世紀60年代的ARPANET。隨著物聯網、邊緣計算和其他相關領域的蓬勃發展,對高性能分布式實時處理係統的需求日益增多。這本技術專著著眼於實際分布式框架的編程應用,將助力有誌於該領域的軟件開發人員。
——安寜Oracle空間數據部門首席工程師
本書將對自己的C++編程、分布式存儲係統、分布式計算框架、分布式通信等知識進行洗禮,不知不覺間就提升瞭自己的層次,期待閱讀本書之後,也可以構建一個全新的分布式實時處理係統,變成分布式實時計算領域的貢獻者。
——於俊科大訊飛大數據專傢
本書由淺到深,從基礎的分布式係統的概念、網絡通信和C++11高性能編程,到流處理中的消息、消息源、處理單元、收集器、計算拓撲等重要抽象的實現,到日誌處理、頻繁組閤等典型應用,深入研究瞭一個典型分布式流處理係統的各個重要方麵,推薦。
——蔡斌騰訊科技高級工程師
本書贊譽
序一
序二
序三
前言
第1章分布式計算概述1
1.1分布式概念1
1.2分布式計算及其原理2
1.3分布式係統特性3
1.3.1容錯性3
1.3.2高可擴展性4
1.3.3開放性5
1.3.4並發處理能力5
1.3.5透明性6
1.4通用分布式計算係統6
1.4.1ApacheHadoop6
1.4.2ApacheSpark8
1.4.3ApacheStorm9
1.5分布式存儲係統10
1.5.1分布式存儲概念10
1.5.2分布式存儲係統特點12
1.5.3分布式存儲係統分類12
1.5.4常見分布式存儲係統13
1.6本章小結14
第2章分布式係統通信基礎15
2.1時代的浪潮15
2.1.1集中式通信網16
2.1.2去中心化16
2.2可靠的數據鏈路17
2.2.1數據分組17
2.2.2幀同步18
2.2.3差錯控製18
2.2.4鏈路管理18
2.2.5問題與解決方案19
2.3分層架構19
2.4網絡層22
2.4.1尋找路徑22
2.4.2網絡分層23
2.4.3TCP/IP概述23
2.4.4IP協議24
2.5傳輸層30
2.5.1數據自動分包30
2.5.2端到端的傳輸30
2.5.3數據的可靠傳輸30
2.6應用層35
2.6.1ping35
2.6.2telnet36
2.6.3OSPF36
2.6.4DNS36
2.6.5HTTP協議37
2.7基於消息協議的公告牌38
2.7.1需求描述38
2.7.2製定協議38
2.8分布式通信舉例——MapReduce39
2.9本章小結41
第3章通信係統高層抽象42
3.1RPC介紹42
3.2RESTful44
3.2.1資源和錶現層45
3.2.2狀態轉移45
3.2.3RESTful總結46
3.3消息隊列46
3.4序列化49
3.5使用Thrift實現公告牌服務50
3.5.1ApacheThrift介紹51
3.5.2安裝ApacheThrift51
3.5.3編寫Thrift文件52
3.5.4實現服務器53
3.5.5實現客戶端54
3.6本章小結56
第4章走進C++高性能編程57
4.1基於C++的留言闆係統58
4.1.1基於Socket的通信58
4.1.2C++中的內存與資源管理64
4.2來自服務器的天書69
4.2.1編碼69
4.2.2C++98的編碼缺陷72
4.2.3C++11編碼支持73
4.3繁忙的服務器75
4.3.1分身乏術75
4.3.2fork——分身術76
4.3.3進程間通信79
4.3.4輕量級分身——綫程85
4.3.5C++11綫程86
4.3.6競爭問題與解決方案88
4.3.7多綫程優化95
4.3.8異步I/O99
4.4消失不見的內存105
4.4.1內存分配與內存碎片106
4.4.2tcmalloc108
4.4.3內存池110
4.5本章小結112
第5章分布式實時處理係統113
5.1Hadoop與MapReduce113
5.1.1HDFS114
5.1.2MapReduce模型115
5.2Storm實時處理係統129
5.2.1曆史129
5.2.2計算模型130
5.2.3總體架構133
5.2.4Storm元數據133
5.2.5Storm與Hadoop比較138
5.3有保證的消息處理139
5.3.1完全處理與元組樹139
5.3.2元組的唯一標識139
5.3.3確認和失敗141
5.3.4高效實現143
5.4本章小結144
第6章實時處理係統編程接口設計145
6.1總體架構設計145
6.1.1Hurricane與Storm比較145
6.1.2總體架構146
6.1.3任務接口148
6.2消息源接口設計149
6.3消息處理器接口設計150
6.4數據收集器設計151
6.5元組接口設計154
6.6序列化接口設計160
6.7本章小結161
第7章服務組件設計與實現162
7.1Executor設計與實現162
7.1.1事件驅動的消息隊列162
7.1.2動態裝載技術167
7.1.3Executor實現169
7.2Task設計與實現171
7.3本章小結172
第8章管理服務設計與實現173
8.1President功能與設計173
8.2President實現174
8.2.1簡單的網絡通信實現175
8.2.2Topology裝載實現182
8.2.3Manager管理調度實現184
8.2.4序列化實現193
8.3本章小結198
第9章實時處理係統編程接口實現199
9.1消息源接口實現200
9.1.1消息源執行器200
9.1.2WordCount實現實例205
9.2消息處理單元接口實現207
9.2.1消息處理單元執行器207
9.2.2事件處理212
9.2.3WordCount實現實例215
9.3數據收集器實現218
9.3.1分發策略218
9.3.2傳輸層實現224
9.4本章小結226
第10章可靠消息處理227
10.1基本概念227
10.1.1完全處理227
10.1.2失敗與重發229
10.2接口設計229
10.3具體實現233
10.3.1簡單實現233
10.3.2高效實現235
10.4本章小結237
第11章通信係統設計與實現238
11.1I/O多路復用方案解析239
11.1.1基本網絡編程接口239
11.1.2非阻塞的服務器程序241
11.1.3使用select()接口的基於事件驅動的服務器模型242
11.1.4使用epoll實現異步事件通知模型245
11.2基礎工具249
11.2.1綫程工具250
11.2.2日誌工具254
11.3傳輸層實現263
11.3.1Reactor模式263
11.3.2定義抽象TP傳輸層264
11.3.3實現基於epoll的TP傳輸層269
11.3.4實現基於IOCP的TP傳輸層290
11.4應用層HTTP實現307
11.4.1HttpContext307
11.4.2HttpRequest311
11.4.3HttpResponse313
11.4.4HttpConnection315
11.4.5HttpServer317
11.4.6總結319
11.5跨平颱分割編譯320
11.5.1Makefile320
11.5.2Kake323
11.6與實時處理係統集成325
11.6.1修改NetListener325
11.6.2修改NetConnector327
11.7本章小結330
第12章事務性Topology實現331
12.1Exact-once語義解決方案331
12.2設計細節333
12.2.1構造事務性Topology333
12.2.2消息處理單元334
12.3事務性TopologyAPI337
12.3.1消息處理單元337
12.3.2事務性消息源339
12.4本章小結339
第13章多語言接口340
13.1C語言通用接口340
13.1.1元組接口342
13.1.2消息源接口346
13.1.3消息處理單元接口349
13.1.4計算拓撲接口352
13.2Python接口354
13.2.1ctypes354
13.2.2元組接口356
13.2.3消息源接口359
13.2.4消息處理單元接口360
13.2.5計算拓撲接口361
13.2.6應用示例364
13.3JavaScript接口365
13.3.1V8引擎366
13.3.2Node.js366
13.3.3V8的互操作接口367
13.3.4任務接口368
13.3.5消息源接口369
13.3.6消息處理單元接口370
13.3.7計算拓撲接口371
13.3.8應用示例373
13.4Java接口375
13.4.1任務接口375
13.4.2消息源接口376
13.4.3消息處理單元接口377
13.4.4計算拓撲接口377
13.4.5本地代碼380
13.4.6應用示例382
13.5Swift接口384
13.5.1應用範圍385
13.5.2任務接口385
13.5.3消息源接口386
13.5.4消息處理單元接口387
13.5.5計算拓撲接口388
13.6本章小結390
第14章Squared設計與實現——實現高級抽象元語391
14.1StormTrident介紹391
14.1.1Squared示例391
14.1.2DRPC示例394
14.2Squared實現396
14.2.1SquaredTopology和Spout396
14.2.2SquaredBolt401
14.2.3Stream405
14.2.4狀態存儲410
14.2.5DRPC實現412
14.2.6操作與處理節點416
14.2.7流操作419
14.3本章小結423
第15章實戰:日誌流處理425
15.1日誌流處理設計方案425
15.2實現Topology427
15.2.1編寫消息源427
15.2.2編寫索引消息處理單元428
15.2.3編寫統計消息處理單元429
15.3本章小結431
第16章實戰:頻繁組閤查找432
16.1背景介紹432
16.1.1數據挖掘概念432
16.1.2關聯規則和頻繁項集433
16.1.3啤酒與尿布435
16.2頻繁二項集挖掘方法435
16.2.1頻繁二項集435
16.2.2算法設計思路438
16.2.3Hurricane實現思路439
16.3編寫Spout439
16.4編寫Bolt441
16.4.1SplitBolt441
16.4.2PairCountBolt442
16.4.3PairTotalCountBolt443
16.4.4ConfidenceComputeBolt444
16.4.5SupportComputeBolt445
16.4.6FilterBolt447
16.5編寫Topology448
16.6本章小結449
第17章實戰:在AWS和阿裏雲上部署Hurricane實時處理係統450
17.1AWS部署450
17.1.1搭建虛擬私有雲452
17.1.2配置安全組455
17.1.3加載EC2實例456
17.1.4彈性IP地址管理461
17.2阿裏雲部署464
17.2.1創建虛擬私有雲464
17.2.2管理安全組467
17.2.3創建ECS468
17.2.4SSH登錄471
17.3Hurricane分布式部署與管理471
17.3.1分布式部署原理472
17.3.2分布式安裝配置472
17.3.3分布式啓動476
17.4部署分布式實時處理係統477
17.5未來之路478
17.6本章小結479
Praise本書贊譽
本書不但講解高性能分布式實時處理係統編程的原理,特彆對內存資源管理、編碼解決方案、並發與異步處理、綫程模型、批處理與實時處理的區彆、消息隊列、動態裝載等作瞭詳細介紹,還深入分析瞭實時處理係統的架構以及內部實現,最後詳細分析瞭怎樣實現一套分布式實時處理係統Hurricane。本書非常適閤大數據開發人員和架構師閱讀,同時可以解決性能優化的很多問題。
——盧億雷,AdMaster技術副總裁兼總架構師
分布式係統可以追溯到20世紀60年代的ARPANET。隨著物聯網、邊緣計算和其他相關領域的蓬勃發展,對高性能分布式實時處理係統的 分布式實時處理係統:原理、架構與實現 下載 mobi epub pdf txt 電子書 格式
分布式實時處理係統:原理、架構與實現 下載 mobi pdf epub txt 電子書 格式 2024
分布式實時處理係統:原理、架構與實現 下載 mobi epub pdf 電子書物流速度快 質量也還可以
評分還沒看呢。買瞭好多書,然而都還沒有開始看。
評分書是正版, 很不錯, 雙十一優惠很大, 希望活動能更多些, 買瞭一堆書, 有需要的時候就可以直接拿來看瞭
評分第6~11章,動手時間!
評分估計會有用!慢慢看慢慢學
評分大緻看瞭下,不錯,以後會追加評論
評分好書
評分書不錯,幫朋友買的
評分寫得比較簡明扼要
分布式實時處理係統:原理、架構與實現 mobi epub pdf txt 電子書 格式下載 2024