發表於2024-12-21
作者團隊由來自中國*大的獨立第三方移動數據服務平颱TalkingData的十餘位一綫技術專傢組成,不僅能確保內容的專業性、係統性,而且能結閤國內先進的大數據公司的實戰經驗,幫助大數據從業人員熟悉大數據相關的知識和工具,助力企業的管理者建立數據驅動文化並構建大數據團隊。
通過此書,企業管理者能夠建立起智能企業的定位,業內專業人士能夠有更清晰的戰略全景和邏輯脈絡。此書將成為大數據從業人員、大數據企業管理人員以及大數據領域的投資者、監管者的必備參考書籍。
大數據這個概念自誕生以來,已經經曆瞭幾次飛躍。當今社會,對傳統大數據中的量的需求已經很容易達到,大數據的競爭轉嚮瞭數據質量。隻有將深入在各種行業情景中、非結構化的、與業務流程直接相關的高價值數據挖掘齣來,企業纔有可能基於自己的業務進行分析甚至預測。因此,大數據時代進入瞭一個新的紀元——智能數據時代。
本書作者團隊來著大數據行業的領軍企業TalkingData,他們站在企業管理者的角度上,係統全麵地剖析瞭企業如何轉型以適應當今智能數據時代。全書以大數據相關的知識和工具為起點,重點介紹瞭企業大數據實施的三個方麵——數據管理、數據工程和數據科學,並結閤一綫的大數據實戰經驗,幫助讀者更深刻地理解如何構築數據驅動型企業。
TalkingData(北京騰雲天下科技有限公司)成立於2011年,是中國*大的獨立第三方移動數據服務平颱。TalkingData一直緻力於數據的深耕與數據價值的挖掘,從數據的采集、處理到數據的分析,再到數據的應用與谘詢。TalkingData已經形成瞭一套以“智能數據平颱”(SmartDP)為主的完整數據應用體係,並構築瞭一套以數據商業化平颱、數據服務平颱及數據閤作平颱為核心的數據生態。目前,TalkingData的平均月活躍用戶為6.5億,為超過12萬款移動應用以及10萬應用開發者提供服務。覆蓋的客戶主要為金融、地産、快消、零售、齣行、政府等行業中的領軍企業,連續三年實現業務的三倍快速增長。
作為大數據領域的先峰,TalkingData的發展速度有目共睹,而他們服務企業的能力更令人颳目相看。數字經濟是一個綜閤課題,涉及對商業的理解、大數據治理、分析洞察、機器學習等。其實大數據並非一個新的話題,在它真正産生巨大價值之前,新舊經濟將産生衝突然後相互融通。企業開始明白不能錯過這個前所未有的智能變革的時機,但卻輕嘆路在何方。本書是TalkingData多年的經驗總結,嚮讀者分享一個較完整的數字化的框架設計。雖然麵對不同的環境不存在必勝的方法,但在讓人眼花繚亂的智能數據年代,本書的齣現正如一盞明燈,為企業指明瞭大數據戰略方嚮。
——車品覺,前阿裏巴巴集團副總裁/數據委員會會長,紅杉資本閤夥人
在智能時代,數據的價值毋庸置疑,但數據就像埋在石頭裏的礦物,必須經過挖掘與提煉纔能變成有價值的東西。近幾年,不少大數據相關的工具應運而生,對海量數據的實時記錄與分析,可用數據的選擇,閤理數據的篩選,給大數據工程師帶來新的要求。大數據也推動瞭雲服務的發展,越來越多的企業通過雲來打通數據孤島,讓多維度的數據可以在安全的環境下整閤分析,從而提高瞭營銷效率,提升瞭用戶體驗,新應用場景與價值不斷齣現。本書針對不同類型的數據場景,深入淺齣地介紹瞭常用的工具,也給齣不少實操的技巧,給大數據工程師提供瞭全麵的指導。
——湯道生,騰訊公司社交網絡事業群總裁,集團高級執行副總裁
企業在數字化轉型時期,需要構建和優化企業大數據管理平颱,不斷挖掘應用機會。本書既指明方嚮,又提供方法,相信能很好指導企業嚮智能數據時代演進。
——硃戰備,萬達首席信息官
數據作為一種資源,已經成為包括AI在內幾乎所有行業的基礎,如何把數據分析和洞察結果應用到業務中已是剛需。本書為我們展示瞭如何通過對海量數據的挖掘和運用,使企業融入新一波的生産力發展浪潮。其中總結的經驗值得所有大數據與相關領域從業人員學習。
——簡仁賢,竹間智能創始人及CEO
大數據的海量及龐雜對它的管理及應用帶來瞭極大的挑戰。本書的作者們對大數據的實踐現狀做瞭階段性的總結,分享瞭寶貴的實戰經驗,給未來數據的智能化提供瞭豐富的擴展空間。
——呂雲山,美國PetuumInc首席架構師
前言
第一篇 大數據基礎知識
第1章 大數據的基本定義 / 2
1.1 大數據分析的齣現 / 3
1.2 大數據如何發掘價值 / 3
1.3 大數據處理的關鍵——數據類型 / 5
1.4 大數據處理的微妙之處 / 6
1.5 大數據環境下的處理分析工具 / 7
1.6 智能數據時代到來 / 10
第2章 數據的藝術 / 12
2.1 評估可能性的藝術 / 12
2.2 瞭解現狀 / 13
2.3 自我評估、完善度、信息架構 / 14
2.4 願景部署 / 19
2.5 現在和將來的數據倉庫 / 20
2.6 實時建議和操作 / 25
2.7 驗證提齣的願景 / 26
第3章 大數據:有所為有所不為 / 28
3.1 大數據分析最佳實踐 / 28
3.2 從小做起 / 29
3.3 關注大局 / 30
3.4 避免最差實踐 / 30
3.5 步步為營 / 32
3.6 學會利用異常數據 / 34
3.7 速度與精度的抉擇 / 35
3.8 內存計算 / 36
第二篇 大數據工具和技術
第4章 分布式世界中的設計 / 42
4.1 可見性 / 43
4.2 保持簡單的重要性 / 44
4.3 組閤 / 44
4.4 分布式狀態 / 49
4.5 CAP原則 / 51
4.6 鬆耦閤係統 / 53
4.7 速度 / 55
4.8 總結 / 58
第5章 大數據分析工具 / 59
5.1 Apache Hadoop / 59
5.2 Apache Spark / 69
5.3 NoSQL數據庫 / 73
5.4 MongoDB / 89
第三篇 數據管理
第6章 大數據的類型 / 108
6.1 定義結構化數據 / 109
6.2 探秘結構化數據來源 / 109
6.3 關係數據庫在大數據中扮演的角色 / 110
6.4 非結構化數據 / 111
6.5 內容管理係統在大數據管理中的作用 / 112
6.6 實時和非實時條件 / 113
6.7 大數據集成 / 114
第7章 大數據的新範式:我們想要從大數據係統中獲得什麼 / 116
7.1 穩定性和容錯性 / 116
7.2 橫嚮擴容 / 117
7.3 可擴展性 / 117
7.4 即席查詢 / 117
7.5 最小化維護 / 117
7.6 可調試性 / 118
7.7 完全增量式架構 / 118
7.8 操作復雜性 / 119
7.9 極其復雜地實現最終一緻性 / 119
7.10 人為容錯的缺陷 / 121
7.11 Lambda架構 / 121
第8章 數據管理 / 125
8.1 數據管理成熟度評估 / 125
8.2 元數據管理 / 128
8.3 數據治理 / 130
8.4 數據質量管理 / 134
8.5 參考數據與主數據管理 / 137
第四篇 數據工程
第9章 理解數據業務流程 / 142
9.1 理解商業動機 / 142
9.2 調查計劃 / 146
9.3 初步研究 / 146
9.4 專傢谘詢 / 146
9.5 識彆關鍵成功因素 / 147
9.6 優先考慮早期路綫圖的執行 / 150
9.7 戰略圖譜 / 154
第10章 大數據和雲計算 / 163
10.1 雲計算的定義 / 163
10.2 私有雲與公有雲計算 / 165
10.3 IaaS典型平颱——亞馬遜雲平颱AWS / 165
10.4 PaaS典型平颱 / 172
10.5 SaaS典型平颱 / 176
第11章 數據收集 / 179
11.1 收集一切 / 179
11.2 為數據源設置優先級 / 181
11.3 關聯單獨的數據 / 182
11.4 如何收集數據 / 184
11.5 數據采購 / 186
11.6 數據保留 / 190
第12章 數據質量和數據預處理 / 191
12.1 數據質量:為什麼要對數據做預處理 / 191
12.2 數據預處理的主要工作 / 192
第13章 數據安全和隱私 / 195
13.1 數據收集:瞭解隱私的最前沿 / 195
13.2 策略考慮因素 / 196
13.3 實施考慮因素 / 200
13.4 總結 / 201
第五篇 數據科學
第14章 數據分析 / 204
14.1 什麼是分析 / 205
14.2 分析的類型 / 206
第15章 數據探索 / 221
15.1 概要 / 221
15.2 數據探索的目標 / 222
15.3 數據集 / 222
15.4 描述性統計 / 225
15.5 數據可視化 / 229
15.6 數據探索路綫圖 / 240
第16章 大數據、數據科學和數據挖掘 / 242
16.1 先驗知識 / 244
16.2 數據準備 / 246
16.3 建模 / 249
16.4 應用 / 253
16.5 總結 / 255
第六篇 構築數據驅動型企業
第17章 建立數據驅動文化 / 258
17.1 數據收集 / 260
17.2 報告 / 261
17.3 警報 / 262
17.4 從報告到警報再到分析 / 263
17.5 數據驅動的標誌 / 265
17.6 分析成熟度 / 267
第18章 構建大數據團隊 / 271
18.1 數據科學傢 / 271
18.2 團隊挑戰 / 272
18.3 不同的團隊,不同的目標 / 272
18.4 彆忘瞭數據 / 273
18.5 更多挑戰 / 274
18.6 團隊與文化 / 274
18.7 量化成就 / 275
第七篇 大數據實戰
第19章 大數據使用實例 / 278
19.1 大數據的使用與意義 / 279
19.2 案例:大數據在金融領域的應用 / 283
19.3 案例:大數據在地産領域的應用 / 298
第20章 大數據分析和數據驅動決策的思維實戰 / 309
20.1 無處不在的數據機會 / 309
20.2 數據科學、數據工程和數據驅動決策 / 312
20.3 數據處理和大數據 / 314
20.4 從大數據1.0到大數據2.0 / 314
20.5 數據和數據科學能力作為戰略資産 / 315
20.6 數據分析思維 / 317
20.7 具備數據分析技能的管理者 / 318
20.8 數據挖掘與數據科學 / 319
20.9 化學反應不隻限於試管:數據科學與數據科學傢的工作 / 320
20.10 總結 / 321
第21章 結語
21.1 全麵解讀 / 322
21.2 通往大數據之路 / 323
21.3 思索大數據的真實一麵 / 324
21.4 大數據實踐 / 325
21.5 深度解讀大數據處理流程 / 325
21.6 大數據可視化 / 329
21.7 大數據隱私 / 330
大數據這個概念自誕生以來,已經經曆瞭幾次飛躍。時至今日,大數據這個名詞頻繁地與人工智能、DT、預測等詞匯放在一起,看上去數據的發展已經成為與科技發展甚至整個社會發展平行的存在——?一切的顛覆都離不開數據。大數據是一種賦能工具,它的作用是幫助行業加速價值的流通,減少信息不對稱,提高交易效率。
市麵上大數據行業相關的書籍已經汗牛充棟,然而還沒有這樣一本書——全麵地解析大數據、企業和人之間的關係,站在企業管理者的角度解答如何利用大數據加速發展、攫取更多的價值;更沒有人全麵告訴企業的管理者,如果想轉型以適應當今智能數據時代,應該儲備何種知識和人纔。TalkingData作為大數據行業的領軍企業,決定寫這樣一本書。
競爭環境:行業快速發展,傳統行業加速轉型
根據IDC的數據顯示,到2020年,全球大數據技術和服務市場預計將達到589億美元,其中大數據基礎設施占277億美元,大數據軟件占159億美元,大數據服務占(包括專業和支持服務)153億美元。相比於北美等發達地區,中國大數據産業雖然年輕,但是處於快速發展期。根據DT大數據産業創新研究院(DTiii)的預測,從現在到2025年,大數據産業的經濟總量將呈指數級增長(如下圖),覆蓋的行業包括政府、金融、電信、交通、工業、能源、房地産、教育、商業服務、醫療、文娛、農業等。
2015—2025年中國大數據産業增長趨勢圖
注:數據來源於DT大數據産業創新研究院(DTiii,2016)。
除瞭飛速發展的整個行業總量之外,大數據行業本身也帶有快速顛覆迭代的特徵。當今社會,對傳統大數據中量的需求已經很容易達到,大數據的競爭轉嚮瞭數據質量。那些深入在各種行業情境中、非結構化的、與業務流程直接相關的數據,成為高價值的數據類型。隻有將這部分數據挖掘齣來,企業纔有可能基於自己的業務進行分析甚至預測。因此,大數據時代進入瞭一個新的紀元——智能數據時代。
數據和人工智能是智能數據時代的鮮明特徵,但是隻有數據和人工智能依然不足,還需要人類智慧的參與。數據、人工智能和人類智慧,成為智能數據時代的三大要素。
數據的積纍可以為人類提供更多更細的洞察分析,人類經驗得以增強,人類智慧得以增長。比如,通過更多來自於手機的用戶行為分析,企業可以對自己的用戶有更多瞭解,包括他們的生活喜好、消費習慣等,以此産生更多的營銷機會。人工智能本身也需要人類智慧的介入,以引導人工智能的方嚮,提高人工智能的效率。比如,AlphaGo也需要不斷地與人類圍棋高手對戰,依靠人類智慧的輔助,纔能持續提升棋力。
缺乏人類智慧的持續介入,人工智能對數據的加成作用會隨著數據的變化逐步弱化甚至失效;缺乏人工智能,人類無法依靠自身處理如此復雜而且快速變化的數據;缺乏數據,人工智能無法存在,人類智慧的積纍也會放緩。數據、人工智能和人類智慧互相促進,組成一個正嚮的循環。比如情景感知領域,基於手機上體現姿態動作的傳感器數據,經過人工智能的算法,可以判斷手機用戶的動作和姿態(包括走路、騎車、駕駛等)。如果判斷不夠準確,就需要人工介入,對數據再進行整理和增強、對算法進行優化,直到結果達到可用的程度。同時,具有情景感知能力的手機,可以給應用開發者提供更多的應用場景和體驗,比如運動健身、金融風控、物流管理、娛樂體驗等,相應地也會産生更多的數據——這些新的數據讓人類智慧更快積纍,也讓人工智能更加強大。比如,通過情景感知數據,發現絕大部分用戶在使用App的時候手機都是處於手持狀態,那麼非手持狀態的使用場景是否意味著更大的金融風險?
人工智能和人類智慧,讓數據豈止“大”?智能數據時代的三大要素聚閤裂變,已經産生難以想象的價值。
現實差距:人纔缺口
很多企業在智能數據時代舉步維艱,但是也有一些新的企業脫穎而齣,利用數據來增強自己的競爭力,在各個領域對傳統企業形成巨大的衝擊。據A16Z的2016移動互聯網報告,以GAFA(榖歌、亞馬遜、Facebook、蘋果)為代錶的數據巨頭,已經在數據和技術領域建立起牢固的優勢,在年收入規模上比Wintel同盟要大3倍。反過來,它們也在通過數據和技術改變傳統行業的形態和模式,包括零售、媒體發行、汽車等。
這些新的數據和技術的先鋒具有一些共同的特徵:實現瞭業務數據化和數據資産化,能夠用數據來驅動場景化的應用,高效地探索和轉化商業價值。這樣的企業,已經擁有數據驅動的文化,我們叫做智能企業(SmartEnterprise):
1.具有靈活的技術平颱和數據科學能力,能支撐足夠大的數據量級、足夠多的數據維度、足夠復雜的數據類型、足夠靈活的數據格式、足夠低的數據洞察延時等,提高各種數據應用場景的交付效率。
2.具有統一的數據管理策略,以管理跨企業的、一緻的數據視圖,能高效地匯聚數據(包括自有數據和第三方數據),也能高效地輸齣數據和數據服務。
3.具有端到端的數據工程能力,以支撐業務綫的可管理的數據運營,形成數據閉環和持續的業務優化。
若要轉型為智能企業,人的智慧尤為重要,因此對於無論是大數據企業還是亟待轉型的傳統企業來說,都提齣瞭人纔的類型、數量和知識結構的嚴苛挑戰。但是一個嚴酷的現實是,現在的人纔儲備是遠遠跟不上行業需求的。從下圖我們可以看齣,在搭建大數據平颱應用來應對轉型的企業所遇到的痛點中,有一半多的原因是卡在瞭人纔不足這個關口上。根據DT大數據産業創新研究院(DTiii)資料顯示,到2025年,中國的大數據人纔缺口將高達200萬。這不僅僅是在中國,在美國問題同樣嚴重。McKinsey預測:至2018年,美國將有60%的組織設置首席數據官(CDO),需要400萬名具備大數據分析能力的經理和分析師,人纔缺口將達到150萬;未來八年將有19%的大數據人纔需求增長。
塔建大數據平颱應用方式中遇到的主要睏難
注:資料來源於CSDN《2015年中國軟件開發者白皮書》。
從上麵的數字我們可以看齣,僅僅靠大學設立相關學位專業和社會上多開幾個專傢培訓課程是無法彌補如此大的人纔缺口的。智能數據時代大數據人纔的培訓,需要嚴謹的知識架構設計、先進的技術工具輔助以及前沿的行業最佳實踐的熏陶。這個時候,僅僅靠學術界和社會培訓的努力是不夠的,身為一綫離炮火最近的組織,大數據企業本身應當積極投入到為社會進行人纔建設和儲備的事業中去。
智能數據時代人纔的知識架構
在智能數據時代,對於人纔的知識儲備的要求是綜閤的。如下圖所示,TalkingData認為智能企業所需的人纔應當具備行業領域知識、IT技能和數據科學知識。團隊內部的人纔組閤必須能夠閤理覆蓋這三個知識領域,艱巨的任務纔能迎刃而解。
智能數據時代:企業大數據戰略與實戰 下載 mobi epub pdf txt 電子書 格式智能數據時代:企業大數據戰略與實戰 下載 mobi pdf epub txt 電子書 格式 2024
智能數據時代:企業大數據戰略與實戰 下載 mobi epub pdf 電子書好好閱讀好好閱讀好好閱讀好好閱讀好好閱讀
評分薄膜沒有,貌似發給我的是本舊書
評分智超市裏麵的周競爭力氣活著呢?
評分大數據和數據驅動方麵比較基礎的書
評分好書,值得推薦~都可以看看
評分好好閱讀好好閱讀好好閱讀好好閱讀好好閱讀
評分薄膜沒有,貌似發給我的是本舊書
評分開捲有益,信賴京東。
評分偏於技術,對於我這個小白來說讀起來有睏難!
智能數據時代:企業大數據戰略與實戰 mobi epub pdf txt 電子書 格式下載 2024