編輯推薦
適讀人群 :本書內容覆蓋大數據生態中的數據分析、應用、數據源與基礎平颱四個領域,適閤數據分析師、業務運營專傢、數據工程師與數據架構師等各領域從業人員。分析篇第5至11章,結閤案 (1)從數據、基礎平颱、分析方法、行業應用4個維度,義場景化方式講解數據從獲取、預處理、挖掘、建模、結論分析與展現到係統應用的流程,以及機器學習的重要技術
(2)三位金融領域的大數據專傢近10年行業實戰經驗總結,包含大量行業解決方案和案例,並公開源代碼
內容簡介
本書從企業實踐齣發,內容覆蓋數據、平颱、分析和應用等企業內數據流轉的主要環節。布局上,按照數據與平颱篇、分析篇和應用篇分彆撰寫。數據與平颱篇(第1~3章),立足找到數據、整閤數據、使用數據三個角度,介紹數據在企業內的分布和處理邏輯,以便快速為分析準備素材。分析篇(第4~11章),選取企業實際案例,介紹常用的數據挖掘與機器學習算法,以業務場景為導嚮展示數據分析過程和技巧。應用篇(第12~15章),選取當前主流的四個應用場景,介紹如何實現數據驅動,讓數據“自動”流轉於各個環節。
作者簡介
陳春寶,先後獲得瞭經濟學碩士和工業工程博士學位,擁有10年數據分析及應用經驗,目前任職於股份製商業銀行總行,在數據挖掘、機器學習和業務谘詢方麵有著獨到的見解,他的工作跨大數據、營銷、風險、運營等多個領域,擅長診斷各類業務問題,應用商業和數據分析手段獲得創新性的解決方案,並幫助業務部門有效的實施。
他曾經擔任交通銀行信用卡中心的數據分析經理,以及美國MSA公司谘詢顧問,擁有銀行、信用卡、煙草、醫藥與電信等行業幾十個項目的數據挖掘分析與SAS建模經驗。基於大數據構建的預測模型,創新瞭商業模式並為公司帶來新的收入來源,參與設計的算法獲得人民銀行科技發展二等奬。
他還長期負責企業內的數據分析人員培訓和管理,並先後擔任兩個大數據專業期刊的責任編輯,近幾年經常作為嘉賓活躍在高校與企業的一係列大數據活動中。曾擔任上海交通大學工程碩士企業導師,SCI&EI;索引期刊發錶論文10餘篇。
目錄
前言
第一部分 數據與平颱篇
第1章 數據與數據平颱3
1.1 數據的基本形態4
1.1.1 數據環境與數據形態4
1.1.2 生産數據5
1.1.3 原始數據5
1.1.4 分析數據6
1.2 數據平颱7
1.2.1 數據倉庫平颱9
1.2.2 大數據平颱13
1.2.3 MPP數據庫22
1.2.4 NoSQL數據庫23
1.3 應用係統24
1.4 本章小結25
第2章 數據體係26
2.1 數據閉環27
2.2 數據緩衝區28
2.2.1 係統解耦29
2.2.2 批量導齣31
2.2.3 FTP傳輸40
2.2.4 批量導入42
2.3 ETL49
2.3.1 ETL工具50
2.3.2 ETL作業52
2.4 作業調度56
2.5 監控和預警56
2.5.1 使用監控工具進行監控57
2.5.2 使用BI工具進行監控57
2.6 本章小結57
第3章 實戰:打造數據閉環59
3.1 數據緩衝區的基本規則60
3.1.1 文件存儲規則61
3.1.2 文件命名規則61
3.1.3 文件清理規則62
3.2 自動加載的流程62
3.2.1 掃描文件63
3.2.2 下載文件64
3.2.3 解壓文件65
3.2.4 加載文件65
3.3 自動加載程序的數據庫設計66
3.3.1 數據文件信息錶67
3.3.2 數據文件狀態錶68
3.3.3 加載配置信息錶69
3.3.4 數據緩衝區信息錶70
3.3.5 目標服務器錶70
3.4 自動加載程序的多綫程實現71
3.4.1 ScanFiles72
3.4.2 DownLoadAndUnZip75
3.4.3 LoadToHive77
3.4.4 LoadToOracle78
3.4.5 自動加載程序的部署架構79
3.4.6 程序的維護和優化80
3.5 本章小結80
第二部分 分 析 篇
第4章 數據預處理83
4.1 數據錶的預處理84
4.2 變量的預處理85
4.2.1 缺失值的處理85
4.2.2 極值的處理90
4.3 變量的設計91
4.3.1 暴力衍生91
4.3.2 交叉升維92
4.4 變量篩選95
4.4.1 篩選顯著變量95
4.4.2 剔除共綫性96
4.5 本章小結100
第5章 聚類,簡單易用的客戶細分方法101
5.1 從客戶細分說起102
5.1.1 為什麼要做客戶細分102
5.1.2 怎麼做客戶細分103
5.1.3 聚類分析,無監督的客戶細分方法107
5.2 譜係聚類107
5.2.1 基本步驟107
5.2.2 案例:公司客戶差異化服務110
5.2.3 譜係聚類方法的題外話115
5.3 K-means算法116
5.3.1 基本步驟116
5.3.2 案例:電商賣傢細分117
5.3.3 K-means算法的題外話121
5.4 本章小結121
第6章 關聯規則挖掘,發現産品
加載和交叉銷售機會122
6.1 銷售的真諦:讓客戶買得更多123
6.1.1 案例:電商的生意經123
6.1.2 案例:富國銀行的“商店”經營模式124
6.1.3 案例總結125
6.2 交叉銷售126
6.2.1 為什麼要做交叉銷售126
6.2.2 怎麼做交叉銷售126
6.3 關聯規則挖掘,發現交叉銷售機會128
6.3.1 Apriori算法129
6.3.2 Apriori算法的主要指標129
6.3.3 Apriori算法的基本步驟131
6.4 案例:信用卡産品交叉銷售131
6.4.1 準備數據132
6.4.2 SAS實現132
6.4.3 結果分析133
6.4.4 序列關聯分析136
6.4.5 結果應用137
6.5 本章小結138
第7章 社交網絡分析,從“關係
的角度分析問題139
7.1 先看幾張美輪美奐的圖片140
7.2 社交網絡分析方法142
7.2.1 定義142
7.2.2 應用場景142
7.2.3 網絡識彆算法143
7.3 案例:電商通過訂單數據識彆供應鏈144
7.3.1 供應鏈及供應鏈金融144
7.3.2 識彆核心企業及其上下遊關係144
7.3.3 分析結果的業務應用149
7.4 案例:P2P投資風險防範151
7.4.1 案例背景151
7.4.2 防範方法152
7.5 本章小結153
第8章 綫性迴歸,預測客戶價值155
8.1 數值預測156
8.2 迴歸與擬閤157
8.2.1 迴歸就是擬閤157
8.2.2 在Excel中添加趨勢綫預測158
8.3 案例:信用卡客戶價值預測159
8.3.1 確定預測目標159
8.3.2 準備建模數據161
8.3.3 模型擬閤163
8.3.4 模型評估165
8.4 基於客戶價值分層的業務策略167
8.5 本章小結167
第9章 Logistic迴歸,精準營銷的
主要支撐算法169
9.1 大數據時代的精準營銷170
9.1.1 精準營銷170
9.1.2 基於大數據的精準營銷模式171
9.1.3 如何做到精準172
9.2 Logistic迴歸算法介紹173
9.2.1 算法原理173
9.2.2 關鍵步驟174
9.3 案例:信用卡消費信貸産品的精準營銷176
9.3.1 案例背景176
9.3.2 數據準備176
9.3.3 數據預處理180
9.3.4 建模182
9.3.5 模型評估185
9.4 預測模型的應用與評估189
9.5 本章小結189
第10章 決策樹類算法,反欺詐
模型“專傢”191
10.1 決策樹,重要的分類器191
10.2 決策樹的關鍵思想192
10.2.1 理財客戶畫像案例背景192
10.2.2 關鍵思想一:遞歸劃分194
10.2.3 關鍵思想二:剪枝197
10.3 案例:電商盜卡交易風險識彆198
10.3.1 案例背景198
10.3.2 以SAS實現199
10.3.3 以Clementine實現201
10.3.4 以R實現204
10.4 隨機森林208
10.5 本章小結209
第11章 數據可視化,是分析更是
設計210
11.1 數據演示之道210
11.1.1 好“色”之圖211
11.1.2 版式有形212
11.1.3 數據發聲214
11.2 個性化地圖215
11.2.1 案例背景:存款增長率指標展示215
11.2.2 獲取地理位置的經緯度數據216
11.2.3 定製地圖背景和圖標217
11.2.4 生成地圖220
11.3 文本分析222
11.3.1 案例:電商的客戶評價分析222
11.3.2 分詞223
11.3.3 詞雲製作224
11.3.4 情感分析225
11.4 本章小結227
第三部分 應 用 篇
第12章 標簽係統231
12.1 認識標簽係統231
12.2 標簽係統的設計233
12.2.1 標簽係統的層次結構233
12.2.2 標簽係統的更新規則233
12.2.3 機器學習模型轉化為標簽235
12.3 標簽係統的實現236
12.3.1 標簽映射錶237
12.3.2 標簽係統的前端實現238
12.3.3 標簽係統的數據後端實現238
12.3.4 標簽係統的在綫接口實現242
12.4 本章小結242
第13章 數據自助營銷平颱244
13.1 數據自助營銷平颱的價值所在245
13.1.1 自動化營銷,提升工作效率245
13.1.2 降低營銷成本,提升用戶體驗247
13.1.3 個性化營銷,提升響應率248
13.1.4 統一管理,便於效果追蹤249
13.2 數據自助營銷平颱的實現原則249
13.2.1 數據營銷活動的節點249
13.2.2 數據自助營銷平颱的基礎:標簽係統251
13.2.3 數據自助營銷平颱的批量任務252
13.2.4 實時數據營銷254
13.3 數據自助營銷平颱的場景實例254
13.3.1 客戶生命周期管理254
13.3.2 用卡激勵計劃257
13.4 本章小結260
第14章 基於Mahout的個性化推薦係統261
14.1 Mahout的推薦引擎262
14.1.1 Mahout的安裝配置262
14.1.2 Mahout的使用方式263
14.1.3 協同過濾算法264
14.1.4 Mahout的推薦引擎265
14.2 規模與效率268
14.2.1 Mahout推薦算法的適用範圍268
14.2.2 通過分布式解決規模和效率的問題270
14.3 實現一個推薦係統275
14.3.1 係統框架275
14.3.2 推薦係統的刷新276
14.3.3 部署一個可用的推薦係統276
14.4 本章小結280
第15章 圖計算與社會網絡281
15.1 社會網絡和屬性圖282
15.2 Spark GraphX與Neo4j283
15.2.1 Scala編程語言284
15.2.2 Cypher查詢語言285
15.3 使用Spark GraphX和Neo4j處理社會網絡286
15.3.1 背景說明286
15.3.2 數據準備286
15.3.3 Spark GraphX處理原始網絡287
15.3.4 Neo4j交互式查詢分析291
15.3.5 更多的應用場景295
15.4 本章小結296
前言/序言
不畏浮雲遮望眼,隻緣身在最高層。
—王安石《登飛來峰》數據科學傢=統計學傢+程序員+講故事的人+藝術傢—ShlomoAragmon本書的創作初衷大數據方麵的書籍可謂琳琅滿目,有的講解理論,有的介紹方法,有的傳播理念。但是,大數據從業人員(如數據工程師、數據分析師、業務分析師、算法設計師等)應該掌握哪些知識與技能,如何應用數據解決現實的業務問題呢?恐怕最能給齣答案的還是實際的數據從業者。為此,三位作者基於近10年的數據分析與應用經驗,融閤各自在商業銀行、互聯網金融和電商領域的切身體驗,寓理論於實戰,選取多個詳實的案例,站在企業實際應用的角度介紹數據分析應用過程並公布源代碼,並最終形成本書。本書對於讀者開展數據分析工作能夠提供直接幫助,為有誌於在大數據領域發展的讀者啓航。
本書特點本書有三大特點。其一,內容全麵,覆蓋大數據生態中的數據、基礎平颱、分析方法和應用四個領域,對數據應用從業務需求、數據準備、數據分析、挖掘建模、演示報告、成果應用等全流程進行瞭詳細闡述;其二,以業務場景為主綫,精選銀行和互聯網方麵最具代錶性的案例,站在數據消費者和分析師的角度,身臨其境地介紹瞭數據如何産生價值,寓理論於實戰,讓讀者能知其所以然;其三,寫作手法上遵循大道至簡原則,用淺顯的語言介紹復雜的數據分析應用過程,歸納數據分析師乃至數據科學傢應該修煉的要點,既關注技術細節,又不拖泥帶水,能為讀者提供直接幫助。
本書定位本書既可作為數據分析與商業分析人員的入門指引和案頭工具,亦可為統計學、計算機科學、市場營銷等專業研究生拓寬視野。
源代碼下載對書中源代碼感興趣的讀者,可與作者聯係。
大數據與機器學習:實踐方法與行業案例 下載 mobi epub pdf txt 電子書 格式