發表於2024-11-19
時下極熱門的職業是數據科學傢,而不是傳統的信息科學傢,也不是大數據工程師。
數據科學傢必備的技能中,機器學習和Python 應該是位列前五的兩項,學習本書,實現自己的第1個小目標。
數據科學傢是當下炙手可熱的職業,機器學習則是他們的必備技能,機器學習在大數據分析中居於核心的地位,在互聯網、金融保險、製造業、零售業、醫療等産業領域發揮瞭越來越大的作用且日益受到關注。Python是很好很熱門的編程語言之一,以簡單易學、應用廣泛、類庫強大而著稱,是實現機器學習算法的語言。 《Python大戰機器學習:數據科學傢的diyi個小目標》以快速上手、四分理論六分實踐為齣發點,講述機器學習的算法和Python編程實踐,采用“原理筆記精華+算法Python實現+問題實例+實際代碼+運行調參”的形式展開,理論與實踐結閤,算法原理與編程實戰並重。《Python大戰機器學習:數據科學傢的diyi個小目標》共13 章分為4篇展開:第一篇:機器學習基礎篇(第1~6 章),講述機器學習的基礎算法,包括綫性模型、決策樹、貝葉斯分類、k近鄰法、數據降維、聚類和EM算法;第二篇:機器學習高級篇(第7~10章),講述經典而常用的高級機器學習算法,包括支持嚮量機、人工神經網絡、半監督學習和集成學習;第三篇:機器學習工程篇(第11~12章),講述機器學習工程中的實際技術,包括數據預處理,模型評估、選擇與驗證等。第四篇:kaggle實戰篇(第13章),講述一個kaggle競賽題目的實戰。本書內容豐富、深入淺齣,算法與代碼齊頭並進,無論你是新手還是有經驗的讀者,都能快速學到你想要的。《Python大戰機器學習:數據科學傢的diyi個小目標》可供為高等院校計算機、金融、數學、自動化及相關理工科專業的本科生或研究生使用,也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考。
華校專,計算機專業碩士。畢業後曾在部隊從事專業相關工作,並研讀瞭大量專業書籍在,從操作係統底層到應用APP開發,並且仿照 C++ STL 的風格實現瞭各種算法(算法導論的C++實現已經放在個人的github上),目前已從部隊退役,並順利拿到瞭阿裏的算法工程師offer。
第一篇 機器學習基礎篇1
第1 章 綫性模型 2
1.1 概述2
1.2 算法筆記精華2
1.2.1 普通綫性迴歸2
1.2.2 廣義綫性模型5
1.2.3 邏輯迴歸5
1.2.4 綫性判彆分析7
1.3 Python 實戰10
1.3.1 綫性迴歸模型11
1.3.2 綫性迴歸模型的正則化12
1.3.3 邏輯迴歸22
1.3.4 綫性判彆分析26
第2 章 決策樹 30
2.1 概述30
2.2 算法筆記精華30
2.2.1 決策樹原理30
2.2.2 構建決策樹的3 個步驟31
2.2.3 CART 算法37
2.2.4 連續值和缺失值的處理42
2.3 Python 實戰43
2.3.1 迴歸決策樹(DecisionTreeRegressor) 43
2.3.2 分類決策樹(DecisionTreeClassifier) 49
2.3.3 決策圖54
第3 章 貝葉斯分類器 55
3.1 概述55
3.2 算法筆記精華55
3.2.1 貝葉斯定理55
3.2.2 樸素貝葉斯法56
3.3 Python 實戰59
3.3.1 高斯貝葉斯分類器(GaussianNB) 61
3.3.2 多項式貝葉斯分類器(MultinomialNB) 62
3.3.3 伯努利貝葉斯分類器(BernoulliNB) 65
3.3.4 遞增式學習partial_fit 方法69
第4 章 k 近鄰法 70
4.1 概述70
4.2 算法筆記精華70
4.2.1 kNN 三要素70
4.2.2 k 近鄰算法72
4.2.3 kd 樹73
4.3 Python 實踐74
第5章 數據降維 83
5.1 概述83
5.2 算法筆記精華83
5.2.1 維度災難與降維83
5.2.2 主成分分析(PCA) 84
5.2.3 SVD 降維91
5.2.4 核化綫性(KPCA)降維91
5.2.5 流形學習降維93
5.2.6 多維縮放(MDS)降維93
5.2.7 等度量映射(Isomap)降維96
5.2.8 局部綫性嵌入(LLE) 97
5.3 Python 實戰99
5.4 小結118
第6章 聚類和EM 算法 119
6.1 概述119
6.2 算法筆記精華120
6.2.1 聚類的有效性指標120
6.2.2 距離度量122
6.2.3 原型聚類123
6.2.4 密度聚類126
6.2.5 層次聚類127
6.2.6 EM 算法128
6.2.7 實際中的聚類要求136
6.3 Python 實戰137
6.3.1 K 均值聚類(KMeans) 138
6.3.2 密度聚類(DBSCAN) 143
6.3.3 層次聚類(AgglomerativeClustering) 146
6.3.4 混閤高斯(GaussianMixture)模型149
6.4 小結153
第二篇 機器學習高級篇155
第7章 支持嚮量機 156
7.1 概述156
7.2 算法筆記精華157
7.2.1 綫性可分支持嚮量機157
7.2.2 綫性支持嚮量機162
7.2.3 非綫性支持嚮量機166
7.2.4 支持嚮量迴歸167
7.2.5 SVM 的優缺點170
7.3 Python 實戰170
7.3.1 綫性分類SVM 171
7.3.2 非綫性分類SVM 175
7.3.3 綫性迴歸SVR 182
7.3.4 非綫性迴歸SVR 186
第8章 人工神經網絡 192
8.1 概述192
8.2 算法筆記精華192
8.2.1 感知機模型192
8.2.2 感知機學習算法194
8.2.3 神經網絡197
8.3 Python 實戰205
8.3.1 感知機學習算法的原始形式205
8.3.2 感知機學習算法的對偶形式209
8.3.3 學習率與收斂速度212
8.3.4 感知機與綫性不可分數據集213
8.3.5 多層神經網絡215
8.3.6 多層神經網絡與綫性不可分數據集216
8.3.7 多層神經網絡的應用219
第9章 半監督學習 225
9.1 概述225
9.2 算法筆記精華226
9.2.1 生成式半監督學習方法226
9.2.2 圖半監督學習228
9.3 Python 實戰234
9.4 小結243
第10章 集成學習 244
10.1 概述244
10.2 算法筆記精華244
10.2.1 集成學習的原理及誤差244
10.2.2 Boosting 算法246
10.2.3 AdaBoost 算法246
10.2.4 AdaBoost 與加法模型252
10.2.5 提升樹253
10.2.6 Bagging 算法256
10.2.7 誤差-分歧分解257
10.2.8 多樣性增強259
10.3 Python 實戰260
10.3.1 AdaBoost 261
10.3.2 Gradient Tree Boosting 272
10.3.3 Random Forest 288
10.4 小結298
第三篇 機器學習工程篇299
第11章 數據預處理 300
11.1 概述300
11.2 算法筆記精華300
11.2.1 去除唯一屬性300
11.2.2 處理缺失值的三種方法301
11.2.3 常見的缺失值補全方法302
11.2.4 特徵編碼307
11.2.5 數據標準化、正則化308
11.2.6 特徵選擇310
11.2.7 稀疏錶示和字典學習313
11.3 Python 實踐316
11.3.1 二元化316
11.3.2 獨熱碼317
11.3.3 標準化321
11.3.4 正則化325
11.3.5 過濾式特徵選取326
11.3.6 包裹式特徵選取330
11.3.7 嵌入式特徵選取334
11.3.8 學習器流水綫(Pipeline) 339
11.3.9 字典學習340
第12 章 模型評估、選擇與驗證 345
12.1 概述345
12.2 算法筆記精華346
12.2.1 損失函數和風險函數346
12.2.2 模型評估方法348
12.2.3 模型評估349
12.2.4 性能度量350
12.2.5 偏差方差分解356
12.3 Python 實踐357
12.3.1 損失函數357
12.3.2 數據集切分359
12.3.3 性能度量370
12.3.4 參數優化387
第四篇 Kaggle 實戰篇401
第13 章 Kaggle 牛刀小試 402
13.1 Kaggle 簡介402
13.2 清洗數據403
13.2.1 加載數據403
13.2.2 閤並數據406
13.2.3 拆分數據407
13.2.4 去除唯一值408
13.2.5 數據類型轉換410
13.2.6 Data_Cleaner 類412
13.3 數據預處理415
13.3.1 獨熱碼編碼415
13.3.2 歸一化處理419
13.3.3 Data_Preprocesser 類421
13.4 學習麯綫和驗證麯綫424
13.4.1 程序說明424
13.4.2 運行結果430
13.5 參數優化433
13.6 小結435
全書符號 436
前言
擁抱大數據時代
“大傢還沒搞清PC 時代的時候,移動互聯網來瞭,還沒搞清移動互聯網的時候,大數據時代來瞭。”馬雲在2013 年淘寶十周年晚會上的這句話,仿佛一下子拉開瞭大數據時代的序幕。
新的時代,需要新的技術,新的技術,需要新的人纔。全球最著名的管理谘詢公司麥肯锡預測“到2018 年,美國在‘深度分析’人纔方麵將麵臨14 萬至19 萬的人纔缺口;在‘能
夠分析數據幫助公司做齣商業決策’方麵將麵臨150 萬的人纔缺口”。清華大學計算機係教授武永衛2016 年5 月透露瞭一組數據:未來3~5 年,中國需要180 萬數據人纔,但目前隻有約30 萬人。
大數據時代,做大數據分析人員有瞭一個更“性感”的名字,叫做數據科學傢(Data Scientist)。《哈佛商業評論》聲稱,21 世紀最富挑戰的工作是數據科學傢。時下最熱門的職業是數據科學傢,而不是傳統的信息科學傢,也不是大數據工程師。
數據科學傢必備的技能中,機器學習和Python 應該是位列前五的兩項。機器學習炙手可熱,在互聯網、金融保險、製造業、零售業、醫療等産業領域發揮瞭越來越大的作用,關注度也越來越高。而Python 則是最in 的語言,“人生苦短,我用Python”?_?怎麼用這本書?
機器學習既有算法又有實現,還是比較高深的,算法太難,啃不動,代碼太淺,鑽不下去。我們的目標是讓您快速上手,在內容組織上我們是動瞭心思的,采用“原理筆記精華+算法Python 實現+ 問題實例+ 實際代碼+ 運行調參”的形式,理論與實踐交織著展開,算法原理與編程實戰並重。
全書分13 章進行展開,分為機器學習基礎篇、機器學習高級篇、機器學習工程篇和kaggle 實戰篇。
1. 機器學習基礎篇(第1 ~ 6 章)
包括綫性模型、決策樹、貝葉斯分類、k 近鄰法、數據降維、聚類和EM 算法等內容。
這些基礎算法非常經典,原理也相對簡單,是入門的最佳選擇,掌握這些算法,纔能更好地理解後續的高級算法。非菜鳥可以直接忽略這部分。
2. 機器學習高級篇(第7 ~ 10 章)
包括支持嚮量機、人工神經網絡、半監督學習和集成學習等內容。
這些高級算法是目前應用非常廣泛,也是效果不錯的算法,需要深入理解算法的原理、優劣勢等特點以及應用場景,要能達到應用自如的程度。
3. 機器學習工程篇(第11 ~ 12 章)
講述機器學習工程中的實際技術,包括數據預處理,模型評估、選擇與驗證等內容。數據清洗、數據預處理和模型評估選擇在實際中非常重要,在整個工程項目的開發過程中通常占到一半以上的時間,這部分給齣的一些步驟和方法是實踐的精華,值得熟練掌握。
4. kaggle 實戰篇(第13 章)
Step-by-step 講述一個kaggle 競賽題目的實戰,有代碼有分析。
Kaggle 是目前頂級的數據科學比賽平颱,很多機器學習的牛人都在這裏玩過,咱們可以學習牛人好的算法,也可以啓發自己的思路。對於夢想成為牛人的您,還是去裏麵混混先:)萬一拿瞭個好的名次呢,拿個一流公司的offer 還是很easy 的。
本書的代碼全部開源,請自行去下載https://github.com/huaxz1986/git_book,也歡迎在這上麵交流。
由於作者水平和經驗有限,書中錯漏之處在所難免,敬請讀者指正。
作者
2017 年元旦於北京
Python大戰機器學習:數據科學傢的第一個小目標 下載 mobi pdf epub txt 電子書 格式 2024
Python大戰機器學習:數據科學傢的第一個小目標 下載 mobi epub pdf 電子書哦睏陌陌摸摸哦哦陌陌摸摸哦哦摸摸哦哦弄陌陌摸摸
評分好書,好書,好書,好書,好書,好書,好書
評分好書!不錯!!
評分內容感覺還可以吧,就是感覺我有點衝動消費瞭!沒有思考啊
評分666666
評分包裝很好,配送很快,服務很好,超級喜歡物美價廉好好
評分很好的介紹機器學習和Python用法的書,相見恨晚,真的是十分有用。
評分是正版書,內容不錯,值得一讀。
評分不錯,速度很快,正在研讀
Python大戰機器學習:數據科學傢的第一個小目標 mobi epub pdf txt 電子書 格式下載 2024