産品特色
內容簡介
R本身是一款十分優秀的數據分析和數據可視化軟件。《機器學習與R語言》通過將實踐案例與核心的理論知識相結閤,提供瞭你開始將機器學習應用到你自己項目中所需要的知識。《機器學習與R語言》主要內容:機器學習的基本概念和理論,用於機器學習的R軟件環境;如何應用R來管理數據,進行數據的探索分析和數據可視化;典型的機器學習算法和案例,並給齣瞭詳細的分析步驟;模型性能評價的原理和方法;提高模型性能的幾種常用方法;其他機器學習主題。《機器學習與R語言》適用於任何希望使用數據來采取行動的人。讀者隻需要具有R的一些基本知識,不需要具備機器學習的深厚基礎。不管是R初學者,還是熟練的R用戶都能從書中找到對自己有用的內容。
目錄
推薦序
譯者序
前言
緻謝
關於技術評審人
第1章 機器學習簡介 1
1.1 機器學習的起源 2
1.2 機器學習的使用與濫用 3
1.3 機器如何學習 5
1.3.1 抽象化和知識錶達 6
1.3.2 一般化 7
1.3.3 評估學習的成功性 9
1.4 將機器學習應用於數據中的步驟 9
1.5 選擇機器學習算法 10
1.5.1 考慮輸入的數據 10
1.5.2 考慮機器學習算法的類型 11
1.5.3 為數據匹配閤適的算法 13
1.6 使用R進行機器學習 13
1.7 總結 17
第2章 數據的管理和理解 18
2.1 R數據結構 18
2.2 嚮量 19
2.3 因子 20
2.3.1 列錶 21
2.3.2 數據框 22
2.3.3 矩陣和數組 24
2.4 用R管理數據 25
2.4.1 保存和加載R數據結構 25
2.4.2 用CSV文件導入和保存數據 26
2.4.3 從SQL數據庫導入數據 27
2.5 探索和理解數據 28
2.5.1 探索數據的結構 29
2.5.2 探索數值型變量 29
2.5.3 探索分類變量 37
2.5.4 探索變量之間的關係 39
2.6 總結 42
第3章 懶惰學習——使用近鄰分類 44
3.1 理解使用近鄰進行分類 45
3.1.1 kNN算法 45
3.1.2 為什麼kNN算法是懶惰的 51
3.2 用kNN算法診斷乳腺癌 51
3.2.1 第1步——收集數據 51
3.2.2 第2步——探索和準備數據 52
3.2.3 第3步——基於數據訓練模型 55
3.2.4 第4步——評估模型的性能 57
3.2.5 第5步——提高模型的性能 58
3.3 總結 60
第4章 概率學習——樸素貝葉斯分類 61
4.1 理解樸素貝葉斯 61
4.1.1 貝葉斯方法的基本概念 62
4.1.2 樸素貝葉斯算法 65
4.2 例子——基於貝葉斯算法的手機垃圾短信過濾 70
4.2.1 第1步——收集數據 70
4.2.2 第2步——探索和準備數據 71
4.2.3 數據準備——處理和分析文本數據 72
4.2.4 第3步——基於數據訓練模型 78
4.2.5 第4步——評估模型的性能 79
4.2.6 第5步——提升模型的性能 80
4.3 總結 81
第5章 分而治之——應用決策樹和規則進行分類 82
5.1 理解決策樹 82
5.1.1 分而治之 83
5.1.2 C5.0決策樹算法 86
5.2 例子——使用C5.0決策樹識彆高風險銀行貸款 89
5.2.1 第1步——收集數據 89
5.2.2 第2步——探索和準備數據 89
5.2.3 第3步——基於數據訓練模型 92
5.2.4 第4步——評估模型的性能 95
5.2.5 第5步——提高模型的性能 95
5.3 理解分類規則 98
5.3.1 獨立而治之 99
5.3.2 單規則(1R)算法 101
5.3.3 RIPPER算法 103
5.3.4 來自決策樹的規則 105
5.4 例子——應用規則學習識彆有毒的蘑菇 105
5.4.1 第1步——收集數據 106
5.4.2 第2步——探索和準備數據 106
5.4.3 第3步——基於數據訓練模型 107
5.4.4 第4步——評估模型的性能 109
5.4.5 第5步——提高模型的性能 109
5.5 總結 111
第6章 預測數值型數據——迴歸方法 113
6.1 理解迴歸 113
6.1.1 簡單綫性迴歸 115
6.1.2 普通最小二乘估計 117
6.1.3 相關係數 118
6.1.4 多元綫性迴歸 120
6.2 例子——應用綫性迴歸預測醫療費用 122
6.2.1 第1步——收集數據 122
6.2.2 第2步——探索和準備數據 123
6.2.3 第3步——基於數據訓練模型 127
6.2.4 第4步——評估模型的性能 129
6.2.5 第5步——提高模型的性能 130
6.3 理解迴歸樹和模型樹 133
6.4 例子——用迴歸樹和模型樹估計葡萄酒的質量 135
6.4.1 第1步——收集數據 135
6.4.2 第2步——探索和準備數據 136
6.4.3 第3步——基於數據訓練模型 137
6.4.4 第4步——評估模型的性能 140
6.4.5 第5步——提高模型的性能 142
6.5 總結 144
第7章 黑箱方法——神經網絡和支持嚮量機 146
7.1 理解神經網絡 146
7.1.1 從生物神經元到人工神經元 148
7.1.2 激活函數 148
7.1.3 網絡拓撲 151
7.1.4 用後嚮傳播訓練神經網絡 153
7.2 用人工神經網絡對混凝土的強度進行建模 154
7.2.1 第1步——收集數據 154
7.2.2 第2步——探索和準備數據 155
7.2.3 第3步——基於數據訓練模型 156
7.2.4 第4步——評估模型的性能 158
7.2.5 第5步——提高模型的性能 159
7.3 理解支持嚮量機 160
7.3.1 用超平麵分類 161
7.3.2 尋找最大間隔 161
7.3.3 對非綫性空間使用核函數 164
7.4 用支持嚮量機進行光學字符識彆 165
7.4.1 第1步——收集數據 166
7.4.2 第2步——探索和準備數據 166
7.4.3 第3步——基於數據訓練模型 167
7.4.4 第4步——評估模型的性能 169
7.4.5 第5步——提高模型的性能 170
7.5 總結 171
第8章 探尋模式——基於關聯規則的購物籃分析 172
8.1 理解關聯規則 172
8.2 例子——用關聯規則確定經常一起購買的食品雜貨 176
8.2.1 第1步——收集數據 176
8.2.2 第2步——探索和準備數據 177
8.2.3 第3步——基於數據訓練模型 183
8.2.4 第4步——評估模型的性能 184
8.2.5 第5步——提高模型的性能 187
8.3 總結 189
第9章 尋找數據的分組——k均值聚類 191
9.1 理解聚類 191
9.1.1 聚類——一種機器學習任務 192
9.1.2 k均值聚類算法 193
9.1.3 用k均值聚類探尋青少年市場細分 198
9.1.4 第1步——收集數據 198
9.1.5 第2步——探索和準備數據 199
9.1.6 第3步——基於數據訓練模型 202
9.1.7 第4步——評估模型的性能 204
9.1.8 第5步——提高模型的性能 206
9.2 總結 207
第10章 模型性能的評價 208
10.1 度量分類方法的性能 208
10.1.1 在R中處理分類預測數據 209
10.1.2 深入探討混淆矩陣 211
10.1.3 使用混淆矩陣度量性能 212
10.1.4 準確度之外的其他性能評價指標 214
10.1.5 性能權衡的可視化 221
10.2 評估未來的性能 224
10.2.1 保持法 225
10.2.2 交叉驗證 226
10.2.3 自助法抽樣 229
10.3 總結 229
第11章 提高模型的性能 231
11.1 調整多個模型來提高性能 231
11.2 使用元學習來提高模型的性能 239
11.2.1 理解集成學習 239
11.2.2 bagging 241
11.2.3 boosting 243
11.2.4 隨機森林 244
11.3 總結 248
第12章 其他機器學習主題 249
12.1 分析專用數據 250
12.1.1 用RCurl添加包從網上獲取數據 250
12.1.2 用XML添加包讀/寫XML格式數據 250
12.1.3 用rjson添加包讀/寫JSON 251
12.1.4 用xlsx添加包讀/寫Microsoft Excel電子錶格 251
12.1.5 生物信息學數據 251
12.1.6 社交網絡數據和圖數據 252
12.2 提高R語言的性能 252
12.2.1 處理非常大的數據集 253
12.2.2 使用並行處理來加快學習過程 254
12.2.3 GPU計算 257
12.2.4 部署最優的學習算法 257
12.3 總結 258
前言/序言
機器學習的核心是將信息轉化為可行動智能的算法。這一事實使得機器學習非常適閤於當今的大數據時代。如果沒有機器學習,要跟上海量信息數據流的步伐幾乎是不可能的。 鑒於R不斷增長的地位(R是一個跨平颱、零成本的統計編程環境),現在是開始使用機器學習的最好時代。R提供瞭一套功能強大且易於學習的工具,這些工具可以幫助你發現數據背後隱藏的信息。 本書通過將實際案例與核心理論知識相結閤,提供瞭你開始將機器學習應用到你自己項目中所需要的知識。 本書內容 第1章介紹瞭用來定義和區分機器學習算法的術語和概念,並給齣將學習任務與適當算法相匹配的方法。 第2章提供瞭一個在R中自己實際動手操作數據的機會,並討論瞭基本的數據結構以及用於加載、探索和理解數據的程序。 第3章教你如何理解並將一個簡單且功能強大的學習算法應用於你的第一個學習任務:識彆乳腺癌。 第4章揭示瞭用於先進的垃圾郵件過濾係統中的概率的基本概念,並且在你自己建立垃圾郵件過濾器的過程中,你將學習文本挖掘的基本知識。 第5章探索幾種預測精度高且容易解釋的學習算法。我們將把這幾種算法應用於對透明度要求很高的學習任務中。 第6章介紹用於數值預測的機器學習算法。由於這些技術在很大程度上來源於統計學領域,所以你還將學習理解數值之間關係的必要分析指標。 第7章介紹兩個極其復雜但功能強大的機器學習算法。盡管其中的數學理論可能會讓人望而生畏,但是我們將以簡單的術語,通過例子來說明這些方法的內部運作原理。 第8章揭示許多零售商所使用的推薦係統的算法。如果你曾經想知道零售商如何比你自己更瞭解你的購物習慣,該章將揭示他們的秘密。 第9章介紹k均值聚類,該算法用於找齣相關個體的聚類。我們將使用該算法來確定一個基於網絡的社區特徵的分區。 第10章提供度量機器學習項目是否成功的信息,並給齣瞭機器學習算法在未來數據上性能的一個可靠的估計。 第11章揭示瞭在機器學習競賽中排名最靠前的團隊所采用的方法。如果你具有競爭意識,或者僅僅想獲取數據中盡可能多的信息,那麼你需要將這些技術添加到你的知識庫中。 第12章討論機器學習的前沿主題。從使用大數據到如何使R運行速度更快,這些主題將會幫助你拓展使用R進行數據挖掘的界限。 學習本書的準備知識 本書的例子是基於微軟的Windows係統和Mac OS X係統的R 2.15.3進行編寫和測試的,不過對於任意最新的R版本,這些例子基本上都能運行。 本書適用對象 本書適閤於任何希望使用數據來采取行動的人。或許你已經對機器學習有些瞭解,但從來沒有使用過R;或許你已經對於R有些瞭解,但機器學習對你來說是全新的知識。無論何種情況,本書將讓你快速上手。稍微瞭解一些基本的數學知識和編程概念將是有幫助的,但是這些先驗知識並不是必需的,你需要具有的就是好奇心。
機器學習與R語言 下載 mobi epub pdf txt 電子書 格式