編輯推薦
大多數數據挖掘的教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧並構建推薦係統。
本書作者采用在實踐中學的方式,提供瞭Python的代碼和案例,詳細介紹如何應用數據挖掘技術,開發齣實用的推薦係統。
本書英文版在網絡上放齣樣章,得到很多業內知名人士的推薦和好評。
知名技術譯者王斌老師譯作,翻譯質量上乘
數據挖掘一般是指通過算法搜索隱藏於大量的數據之中的信息的過程。眾多的數據挖掘教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是專門寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐,進行數據挖掘、應用集體智慧並構建推薦係統。
全書共8 章,介紹瞭數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容;用生動的圖示、大量的錶格、簡明的公式以及實用的Python 代碼示例,闡釋數據挖掘的知識和技能。
每章還給齣瞭習題和練習,幫助讀者鞏固所學的知識。
本書采用"在實踐中學習"的思路來組織內容。建議讀者不是被動地閱讀本書,而是通過課後習題和本書提供的Python 代碼進行實踐。此外,讀者還應當積極參與到數據挖掘技術的編程實踐中。
本書適閤對數據挖掘、數據分析和推薦係統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為
一本輕鬆有趣的數據挖掘課程教學參考書。本書由一係列互為基礎的小的知識點纍積而成,學完本書以後,能夠為理解
數據挖掘的各種技術打下堅實的基礎。
讀者可通過http://guidetodatamining.com/ 或http://www.epubit.com.cn 獲取本書相關資源。
內容簡介
數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。大多數數據挖掘的教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧並構建推薦係統。全書共8章,介紹瞭數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容。全書采用做中學的方式,用生動的圖示、大量的錶格、簡明的公式,實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給齣瞭習題和練習,幫助讀者鞏固所學的知識。
本書專注適閤對數據挖掘、數據分析和推薦係統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕鬆有趣的數據挖掘課程教學參考書。
作者簡介
Ron Zacharski是一名軟件開發工程師,曾在威斯康辛大學獲美術學士學位,之後還在明尼蘇達大學獲得瞭計算機科學博士學位。博士後期間,他在愛丁堡大學研究語言學。正是基於廣博的學識,他不僅在新墨西哥州立大學的計算研究實驗室工作,期間還接觸過自然語言處理相關的項目,而該實驗室曾被《連綫》雜誌評為機器翻譯研究領域翹楚。除此之外,他還曾教授計算機科學、語言學、音樂等課程,是一名博學多纔的科技達人。
王斌 博士,中國科學院信息工程研究所研究員,博士生導師,中國科學院大學兼職教授,研究方嚮為信息檢索、自然語言處理與數據挖掘。主持國傢973、863、國傢自然科學基金、國際閤作基金、部委及企業閤作等課題近30項,發錶學術論文130餘篇,領導研製的多個係統上綫使用,曾獲國傢科技進步二等奬和北京市科學技術二等奬各一項。現為中國中文信息學會理事、信息檢索、社會媒體處理、語言與知識計算等多個專業委員會委員、《中文信息學報》編委、中國計算機學會高級會員及中文信息處理專業委員會委員。多次擔任SIGIR、ACL、CIKM等會議的程序委員會委員。《信息檢索導論》、《大數據:互聯網大規模數據挖掘與分布式處理》、《機器學習實戰》、《Mahout實戰》譯者。2006年起在中國科學院大學講授《現代信息檢索》研究生課程,纍計選課人數已超過1500人。迄今培養博士、碩士研究生近40名。
內頁插圖
目錄
目 錄
目錄
第1章 數據挖掘簡介及本書使用方法 1
歡迎來到21世紀 2
並不隻是對象 5
TB級挖掘是現實不是科幻 7
本書體例 9
第2章 協同過濾—愛你所愛 14
如何尋找相似用戶 15
曼哈頓距離 16
歐氏距離 16
N維下的思考 18
一般化 22
Python中數據錶示方法及代碼 24
計算曼哈頓距離的代碼 25
用戶的評級差異 28
皮爾遜相關係數 30
在繼續之前稍微休息一下 35
最後一個公式—餘弦相似度 36
相似度的選擇 40
一些怪異的事情 43
k近鄰 44
Python的一個推薦類 47
一個新數據集 54
第3章 協同過濾—隱式評級及基於物品的過濾 56
隱式評級 57
調整後的餘弦相似度 67
Slope One算法 76
Slope One算法的粗略描述圖 77
基於Python的實現 83
加權Slope One:推薦模塊 88
MovieLens數據集 90
第4章 內容過濾及分類—基於物品屬性的過濾 93
一個簡單的例子 98
用Python實現 101
給齣推薦的原因 102
一個取值範圍的問題 104
歸一化 105
改進的標準分數 109
歸一化 vs. 不歸一化 111
迴到Pandora 112
體育項目的識彆 119
Python編程 123
就是它瞭 133
汽車MPG數據 135
雜談 137
第5章 分類的進一步探討—算法評估及kNN 139
訓練集和測試集 140
10摺交叉驗證的例子 142
混淆矩陣 146
一個編程的例子 148
Kappa統計量 154
近鄰算法的改進 159
一個新數據集及挑戰 163
更多數據、更好的算法以及一輛破公共汽車 168
第6章 概率及樸素貝葉斯—樸素貝葉斯 170
微軟購物車 174
貝葉斯定理 177
為什麼需要貝葉斯定理 185
i100 i500 188
用Python編程實現 191
共和黨 vs. 民主黨 197
數字 205
Python實現 214
這種做法會比近鄰算法好嗎 221
第7章 樸素貝葉斯及文本—非結構化文本分類 226
一個文本正負傾嚮性的自動判定係統 228
訓練階段 232
第8章 聚類—群組發現 256
k-means聚類 281
SSE或散度 289
小結 303
安然公司 305
前言/序言
寫給程序員的數據挖掘實踐指南 下載 mobi epub pdf txt 電子書 格式