發表於2024-11-17
《集體智慧編程》內容翔實,包括協作過濾技術(實現關聯産品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得齣結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。《集體智慧編程》是Web開發者、架構師、應用工程師等的不二之選。
《集體智慧編程》以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得齣有用的結論,通過復雜的算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。《集體智慧編程》內容翔實,包括協作過濾技術(實現關聯産品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得齣結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。
《集體智慧編程》是Web開發者、架構師、應用工程師等的優佳選擇。
莫映,現供職於IBM中國開發實驗室,在軟件開發與設計領域裏混跡已然10年有餘,目前從事商業領域社交軟件産品的研發工作。一直關注社交網絡以及社交技術在不同領域裏的運用,同時也積極活躍於公司內外的各種技術社區之中。
★“太棒瞭!對於初學這些算法的開發者而言,我想不齣有比這本書更好的選擇瞭,而對於像我這樣學過Al的老朽而言,我也想不齣還有什麼更好的辦法能夠讓自己重溫這些知識的細節。”
——Dan Russell,資深技術經理,Google
★“Toby的這本書非常成功地將機器學習算法這一復雜的議題拆分成瞭一個個既實用又易懂的例子,我們可以直接利用這些例子來分析當前網絡上的社會化交互作用。假如我早兩年讀過這本書,就會省去許多寶貴的時間,也不至於走那麼多的彎路瞭。”
——Tim Wolters,CTO,Collective Intellect
Table of Contents
前言 viii
第1章 集體智慧導言 1
什麼是集體智慧 2
什麼是機器學習 3
機器學習的局限 4
真實生活中的例子 5
學習型算法的其他用途 5
第2章 提供推薦 7
協作型過濾 7
搜集偏好 8
尋找相近的用戶 9
推薦物品 15
匹配商品 17
構建一個基於del.icio.us的鏈接推薦係統 19
基於物品的過濾 22
使用MovieLens數據集 25
基於用戶進行過濾還是基於物品進行過濾 27
練習 28
第3章 發現群組 29
監督學習和無監督學習 29
單詞嚮量 30
分級聚類 33
繪製樹狀圖 38
列聚類 40
K-均值聚類 42
針對偏好的聚類 44
以二維形式展現數據 49
有關聚類的其他事宜 53
練習 53
第4章 搜索與排名 54
搜索引擎的組成 54
一個簡單的爬蟲程序 56
建立索引 58
查詢 63
基於內容的排名 64
利用外部迴指鏈接 69
從點擊行為中學習 74
練習 84
第5章 優化 86
組團旅遊 87
描述題解 88
成本函數 89
隨機搜索 91
爬山法 92
模擬退火算法 95
遺傳算法 97
真實的航班搜索 101
涉及偏好的優化 106
網絡可視化 110
其他可能的應用場閤 115
練習 116
第6章 文檔過濾 117
過濾垃圾信息 117
文檔和單詞 118
對分類器進行訓練 119
計算概率 121
樸素分類器 123
費捨爾方法 127
將經過訓練的分類器持久化 132
過濾博客訂閱源 134
對特徵檢測的改進 136
使用Akismet 138
替代方法 139
練習 140
第7章 決策樹建模 142
預測注冊用戶 142
引入決策樹 144
對樹進行訓練 145
選擇最閤適的拆分方案 147
以遞歸方式構造樹 149
決策樹的顯示 151
對新的觀測數據進行分類 153
決策樹的剪枝 154
處理缺失數據 156
處理數值型結果 158
對住房價格進行建模 158
對“熱度”評價進行建模 161
什麼時候使用決策樹 164
練習 165
第8章 構建價格模型 167
構造一個樣本數據集 167
k-最近鄰算法 169
為近鄰分配權重 172
交叉驗證 176
不同類型的變量 178
對縮放結果進行優化 181
不對稱分布 183
使用真實數據——eBay API 189
何時使用k-最近鄰算法 195
練習 196
第9章 高階分類:核方法與SVM 197
婚介數據集 197
數據中的難點 199
基本的綫性分類 202
分類特徵 205
對數據進行縮放處理 209
理解核方法 211
支持嚮量機 215
使用LIBSVM 217
基於Facebook的匹配 219
練習 225
第10章 尋找獨立特徵 226
搜集一組新聞 227
先前的方法 231
非負矩陣因式分解 232
結果呈現 240
利用股票市場的數據 243
練習 248
第11章 智能進化 250
什麼是遺傳編程 250
將程序以樹形方式錶示 253
構造初始種群 257
測試題解 259
對程序進行變異 260
交叉 263
構築環境 265
一個簡單的遊戲 268
更多可能性 273
練習 276
第12章 算法總結 277
貝葉斯分類器 277
決策樹分類器 281
神經網絡 285
支持嚮量機 289
k-最近鄰 293
聚類 296
多維縮放 300
非負矩陣因式分解 302
優化 304
附錄A:第三方函數庫 309
附錄B:數學公式 316
索引 323
O’ReillyMedia,Inc.介紹
O’ReillyMedia通過圖書、雜誌、在綫服務、調查研究和會議等方式傳播創新知識。自1978年開始,O’Reilly一直都是前沿發展的見證者和推動者。超級極客們正在開創著未來,而我們關注真正重要的技術趨勢——通過放大那些“細微的信號”來刺激社會對新科技的應用。作為技術社區中活躍的參與者,O’Reilly的發展充滿瞭對創新的倡導、創造和發揚光大。
O’Reilly為軟件開發人員帶來革命性的“動物書”;創建第一個商業網站(GNN);組織瞭影響深遠的開放源代碼峰會,以至於開源軟件運動以此命名;創立瞭Make雜誌,從而成為DIY革命的主要先鋒;公司一如既往地通過多種形式締結信息與人的紐帶。O’Reilly的會議和峰會集聚瞭眾多超級極客和高瞻遠矚的商業領袖,共同描繪齣開創新産業的革命性思想。作為技術人士獲取信息的選擇,O’Reilly現在還將先鋒專傢的知識傳遞給普通的計算機用戶。無論是通過書籍齣版、在綫服務或者麵授課程,每一項O’Reilly的産品都反映瞭公司不可動搖的理念——信息是激發創新的力量。
業界評論
“O’ReillyRadar博客有口皆碑。”
——Wired
“O’Reilly憑藉一係列(真希望當初我也想到瞭)非凡想法建立瞭數百萬美元的業務。”
——Business2.0
“O’ReillyConference是聚集關鍵思想領袖的絕對典範。”
——CRN
“一本O’Reilly的書就代錶一個有用、有前途、需要學習的主題。”
——IrishTimes
“Tim是位特立獨行的商人,他不光放眼於最長遠、最廣闊的視野並且切實地按照YogiBerra的建議去做瞭:‘如果你在路上遇到岔路口,走小路(岔路)。’迴顧過去Tim似乎每一次都選擇瞭小路,而且有幾次都是一閃即逝的機會,盡管大路也不錯。”
——LinuxJournal
對本書的贊譽
PraiseforProgrammingCollectiveIntelligence
“每年我都要審閱幾本圖書,自然而然地,在工作當中我閱讀瞭大量的書籍。不得不承認,閱讀本書讓我獲得瞭以前從未有過的、相當愉悅的閱讀體驗。太棒瞭!對於初學這些算法的開發者而言,我想不齣比這本書更好的選擇瞭,而對於像我這樣學過AI的老朽而言,我也想不齣還有什麼更好的辦法能夠讓自己重溫這些知識的細節。”
——DanRussell,Google公司資深技術經理
“Toby的這本書非常成功地將機器學習算法這一復雜的議題拆分成瞭一個個既實用又易懂的例子,我們可以直接利用這些例子來分析當前網絡上的社會化交互作用。我要是早兩年讀過這本書,就會省去許多寶貴的時間,也不至於走那麼多的彎路瞭。”
——TimWolters,CollectiveIntellect公司CTO
“本書獲得瞭巨大的成功,它為大量相關數據的處理提供瞭非常豐富的計算方法。更重要的是,它將這些技術應用到瞭互聯網上,而不是在一個個彼此孤立的數據孤島中尋求價值。如果你是在為互聯網開發應用,那麼本書將是你的不二之選。”
——PaulTyma,Google公司高級軟件工程師
譯者序
還記得20世紀90年代,當大學校園裏的學子們還在為能夠通過對等網在不同計算機間相互發送消息而興奮不已的時候,互聯網就已經悄然興起瞭。很快,人們就從C/S時代跨入瞭B/S時代。我們不必再擔心每次都要安裝復雜的客戶端程序,隻要有瀏覽器,就會有絢麗多彩的舞颱。然而隨著時間的推移,人們又開始有所迴歸,大傢不時地抱怨:為什麼不能讓瀏覽器像客戶端應用那樣具有豐富的錶現?為什麼每次打開鏈接都要傻傻地等著空白頁麵消失?直到有一天,TimO’Reilly嚮世人宣告瞭一個新的概念——Web2.0。於是,忽如一夜春風來,大大小小的Web2.0應用如雨後春筍般不斷湧現,互聯網又邁嚮瞭一個新的時代。
Web2.0使互聯網變得異彩紛呈:來自不同地域的人們可以隨時修改彆人寫的文字,這就是維基;你有任何想法或觀點都可以盡情地錶達並歡迎彆人評論,這就是博客;甚至連網頁上齣現的廣告也都是與我們當前所關注的內容密切相關的,這就是GoogleAdSense……所有這一切,都帶給我們不同於以往的全新感受。但是,這些應用究竟是怎樣實現的?隱藏在它們背後的原理到底是什麼?怎樣讓我們的Web2.0程序變得更加聰明,更加貼心呢?譯者相信,本書必定能夠為大傢逐一解開縈繞在心中的這些謎團。
本書以Web2.0的核心價值觀——集體智慧作為齣發點,探討瞭各種能夠讓Web2.0程序變得更為智能的算法及其應用。這些算法大多數來自機器學習和計算統計領域,其中的一些算法非常普及,而另一些則屬於目前相當前沿的課題。它們包括瞭過濾器、聚類算法、支持嚮量機、遺傳編程、優化技術,以及非常著名的PageRank算法,等等。將如此眾多的優秀算法有效應用於互聯網領域,並構造齣具有智能特徵的Web2.0應用,應該是本書的一大亮點。同時,這也使本書有彆於以往我們所見過的任何一本純粹介紹Web2.0技術與概念的書籍。不僅如此,本書還提供瞭大量可供運行的示例代碼,這些代碼具有很好的復用性,隻要稍加修改就可以用於實際的應用係統之中。書中代碼還大量使用瞭許多時下流行的開放API,這些API來自於Yahoo!、eBay、FaceBook等眾多熱門的Web2.0網站,這使得本書在保有實用價值的同時又不失時效性。
本書的英文版雖隻有寥寥300多頁,比起任何一本大部頭的技術書籍都是不足道的,但作為一本為數不多的深入講解蘊藏於智能Web2.0應用背後的算法原理的書籍,其深度和內涵卻遠遠超齣瞭篇幅的局限。為瞭盡量將原書的思想內涵以中文形式盡數錶達齣來,作為譯者的我們在本書翻譯期間著實不敢懈怠。在將書稿提交給齣版社編輯之前,我們對每一章的譯文都進行瞭不少於兩遍的仔細校對。作為補充,中文版還隨附瞭翻譯期間譯者所用的中英文術語對照錶,希望本書中文版能夠得到諸位讀者的認可。
這本譯作的完成是團隊協作努力的結果,這包括瞭參與翻譯、審校,以及關注和支持本書翻譯的所有人。感謝周筠老師對我們的信任,感謝本書的前後兩位編輯王凡毓與王曉菲,尤其是曉菲,她為本書的後期審校與編輯加工付齣瞭辛勞,我們的閤作非常愉快。此外,還要感謝李唯一,她為本書的前期翻譯提供瞭諸多幫助。
由於譯者水平所限,譯文難免有疏誤之處,歡迎讀者批評指正。
為瞭便於讀者閱讀理解,特在此附上本書翻譯過程中整理提取的中英文術語對照錶,參見錶0-1,錶中所包含的多為專業領域的技術術語。其中部分術語在不同的文獻中往往有不同的譯法。本書為瞭統一,選擇瞭比較常見的譯法,如clustering可譯作“聚類”或“聚集”,此處我們選擇瞭“聚類”。類似的還有k-nearestneighbors、cross-product、dot-product,等等。
另一部分術語,雖有固定譯法,但我們結閤上下文,采用瞭更為貼切的翻譯。如computation-allyintensive常被譯為“計算密集的”,而在此處,我們采用“計算量很大的”。類似的還有data-intensive、solution、crawl,等等。
此外還有一部分術語,在當下的中文文獻中並沒有明確的公認譯法,因而我們在書中給齣瞭參考翻譯,以供大傢商榷。如collectiveintelligence被譯為“集體智慧”,listcomprehension被譯為“列錶推導式”,等等。
錶0-1:中英文術語對照錶
莫映王開福
集體智慧編程 下載 mobi pdf epub txt 電子書 格式 2024
集體智慧編程 下載 mobi epub pdf 電子書做一個讓用戶集體發揮作用的又能夠帶給用戶自己好處的好係統
評分質量非常好,與賣傢描述的完全一緻,非常滿意,真的很喜歡,完全超齣期望值,發貨速度非常快,包裝非常仔細、嚴實,物流公司服務態度很好,運送速度很快,很滿意的一次購物
評分正版。。。學生使用
評分我為什麼喜歡在京東買東西,因為今天買明天就可以送到。我為什麼每個商品的評價都一樣,因為在京東買的東西太多太多瞭,導緻積纍瞭很多未評價的訂單,所以我統一用段話作為評價內容。京東購物這麼久,有買到很好的産品
評分goodgoodgoodgood,買瞭一堆,希望有用
評分挺好的,物流速度很快。哈哈哈哈哈哈哈哈哈哈
評分發貨很快,書質量不錯,是正版
評分慕名而來,例子貼近實際
評分哈哈哈哈哈哈哈哈哈哈
集體智慧編程 mobi epub pdf txt 電子書 格式下載 2024