內容簡介
聚類是數據挖掘領域的一個重要分支。
《數據聚類》全麵係統地介紹聚類的主要方法。首先,對涉及聚類的各個方麵進行簡略的綜述;然後,對各類聚類算法進行較詳細的討論。
《數據聚類》主要內容分為三大部分:第1部分是經典算法部分(第2~6章),討論k-均值、DBSCAN等傳統算法;第二部分是高級算法部分(第7~12章),討論半監督聚類、高維數據聚類、不確定數據聚類等;第三部分是多源數據聚類部分(第13章),主要討論多視角聚類和多任務聚類。
《數據聚類》可供數據科學與人工智能等領域的研究人員、工程技術人員、相關學科研究生和基礎較好的高年級本科生參考閱讀。
內頁插圖
目錄
序
前言
符號錶
1 概述
1.1 問題描述
1.2 方法進展
1.2.1 經典算法
1.2.2 高級算法
1.2.3 多源數據算法
1.3 半監督聚類
1.4 數據類型
1.4.1 屬性數據
1.4.2 離散序列數據
1.4.3 時間序列數據
1.4.4 文本數據
1.4.5 多媒體數據
1.4.6 流數據
1.4.7 各類數據聚類技術匯總
1.5 衍生問題
1.5.1 特徵選擇
1.5.2 測度學習
1.5.3 聚類集成
1.5.4 軟聚類
1.5.5 多解聚類
1.5.6 聚類驗證
1.5.7 可視化與交互聚類
1.6 新的挑戰
1.6.1 大數據聚類
1.6.2 多模數據聚類
1.6.3 深度聚類
1.7 結論
參考文獻
2 基於模型的聚類
2.1 混閤模型
2.1.1 混閤模型簡介
2.1.2 高斯混閤模型
2.1.3 伯努利混閤模型
2.1.4 混閤模型選擇
2.2 期望最大化算法
2.2.1 詹森不等式
2.2.2 期望最大化算法分析
2.2.3 期望最大化算法框架
2.2.4 期望最大化擴展算法
2.3 求解高斯混閤模型
2.4 求解伯努利混閤模型
參考文獻
3 基於劃分的聚類算法
3.1 劃分方法概述
3.2 k-均值算法
3.2.1 目標函數
3.2.2 算法流程
3.2.3 性能分析
3.2.4 k的選擇
3.2.5 初始中心點選擇
3.3 類k-均值算法
3.3.1 k-中心點算法
3.3.2 k-中值算法
3.3.3 k-modes算法
3.3.4 模糊k-均值算法
3.3.5 核k-均值算法
3.3.6 二分k-均值算法
3.4 改進的k-均值算法
3.4.1 改進的k-均值算法概述
3.4.2 基於邊界值的k-均值算法
3.4.3 陰陽k-均值算法
3.4.4 基於塊嚮量的加速k-均值算法
參考文獻
4 基於密度的聚類算法
4.1 密度算法概述
4.2 DBSCAN算法
4.2.1 基本定義及算法流程
4.2.2 算法分析
4.3 OPTICS算法
4.3.1 基本定義及算法流程
4.3.2 算法分析
4.4 DENCLUE算法
……
5 基於網格的聚類算法
6 層次聚類算法
7 半監督聚類
8 譜聚類
9 基於非負矩陣分解的聚類
10 高維數據聚類
11 圖聚類
12 不確定數據聚類
13 多源相關數據聚類
後記
彩版
前言/序言
2016年初,榖歌圍棋Alpha Go以4:1的成績戰勝瞭人類圍棋世界冠軍李世石,引起全世界的關注,這標誌著人工智能的發展進入瞭一個全新的階段。近幾年來,人工智能得到飛速的發展,在很多領域如圖像識彆、語音識彆等方麵取得瞭突破性的進步。人工智能的研究也得到全世界學術界和産業界的高度關注,進入瞭一個新的高潮期。種種跡象錶明,人類進入全方位智能時代已經為期不遠瞭。所有這一切幾乎均得益於神經網絡的新技術——深度學習的發現和發展(非常有趣的是人工智能的幾次高潮均來自神經網絡的進步,可見神經網絡的生命力)。深度學習的概念由Hinton等於2006年提齣,在近年來已經逐漸成為機器學習的主流技術,在多數應用領域的性能明顯超齣已有技術。
機器學習包括監督學習和無監督學習。目前的深度學習基本上隻帶來監督學習的進步,但僅靠監督學習是無法實現完整的人工智能的。作為智能係統,監督學習似乎足夠“能”而不足夠“智”。足夠“能”體現為它能夠在大數據中挖掘知識,這甚至是人腦做不到的。事實上人腦並不是處理大數據的係統,人類在任何領域所掌握的知識均有限,例如,每個人僅認識數乾個漢字或單詞。不足夠“智”體現為監督學習需要大量人工標記的訓練樣本。人腦的學習並不需要大量的樣本訓練,人類是在沒有指導或少量指導的條件下獲得知識的,而且人腦會不斷地學習並強化自己在各個領域的知識。人類在有限知識的基礎上體現齣驚人的創造力。類似人腦的智能係統更需要無監督學習、小樣本學習、強化學習和遷移學習等功能。因此,人工智能的發展仍然任重而道遠。
本書討論聚類技術。聚類是無監督學習的主要內容,在很多文獻中人們甚至把聚類和無監督學習兩個概念等價使用。聚類一直是機器學習、數據挖掘、模式識彆等領域的重要組成內容,近年來更得到高度重視。2015年,中國人工智能學會理事長李德毅院士在“新一代信息技術産業發展高峰論壇”上指齣:“人類的認知科學要想有所突破,首先就要在大數據聚類上取得突破,聚類是挖掘大數據資産價值的第一步。”同年,深度學習的領軍人物Lecun、Bengio和Hinton在Nature上的綜述指齣:“人和動物的學習很大程度上是無監督的:我們通過觀察發現世界的結構,而不是對每個物體命名。”
那麼什麼是聚類呢?《周易·係辭上》說:“方以類聚,物以群分,吉凶生矣。”自然的事物總是按一定的規律組織起來的,人們通過認識這些組織的結構特徵獲得知識,從而做齣決策。以生物為例(我們這個世界是因為有生物而活潑生動的),人們根據生物的相似程度(包括形態結構和生理功能等),把生物劃分為種和屬等不同的等級,並對每一類群的形態結構和生理功能等特徵進行科學的描述,以弄清不同類群之間的親緣關係和進化關係。相信很多人小時候學習生物時都會驚訝於鯨居然是哺乳動物而不是魚,貓和老虎是同一科等。
和分類(監督學習的主要任務)不同,聚類是在無標記樣本的條件下將數據分組,從而發現數據的天然結構。聚類在數據分析中扮演重要的角色,它通常被用於以下三個方麵。
(1)發現數據的潛在結構:深入洞察數據、産生假設、檢測異常、確定主要特徵。
(2)對數據進行自然分組:確定不同組織之間的相似程度(係統關係)。
(3)對數據進行壓縮:將聚類原型作為組織和概括數據的方法。
這幾個方麵的功能使聚類既可以作為預處理程序,又可以作為獨立的數據分析工具。
聚類是典型的交叉學科,在很多領域有廣泛的應用,其研究已有60多年的曆史。生物分類學者、社會學者、哲學傢、生物學傢、統計學傢、數學傢、工程師、計算機科學傢、醫學研究者等眾多收集和處理實際數據的工作者都對聚類方法做齣瞭貢獻。在不同的領域,聚類還可能被稱為Q-分析、拓撲、凝結、分類等。聚類的概念最早齣現在1954年的一篇處理人類學數據的論文中。自此開始,聚類一直是相關領域重要的研究內容之一。2009年,有人用榖歌學術搜索做過統計,發現僅2007年一年就有1660個包含“數據聚類”的條目。幾十年來有數以萬計的文獻討論聚類算法及其在科學和工程領域的應用,這充分說明聚類對數據分析的重要性。
數據聚類 下載 mobi epub pdf txt 電子書 格式