机器学习：从公理到算法（中国计算机学会学术著作丛书） pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

于剑著

图书标签:

机器学习
人工智能
算法
理论基础
公理化
模式识别
数据挖掘
中国计算机学会
学术著作
计算机科学

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302471363

版次：1

商品编码：12118225

包装：平装

开本：16开

出版时间：2017-06-01

用纸：胶版纸

页数：231

字数：301000

正文语种：中文

具体描述

产品特色

编辑推荐

适读人群：机器学习的爱好者
　　

　　机器学习是本次人工智能热潮的核心技术。引起轰动的应用如AlphaGo等都可以看到机器学习的身影。目前，机器学习理论纷繁复杂，算法形式花样百出。人们一直在疑惑，机器学习，特别是其中的深度学习的本质到底是什么？

　　作者积二十年研究之力，将各种学习理论融于一体，提出了五条学习公理，据此推导出了常见的学习算法，包括深度学习。如果想要知道机器学习的本质，快速理清各种学习算法之间的关系，《机器学习：从公理到算法（中国计算机学会学术著作丛书）》是一条不容错过的终南捷径。

内容简介

　　《机器学习：从公理到算法（中国计算机学会学术著作丛书）》是一本基于公理研究学习算法的书。共17章，由两部分组成。第一部分是机器学习公理以及部分理论演绎，包括第1、2、6、8章，论述学习公理以及相应的聚类、分类理论。第二部分关注如何从公理推出经典学习算法，包括单类、多类和多源问题。第3～5章为单类问题，分别论述密度估计、回归和单类数据降维。第7、9～16章为多类问题，包括聚类、神经网络、K近邻、支持向量机、Logistic回归、贝叶斯分类、决策树、多类降维与升维等经典算法。最后第17章研究了多源数据学习问题。

　　《机器学习：从公理到算法（中国计算机学会学术著作丛书）》可以作为高等院校计算机、自动化、数学、统计学、人工智能及相关专业的研究生教材，也可以供机器学习的爱好者参考。

作者简介

于剑，北京交通大学计算机学院教授，博士生导师，交通数据分析与挖掘北京市重点实验室主任，先后获得北京大学数学专业本科、硕士、博士，中国人工智能学会机器学习专委会副主任，中国计算机学会人工智能与模式识别专委会秘书长，承担多项国家自然科学基金项目，发表多篇学术论文，包括TPAMI、CVPR 等。

精彩书评

　　NULL

精彩书摘

第 1章引言

好好学习，天天向上。 ——毛泽东， 1951年题词
大数据时代，人类收集、存储、传输、管理数据的能力日益提高，各行各业已经积累了大量的数据资源，如著名的 Nature杂志于 2008年 9月出版了一期大数据专刊 [1]，列举了生物信息、交通运输、金融、互联网等领域的大数据应用。如何有效分析数据并得到有用信息甚至知识成为人们关注的焦点。人们寄希望于智能数据分析来完成该项任务。机器学习是智能数据分析技术的核心理论。 Science杂志于 2015年 7月组织了一个人工智能专题 [2]，其中有关机器学习的内容依然占据了重要的部分。本章将讨论机器学习的基本目的、基本框架、思想发展以及未来走向。
1.1机器学习的目的：从数据到知识
人类最重要的一项能力是能够从过去的经验中学习，并形成知识。千百年来，人类不断从学习中积累知识，为人类文明打下了坚实的基础。“学习”是人与生俱来的基本能力，是人类智能（ human intelligence）形成的必要条件。自 2000年以来，随着互联网技术的普及，积累的数据已经超过了人类个体处理的极限，以往人类自己亲自处理数据形成知识的模式已经到了必须改变的地步，人类必须借助于计算机才能处理大数据，更直白地说，我们希望计算机可以像人一样从数据中学到知识。
由此，如何利用计算机从大数据中学到知识成为人工智能研究的热点。“机器学习”（machine learning）是从数据中提取知识的关键技术。其初衷是让计算机具备与人类相似的学习能力。迄今为止，人们尚不知道如何使计算机具有与人类相媲美的学习能力。然而，每年都有大量新的针对特定任务的机器学习算法涌现，帮助人们发现完成这些特定任务的新知识（有时也许仅仅是隐性新知识）。对机器学习的研究不仅已经为人们提供了许多前所未有的应用服务（如信息搜索、机器翻译、语音识别、无人驾驶等），改善了人们的生活，而且也帮助人们开辟了许多新的学科领域，如计算金融学、计算广告学、计算生物学、计算社会学、计算历史学等，为人类理解这个世界提供了新的工具和视角。可以想见 ,作为从数据中提取知识的工具，机器学习在未来还会帮助人们进一步开拓新的应用和新的学科。
机器学习存在很多不同的定义，常用的有三个。第一个常用的机器学习定义是“计算机系统能够利用经验提高自身的性能”，更加形式化的论述可见文献 [3]。机器学习名著《统计学习理论的本质》给出了机器学习的第二个常见定义，“学习就是一个基于经验数据的函数估计问题” [4]。在《统计学习基础》这本书的序言里给出了第三个常见的机器学习定义，“提取重要模式、趋势，并理解数据，即从数据中学习” [11]。这三个常见定义各有侧重：第一个聚焦学习效果，第二个的亮点是给出了可操作的学习定义，第三个突出了学习任务的分类。但其共同点是强调了经验或者数据的重要性，即学习需要经验或者数据。注意到提高自身性能需要知识，函数、模式、趋势显然自身是知识，因此，这三个常见的定义也都强调了从经验中提取知识，这意味着这三种定义都认可机器学习提供了从数据中提取知识的方法。众所周知，大数据时代的特点是“信息泛滥成灾但知识依然匮乏”。可以预料，能自动从数据中学到知识的机器学习必将在大数据时代扮演重要的角色。
那么如何构建一个机器学习任务的基本框架呢？
1.2机器学习的基本框架
考虑到我们希望用机器学习来代替人学习知识，因此，在研究机器学习以前，先回顾一下人类如何学习知识是有益的。对于人来说，要完成一个具体的学习任务，需要学习材料、学习方法以及学习效果评估方法。如学习英语，需要英语课本、英语磁带或者录音等学习材料，明确学习方法是背诵和练习，告知学习效果评估方法是英语评测考试。检测一个人英语学得好不好，就看其利用学习方法从学习材料得到的英语知识是否能通过评测考试。机器学习要完成一个学习任务，也需要解决这三方面的问题，并通过预定的测试。
对应于人类使用的学习材料，机器学习完成一个学习任务需要的学习材料，一般用描述对象的数据集合来表示，有时也用经验来表示。对应于人类完成学习任务的学习方法，机器学习完成一个学习任务需要的学习方法，一般用学习算法来表示。对应于人类完成一个学习任务的学习效果现场评估方法（如老师需要时时观察课堂气氛和学生的注意力情况），机器学习完成一个学习任务也需要对学习效果进行即时评估，一般用学习判据来表示。对于机器学习来说，用来描述数据对象的数据集合对最终学习任务的完成状况有重要影响，用来指导学习算法设计的学习判据有时也用来评估学习算法的效果，但一般机器学习算法性能的标准评估会不同于学习判据，正如人学习的学习效果即时评估方式与最终的评估方式一般也不同。对于机器学习来说，通常也会有特定的测试指标，如正确率，学习速度等。
可以用一个具体的机器学习任务来说明。给定一个手写体数字字符数据集合，希望机器能够通过这些给定的手写体数字字符，学到正确识别手写数字字符的知识。显然，学习材料是手写体数字字符数据集，学习算法是字符识别算法，学习判据可以是识别正确率，也可以是其他有助于提高识别正确率的指标。
数据集合、学习判据、学习算法对于任何学习任务都是需要讨论的对象。数据集合的不同表示，影响学习判据与学习算法的设计。学习判据与学习算法的设计密切相关，下面分别讨论。
1.2.1数据集合与对象特性表示
对于一个学习任务来说，我们希望学到特定对象集合的特定知识。无论何种学习任务，学到的知识通常是与这个世界上的对象相关。通过学到的知识，可以对这个世界上的对象有更好的描述，甚至可以预测其具有某种性质、关系或者行为。为此，学习算法需要这些对象的特性信息，这些信息可以客观观测，即关于特定对象的特性信息集合，该集合一般称为对象特性表示，是学习任务作为学习材料的数据集合的组成部分。理论上，用来描述对象的数据集合的表示包括对象特性输入表示、对象特性输出表示。
显然，对象特性输入表示是我们能够得到的对象的观测描述，对象特性输出表示是我们学习得到的对象的特性描述。需要指出的是，对象的特性输入表示或者说对象的输入特征一定要与学习任务相关。根据丑小鸭定理（ Ugly Duckling Theorem）[5]，不存在独立于问题而普遍适用的特征表示，特征的有效与否是问题依赖的。丑小鸭定理是由 Satosi Watanabe于 1969年提出的，其内容可表述为“如果选定的特征不合理，那么世界上所有事物之间的相似程度都一样，丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。该定理表明在没有给定任何假设的情况下，不存在普适的特征表示；相似性的度量是特征依赖的，是主观的、有偏置的，不存在客观的相似性度量标准。因此，对于任何机器学习任务来说，得到与学习任务匹配的特征表示是学习任务成功的首要条件。对于机器学习来说，一般假设对象特征已经给定，特别是对象特性输入表示。
对于对象特性输入表示，通常有三种表示方式。一种是向量表示，对于每个对象，可以相对独立地观察其特有的一些特征。这些特征组成该对象的一个描述，并代表该对象。第二种表示是网络表示，对于每个对象，由其与其他对象的关系来描述，简单说来，观察得到的是对象之间的彼此关系。第三种是混合表示 ,对于每个对象，其向量表示和网络表示同时存在。
不论对于人还是机器，能够提供学习或者训练的对象总是有限的。不妨假设有 N个对象，对象集合为 O = {o1,o2, ··· ,oN }，其中 ok表示第 k个对象。其对应的对象特性输入表示用 X = {x1,x2, ··· ,xN }来表示，其中 xk表示对象 ok的特性输入表示。当每个对象有向量表示时， xk可以表示为 xk =[x1k,x2k, ··· ,xpk]T。因此，对象特性输入表示 X可以用矩阵 [xτk]p×N来表示，其中 p表示对象输入特征的维数， xτk表示 ok的第 τ个输入特征值，这些特征值可以是名词性属性值，也可以是连续性属性值。
如果对象特性输入表示 X存在网络表示，即 X可以用矩阵 [Nkl]N×N来表示，其中 Nkl表示对象 ok与对象 ol的网络关系。如果是相似性关系，则对象特性输入表示 X为相似性矩阵 S(X)=[skl]N×N，其中 skl表示对象 ok与对象 ol的相似性。通常， skl越大表明对象 ok与对象 ol的相似性越大。因此，对象 ok可以由行向量 [sk1,sk2, ··· ,skN ]表示。如果是相异性关系，则对象特性输入表示 X为相异性矩阵 D(X)=[Dkl]N×N，其中 Dkl表示对象 ok与对象 o1的相异性。类似的，Dkl越大表明对象 ok与对象 ol的相异性越大。因此，对象 ok可以由行向量 [Dk1,Dk2, ··· ,DkN ]表示。如果是相邻关系，对象特性输入表示 X为邻接性矩阵 A(X)=[akl]N×N，其中 akl表示对象 ok与对象 ol是否相邻，通常其取值为 0或者 1。
对应的对象特性输出表示用 Y = {y1,y2, ··· ,yN }来表示，其中 yk表示对象 ok的特性输出表示。具体的表示形式由学习算法决定，通常是对象特性输出表示 Y可以用矩阵 [yτk]d×N来表示，其中 d表示对象输出特征的维数， yτk表示 ok的第 τ个输出特征值，这些特征值通常是连续性属性值。
显然，除去对象特性输入、输出表示，数据集合还有其他部分，这些部分的表示与知识表示有关，通常依赖于知识表示。知识表示不同，学习算法的数据集合输入输出表示也会不同。一个容易想到的公开问题是，适合于机器学习的统一知识表示是否存在？如果存在，是何形式？现今的机器学习方法一般是针对具体的学习任务，设定具体的知识表示。因此，本章先不讨论学习算法的输入输出统一表示,这个问题留待第 2章讨论。
1.2.2学习判据
完成一个学习任务，需要一个判据作为选择学习到的知识好坏的评价标准。理论上，符合一个学习任务的具体化知识可以有很多。通常，如何从中选出最好的具体化知识表示是一个 NP难问题。因此，需要限定符合一个特定学习任务的具体化知识范围，适当减小知识假设空间的大小，减少学习算法的搜索空间。为了从限定的假设空间选择最优的知识表示，需要根据不同的学习要求来设定学习判据对搜索空间各个元素的不同分值。判据设定的准则有很多，理论上与学习任务相关，本书将在以后的章节中进行讨论。需要指出的是，有时学习判据也被称为目标函数。在本书中，对于这两个术语不再特意区别。

1.2.3学习算法
在学习判据给出了从知识表示空间搜索最优知识表示的打分函数之后，还需要设计好的优化方法，以便找出对应于打分函数达到最优的知识表示。此时，机器学习问题通常归结为一个最优化问题。选择最优化方法对有效完成学习任务很关键。目前，最优化理论在机器学习问题中已经变得越来越重要。典型的最优化算法有梯度下降算法、共轭梯度算法、伪牛顿算法、线性规划算法、演化算法、群体智能等。如何选择合适的优化技术，得到快速、准确的解是很多机器学习问题的难点所在。这就要求工程技术和数学理论相结合，以便很好地解决优化问题。一般建议初学者先采用已有的最优化算法，之后再设计专门的优化算法。
是否有不依赖于具体问题的最优学习算法呢？如果有的话，只需学一种算法就可以包打天下了。可惜的是，结论是否。著名的没有免费午餐定理已经明确指出：不存在对于所有学习问题都适用的学习算法 [6–8]。

1.3机器学习思想简论
机器学习作为一个单独的研究方向，应该说是在 20世纪 80年代第一届 ICML召开之后才有的事情。但是，广义上来说，机器学习任务，或者学习任务，一有人类就出现了。在日常生活中，人们每天都面临如何从自己采集的数据中提取知识进行使用的问题。比如，大的方面，需要观察环境的变化来学习如何制定政策使得我们这个地球可持续发展；小的方面，需要根据生活的经验买到一个可口的柚子或者西瓜，选择一个靠谱的理发师，等等。在计算机出现以前，数据采集都是人直接感知或者操作，采集到的数据量较小，人可以直接从数据中提取知识，并不需要机器学习。如对于回归问题，高斯在 19世纪早期（ 1809）就发表了最小二乘法；对于数据降维问题，卡尔·皮尔逊在 1901年就发明了主成分分析（ PCA）；对于聚类问题， K-means算法最早也可追溯到 1953年 [9]。但是，这些算法和问题被归入机器学习，也只有在机器收集数据能力越来越成熟导致人类直接从数据中提取知识成为不可能之后才变得没有异议。
在过去的 30年间，机器学习从处理仅包含上百个样本数据的玩具问题（ toy-problem）起步，发展到今天，已经成为从科学研究到商业应用的标准数据分析工具。但是其研究热点也几经变迁，本书将从思想史的角度略加总结。
机器学习最早的目标是从数据中发现可以解释的知识，在追求算法性能的同时，强调算法的解释性。早期的线性感知机、决策树和最近邻等算法可以说是这方面的典型代表作。但是， 1969年，Minsky指出线性感知机算法不能解决异或问题 [10]。由于现实世界的问题大多是非线性问题，而异或问题可以说是最简单的非线性问题，由此可以推断线性感知机算法用处不多。这对于以线性感知机算法为代表的神经网络研究可以说是致命一击，直接导致了神经网络甚至人工智能的第一个冬天。感知机算法的发明人、神经网络先驱 Rosenblatt于 1971年因故去世，更加增添了这个冬天的寒意。
需要指出的是，很多实际应用并不要求算法具有可解释性。比如机器翻译、天气预报、卜卦算命等。在这种需求下，如果一个算法的泛化性能能够超过其他同类算法，即使该算法缺少解释性，则该算法依然是优秀的学习算法。 20世纪 80年代神经网络的复苏，其基本思路即为放弃解释性，一心提高算法的泛化性能。神经网络放弃解释性的最重要标志是其激活函数不再使用线性函数，而是典型的非线性函数如 Sigmoid函数和双曲函数等，其优点是其表示能力大幅提高，相应的复杂性也极度增长。众所周知，解释性能好的学习算法，其泛化性能也要满足实际需求。如果其泛化性能不佳，即使解释性好，人们也不会选用。在 20世纪 80年代，三层神经网络的性能超过了当时的分类算法如决策树、最近邻等，虽然其解释性不佳，神经网络依然成为当时最流行的机器学习模型。在神经网络放弃解释性之后，其对于算法设计者的知识储备要求也降到了最低，因此，神经网络在 20世纪 80年代吸引了大批的研究者。
当然，也有很多实际应用要求算法具有可解释性，如因果关系发现、控制等。应该说，同时追求解释性和泛化性能一直是非神经网络机器学习研究者设计学习算法的基本约束。一旦一个算法既具有很好的解释性，其性能又超过神经网络，神经网络研究就将面临极大的困境。这样的事情在历史上也曾真实地发生过。 1995年 Vapnik提出了支持向量机分类算法，该算法解释性好，其分类性能也超过了当时常见的三层神经网络，尤其需要指出的是，其理论的分类错误率可以通过 Valiant的 PAC理论来估计。这导致了神经网络研究的十年沉寂，有人也将其称为人工智能的第二个冬天。在这期间，大批原先的神经网络研究者纷纷选择离开，只有少数人坚持研究神经网络。这个时间段对于机器学习来说，显然不是冬季。在这十年间，人们提出了概率图理论、核方法、流形学习、稀疏学习、排序学习等多种机器学习新方向。特别是在 20世纪末和 21世纪初，由于在搜索引擎、字符识别等应用领域取得的巨大进展，机器学习的影响力日益兴旺。其标志事件有：1997年 Tom Mitchell机器学习经典教科书的出现 [3]，2010年和 2011年连续两年图灵奖颁发给了机器学习的研究者 Valiant和 Pearl。
三十年河东，三十年河西。 2006年以后，神经网络突破了三层网络结构限制，大幅提高了模型的表示能力，又逢大数据时代相伴而生的高计算能力，神经网络化身深度学习，再次将分类能力提高到同时代其他模型无法匹敌的程度，有人将其称为人工智能的第三个春天。在机器学习的许多应用领域，深度学习甚至成为机器学习的代名词。虽然如此，时至今日，深度学习只是机器学习的一个分支，无论其沉寂或者过热，都不能逆转而只能加速全部机器学习本身应用越来越普及、理论越来越深入的发展趋势。
如今，机器学习算法每天被用来帮助解决不同学科不同商业应用的各种实际数据分析问题，相关的研究者每年也会针对相同或者不同的学习问题设计成百上千的新学习算法。面对一个学习任务，使用者经常面对十几个甚至几百个学习算法，如何从已有的算法中选择一个适当的方法或者设计一个适合自己问题的算法成为当前机器学习研究者和使用者必须面对的问题。早在 2004年，周志华在国家自然科学基金委员会秦皇岛会议上做了一个名为“普适机器学习”的学术报告，其中曾明确指出：机器学习“以 Tom Mitchell的经典教科书（ McGraw Hill出版社，1997）为例，很难看到基础学科（例如数学、物理学）教科书中那种贯穿始终的体系，也许会让人感到这不过是不同方法和技术的堆砌”。因此，已有的机器学习算法是否存在共性，是否存在统一的框架来描述机器学习算法的设计过程，就变成了一个亟待解决的问题。本书将从知识表示的角度出发，来阐述我们对这一问题的研究结果，并据此讨论现存的机器学习算法的适用范围。
延伸阅读
目前有多种不同的视角和观点研究机器学习。例如，可以从概率图角度来看待机器学习 [12, 13]，可以从统计角度来讨论机器学习 [11]，还可以从神经网络的观点来阐述机器学习 [16]，也可以调和以上各派观点来阐述机器学习 [17]。客观地说，上述观点都有一定道理，但是也有一个共同而重要的缺陷，那就是没有给出一个统管一切学习（包括机器、人类和生物）的理论。这正是 Jordan和 Mitchell在 2015年在 Science上发文指出的，机器学习所关注的两大问题之一：是否存在统管一切机器、人类和生物的学习规律 [14]。本书将致力于解决这一个问题。为此，本书采取了不同于以往的观点，从知识表示这一角度来阐述机器学习，并以此为出发点对现在的机器学习方法进行统一研究。
本书的基本出发点是，每个机器学习算法都有自己的知识表示。如果数据中
含有的知识不适合特定机器学习算法的知识表示，期望这种机器学习算法能够学到数据中含有的知识并不现实。因此，知识表示对于机器学习至关重要。但是，众所周知，经典的知识定义是柏拉图提出的，在 2000多年的时间里未受到严重的挑战。直到 1963年，盖梯尔写了一生唯一的一篇三页纸论文。这短短的三页纸使盖梯尔成为哲学史上绕不过去的人物，改变了盖梯尔的命运，也改变了知识论的发展进程。这三页纸中提出的盖梯尔难题直接否定了经典的知识定义 [18]。其直接后果是到目前并没有一个统一的知识定义，更不用说知识的统一表示。因此，暂时放弃知识的整体研究，而致力于知识的基本组成单位研究也许是一条更为可行的路径。本书即是这样的一个尝试和努力。
注意到知识的最小组成单位是概念 [15]，而目前的机器学习主要关注于从数据中提取概念。因此，研究概念的表示也将有助于机器学习的研究。正是从这一点出发，本书以一种统一的方式研究了常见的机器学习算法，如密度估计、回归、数据降维、聚类和分类等。
当然，机器学习的发展不仅与知识表示直接相关，也与最优化、统计等密切相关。历史上，计算机、数学、心理学、神经学、生物信息学、哲学等很多学科都曾极大地促进了机器学习的发展。未来是否还有其他学科对机器学习有重要影响，也是一个有趣的话题。
最后，稍微讨论一下与机器学习相关的学习、研究资料。目前，机器学习的发展方兴未艾，特别是学习算法的研究成果日新月异。除了已经列入参考文献的部分经典著作外，还有很多有影响的学术会议、学术期刊和网络资源等，如机器学习相关学术会议 ICML、NIPS、COLT，学术期刊 TPAMI和 JMLR，网络资源 http://videolectures.net/，有兴趣的读者可以自行查阅。

前言/序言

　　机器学习的主要目的是从有限的数据中学习到知识，而知识的基本单元是概念。借助于概念，人类可以在繁复的思想与多彩的世界之间建立起映射，指认各种对象，发现各种规律，表达各种想法，交流各种观念。一旦缺失相应的概念，人们将无法思考、交流，甚至无法顺利地生活、学习、工作、医疗、娱乐等。哲学家如卡西尔等甚至认为人类的本质特性是能够使用和创造各种符号概念。因此，如何使机器能够像人一样自动发现、运用概念，正是机器学习的基本研究内容。本书将集中讨论这个问题。

　　所谓的概念发现，是指从一个给定概念（或者概念集合）的有限外延子集提取对应的概念（或者概念集合）表示，又称归类问题。通过自然进化，人类可以从一个概念（或概念集合）的有限外延子集（有限的对象）中轻松提取概念（或概念集合）自身。对于人类如何处理归类问题，人们已经研究了很多年，发明了许多理论，比如经典概念理论、原型理论、样例理论和知识理论等，积累了很多的研究成果。本书借助认知科学的研究成果，提出了类的统一表示数学模型，以及与之相关的归类问题的统一数学表示。由此提出了类表示公理、归类公理和分类测试公理。据此，本书分别研究了归类结果分类、归类算法分类等诸多问题。特别需要提出的是，本书首次归纳了归类算法设计应该遵循的4条准则——类一致性准则、类紧致性准则、类分离性准则和奥卡姆剃刀准则。在理论上，任何机器学习算法的目标函数设计都遵循上述4条准则的1条或者数条。

　　对于具体的机器学习问题，本书依据奥卡姆剃刀准则，按照归类表示从简单到复杂的顺序，重新进行了组织。本书不仅论述了单类问题比多类问题的归类表示简单，聚类问题比分类问题的归类表示简单，单源数据学习比多源数据学习的归类表示简单，而且对于单类问题、多类问题自身的归类表示复杂度也进行了研究。在此基础上，指出单类问题包括密度估计、回归和单类数据降维等，并借助提出的公理框架以统一的方式演绎推出了在密度估计、回归、数据降维、聚类和分类等问题中常用的机器学习算法。

　　本书中章节的组织结构都是类似的，特别是与具体学习算法有关的章节。每

　　章有一个简短的开篇词。如果该章是学习算法章节，该开篇词用来简要说明本章算法的主要设计思想。如果该章是理论章节，该开篇词说明该理论问题的主要目标。每章结尾有延伸阅读或者讨论，延伸阅读提供更深入的相关阅读文献，讨论说明本章的相关内容与分析或者尚未解决的问题。

　　作者讲授机器学习已十数年，有感于当前的机器学习算法理论依据过多过杂，同时也一直羡慕欧氏几何从五条公理出发导出所有结论的风格。撰写本书，既是将欧氏几何风格移植到机器学习的一个尝试，更是试图为机器学习与模式识别提供一个统一但又简单的理论视角。总之，机器学习公理化这个问题在本书中提出，也在本书中解决了。

　　于剑2017年3月

机器学习：理论基石与实践之翼概述在信息爆炸的时代，数据已成为驱动社会进步和技术革新的核心要素。如何从海量数据中挖掘有价值的信息，并将其转化为智能的洞察和决策，已成为各行各业面临的关键挑战。本书正是在此背景下应运而生，旨在为读者提供一个全面、深入且系统性的机器学习知识体系。它不仅涵盖了机器学习的核心理论和数学基础，更深入浅出地介绍了各种经典的机器学习算法及其在现实世界中的应用。本书的独特之处在于，它将理论的严谨性与实践的灵活性巧妙地结合起来，让读者在理解算法背后原理的同时，也能掌握其在实际问题中的应用技巧。理论深度：从数学原理到模型构建本书将从机器学习的理论基石出发，逐层深入，为读者构建坚实的理论根基。我们将从概率论、统计学和线性代数等基础数学工具讲起，清晰地阐述这些工具在机器学习中的作用和意义。例如，概率论中的贝叶斯定理和概率分布将帮助我们理解模型的内在不确定性；统计学中的最大似然估计和假设检验将是模型参数学习和评估的关键；而线性代数中的向量、矩阵运算则是理解高维数据和复杂模型（如神经网络）的必经之路。在夯实数学基础后，本书将系统地介绍机器学习的几个核心范畴：监督学习 (Supervised Learning): 这是机器学习中最常见也最成熟的领域。我们将深入探讨回归（Regression）和分类（Classification）两类问题。对于回归问题，我们将从最简单的线性回归入手，逐步介绍多项式回归、岭回归（Ridge Regression）、Lasso回归等正则化方法，理解它们如何解决过拟合问题，并优化模型的泛化能力。对于分类问题，我们将详细讲解逻辑回归（Logistic Regression）的原理，理解其如何通过Sigmoid函数将连续输出映射到概率，以及其在二分类和多分类任务中的应用。本书还将重点介绍支持向量机（Support Vector Machines, SVM），深入解析其核函数技巧（Kernel Trick）如何处理非线性可分数据，并探讨其在文本分类、图像识别等领域的强大能力。决策树（Decision Trees）作为一种直观易懂且可解释性强的模型，我们将详细介绍其构建过程，包括信息增益、基尼不纯度等度量标准，并探讨随机森林（Random Forests）和梯度提升树（Gradient Boosting Trees）等集成学习方法如何通过组合多个弱学习器来提升整体性能。无监督学习 (Unsupervised Learning): 在缺乏标签数据的情况下，无监督学习能够发现数据中隐藏的结构和模式。本书将重点介绍聚类（Clustering）算法，从经典的K-Means算法开始，理解其迭代优化的过程，并探讨如何选择合适的K值。随后，我们将介绍层次聚类（Hierarchical Clustering）和DBSCAN（Density-Based Spatial Clustering of Applications with Noise）等方法，理解它们在处理不同类型数据和发现任意形状簇方面的优势。降维（Dimensionality Reduction）是无监督学习的另一重要分支，它旨在减少数据的特征数量，同时保留尽可能多的信息。我们将详细讲解主成分分析（Principal Component Analysis, PCA）的原理，理解其如何通过特征值分解找到数据的主要变化方向。此外，我们还将介绍非负矩阵分解（Non-negative Matrix Factorization, NMF）在主题建模和特征提取方面的应用。模型评估与选择 (Model Evaluation and Selection): 无论模型多么复杂，其最终的价值在于能否在真实世界的数据上取得良好表现。本书将提供一套严谨的模型评估框架。我们将介绍各种评估指标，如准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数、ROC曲线和AUC值等，并深入分析它们各自的优缺点以及适用场景。过拟合（Overfitting）和欠拟合（Underfitting）是模型训练过程中最常见的陷阱，本书将详细阐述它们产生的原因，并提供多种解决方案，如正则化、交叉验证（Cross-Validation）、早停（Early Stopping）等。我们将强调交叉验证的重要性，介绍K折交叉验证（K-Fold Cross-Validation）等技术，确保模型的泛化能力得到可靠的评估。深度学习基础 (Fundamentals of Deep Learning): 随着人工智能的飞速发展，深度学习已成为推动技术革新的关键力量。本书将为读者揭开深度学习的神秘面纱。我们将从人工神经网络（Artificial Neural Networks, ANN）的基本组成单元——神经元（Neuron）讲起，理解其激活函数（Activation Function）的作用，如Sigmoid、ReLU（Rectified Linear Unit）等，以及它们如何引入非线性。我们将详细介绍多层感知机（Multi-Layer Perceptron, MLP）的结构，以及反向传播算法（Backpropagation Algorithm）如何高效地计算模型梯度，实现参数更新。在此基础上，我们将引出卷积神经网络（Convolutional Neural Networks, CNNs）在图像处理领域的革命性应用，理解其卷积层（Convolutional Layer）、池化层（Pooling Layer）和全连接层（Fully Connected Layer）的设计思想，以及它们如何提取图像的局部特征。此外，循环神经网络（Recurrent Neural Networks, RNNs）及其变体如长短期记忆网络（Long Short-Term Memory, LSTM）和门控循环单元（Gated Recurrent Unit, GRU）在序列数据处理（如自然语言处理）中的强大威力也将得到详细阐述。实践导向：算法应用与工程实践理论的深度最终是为了指导实践。本书将强调算法在实际问题中的应用，并提供可操作的工程实践建议。数据预处理与特征工程 (Data Preprocessing and Feature Engineering): 真实世界的数据往往是混乱、不完整且充满噪声的。本书将详细介绍数据清洗（Data Cleaning）的各种技术，包括处理缺失值（Missing Values）、异常值（Outliers）和重复值（Duplicates）。特征缩放（Feature Scaling），如标准化（Standardization）和归一化（Normalization），将帮助模型更好地收敛。特征选择（Feature Selection）和特征提取（Feature Extraction）是提升模型性能和效率的关键步骤，我们将介绍多种方法，如过滤法、包裹法和嵌入法，以及PCA等技术在特征工程中的应用。算法选择与调优 (Algorithm Selection and Tuning): 面对不同的问题和数据集，如何选择最合适的算法是一个挑战。本书将提供一套指导性的框架，帮助读者根据问题的类型（如分类、回归、聚类）、数据规模、计算资源以及对模型解释性的需求来做出明智的决策。更重要的是，我们将深入探讨模型调优（Hyperparameter Tuning）的重要性，介绍网格搜索（Grid Search）、随机搜索（Random Search）和贝叶斯优化（Bayesian Optimization）等技术，帮助读者找到模型的最佳超参数组合，从而最大限度地提升模型性能。案例研究与项目实践 (Case Studies and Project Practice): 为了让读者更好地理解机器学习的应用，本书将提供一系列精心设计的案例研究，涵盖图像识别、自然语言处理、推荐系统、金融风控等多个热门领域。通过分析真实世界的项目，读者将学习如何将所学的理论和算法应用于解决实际问题，并理解不同算法在具体场景下的优劣势。此外，本书还将引导读者进行项目实践，鼓励他们动手实现算法、处理数据、训练模型并评估结果，从而将知识转化为实践能力。内容特色与目标读者本书的最大特色在于其内容组织的科学性和逻辑性。它从基础的数学概念出发，循序渐进地引导读者进入机器学习的广阔天地，不放过任何一个关键的技术细节，也不回避任何一个重要的理论推导。同时，本书注重理论与实践的结合，力求让读者在掌握理论的同时，也能获得解决实际问题的能力。本书适合以下读者群体：计算机科学、数据科学、人工智能及相关领域的学生：为他们提供坚实的理论基础和实践指导。希望转行或深入学习机器学习的工程师和开发者：帮助他们快速掌握核心技术，提升工作能力。对机器学习感兴趣的科研人员和学者：提供一个系统的学习资源，为进一步的研究打下基础。需要理解和应用机器学习技术的各行业专业人士：帮助他们了解数据驱动的决策方式，并将其应用于自己的领域。结语机器学习正以前所未有的速度改变着世界。本书旨在成为读者探索这个迷人领域的忠实伙伴，提供清晰的指引，开启通往智能未来的大门。通过对机器学习原理的深入剖析和对算法应用的全面展示，我们希望读者能够掌握这门强大的技术，并在各自的领域内创造出无限可能。

用户评价

评分☆☆☆☆☆

拿到这本书的时候，就感觉沉甸甸的。不光是纸张的厚度，更是知识的厚重感。我一直对机器学习中的“原理”部分非常感兴趣，但市面上很多书籍要么过于浅显，要么过于偏重工程实践，能够真正深入剖析其理论根基的书籍并不多。这本《机器学习：从公理到算法》吸引我的地方就在于它标题中“公理”二字。在我看来，科学的基石在于公理，而一个成熟的理论体系，必然源于其公理化的构建。我希望这本书能够带领我深入理解机器学习的数学哲学，从最基础的假设和定义出发，一步步推导出各种算法的形成。我希望它能解答我心中 long-standing 的疑问，比如为什么很多模型都依赖于优化目标函数，以及梯度下降等优化算法的根本原理。我期待这本书能够帮助我建立起一种“举一反三”的能力，当我遇到新的问题时，能够从理论层面去分析，而不是仅仅依赖于已有的经验。

评分☆☆☆☆☆

这本书的出版，对我来说，像是久旱逢甘霖。我一直以来都对机器学习的理论基础感到有些力不从心，虽然能够熟练运用各种工具箱，但总感觉自己像是站在巨人的肩膀上，却看不到巨人的脚下。这本《机器学习：从公理到算法》的书名就直指问题的核心。我希望它能带领我从最基础的数学原理和统计概念出发，层层递进地构建起对机器学习的理解。我尤其期待它能够深入剖析那些支撑着机器学习模型运转的数学“骨架”，比如概率论的严谨应用、线性代数的灵活运用，以及信息论的深刻洞察。我希望这本书能让我明白，为什么某些算法的假设是那样，为什么它们的性能会受到特定因素的影响。我期待它能够提供一个清晰的理论框架，帮助我理解不同算法之间的联系与区别，从而能够根据实际问题选择最合适的工具，甚至能够在这个基础上进行创新。

评分☆☆☆☆☆

这本书的封面设计就透露着一种严谨和深邃的气息，深蓝的底色搭配银色的字体，像是浩瀚宇宙中闪烁的智慧星辰。我还在犹豫是否入手时，偶然看到一位资深研究者在其博客中提及这本书，他用“打通任督二脉”、“拨云见日”等词来形容阅读后的感受，这让我对它产生了极大的好奇。我一直对机器学习的理论基础感到有些模糊，虽然能熟练地调用各种库和模型，但总觉得根基不稳，缺乏一种“道”的境界。这本《机器学习：从公理到算法》似乎正是要填补我在这方面的空白。书名中的“公理”二字就足以引起我的兴趣，我一直认为，一个成熟的科学体系，必然有其 foundational principles，而机器学习作为一门新兴的学科，其公理体系的构建过程本身就是一件极具价值的事情。我期待它能带领我从最基本的数学和统计学原理出发，一步步构建起对机器学习的深刻理解，而不是仅仅停留在“黑箱”操作层面。我希望这本书能够帮助我理解各种算法背后的逻辑是如何被推导出来的，以及为什么某些算法在特定场景下表现优异。这不仅能提升我解决实际问题的能力，更能让我对整个机器学习领域有更宏观和深刻的认识。

评分☆☆☆☆☆

我是在一个学术会议上第一次听说这本书的。当时，一位来自国内顶尖高校的教授在介绍他的最新研究成果时，多次引用了本书中的一些概念和推导。这让我意识到，这不仅仅是一本教材，更是一部具有前瞻性和指导意义的学术著作。这本书的书名很吸引人，“从公理到算法”，这是一种自下而上的严谨逻辑，也是一种由浅入深的知识探索路径。我一直对机器学习的数学基础感到困惑，特别是那些复杂的概率论和线性代数在模型中的具体应用。很多时候，我们只是记住公式，却不理解公式背后的物理含义或者统计意义。我希望这本书能够系统地梳理这些知识，用一种清晰易懂的方式将其串联起来，让我们明白为什么我们需要这些数学工具，以及它们是如何被巧妙地应用于构建和优化机器学习模型的。我期待这本书能够帮助我理解那些支撑着人工智能前沿发展的核心数学思想，为我进一步深入学习更高级的机器学习技术打下坚实的基础。

评分☆☆☆☆☆

这是一本让我读起来颇有“考古”乐趣的书。在如今充斥着各种速成教程和“开箱即用”框架的时代，找到一本能够深入剖析事物本质的书籍实属不易。这本书的叙事方式，从“公理”出发，仿佛是在带领读者回溯到机器学习思想的源头。我尤其欣赏它在讲解过程中，不回避那些看似枯燥但却至关重要的数学推导。有时候，我们会因为追求效率而忽略了对基础的夯实，但这本书恰恰证明了，只有真正理解了“为什么”，才能更灵活、更有效地“怎么做”。我最近在尝试理解一些更复杂的模型，比如深度学习中的一些非线性激活函数的选择，以及它们在反向传播过程中扮演的角色，总是觉得隔靴搔痒。我希望这本书能够提供一个清晰的理论框架，解释这些细节背后的数学原理，让我不再是被动地接受，而是能够主动地去理解和创新。我期待它能帮助我建立起一种“理论联系实际”的能力，能够从数学的语言中读懂算法的精妙，并将其应用于我自己的研究或开发项目中。

评分☆☆☆☆☆

618活动优惠给力，算下来3折，开启买买模式。

评分☆☆☆☆☆

他却依然对现实放肆　等着美丽的故事被腐蚀

评分☆☆☆☆☆

本人对此卖家之仰慕如滔滔江水连绵不绝，海枯石烂，天崩地裂，永不变心。交易成功后，我的心情是久久不能平静，

评分☆☆☆☆☆

入门书籍，条理清楚，有逻辑性。包装完美，有塑封。活动给力，买100减50，相当划算。物流快，当天下单当天到货。配送师傅nice，这一单两大箱书籍38本IT书，师傅帮我扛上楼滴。

评分☆☆☆☆☆

只见顶天立地一金甲天神立于天地间，花见花开，人见人爱，这位英雄手持双斧，二目如电，一斧下去，混沌初开，二斧下去，女娲造人，三斧下去，小生倾倒。

评分☆☆☆☆☆

以解客户忧患，