商品参数
书名:深度学习
作者:[美]IanGoodfellow(伊恩·古德费洛)
ISBN:9787115461476
出版社:人民邮电出版社
出版时间:2017年8月
印刷时间:2017年8月
字数:字
页数:500页
开本:16开
包装:平装
重量:g
定价:168元
编辑
AI圣经!深度学习领域奠基性的经典书!长期位居美国**逊AI和机器学习类图书!所有数据科学家和机器学习从业者的bi读图书!特斯拉CEO埃隆·马斯克等国内外众多专**荐!中文版由北京大学数学科学学院统计学教授张志华审校。
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。本书会介绍深度学习领域的许多主题。
本书囊括了数学及相关概念的背景知识,包括线性代数、概率论、信息论、数值优化以及机器学习中的相关内容。同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线、生物信息学以及视频游戏方面的应用。*后,本书还提供了一些研究方向,涵盖的理论主题包括线性因子模型、自编码器、表示学习、结构化概率模型、蒙特卡罗方法、配分函数、近似推断以及深度生成模型。
封面特色:由艺术家DanielAmbrosi提供的**公园杜鹃花步道梦幻景观。在Ambrosi的亿级像素全景图上,应用JosephSmarr(Google)和ChirsLamb(NVIA)修改后的GoogleDeepDream开源程序,创造了DanielAmbrosi的“幻景”。
内容简介
《深度学习》由知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究**。
《深度学习》适合各类读者阅读,包括相关的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
目录
第1章引言..............................................................................1
1.1本书面向的读者...................................................................7
1.2深度学习的历史趋势..............................................................8
1.2.1神经网络的众多名称和命运变迁................................................8
1.2.2与日俱增的数据量............................................................12
1.2.3与日俱增的模型规模..........................................................13
1.2.4与日俱增的精度、复杂度和对现实世界的冲击...................................15
第1部分应用数学与机器学习基础
第2章线性代数........................................................................19
2.1标量、向量、矩阵和张量.........................................................19
2.2矩阵和向量相乘..................................................................21
2.3单位矩阵和逆矩阵...............................................................22
2.4线性相关和生成子空间..........................................................23
2.5范数..............................................................................24
2.6特殊类型的矩阵和向量..........................................................25
2.7特征分解.........................................................................26
2.8奇异值分解......................................................................28
2.9Moore-Penrose伪逆..............................................................28
2.10迹运算..........................................................................29
2.11行列式..........................................................................30
2.12实例:主成分分析...............................................................30
第3章概率与信息论....................................................................34
3.1为什么要使用概率...............................................................34
3.2随机变量.........................................................................35
3.3概率分布.........................................................................36
3.3.1离散型变量和概率质量函数...................................................36
3.3.2连续型变量和概率密度函数...................................................36
3.4边缘概率.........................................................................37
3.5条件概率.........................................................................37
3.6条件概率的链式法则.............................................................38
3.7**性和条件**性.............................................................38
3.8期望、方差和协方差.............................................................38
3.9常用概率分布....................................................................39
3.9.1Bernoulli分布...............................................................40
3.9.2Multinoulli分布.............................................................40
3.9.3高斯分布....................................................................40
3.9.4指数分布和Laplace分布.....................................................41
3.9.5rac分布和经验分布........................................................42
3.9.6分布的混合..................................................................42
3.10常用函数的有用性质............................................................43
3.11贝叶斯规则.....................................................................45
3.12连续型变量的技术细节.........................................................45
3.13信息论..........................................................................47
3.14结构化概率模型................................................................49
第4章数值计算........................................................................52
4.1上溢和下溢......................................................................52
4.2病态条件.........................................................................53
4.3基于梯度的优化方法.............................................................53
4.3.1梯度之上:Jacobian和Hessian矩阵...........................................56
4.4约束优化.........................................................................60
4.5实例:线性*小二乘.............................................................61
第5章机器学习基础....................................................................63
5.1学习算法.........................................................................63
5.1.1任务T.....................................................................63
5.1.2性能度量P..................................................................66
5.1.3经验E......................................................................66
5.1.4示例:线性回归..............................................................68
5.2容量、过拟合和欠拟合...........................................................70
5.2.1没有午餐定理............................................................73
5.2.2正则化......................................................................74
5.3超参数和验证集..................................................................76
5.3.1交叉验证....................................................................76
5.4估计、偏差和方差................................................................77
5.4.1点估计......................................................................77
5.4.2偏差........................................................................78
5.4.3方差和标准差................................................................80
5.4.4权衡偏差和方差以*小化均方误差.............................................81
5.4.5一致性......................................................................82
5.5*大似然估计....................................................................82
5.5.1条件对数似然和均方误差......................................................84
5.5.2*大似然的性质..............................................................84
5.6贝叶斯统计......................................................................85
5.6.1*大后验(MAP)估计........................................................87
5.7监督学习算法....................................................................88
5.7.1概率监督学习................................................................88
5.7.2支持向量机..................................................................88
5.7.3其他简单的监督学习算法......................................................90
5.8无监督学习算法..................................................................91
5.8.1主成分分析..................................................................92
5.8.2k-均值聚类...................................................................94
5.9随机梯度下降....................................................................94
5.10构建机器学习算法..............................................................96
5.11促使深度学习发展的挑战.......................................................96
5.11.1维数灾难...................................................................97
5.11.2局部不变性和平滑正则化....................................................97
5.11.3流形学习...................................................................99
第2部分深度网络:现代实践
第6章深度前馈网络..................................................................105
6.1实例:学习XOR................................................................107
6.2基于梯度的学习................................................................110
6.2.1代价函数...................................................................111
6.2.2输出单元...................................................................113
6.3隐藏单元........................................................................119
6.3.1整流线性单元及其扩展......................................................120
6.3.2logisticsigmoid与双曲正切函数..............................................121
6.3.3其他隐藏单元...............................................................122
6.4架构设计........................................................................123
6.4.1**近似性质和深度.........................................................123
6.4.2其他架构上的考虑...........................................................126
6.5反向传播和其他的微分算法.....................................................126
6.5.1计算图.....................................................................127
6.5.2微积分中的链式法则.........................................................128
6.5.3递归地使用链式法则来实现反向传播..........................................128
6.5.4全连接MLP中的反向传播计算..............................................131
6.5.5符号到符号的导数...........................................................131
6.5.6一般化的反向传播...........................................................133
6.5.7实例:用于MLP训练的反向传播.............................................135
6.5.8复杂化.....................................................................137
6.5.9深度学习界以外的微分......................................................137
6.5.10高阶微分..................................................................138
6.6历史小记........................................................................139
第7章深度学习中的正则化...........................................................141
7.1参数范数惩罚...................................................................142
7.1.1L2参数正则化..............................................................142
7.1.2L1正则化..................................................................144
7.2作为约束的范数惩罚............................................................146
7.3正则化和欠约束问题............................................................147
7.4数据集增强.....................................................................148
7.5噪声鲁棒性.....................................................................149
7.5.1向输出目标注入噪声.........................................................150
7.6半监督学习.....................................................................150
7.7多任务学习.....................................................................150
7.8提前终止........................................................................151
7.9参数绑定和参数共享............................................................156
7.9.1卷积神经网络...............................................................156
7.10稀疏表示.......................................................................157
7.11Bagging和其他集成方法.......................................................158
7.12Dropout........................................................................159
7.13对抗训练.......................................................................165
7.14切面距离、正切传播和流形正切分类器........................................167
第8章深度模型中的优化..............................................................169
8.1学习和纯优化有什么不同.......................................................169
8.1.1经验*小化.............................................................169
8.1.2代理损失函数和提前终止....................................................170
8.1.3批量算法和小批量算法......................................................170
8.2神经网络优化中的挑战.........................................................173
8.2.1病态.......................................................................173
8.2.2局部极小值.................................................................174
8.2.3高原、鞍点和其他平坦区域...................................................175
8.2.4悬崖和梯度爆炸.............................................................177
8.2.5长期依赖...................................................................177
8.2.6非**梯度.................................................................178
8.2.7局部和全局结构间的弱对应..................................................178
8.2.8优化的理论限制.............................................................179
8.3基本算法........................................................................180
8.3.1随机梯度下降...............................................................180
8.3.2动量.......................................................................181
8.3.3Nesterov动量...............................................................183
8.4参数初始化策略................................................................184
8.5自适应学习率算法..............................................................187
8.5.1AdaGrad..................................................................187
8.5.2RMSProp..................................................................188
8.5.3Adam......................................................................189
8.5.4选择正确的优化算法.........................................................190
8.6二阶近似方法...................................................................190
8.6.1牛顿法.....................................................................190
8.6.2共轭梯度...................................................................191
8.6.3BFGS......................................................................193
8.7优化策略和元算法..............................................................194
8.7.1批标准化...................................................................194
8.7.2坐标下降...................................................................196
8.7.**olyak平均................................................................197
8.7.4监督预训练.................................................................197
8.7.5设计有助于优化的模型......................................................199
8.7.6延拓法和课程学习...........................................................199
第9章卷积网络.......................................................................201
9.1卷积运算........................................................................201
9.2动机............................................................................203
9.3池化............................................................................207
9.4卷积与池化作为一种无限强的先验.............................................210
9.5基本卷积函数的变体............................................................211
9.6结构化输出.....................................................................218
9.7数据类型........................................................................219
9.8**的卷积算法................................................................220
9.9随机或无监督的特征............................................................220
9.10卷积网络的神经科学基础......................................................221
9.11卷积网络与深度学习的历史...................................................226
第10章序列建模:循环和递归网络...................................................227
10.1展开计算图....................................................................228
10.2循环神经网络..................................................................230
10.2.1导师驱动过程和输出循环网络...............................................232
10.2.2计算循环神经网络的梯度...................................................233
10.2.3作为有向图模型的循环网络.................................................235
10.2.4基于上下文的RNN序列建模...............................................237
10.3双向RNN.....................................................................239
10.4基于编码-解码的序列到序列架构.............................................240
10.5深度循环网络..................................................................242
10.6递归神经网络..................................................................243
10.7长期依赖的挑战...............................................................244
10.8回声状态网络..................................................................245
10.9渗漏单元和其他多时间尺度的策略............................................247
10.9.1时间维度的跳跃连接........................................................247
10.9.2渗漏单元和一系列不同时间尺度.............................................247
10.9.3删除连接..................................................................248
10.10长短期记忆和其他门控RNN................................................248
10.10.1LSTM...................................................................248
10.10.2其他门控RNN............................................................250
10.11优化长期依赖.................................................................251
10.11.1截断梯度.................................................................251
10.11.2引导信息流的正则化......................................................252
10.12外显记忆.....................................................................253
第11章实践方法论...................................................................256
11.1性能度量.......................................................................256
11.2默认的基准模型...............................................................258
11.3决定是否收集更多数据........................................................259
11.4选择超参数....................................................................259
11.4.1手动调整超参数............................................................259
11.4.2自动超参数优化算法........................................................262
11.4.3网格搜索..................................................................262
11.4.4随机搜索..................................................................263
11.4.5基于模型的超参数优化.....................................................264
11.5调试策略.......................................................................264
11.6示例:多位数字识别...........................................................267
第12章应用...........................................................................269
12.1大规模深度学习...............................................................269
12.1.1快速的CPU实现..........................................................269
12.1.2GPU实现.................................................................269
12.1.3大规模的分布式实现........................................................271
12.1.4模型压缩..................................................................271
12.1.5动态结构..................................................................272
12.1.6深度网络的硬件实现...................................................273
12.2计算机视觉....................................................................274
12.2.1预处理....................................................................275
12.2.2数据集增强................................................................277
12.3语音识别.......................................................................278
12.4自然语言处理..................................................................279
12.4.1n-gram....................................................................280
12.4.2神经语言模型..............................................................281
12.4.3高维输出..................................................................282
12.4.4结合n-gram和神经语言模型...............................................286
12.4.5神经机器翻译..............................................................287
12.4.6历史展望..................................................................289
12.5其他应用.......................................................................290
12.5.1..................................................................290
12.5.2知识表示、推理和回答......................................................292
第3部分深度学习研究
第13章线性因子模型.................................................................297
13.1概率PCA和因子分析.........................................................297
13.2**成分分析..................................................................298
13.3慢特征分析....................................................................300
13.4稀疏编码.......................................................................301
13.5PCA的流形解释..............................................................304
第14章自编码器......................................................................306
14.1欠完备自编码器...............................................................306
14.2正则自编码器..................................................................307
14.2.1稀疏自编码器..............................................................307
14.2.2去噪自编码器..............................................................309
14.2.3惩罚导数作为正则..........................................................309
14.3表示能力、层的大小和深度....................................................310
14.4随机编码器和...........................................................310
14.5去噪自编码器详解.............................................................311
14.5.1得分估计..................................................................312
14.5.2历史展望..................................................................314
14.6使用自编码器学习流形........................................................314
14.7收缩自编码器..................................................................317
14.8预测稀疏分解..................................................................319
14.9自编码器的应用...............................................................319
第15章表示学习......................................................................321
15.1贪心逐层无监督预训练........................................................322
15.1.1何时以及为何无监督预训练有效有效.........................................323
15.2迁移学习和领域自适应........................................................326
15.3半监督解释因果关系...........................................................329
15.4分布式表示....................................................................332
15.5得益于深度的指数增益........................................................336
15.6提供发现潜在原因的线索......................................................337
第16章深度学习中的结构化概率模型................................................339
16.1非结构化建模的挑战...........................................................339
16.2使用图描述模型结构...........................................................342
16.2.1有向模型..................................................................342
16.2.2无向模型..................................................................344
16.2.3配分函数..................................................................345
16.2.4基于能量的模型............................................................346
16.2.5分离和d-分离..............................................................347
16.2.6在有向模型和无向模型中转换...............................................350
16.2.7因子图....................................................................352
16.3从图模型中采样...............................................................353
16.4结构化建模的优势.............................................................353
16.5学习依赖关系..................................................................354
16.6推断和近似推断...............................................................354
16.7结构化概率模型的深度学习方法...............................................355
16.7.1实例:受限玻尔兹曼机......................................................356
第17章蒙特卡罗方法.................................................................359
17.1采样和蒙特卡罗方法...........................................................359
17.1.1为什么需要采样............................................................359
17.1.2蒙特卡罗采样的基础........................................................359
17.2重要采样.......................................................................360
17.3马尔可夫链蒙特卡罗方法......................................................362
17.4Gibbs采样.....................................................................365
17.5不同的峰值之间的混合挑战...................................................365
17.5.1不同峰值之间通过回火来混合...............................................367
17.5.2深度也许会有助于混合.....................................................368
第18章直面配分函数.................................................................369
18.1对数似然梯度..................................................................369
18.2随机*大似然和对比散度......................................................370
18.3伪似然.........................................................................375
18.4得分匹配和比率匹配...........................................................376
18.5去噪得分匹配..................................................................378
18.6噪声对比估计..................................................................378
18.7估计配分函数..................................................................380
18.7.1退火重要采样..............................................................382
18.7.2桥式采样..................................................................384
第19章近似推断......................................................................385
19.1把推断视作优化问题...........................................................385
19.2期望*大化....................................................................386
19.3*大后验推断和稀疏编码......................................................387
19.4变分推断和变分学习...........................................................389
19.4.1离散型潜变量..............................................................390
19.4.2变分法....................................................................394
19.4.3连续型潜变量..............................................................396
19.4.4学习和推断之间的相互作用.................................................397
19.5学成近似推断..................................................................397
19.5.1醒眠算法..................................................................398
19.5.2学成推断的其他形式........................................................398
第20章深度生成模型.................................................................399
20.1玻尔兹曼机....................................................................399
20.2受限玻尔兹曼机...............................................................400
20.2.1条件分布..................................................................401
20.2.2训练受限玻尔兹曼机........................................................402
20.3深度信念网络..................................................................402
20.4深度玻尔兹曼机...............................................................404
20.4.1有趣的性质................................................................406
20.4.2DBM均匀场推断..........................................................406
20.4.3DBM的参数学习..........................................................408
20.4.4逐层预训练................................................................408
20.4.5联合训练深度玻尔兹曼机...................................................410
20.5实值数据上的玻尔兹曼机......................................................413
20.5.1Gaussian-BernoulliRBM...................................................413
20.5.2条件协方差的无向模型.....................................................414
20.6卷积玻尔兹曼机...............................................................417
20.7用于结构化或序列输出的玻尔兹曼机..........................................418
20.8其他玻尔兹曼机...............................................................419
20.9通过随机操作的反向传播......................................................419
20.9.1通过离散随机操作的反向传播...............................................420
20.10有向生成网络.................................................................422
20.10.1sigmoid信念网络.........................................................422
20.10.2可微生成器网络...........................................................423
20.10.3变分自编码器.............................................................425
20.10.4生成式对抗网络...........................................................427
20.10.5生成矩匹配网络...........................................................429
20.10.6卷积生成网络.............................................................430
20.10.7自回归网络...............................................................430
20.10.8线性自回归网络...........................................................430
20.10.9神经自回归网络...........................................................431
20.10.10NADE..................................................................432
20.11从自编码器采样..............................................................433
20.11.1与任意去噪自编码器相关的马尔可夫链......................................434
20.11.2夹合与条件采样...........................................................434
20.11.3回退训练过程.............................................................435
20.12生成随机网络.................................................................435
20.12.1判别性GSN..............................................................436
20.13其他生成方案.................................................................436
20.14评估生成模型.................................................................437
20.15结论..........................................................................438
参考文献..................................................................................439
索引......................................................................................486
真好书!
评分真好书!
评分真好书!
评分真好书!
评分真好书!
评分真好书!
评分真好书!
评分真好书!
评分真好书!
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.qciss.net All Rights Reserved. 图书大百科 版权所有