正版 深度学习 数学工具和机器学习算法教程书籍 深度学习方法和技术

正版 深度学习 数学工具和机器学习算法教程书籍 深度学习方法和技术 pdf epub mobi txt 电子书 下载 2025

[美] Ian,Goodfellow 著
承接 住宅 自建房 室内改造 装修设计 免费咨询 QQ:624617358 一级注册建筑师 亲自为您回答、经验丰富,价格亲民。无论项目大小,都全力服务。期待合作,欢迎咨询!QQ:624617358
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 金帛三木图书专营店
出版社: 人民邮电出版社
ISBN:9787115461476M
商品编码:14180680526
出版时间:2016-01-01

具体描述















商品参数

书名:深度学习

作者:[美]IanGoodfellow(伊恩·古德费洛)

ISBN:9787115461476

出版社:人民邮电出版社

出版时间:2017年8月

印刷时间:2017年8月

字数:字

页数:500页

开本:16开

包装:平装

重量:g

定价:168元

编辑

AI圣经!深度学习领域奠基性的经典书!长期位居美国**逊AI和机器学习类图书!所有数据科学家和机器学习从业者的bi读图书!特斯拉CEO埃隆·马斯克等国内外众多专**荐!中文版由北京大学数学科学学院统计学教授张志华审校。

深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。本书会介绍深度学习领域的许多主题。

本书囊括了数学及相关概念的背景知识,包括线性代数、概率论、信息论、数值优化以及机器学习中的相关内容。同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线、生物信息学以及视频游戏方面的应用。*后,本书还提供了一些研究方向,涵盖的理论主题包括线性因子模型、自编码器、表示学习、结构化概率模型、蒙特卡罗方法、配分函数、近似推断以及深度生成模型。

封面特色:由艺术家DanielAmbrosi提供的**公园杜鹃花步道梦幻景观。在Ambrosi的亿级像素全景图上,应用JosephSmarr(Google)和ChirsLamb(NVIA)修改后的GoogleDeepDream开源程序,创造了DanielAmbrosi的“幻景”。

内容简介

《深度学习》由知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究**。

《深度学习》适合各类读者阅读,包括相关的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。

目录

第1章引言..............................................................................1

1.1本书面向的读者...................................................................7

1.2深度学习的历史趋势..............................................................8

1.2.1神经网络的众多名称和命运变迁................................................8

1.2.2与日俱增的数据量............................................................12

1.2.3与日俱增的模型规模..........................................................13

1.2.4与日俱增的精度、复杂度和对现实世界的冲击...................................15

第1部分应用数学与机器学习基础

第2章线性代数........................................................................19

2.1标量、向量、矩阵和张量.........................................................19

2.2矩阵和向量相乘..................................................................21

2.3单位矩阵和逆矩阵...............................................................22

2.4线性相关和生成子空间..........................................................23

2.5范数..............................................................................24

2.6特殊类型的矩阵和向量..........................................................25

2.7特征分解.........................................................................26

2.8奇异值分解......................................................................28

2.9Moore-Penrose伪逆..............................................................28

2.10迹运算..........................................................................29

2.11行列式..........................................................................30

2.12实例:主成分分析...............................................................30

第3章概率与信息论....................................................................34

3.1为什么要使用概率...............................................................34

3.2随机变量.........................................................................35

3.3概率分布.........................................................................36

3.3.1离散型变量和概率质量函数...................................................36

3.3.2连续型变量和概率密度函数...................................................36

3.4边缘概率.........................................................................37

3.5条件概率.........................................................................37

3.6条件概率的链式法则.............................................................38

3.7**性和条件**性.............................................................38

3.8期望、方差和协方差.............................................................38

3.9常用概率分布....................................................................39

3.9.1Bernoulli分布...............................................................40

3.9.2Multinoulli分布.............................................................40

3.9.3高斯分布....................................................................40

3.9.4指数分布和Laplace分布.....................................................41

3.9.5rac分布和经验分布........................................................42

3.9.6分布的混合..................................................................42

3.10常用函数的有用性质............................................................43

3.11贝叶斯规则.....................................................................45

3.12连续型变量的技术细节.........................................................45

3.13信息论..........................................................................47

3.14结构化概率模型................................................................49

第4章数值计算........................................................................52

4.1上溢和下溢......................................................................52

4.2病态条件.........................................................................53

4.3基于梯度的优化方法.............................................................53

4.3.1梯度之上:Jacobian和Hessian矩阵...........................................56

4.4约束优化.........................................................................60

4.5实例:线性*小二乘.............................................................61

第5章机器学习基础....................................................................63

5.1学习算法.........................................................................63

5.1.1任务T.....................................................................63

5.1.2性能度量P..................................................................66

5.1.3经验E......................................................................66

5.1.4示例:线性回归..............................................................68

5.2容量、过拟合和欠拟合...........................................................70

5.2.1没有午餐定理............................................................73

5.2.2正则化......................................................................74

5.3超参数和验证集..................................................................76

5.3.1交叉验证....................................................................76

5.4估计、偏差和方差................................................................77

5.4.1点估计......................................................................77

5.4.2偏差........................................................................78

5.4.3方差和标准差................................................................80

5.4.4权衡偏差和方差以*小化均方误差.............................................81

5.4.5一致性......................................................................82

5.5*大似然估计....................................................................82

5.5.1条件对数似然和均方误差......................................................84

5.5.2*大似然的性质..............................................................84

5.6贝叶斯统计......................................................................85

5.6.1*大后验(MAP)估计........................................................87

5.7监督学习算法....................................................................88

5.7.1概率监督学习................................................................88

5.7.2支持向量机..................................................................88

5.7.3其他简单的监督学习算法......................................................90

5.8无监督学习算法..................................................................91

5.8.1主成分分析..................................................................92

5.8.2k-均值聚类...................................................................94

5.9随机梯度下降....................................................................94

5.10构建机器学习算法..............................................................96

5.11促使深度学习发展的挑战.......................................................96

5.11.1维数灾难...................................................................97

5.11.2局部不变性和平滑正则化....................................................97

5.11.3流形学习...................................................................99

第2部分深度网络:现代实践

第6章深度前馈网络..................................................................105

6.1实例:学习XOR................................................................107

6.2基于梯度的学习................................................................110

6.2.1代价函数...................................................................111

6.2.2输出单元...................................................................113

6.3隐藏单元........................................................................119

6.3.1整流线性单元及其扩展......................................................120

6.3.2logisticsigmoid与双曲正切函数..............................................121

6.3.3其他隐藏单元...............................................................122

6.4架构设计........................................................................123

6.4.1**近似性质和深度.........................................................123

6.4.2其他架构上的考虑...........................................................126

6.5反向传播和其他的微分算法.....................................................126

6.5.1计算图.....................................................................127

6.5.2微积分中的链式法则.........................................................128

6.5.3递归地使用链式法则来实现反向传播..........................................128

6.5.4全连接MLP中的反向传播计算..............................................131

6.5.5符号到符号的导数...........................................................131

6.5.6一般化的反向传播...........................................................133

6.5.7实例:用于MLP训练的反向传播.............................................135

6.5.8复杂化.....................................................................137

6.5.9深度学习界以外的微分......................................................137

6.5.10高阶微分..................................................................138

6.6历史小记........................................................................139

第7章深度学习中的正则化...........................................................141

7.1参数范数惩罚...................................................................142

7.1.1L2参数正则化..............................................................142

7.1.2L1正则化..................................................................144

7.2作为约束的范数惩罚............................................................146

7.3正则化和欠约束问题............................................................147

7.4数据集增强.....................................................................148

7.5噪声鲁棒性.....................................................................149

7.5.1向输出目标注入噪声.........................................................150

7.6半监督学习.....................................................................150

7.7多任务学习.....................................................................150

7.8提前终止........................................................................151

7.9参数绑定和参数共享............................................................156

7.9.1卷积神经网络...............................................................156

7.10稀疏表示.......................................................................157

7.11Bagging和其他集成方法.......................................................158

7.12Dropout........................................................................159

7.13对抗训练.......................................................................165

7.14切面距离、正切传播和流形正切分类器........................................167

第8章深度模型中的优化..............................................................169

8.1学习和纯优化有什么不同.......................................................169

8.1.1经验*小化.............................................................169

8.1.2代理损失函数和提前终止....................................................170

8.1.3批量算法和小批量算法......................................................170

8.2神经网络优化中的挑战.........................................................173

8.2.1病态.......................................................................173

8.2.2局部极小值.................................................................174

8.2.3高原、鞍点和其他平坦区域...................................................175

8.2.4悬崖和梯度爆炸.............................................................177

8.2.5长期依赖...................................................................177

8.2.6非**梯度.................................................................178

8.2.7局部和全局结构间的弱对应..................................................178

8.2.8优化的理论限制.............................................................179

8.3基本算法........................................................................180

8.3.1随机梯度下降...............................................................180

8.3.2动量.......................................................................181

8.3.3Nesterov动量...............................................................183

8.4参数初始化策略................................................................184

8.5自适应学习率算法..............................................................187

8.5.1AdaGrad..................................................................187

8.5.2RMSProp..................................................................188

8.5.3Adam......................................................................189

8.5.4选择正确的优化算法.........................................................190

8.6二阶近似方法...................................................................190

8.6.1牛顿法.....................................................................190

8.6.2共轭梯度...................................................................191

8.6.3BFGS......................................................................193

8.7优化策略和元算法..............................................................194

8.7.1批标准化...................................................................194

8.7.2坐标下降...................................................................196

8.7.**olyak平均................................................................197

8.7.4监督预训练.................................................................197

8.7.5设计有助于优化的模型......................................................199

8.7.6延拓法和课程学习...........................................................199

第9章卷积网络.......................................................................201

9.1卷积运算........................................................................201

9.2动机............................................................................203

9.3池化............................................................................207

9.4卷积与池化作为一种无限强的先验.............................................210

9.5基本卷积函数的变体............................................................211

9.6结构化输出.....................................................................218

9.7数据类型........................................................................219

9.8**的卷积算法................................................................220

9.9随机或无监督的特征............................................................220

9.10卷积网络的神经科学基础......................................................221

9.11卷积网络与深度学习的历史...................................................226

第10章序列建模:循环和递归网络...................................................227

10.1展开计算图....................................................................228

10.2循环神经网络..................................................................230

10.2.1导师驱动过程和输出循环网络...............................................232

10.2.2计算循环神经网络的梯度...................................................233

10.2.3作为有向图模型的循环网络.................................................235

10.2.4基于上下文的RNN序列建模...............................................237

10.3双向RNN.....................................................................239

10.4基于编码-解码的序列到序列架构.............................................240

10.5深度循环网络..................................................................242

10.6递归神经网络..................................................................243

10.7长期依赖的挑战...............................................................244

10.8回声状态网络..................................................................245

10.9渗漏单元和其他多时间尺度的策略............................................247

10.9.1时间维度的跳跃连接........................................................247

10.9.2渗漏单元和一系列不同时间尺度.............................................247

10.9.3删除连接..................................................................248

10.10长短期记忆和其他门控RNN................................................248

10.10.1LSTM...................................................................248

10.10.2其他门控RNN............................................................250

10.11优化长期依赖.................................................................251

10.11.1截断梯度.................................................................251

10.11.2引导信息流的正则化......................................................252

10.12外显记忆.....................................................................253

第11章实践方法论...................................................................256

11.1性能度量.......................................................................256

11.2默认的基准模型...............................................................258

11.3决定是否收集更多数据........................................................259

11.4选择超参数....................................................................259

11.4.1手动调整超参数............................................................259

11.4.2自动超参数优化算法........................................................262

11.4.3网格搜索..................................................................262

11.4.4随机搜索..................................................................263

11.4.5基于模型的超参数优化.....................................................264

11.5调试策略.......................................................................264

11.6示例:多位数字识别...........................................................267

第12章应用...........................................................................269

12.1大规模深度学习...............................................................269

12.1.1快速的CPU实现..........................................................269

12.1.2GPU实现.................................................................269

12.1.3大规模的分布式实现........................................................271

12.1.4模型压缩..................................................................271

12.1.5动态结构..................................................................272

12.1.6深度网络的硬件实现...................................................273

12.2计算机视觉....................................................................274

12.2.1预处理....................................................................275

12.2.2数据集增强................................................................277

12.3语音识别.......................................................................278

12.4自然语言处理..................................................................279

12.4.1n-gram....................................................................280

12.4.2神经语言模型..............................................................281

12.4.3高维输出..................................................................282

12.4.4结合n-gram和神经语言模型...............................................286

12.4.5神经机器翻译..............................................................287

12.4.6历史展望..................................................................289

12.5其他应用.......................................................................290

12.5.1..................................................................290

12.5.2知识表示、推理和回答......................................................292

第3部分深度学习研究

第13章线性因子模型.................................................................297

13.1概率PCA和因子分析.........................................................297

13.2**成分分析..................................................................298

13.3慢特征分析....................................................................300

13.4稀疏编码.......................................................................301

13.5PCA的流形解释..............................................................304

第14章自编码器......................................................................306

14.1欠完备自编码器...............................................................306

14.2正则自编码器..................................................................307

14.2.1稀疏自编码器..............................................................307

14.2.2去噪自编码器..............................................................309

14.2.3惩罚导数作为正则..........................................................309

14.3表示能力、层的大小和深度....................................................310

14.4随机编码器和...........................................................310

14.5去噪自编码器详解.............................................................311

14.5.1得分估计..................................................................312

14.5.2历史展望..................................................................314

14.6使用自编码器学习流形........................................................314

14.7收缩自编码器..................................................................317

14.8预测稀疏分解..................................................................319

14.9自编码器的应用...............................................................319

第15章表示学习......................................................................321

15.1贪心逐层无监督预训练........................................................322

15.1.1何时以及为何无监督预训练有效有效.........................................323

15.2迁移学习和领域自适应........................................................326

15.3半监督解释因果关系...........................................................329

15.4分布式表示....................................................................332

15.5得益于深度的指数增益........................................................336

15.6提供发现潜在原因的线索......................................................337

第16章深度学习中的结构化概率模型................................................339

16.1非结构化建模的挑战...........................................................339

16.2使用图描述模型结构...........................................................342

16.2.1有向模型..................................................................342

16.2.2无向模型..................................................................344

16.2.3配分函数..................................................................345

16.2.4基于能量的模型............................................................346

16.2.5分离和d-分离..............................................................347

16.2.6在有向模型和无向模型中转换...............................................350

16.2.7因子图....................................................................352

16.3从图模型中采样...............................................................353

16.4结构化建模的优势.............................................................353

16.5学习依赖关系..................................................................354

16.6推断和近似推断...............................................................354

16.7结构化概率模型的深度学习方法...............................................355

16.7.1实例:受限玻尔兹曼机......................................................356

第17章蒙特卡罗方法.................................................................359

17.1采样和蒙特卡罗方法...........................................................359

17.1.1为什么需要采样............................................................359

17.1.2蒙特卡罗采样的基础........................................................359

17.2重要采样.......................................................................360

17.3马尔可夫链蒙特卡罗方法......................................................362

17.4Gibbs采样.....................................................................365

17.5不同的峰值之间的混合挑战...................................................365

17.5.1不同峰值之间通过回火来混合...............................................367

17.5.2深度也许会有助于混合.....................................................368

第18章直面配分函数.................................................................369

18.1对数似然梯度..................................................................369

18.2随机*大似然和对比散度......................................................370

18.3伪似然.........................................................................375

18.4得分匹配和比率匹配...........................................................376

18.5去噪得分匹配..................................................................378

18.6噪声对比估计..................................................................378

18.7估计配分函数..................................................................380

18.7.1退火重要采样..............................................................382

18.7.2桥式采样..................................................................384

第19章近似推断......................................................................385

19.1把推断视作优化问题...........................................................385

19.2期望*大化....................................................................386

19.3*大后验推断和稀疏编码......................................................387

19.4变分推断和变分学习...........................................................389

19.4.1离散型潜变量..............................................................390

19.4.2变分法....................................................................394

19.4.3连续型潜变量..............................................................396

19.4.4学习和推断之间的相互作用.................................................397

19.5学成近似推断..................................................................397

19.5.1醒眠算法..................................................................398

19.5.2学成推断的其他形式........................................................398

第20章深度生成模型.................................................................399

20.1玻尔兹曼机....................................................................399

20.2受限玻尔兹曼机...............................................................400

20.2.1条件分布..................................................................401

20.2.2训练受限玻尔兹曼机........................................................402

20.3深度信念网络..................................................................402

20.4深度玻尔兹曼机...............................................................404

20.4.1有趣的性质................................................................406

20.4.2DBM均匀场推断..........................................................406

20.4.3DBM的参数学习..........................................................408

20.4.4逐层预训练................................................................408

20.4.5联合训练深度玻尔兹曼机...................................................410

20.5实值数据上的玻尔兹曼机......................................................413

20.5.1Gaussian-BernoulliRBM...................................................413

20.5.2条件协方差的无向模型.....................................................414

20.6卷积玻尔兹曼机...............................................................417

20.7用于结构化或序列输出的玻尔兹曼机..........................................418

20.8其他玻尔兹曼机...............................................................419

20.9通过随机操作的反向传播......................................................419

20.9.1通过离散随机操作的反向传播...............................................420

20.10有向生成网络.................................................................422

20.10.1sigmoid信念网络.........................................................422

20.10.2可微生成器网络...........................................................423

20.10.3变分自编码器.............................................................425

20.10.4生成式对抗网络...........................................................427

20.10.5生成矩匹配网络...........................................................429

20.10.6卷积生成网络.............................................................430

20.10.7自回归网络...............................................................430

20.10.8线性自回归网络...........................................................430

20.10.9神经自回归网络...........................................................431

20.10.10NADE..................................................................432

20.11从自编码器采样..............................................................433

20.11.1与任意去噪自编码器相关的马尔可夫链......................................434

20.11.2夹合与条件采样...........................................................434

20.11.3回退训练过程.............................................................435

20.12生成随机网络.................................................................435

20.12.1判别性GSN..............................................................436

20.13其他生成方案.................................................................436

20.14评估生成模型.................................................................437

20.15结论..........................................................................438

参考文献..................................................................................439

索引......................................................................................486


用户评价

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

评分

真好书!

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.qciss.net All Rights Reserved. 图书大百科 版权所有