深度学习是人工智能与机器学习领域的重要研究分支,经过短短十几年的发展,已经在计算机视觉与图像处理、自然语言处理等领域取得令人瞩目的成就。本书作为深度学习方面的专门书籍,融合了机器学习、人工神经网络和深度学习的相关概念,并且从信号处理视角呈现了深度学习背后的几何学原理,以便从统一的角度去深化理解深度学习的主要模型和算法,从而更好地用于指导理论分析和实践开发。全书分为三个部分,共14章。第1~4章为第一部分,主要介绍机器学习基础知识,包括向量空间、矩阵代数、凸优化等数学预备知识,以及支持向量机、核回归等经典机器学习技术;第5~9章为第二部分,主要介绍深度学习的构成要素,包括人工神经网络与反向传播、卷积神经网络、图神经网络及归一化和注意力机制,重点介绍这些模型背后的数学原理和几何解释;第10~14章为第三部分,主要介绍深度学习的高级主题,包括深度神经网络几何学、深度学习优化与泛化能力,以及生成模型与无监督学习。
Jong Chul Ye(芮钟喆)于1999年获美国普渡大学博士学位,现任韩国科学技术院(Korea Advanced Institute for Science and Technology,KAIST)生物与脑工程系教授和数学科学系兼职教授;长期从事压缩感知图像重建、信号处理和机器学习等研究;是IEEE Fellow,IEEE SPS计算成像技术委员会主席;目前是IEEE Transactions on Medical Imaging副主编、IEEE Signal Processing Magazine资深编辑,以及BMC Biomedical Engineering部门编辑;曾担任2020 IEEE Symposium on Biomedical Imaging(ISBI)大会共主席,IEEE Transactions on Image Processing、IEEE Transactions on Computational Imaging、Journal of Electronic Imaging副主编,Magnetic Resonance in Medicine编委会成员,以及Physics in Medicine and Biology国际咨询委员会成员。
周浦城,博士,副教授,先后主持或参加国家863、自然科学基金、武器装备预研、军内科研等课题20余项,公开发表论文80余篇,其中SCI检索3篇、EI检索45篇。
第一部分 机器学习基础
第1章 数学预备知识 2
1.1 度量空间 2
1.2 向量空间 3
1.3 巴拿赫空间与希尔伯特空间 4
1.4 概率空间 7
1.5 矩阵代数 8
1.5.1 Kronecker积 10
1.5.2 矩阵与向量微积分 11
1.6 凸优化基础 12
1.6.1 基本概念 12
1.6.2 凸集与凸函数 14
1.6.3 次微分 15
1.6.4 凸共轭 16
1.6.5 拉格朗日对偶公式 18
1.7 习题 20
第2章 线性与核分类器 22
2.1 引言 22
2.2 硬间隔线性分类器 23
2.2.1 可分离情况的最大间隔
分类器 23
2.2.2 对偶公式 25
2.2.3 KKT条件与支持向量 26
2.3 软间隔线性分类器 27
2.4 采用核SVM的非线性
分类器 29
2.4.1 特征空间中的线性
分类器 29
2.4.2 核技巧 30
2.5 图像分类的经典方法 31
2.6 习题 32
第3章 线性回归、逻辑回归与
核回归 34
3.1 引言 34
3.2 线性回归 34
3.3 逻辑回归 36
3.3.1 对数概率与线性回归 36
3.3.2 使用逻辑回归进行
多分类 37
3.4 岭回归 38
3.5 核回归 39
3.6 回归中的偏差-方差权衡 41
3.7 习题 43
第4章 再生核希尔伯特空间与
表示定理 44
4.1 引言 44
4.2 再生核希尔伯特空间 45
4.2.1 特征映射和核 46
4.2.2 再生核希尔伯特空间的
定义 47
4.3 表示定理 49
4.4 表示定理的应用 50
4.4.1 核岭回归 50
4.4.2 核SVM 51
4.5 核机器的优缺点 53
4.6 习题 53
第二部分 深度学习的构成要素
第5章 生物神经网络 56
5.1 引言 56
5.2 神经元 56
5.2.1 神经元解剖 56
5.2.2 信号传输机制 57
5.2.3 突触可塑性 58
5.3 生物神经网络 59
5.3.1 视觉系统 60
5.3.2 Hubel-Wiesel模型 60
5.3.3 Jennifer Aniston细胞 61
5.4 习题 62
第6章 人工神经网络与反向传播 64
6.1 引言 64
6.2 人工神经网络 64
6.2.1 符号约定 64
6.2.2 单个神经元建模 65
6.2.3 多层前馈神经网络 67
6.3 人工神经网络训练 68
6.3.1 问题描述 68
6.3.2 优化器 69
6.4 反向传播算法 72
6.4.1 反向传播算法的推导 72
6.4.2 反向传播算法的几何
解释 75
6.4.3 反向传播算法的变分
解释 75
6.4.4 局部变分公式 77
6.5 习题 78
第7章 卷积神经网络 80
7.1 引言 80
7.2 现代卷积神经网络发展
简史 81
7.2.1 AlexNet 81
7.2.2 GoogLeNet 81
7.2.3 VGGNet 83
7.2.4 ResNet 83
7.2.5 DenseNet 84
7.2.6 U-Net 84
7.3 卷积神经网络的基础构件 85
7.3.1 卷积 85
7.3.2 池化与反池化 87
7.3.3 跳跃连接 89
7.4 训练卷积神经网络 90
7.4.1 损失函数 90
7.4.2 数据划分 90
7.4.3 正则化 91
7.5 卷积神经网络可视化 92
7.6 卷积神经网络的应用 94
7.7 习题 95
第8章 图神经网络 98
8.1 引言 98
8.2 数学基础 100
8.2.1 定义 100
8.2.2 图同构 100
8.2.3 图着色 101
8.3 相关工作 102
8.3.1 词嵌入 102
8.3.2 损失函数 105
8.4 图嵌入 105
8.4.1 矩阵分解方法 106
8.4.2 随机游走方法 106
8.4.3 神经网络方法 107
8.5 WL同构测试与图神经
网络 109
8.5.1 WL同构测试 109
8.5.2 图神经网络作为WL
测试 110
8.6 总结和展望 111
8.7 习题 111
第9章 归一化和注意力 113
9.1 引言 113
9.2 归一化 115
9.2.1 批量归一化 115
9.2.2 逐层和实例归一化 116
9.2.3 自适应实例归一化 117
9.2.4 白化与着色变换 119
9.3 注意力 120
9.3.1 代谢型受体:生物学
类比 120
9.3.2 空间注意力的数学建模 121
9.3.3 通道注意力 123
9.4 应用 124
9.4.1 StyleGAN 124
9.4.2 自注意力GAN 125
9.4.3 注意力GAN 126
9.4.4 图注意力网络 127
9.4.5 Transformer 128
9.4.6 BERT 130
9.4.7 GPT 133
9.4.8 视觉Transformer 135
9.5 归一化与注意力的数学
分析 136
9.6 习题 138
第三部分 深度学习的高级主题
第10章 深度神经网络几何学 141
10.1 引言 141
10.2 实例探究 142
10.2.1 单隐层感知器 142
10.2.2 框架表示 143
10.3 卷积小波框架 146
10.3.1 卷积与Hankel矩阵 146
10.3.2 卷积小波框架展开 148
10.3.3 与卷积神经网络的
联系 148
10.3.4 深度卷积小波框架 150
10.4 卷积神经网络的几何学 152
10.4.1 非线性的作用 152
10.4.2 非线性是归纳学习的
关键 153
10.4.3 表达能力 153
10.4.4 特征的几何意义 154
10.4.5 自编码器的几何理解 159
10.4.6 分类器的几何理解 161
10.5 尚待解决的问题 161
10.6 习题 163
第11章 深度学习优化 164
11.1 引言 164
11.2 问题描述 164
11.3 Polyak-?ojasiewicz型收敛性
分析 165
11.4 Lyapunov型收敛性分析 169
11.4.1 神经正切核 171
11.4.2 无限宽极限的神经正
切核 172
11.4.3 一般损失函数的神经正
切核 173
11.5 习题 174
第12章 深度学习的泛化能力 175
12.1 引言 175
12.2 数学基础 175
12.2.1 Vapnik-Chervonenkis界 178
12.2.2 Rademacher复杂度界 180
12.2.3 PAC贝叶斯界 183
12.3 利用双下降模型协调泛化
?鸿沟 184
12.4 归纳偏置优化 187
12.5 基于算法鲁棒性的泛化界 188
12.6 习题 190
第13章 生成模型与无监督学习 192
13.1 引言 192
13.2 数学基础 193
13.3 统计距离 196
13.3.1 f散度 196
13.3.2 Wasserstein度量 197
13.4 最优传输 199
13.4.1 Monge原始公式 199
13.4.2 Kantorovich公式 200
13.4.3 熵正则化 202
13.5 生成对抗网络 203
13.5.1 GAN的最初形式 203
13.5.2 f–GAN 205
13.5.3 Wasserstein GAN 207
13.5.4 StyleGAN 208
13.6 自编码器型生成模型 208
13.6.1 ELBO 209
13.6.2 变分自编码器 209
13.6.3 β–VAE 212
13.6.4 归一化流与可逆流 213
13.7 通过图像翻译进行无监督
?学习 216
13.7.1 Pix2pix 216
13.7.2 CycleGAN 217
13.7.3 StarGAN 219
13.7.4 协同GAN 222
13.8 总结与展望 224
13.9 习题 224
第14章 总结与展望 226
附录A 专业术语中英文对照表 228
参考文献 234