图像识别的深度残差学习 Kaiming He 2015.12

论文的布景与贡献

问题与布景

摘要前三句开宗明义，榜首，深的神经网络很难练习；第二，提出一个残差学习结构ResNet；然后进一步解释，经过将神经网络的层拟组成一个基于输入的残差函数，而非像传统一样直接经过学习一个无参阅函数(unreferenced function)。

由上咱们很想知道：

1️⃣ 神经网络是不是越深越好？

2️⃣ 为什么更深的神经网络更难去练习？

3️⃣ 残差学习结构为什么能够处理深网络练习的问题？

神经网络是不是越深越好？

前提是：神经网络的深度有什么用？

首要，更深能够更好地拟合特征，其次便是将大使命拆分成小使命，每一层做的作业更容易。关于深度卷积网络，在必定程度上越深，提取出来的特征越多，表达抽象的能力越强。

Vanishing/exploding gradients problem

臭名昭著的“vanishing or exploding gradients”

这张图简略展现了，网络的加深确实会带来性能的增强。可是看试验也知道7层和8层之间就没有多大区别了。问题可能便是梯度消失或者爆炸。

yi=(zi)=(wixi+bi)∂C∂b1=∂C∂y4′(z4)w4′(z3)w3′(z2)w2′(z1)y_i=\sigma (z_i)=\sigma (w_ix_i+b_i) \newline \frac{\partial C}{\partial b_1}= \frac{\partial C}{\partial y_4}\sigma ‘(z_4)w_4\sigma ‘(z_3)w_3\sigma ‘(z_2)w_2\sigma ‘(z_1)

梯度问题的中心在于丢失函数核算的差错，经过求导的链式法则反向传播，举个比如，首要确认一个激活函数，然后从C动身依次往前求导，从最后的解析式能够看出，关键在于初始化网络权值以及丢失函数的导数值巨细。假如这两个东西乘积的绝对值比1小，网络越深整个梯度会以指数方式衰减直至梯度消失，反之则会指数爆炸。当然，处理这个问题的思路，便是选一个好的激活函数或者是改动权值。

事实上，从AlexNet开端，神经网络中就使用ReLU函数替换了Sigmoid，一起BN（Batch Normalization)层的参加，也基本处理了梯度消失/爆炸问题。（待会要讲的残差模块，其实也便是用了ReLU作为激活函数）

Degradation problem<层数越多越难以优化>

本文处理的问题主要是退化问题，degradation problem，也便是跟着网络更深，精度过饱和之后会迅速退化。举个比如，便是过拟合中练习差错很小可是测验差错很大，退化则是练习差错变大并且测验差错也很大。

这张图便是个典型比如。依照道理来讲，56层网络的前20层的结构完全是从这儿的20-layers参数copy过来的，后续参加恒等映射层，在这种情况下，咱们不要求更好但至少要同等作用。但实际上出现了退化。

便是咱们甚至不要求，去优化深网络，能够保持这个恒等映射发挥恒等的作用从而防止深层网络的作用不升反降的退化现象产生，这便是咱们的方针。

主要贡献

ResNet办法结构

残差思维

首要，拟合函数或残差函数都是由SGD算法得到的，平整网络中F(x)需求将多个非线性层拟组成为期望得到的H(x)，事实证明这件作业做不到。在ResNet网络中，拟合函数是残差函数即F(x)=H(X)-x，至于x直接由输入端树立Shortcut Connection传递到输出端，汇组成所需求的H(x)。