DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗？一文总结图像分割必备经典模型（二）

本文将分 3 期进行连载，共介绍19 ****个在图画切割使命上曾取得 SOTA 的经典模型。

第 1 期：FCN、ReSeg、U-Net、ParseNet、DeepMask、SegNet、Instance-Aware Segmentation
第 2 期：DeepLab、DeepLabv3、RefineNet、PSPNet、Dense-Net、Mask-Lab
第 3 期：PANet、DANet、FastFCN、Gated-SCNN、OneFormer、PSPNet-ResNet50_PSSL

您正在阅览的是其间的第 2 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包括的模型完成代码、预练习模型及 API 等资源。

第 1 期回忆：FCN、ReSeg、U-Net、ParseNet、DeepMask…你都把握了吗？一文总结图画切割必备经典模型（一）RCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED…你都把握了吗？

本期录入模型速览

模型	SOTA！模型资源站录入状况	模型来历论文
DeepLab	sota.jiqizhixin.com/project/dee… 录入完成数量：7 支撑结构：TensorFlow、PyTorch	Semantic image segmentation with deep convolutional nets and fully connected crfs
DeepLabv3	sota.jiqizhixin.com/project/dee… 录入完成数量：9 支撑结构：PyTorch、TensorFlow等	Rethinking atrous convolution for semantic image segmentation
RefineNet	sota.jiqizhixin.com/project/ref… 录入完成数量：5 支撑结构：MindSpore、PyTorch	RefineNet: Multi-path Refinement Networks for High-Resolution Semantic Segmentation
PSPNet	sota.jiqizhixin.com/project/psp… 录入完成数量：5 支撑结构：PaddlePaddle、PyTorch等	Pyramid Scene Parsing Network
Dense-Net	sota.jiqizhixin.com/project/den… 录入完成数量：21 支撑结构：PaddlePaddle、PyTorch等	Densely connected convolutional networks
Mask-Lab	sota.jiqizhixin.com/project/mas…	MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features

图画切割是计算机视觉中的一项基本使命，其运用范畴包括场景了解、医学图画分析、机器人感知、视频监控、增强实际和图画紧缩等。图画切割就是把图画分成若干个特定的、具有共同性质的区域并提出感兴趣方针的技能和进程。它是由图画处理到图画分析的关键步骤。比较图画分类和检测，切割是一项更精细的工作，因为需求对每个像素点分类。

图画切割能够表明为带有语义标签的像素分类问题(语义切割，Semantic Segmentation)或单个方针的切割问题(实例切割，Instance Segmentation) 。语义切割是对一切图画像素进行一组方针类别(如人、车、树、天空)的像素级符号，即简略地对图画中各个像素点分类。实例切割进一步扩展了语义切割的规模，需求检测和描绘图画中每个感兴趣的方针(例如，对个人的切割)，即区别隔不同的物体。从必定含义上来说，实例切割能够看作是语义切割加检测。

此外，还有全景切割（Panoramic segmentation），全景切割是语义切割和实例切割的结合。跟实例切割不同的是：实例切割只对图画中的object进行检测，并对检测到的object进行切割，而全景切割是对图中的一切物体（包括布景）都要进行检测和切割。本文不触及全景切割的办法。

跟着深度学习技能的运用，现已发生了新一代的图画切割模型，其功能有了显著的进步——通常在流行的基准测验中取得了最高的精确率——致使许多研讨人员以为该范畴发生了范式转变。

本文聚集于深度学习技能，回忆图画切割中必备的TOP模型，包括语义切割模型和实例切割模型。

DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗？一文总结图像分割必备经典模型（二）

1、 DeepLab

深度卷积网络（DCNNs）在high level视觉使命中表现杰出，比方图画分类和方针检测。本文结合DCNNs和概率图模型，提出了DeepLab以处理像素级图画切割使命（semantic image segmentation）。本文在一开始就提出了将DCNN运用在语义切割使命上所不得不处理的两个困难：1. 信号的屡次下采样，导致分辨率的下降；2. CNN本身关于空间方位的不灵敏。这两个问题导致DCNN在用于逐pixel的切割使命时，在细节的坚持上不精确，空间精确率下降。为了处理第一个问题，即max pooling导致的分辨率下降，DeepLab引进空泛卷积（atrous conv）来替代pooling扩充感触野。为了处理第二个问题，作者引进了全衔接CRF（fully-connected CRF）。因而，DeepLab结构实际上就是一个带atrous conv的DCNN和一个CRF结构的两阶段的结合。

空泛卷积，如图1，在文章中也被称作“洞算法（hole algorithm）”，被运用在VGG的后边几层，用于进步分辨率（将本来stride=32的VGG模型变成了stride=8）。

图1 一维洞算法暗示，内核巨细=3，输入跨度=2，输出跨度=1

CRF的效果是对终究发生的score map进行精细化处理，以得到物体的边缘和细节。本文选用了fully-connected CRF。其能量函数（相当于赏罚函数）基本形式如下：

赏罚函数分为两部分，其一是每个像素点自己的才能函数，其二是像素点之间的能量函数（pairwise potential）。

除此之外，DeepLab还用了多标准猜测的trick，即将输入图画以及前面的四个max pooling的输出成果通过128x3x3和128x1x1两次卷积后，concat主网络的输出的feature map。通过整个办法，feature map的通道数增加了5×128个，关于定位的效果也有必定提升。

当时SOTA！渠道录入 DeepLab 共7个模型完成。

项目	SOTA！渠道项目详情页
### DeepLab	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/dee…

2、DeepLabv3

该文从头讨论空泛卷积的含义，在语义切割范畴，空泛卷积是调整卷积核感触野和DCNN feature map分辨率的有力东西。该文运用不同sample rate的空泛卷积以级联或许平行的方式来处理切割使命中的多标准问题。别的，增强了ASPP（Atrus spatial pyramid pooling）使其在图画级编码大局上下文信息来生成卷积特征。此外，移除了CRF，但取得的效果更好。

考虑二维数据，关于输出y上的每个方位i和一个滤波器w，在输入特征映射x上运用空泛卷积：

其间，空泛率 r对应于样本的步幅的输入信号，这相当于卷积输入x的filter中两个空间上相邻的weight值间插入r-1个0。规范卷积是空泛率 r=1的一种特殊状况，空泛卷积答应咱们通过改动速率值来自习惯地修正滤波器的感触野，详细见图2。

图2 内核巨细为33和不同速率的Atrous卷积。规范卷积对应于速率=1的Atrous卷积。选用大数值的Atrous率扩展了模型的感触野，使物体能够在多种标准上进行编码

关于用于图画分类使命的DCNNs，终究的特征呼应比输入的图画维度小32倍，因而输出步幅为32。假如想要将DCNN上钩算出的特征呼应的空间密度增加一倍，则将下降分辨率的终究一个池化或卷积层的步幅设置为1，以防止信号抽取。然后，将一切后续的卷积层替换为速率为r=2的空泛卷积。这答应咱们提取更密布的特征呼应，而不需求学习任何额定的参数。

作者首要探索规划在级联架构下的空泛卷积模块。详细来说，仿制终究一个ResNet块的几个副本，并将它们排列为级联。在这些块中有三个33卷积，终究一个卷积的步长为2，除了终究一个block，类似于原始的ResNet。运用特定空泛率的空泛卷积来控制输出步幅，如图3（b）。

图3 没有和有无序卷积的级联模块

ASPP的创意来自于空间金字塔池的成功，这表明在不同标准上从头采样特征是有用的，能够对任意标准的区域进行精确、有用的分类，本文在ASPP中引进了批归一化。详细来说，在模型的终究一个特征图上运用大局平均池化，将得到的多标准特征与256个滤波器进行11卷积（批归一化），然后将特征双向上采样到所需的空间维度。终究，改善的ASPP包括1个11卷积和3个33卷积，输出步幅为16时r=(6,12,18)（都有256个滤波器和批归一化）以及多标准特征，如图14所示。当输出步幅为8时，速率是两倍。衔接来自一切分支的成果特征并通过另一个11卷积，然后在终究面的11卷积生成终究的成果。

图4 带有非线性卷积的平行模块（ASPP），用图画级别的特征进行增强**

当时SOTA！渠道录入 DeepLabv3 共9个模型完成。

项目	SOTA！渠道项目详情页
DeepLabv3	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/dee…

3、RefineNet

RefineNet是一个多路改善网络，能够显式地使用下采样进程中一切可用的信息，运用long-range残差衔接完成高分辨率猜测。RefineNet能够混合粗粒度的高维语义特征和细粒度的低维特征，生成高分辨率的语义特征图。这样保证了网络能够通过long-range残差衔接反向传达到较早的低维层。RefineNet整体架构如图15。RefineNet使用了ResNet网络，在四种不同的下采样阶段将特征图输入到RefineNet模块中，得到交融后的特征图。除了RefineNet4之外，每一个RefineNet模块都有两个输入，一个是本阶段的特征图，另一个是低层发生的通过处理的特征图，这样跟着下采样的进行，语义信息也逐渐丰富，终究得到的得分图通过上采样操作康复原有图画巨细。

图5RefineNet各组件图示

每一个RefineNet模块都由四部分组成：第一个是残差卷积单元（Residual Conv Unit），用来调整预练习的权重；第二个是多分辨率交融单元（Multi-Resolution fuse），完成不同分辨率特征图的交融；第三部分是链式残差池化（Chained Residual Pooling），用来捕获布景上下文信息；终究一个是输出卷积单元，处理成果用于终究的猜测。详细来说，残差卷积单元包括激活（ReLU）和卷积（Conv 3×3）操作，然后运用加法将前后的特征图交融，这在规划上与ResNet思想相同。多分辨率交融单元将前面多种分辨率的特征图输入到交融模块内后，首要选用卷积层取得标准不变的特征图。然后运用上采样操作将一切特征图扩展为标准相同的新特征图。终究，运用Sum操作交融一切的特征图。链式残差池化单元的目的是从大的布景区域中捕获上下文信息，多个池化窗口能取得有用的特征，并运用学习到的权重进行交融。

引进具有身份映射的残差衔接，答应梯度从一个区块直接传达就任何其他区块。这个概念鼓舞为shortcut衔接坚持一个干净的信息途径，这样这些衔接就不会被任何非线性层或组件 “阻断”。相反，将非线性操作放在主要信息途径的分支上。作者遵循这一准则来开发RefineNet中的各个组件，包括一切卷积单元。使用这种特殊的战略有用练习多级联的RefineNet。链式残差池化块中包括一个非线性激活层（ReLU）。作者观察到，这个ReLU关于后续池化操作的有用性非常重要，它也使得模型对学习率的变化不灵敏。每个RefineNet块中的一个ReLU不会明显下降梯度流的有用性。RefineNet中有短程和长程的残差衔接。短程残差衔接是指一个RCU或残差池组件中的部分short-cut衔接，而长程残差衔接是指RefineNet模块和ResNet块之间的衔接。通过长程残差衔接，梯度能够直接传达到ResNet的前期卷积层，从而完成一切网络组件的端到端练习。

交融块交融了多条short-cut的信息，这能够看作是对具有必要维度或分辨率习惯性的多条残差衔接进行求和交融。这儿的多分辨率交融块的效果类似于ResNet中传统残差卷积单元中的 “求和 “交融的效果。在RefineNet中，特别是在交融块中，存在一些层专门进行线性特征转化操作，如线性特征降维或双线性上采样。将这些层放置在short-cut途径上，这与ResNet的状况类似。在ResNet中，当short-cut衔接跨越两个区块时，它将在short-cut途径中引进一个卷积层用于线性特征维度的习惯，这将保证特征维度与下一个区块中的后续求和相匹配。因为这些层中只选用了线性变换，梯度依然能够通过这些层有用地传达。

当时SOTA！渠道录入RefineNet共5个模型完成。

项目	SOTA！渠道项目详情页
RefineNet	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/ref…

4、PSPNet

PSPNet全称为Pyramid Scene Parseing Network，是选用金字塔池化模块搭建的场景分析网络，取得了当年ImageNet场景解析挑战赛的第一名。PSPNet通过对不同区域的上下文信息进行聚合，提升了网络使用大局上下文信息的才能。PSPNet运用的战略是：pooling-conv-upsample，拼接得到特征图后进行标签猜测。

为了完成精确的场景感知，知识图依赖于场景上下文的先验信息。作者发现依据FCN的模型的主要问题是缺乏恰当的战略来使用大局场景类别头绪。为了削减不同子区域上下文信息的丢失，该文提出将大局场景优先结构引进到CNN的终究一层feature map上，从而结合不同子区域及不同标准的语义信息。PSPNet的完好架构如图6所示。

图6 PSPNet概述。给定一个输入图画（a），首要运用CNN来取得终究一个卷积层的特征图（b），然后，运用一个金字塔解析模块以生成不同的子区域表征，接着是上采样和衔接层，以形成终究的特征表征，其间包括了（c）中的部分和大局上下文信息。终究，将该表征送入卷积层以取得终究的每像素猜测（d）

PSPNet用带有空泛卷积的预练习的ResNet作为backbone，终究一层提取的feature map巨细为输入图画的1/8。PSPNet为四级模块，其二进制巨细分别为11、22、33和66。因而，通过交融四个不同金字塔标准的特征，将输入的feature map分为不同的子区域并生成不同方位的池化表明，从而发生不同标准的输出，为了强化大局特征的权重，在金字塔层数为N的状况下，使用一个1×1的卷积将上下文表明的维度降到1/N。然后将得到的特征通过双线性插值上采样至相同标准，进行拼接后作为终究的大局金字塔池化特征。

通过深度预练习的神经网络能够改善功能，可是深度的增加也可能会带来额定的优化困难。ResNet通过在每个块中运用skip connection来处理这个问题。本文在原始残差网络的基础之上做了一些改善，提出通过别的的丢失函数来发生初始成果，然后通过终究的丢失函数来学习残差。图17展示了PSPNet输入图画后的预练习ResNet网络，改善点在下图中的“loss2”，作者将这个丢失作为辅佐优化的丢失，即auxiliary loss，简称AR，主丢失为下图中“loss1”的分类丢失。

图7 ResNet101中辅佐丢失的说明。每个蓝框表明一个残差块。辅佐丢失是在res4b22残差块之后增加的

当时SOTA！渠道录入PSPNet共5个模型完成。

项目	SOTA！渠道项目详情页
PSPNet	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/psp…

5、 Dense-Net

跟着CNN的层数不断加深，信息（输入信息或许梯度信息）简单出现弥散现象。一些研讨专门针对此问题展开，比方ResNets、Stochastic depth和FractalNets。本文引进了密布卷积网络（DenseNet），以前馈方式将每一层衔接到另一层。具有L层的传统卷积网络有L个衔接，每个层与其后续层之间有一个衔接，本文网络则具有L(L+1)/2 个直接衔接。关于每个层，一切前面层的特征图用作输入，其本身的特征图被用作一切后续层的输入。

图8 一个5层的密布块，增长率为k=4。每层将一切前面的特征图作为输入

将图画界说为x_0 ，模型有L层，每一层为一个非线性转化Hl() ，这儿 l 表明第 l 层。Hl()能够由以下操作组成，例如，Batch Normalization (BN) 、rectified linear units (ReLU)、 Pooling、 Convolution (Conv)。咱们界说第 l 层的输出为 x_l 。传统的卷积前馈网络将第 l 层的输出作为第 l+1 层的输入。即：

而ResNets界说如下：

ResNets的一个缺陷是：ResNets运用的是sum操作，这可能会阻止信息在网络的流动。为了进一步进步两层之间信息的流动，作者提出了一个不同的衔接方式，即第 l 层接收前面一切层的feature maps[ x_0,…,x_l−1]作为输入：

其间，[x_0, x_1, … , x_l-1]是指各层发生的特征图的衔接。因为其密布的衔接性，作者将这种网络结构称为密布卷积网络（DenseNet）。为了便于实施，作者将Hl()的多个输入串联成一个单一的张量。作者将Hl()界说为三个连续操作的复合函数：批归一化（BN）、ReLU和33卷积（Conv）。

卷积网络的一个必需操作就是下采样，而这会改动feature maps的巨细。可是当feature maps的巨细发生改动时，上式不可用。因而，为了能够在网络结构中进行下采样，作者将网络划分成多个密布块，如下图所示：

图9 有三个密布块的深度密布网。两个相邻块之间的层被称为过渡层，通过卷积和池化改动特征图的巨细

作者界说两个blocks之间的层为过渡层，其包括一个batch normalization、一个1×1卷积层和一个2×2平均池化层。虽然每一层只是发生k个feature maps, 可是每一层的输入依然会很多。因而，作者在3×3卷积前面增加一个1×1卷积(称为 bottleneck layer)，用于削减每一层feature map输入的数目。作者将增加了bottleneck layer的Densenet称为DenseNet-B。

为了进一步进步模型的紧凑性，作者削减过渡层的feature maps的数量。假如一个dense block包括m个feature maps, 令后边的过渡层发生 [xm] 个输出feature maps，这儿 0≤≤1 , 表明紧缩因子。作者将运用了<1 的网络称为DenseNet-C，本试验中界说=0.5 。

当时SOTA！渠道录入Dense-Net共21个模型完成。

项目	SOTA！渠道项目详情页
Dense-Net	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/den…

6、Mask-Lab

本文处理的是实例切割的问题，即一起处理方针检测和语义切割的使命。论文提出了一个名为MaskLab的模型，它能够发生三个输出：box检测、语义切割和方向猜测。MaskLab建立在Faster-RCNN方针检测器之上，猜测框提供了方针实例的精确定位。在每个感兴趣区域内，MaskLab通过组合语义和方向猜测来履行远景/布景切割。语义切割有助于模型区别包括布景在内的不同语义类的方针，而方向猜测估量每个像素朝向其相应中心的方向，完成别离同一语义类的实例。

图10 MaskLab发生三种输出，包括box猜测（来自Faster-RCNN）、语义切割logits（用于像素分类的logits）和方向猜测logits（用于猜测每个像素对其相应实例中心的方向的logits）。关于每个感兴趣的区域，通过使用语义切割和方向logits进行远景/布景切割。关于语义切割逻辑，依据猜测的box标签挑选通道，并依据猜测的box来裁剪区域。关于方向猜测Logits，进行方向聚集，从每个通道调集区域Logits。串联这两个裁剪后的特征，并通过另一个11卷积进行远景/布景切割**

如图10，MaskLab选用ResNet-101作为特征提取器。它由三个部分组成，一切的特征同享到conv4（或res4x）块，还有一个额定的重复conv5（或res5x）块用于Faster-RCNN中的box分类器。原始的conv5块在语义切割和方向猜测中都是同享的。建立在Faster-RCNN之上的MaskLab生成了box猜测、语义切割逻辑（用于像素级分类的逻辑）和方向猜测逻辑（用于猜测每个像素对其相应实例中心的方向的逻辑）。语义切割Logits和方向猜测Logits是通过在ResNet-101的conv5块的终究一个特征图之后增加的另一个11卷积来计算的。鉴于每个猜测的方框（或感兴趣的区域），咱们通过使用这两个逻辑值来进行远景/布景切割。详细的，对来自Faster-RCN猜测的语义通道的裁剪过的语义Logits和通过方向聚集后的裁剪过的方向Logits的串联进行11卷积。

语义和方向特征。MaskLab为一幅图画生成语义切割日志和方向猜测日志。语义切割逻辑用于猜测像素级的语义标签，它能够别离不同语义标签的实例，包括布景类。方向猜测Logits用于猜测每个像素对其相应实例中心的方向，因而它们对进一步别离相同语义标签的实例很有用。

考虑到来自box猜测分支的猜测box和标签，咱们首要从语义切割逻辑中挑选与猜测标签相关的通道（例如，人物通道），并依据猜测的box裁剪区域。为了使用方向信息，咱们进行相同的组合操作，从每个方向通道搜集区域日志（由方向指定）。然后，通过裁剪的语义切割逻辑图和聚集的方向逻辑图被用于远景/布景切割。图18给出了详细细节，图中显示 “人 “的切割Logits能够清楚地将人与布景和领带分隔，而方向Logits能够猜测像素对其实例中心的方向。在调集了方向逻辑后，该模型能够在指定的box区域内进一步别离两个人。作者提出的方向猜测逻辑是与类别无关的。详细来说，关于有K个类别的mask切割，模型需求(K+32)个通道(K个用于语义切割，32个用于方向聚集)，而输出2(K+1)49个通道。

图11 语义切割逻辑和方向猜测逻辑被用来在每个猜测的方框内进行远景/布景切割。特别是，切割逻辑能够区别不同语义类别的实例（例如，人和布景），而方向逻辑（方向是用色彩编码的）进一步区别同一语义类别的实例（例如，猜测的蓝色方框中的两个人）。在assembling操作中，区域Logits（五颜六色三角形区域）从每个方向通道仿制。例如，由赤色三角形指定的区域从赤色方向通道编码实例方向的0度到45度仿制Logits。粉色通道编码实例方向从180度到225度的弱激活

Mask细化：作者通过使用HyperColumn特征进一步细化猜测的粗略mask。如图12所示，生成的粗mask逻辑（仅使用语义和方向特征）与ResNet-101低层的特征相衔接，然后由三个额定的卷积层处理，以猜测终究mask。

*图12 mask细化。hypercolumn特征与粗猜测的mask相衔接，然后送入另一个小的ConvNet，发生终究的精mask猜测

“裁剪和调整巨细”首要从特征映射中裁剪指定的边界框区域，然后将它们双线性地调整为指定巨细（例如，44）。进一步将区域划分为若干子框（例如，4个子框，每个子框具有22的巨细），并运用另一个小网络来学习每个子框的偏移。终究，依据每个变形的子框再次履行“裁剪并调整巨细”操作。

图13 可变形裁剪和调整巨细。(a) 裁剪和调整巨细的操作是在一个边界框区域内裁剪特征，并将其调整到指定的44巨细。(b) 然后将44区域分为4个小的子框，每个子框的巨细为22。然后，对变形的sub-boxes再次进行裁剪和调整巨细

项目	SOTA！渠道项目详情页
Mask-Lab	前往 SOTA！模型渠道获取完成资源：sota.jiqizhixin.com/project/mas…

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包括的模型完成代码、预练习模型及API等资源。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。