Faster R-CNN详解–基于bestrivern的blog和自己的理解

Faster R-CNN详解

前语

本文主要是依据bestrivern的blog对Faster R-CNN的网络进行了解,深化网络的了解，对生成的感悟进行收拾

一.概述

首要放一张faster r-cnn的结构图。

经过R-CNN和Fast R-CNN的沉积，Ross B. Girshick在2016年提出了新的Faster RCNN，在结构上，Faster RCN现已将特征抽取(feature extrac角点坐标tion)，proposal提取，bounding box regressiopencv库on(rect refine)，classification都整合在了一个网络中，使得归纳性能有较大进步，在检测速度方面尤为显着线性回归剖析。

Faster R-CNN其实能够分为4个主要内容：

Conv lay数据结构图ers(特征抽取)。作为一角点解种CNN网络方针检测方法，Faster RCNN首要运用一组基础的conv+relu+pooling层提取imageopencv物体辨认的feature矩阵相乘怎样算 maps。该feature矩阵 maps被同享用于后续RPN层和全联接层。
Region Proposal Netwopencv装置教程orks(候选框的提取)。RPN网络用于生成region proposals。角点该层经过softmax判别anchors归于positive或许negative，再运用bounding box regression修正anchors取得准确的proposals。
Roi Pooling(供认哪些候选框有用)。该层搜集输入的feature maps和proposals，归纳这些信息后提取proposal feature maps，送入后续全联接层断定方针类别。
Classification(进行线性回归方程公式物体分类，一起对候选框进行修正)。运用proposal feature maps核算pr角点英文oposal的类别，一起再次bounding box regression取得检测框究竟的准确方位。

全体的流程：

下图展示了python版别中的VG线性回归方程例题详解G16模型中的faster_rc矩阵天王nn_test.pt的网络结构，能够清楚的看到该网络关于一副恣意巨细PxQ的图画，首要缩放线性回归剖析spss至固定巨细MxN，然后将MxN图画送入网络；而Conv layers中包含了13个conv层+13个relu层+4个pooling层opencv入门要学多久；RPN网络首要经过3×3卷积，再分别生成positive anchors和对应bounding box regression偏移量，然后核角点检测算法算出proposals；而Roi Pooling层则运用propo数据结构c语言版第二版课后答案sals从feature maps中提取proposal feature送入后续全联接和softmax网络作classification（即分类proposal到底是什么obopencv3编程入门ject）。

二.详数据结构解

1.Conv layers

Conv layer角点检测算法s包含了conv，pooling，relu三种层。以python版别矩阵等价中的VGG16模型中的faster_rcnn_test.p角点检测算法t的网络结构为例，如上图，Conv layers部分共有13个conv层，13个relu层，4个pooling层。这儿有一个十分简单被疏忽但是又无比重要的信息，在Conv layers中：

悉数的conv层都是：kernel_size=3，pad=1，stride=1
悉数的pooling层都是：kernel_size=2，pad=1，stride=1

为何重要？在Faster RCNN Conv layers中对悉数的卷积都做了扩边处理(pad=1，即填充一圈0)，导致原图变为 (M+2)x(N+2)巨细，再做3×3卷积后输出数据结构与算法MxN 。正是这种设置，导致Conv layers中的conv层不改动输入和输出矩阵巨细。如下图：角点标高

相似的是，Conv layers中的pooling层kernel_size=2，opencv车牌辨认stride=2。这样每个经过pooling层的MxN矩阵，都会变为(M/2)x(N/2)巨细。数据结构c语言版第二版课后答案综上所述，在整个Conv layopencv库ers中，conv和relu层不改动输入输出巨细，只需pooling层使输出长宽都变为输入的1/2。

那角点法么，一个MxN巨细的矩阵经过Conv layers固定变为(M/1线性回归剖析6)x(N/16)！这样Conv lay角点检测ers生成的featu角点是什么意思re map中都能够和原图对应起来。

自己的了解：

这个部分结束的矩阵的初等变换规矩是特征的提取，实践上卷积操作实践上便是将一张线性回归计算三要素图片的一对像素糅组成一个点，这个点承载着周围像素不同的权重，经过设置的通道的不同，咱们能够得到不数据结构与算法同的糅合后的图片角点是什么意思，所以新生成的每一张(通道)图片都能够原图片不同参数下的特征图，用这个(opencv库通道)图片来代表整张图-数据结构严蔚敏第二版课后答案——线性回归方程的a和b怎样求卷积的实践的作用：获取特征图

2 Region P矩阵乘法roposal Networks(RPN)

经典的检测方法生成检测框都十分耗时，如OpenCV adaboost运用滑动窗口+图画金字塔生成检测框；或如R-CNN运用SS(Selective S角点是什么earch)方法生成检测框。而Fas数据结构c语言版ter RCNN则抛弃了传统的滑动窗口和SS方法，直接线性回归方程的a和b怎样求运用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提高检测框的生成速度。

上图展示了RPN网络的详细结构。能够看到RPN网络实践分为2条线，上面一条经过s数据结构oftmax分类an数据结构c语言版第二版课后答案chorsopencv库取得positive和negative分类，下面一条矩阵相似用于核算关于anchors的bounding box regression偏移量，以取得准确的proposal。而究竟矩阵的秩的Proposal层则担任归纳positive anchors和对应bounding box regression偏移量获取proposals，一起除去太小和超出间隔的proposals。其实整个网络到了Proposal Layer这儿，就结束了相当于方针定位的功用。

总结：

经过候选的128个框做成2分类-softmax的问题,咱们能够知道128个框，有哪些是实在有用的，有角点检测算法哪些框是无效的数据结构教程第5版李春葆答案

下面的 1 * 1 的线核算关于候选框的框偏移量，矩阵相乘怎样算生成四个线性回归方程的a和b怎样求值，中心点的偏移方位 $x,y,角点法sc线性回归aleh,sca数据结构c语言版lewx_,y_,scale_h,scale_w$ , 中心方位和扩大缩小的份额

究竟的Propopencv是干什么的osa数据结构题库及答案l是将前面的两个部分归纳，保存下有用的anchor，而且对有opencv物体辨认用的anchor进行校准，中心点修正，框的缩放的修正(去线性回归方程计算器除超opencv人脸辨认原理出图片本身的正向的anchor)

2.1 anchors

anchors实践上便是一组由rp线性回归n/generate_a数据结构课程设计nchors.py生成的矩形。直接工作作者demo中的generate_anchors.py能够得到以下输出：

这个是针对一个中心点，生成的9个矩形的坐标

[[ -84.  -40.   99.   55.]
[-176.  -88.  191.  103.]
[-360. -184.  375.  199.]
[ -56.矩阵的逆  -56.   71.   71.]
[-120. -120.  135.  135.]
[-248. -248.  263.  263.]
[ -36.  -80.   51.   95.]
[ -80. -168.   95.  183.]
[-168. -344.  183.  359.]]

其间每行的4个值( $x1,x2,x3,x4x_1,x_2,x_3,x_矩阵等价4$ )表矩形左上和右下角点坐标。9个矩形共有3种形状，长宽比为大约weight:height$in${1:1,1:2,2:1}为三种，如下图。实践上经过anchors就引入了检测中常用到的多标准方法。

注：关于上面的anchors size，其实是依据检测图画设置的。在python demo中，会把恣意巨细的输入图画reshape成800×600（即图2中的M=800，N=600）。再回头来看anchors的巨细，anchors中长宽1:2中最矩阵乘法大为352x704，长宽2:1中最大736x384，根本是cover了800x600的各个标准和角点速度形状。

那么这9个anchors是做什么的呢？借用Faster RCNN论文线性回归计算三要素中的原图，如下图，opencv装置遍历Conv layers核算取得的featureopencv教程 maps，为每一个点都装备这9种anchors作为初始的检测框。这样做取得检测框很不准确，数据结构严蔚敏不必担心，后边还有2次bounding box regression能够修正检测框方位。

阐明一下矩阵等价上面这张图的数字。

在原文中运用的是Z矩阵的迹F model中，其Conv L线性回归方程计算器ay矩阵计算器ers中究竟的conv5层num_outpu矩阵t=256，对应生成256张特征图，所以相当于f数据结构知识点总结eature map每个点都是opencv是干什么的256-dimensions。即究竟得到的feature map为 $N16∗M16∗256frac{N}{16} * frac{M}{16} * 256$ 。
在conv5之后，做了rpn_conv/3×3卷积且num_output=256，相当于每个点又融合了周围3x3的空间信息（猜测这样做或许更鲁棒？反正我没测试），一起256-d不变（上图中的红框）。
假设在conv5 feature map中每个点上角点解有k个anchor（线性回归方程计算器默许k=9），而每个anhcor要分positive和negative数据结构知识点总结，所以每个点由256d feature转化为cls=2线性回归计算三要素k scores；而每个数据结构c语言版第二版课后答案anchor都有(x, y, w, h)对应4个角点检测偏移量，所以reg=4k coordinates
弥补一点，悉数anchors拿去练习太多了，练习程序会在合适的anchors中随机选取128个postive anchors+128个nega矩阵tive anchors进行练习（什么是适角点检测算法合的anchors下文有阐明）

留线性回归方程例题详解意，在本文阐明中运用的VGG conv5 num_output=512，所以是51角点检测算法2d，其他相似。

其实RPN究竟便是在原图标准上，设置了鳞次栉比的候选Anchor。然后用cnn去判别哪些Anchor是里边有方针的positive anchor，哪些是没方针的negative ancopencv库hor。所以，仅仅是个二分类罢了！(RPN的矩阵的秩中心思想)

那么Anchor一共有多少个？原图800×600，VGG下采样16倍，feature map每个点设置9个Anchor，所以：

其间ceil(线性回归方程例题详解)标明向上取整，是因为VGG输出的feature map size= 50 * 38。

2.2 softmax断定positive与nega线性回归方程计算器tive

一副MxN巨细的矩阵送入Faster R-CNN网络后，到RPN网络变为(M数据结构严蔚敏/16)x(N/16)，不妨设 W=M/16，H=N/16。在进入reshape与softmax之前，先做了1×1卷积，角点英文如下图矩阵天王：

该1×1卷积的caffe prototxt定义如下：

layer {
nam数据结构课程设计e: "rpn_cls_score"
type: "Convolution"
bottom: "rpn/矩阵相似ouOpenCVtput"
top: "rpn_cls_score"
convolution_param {
num_output: 18   # 2(p矩阵的迹ositive/negative) * 9(anchors)
kernel_size: 1 pad: 0 stride: 1
}
}

能够看到其num_output=18，也便是经过该矩阵相似卷积的输出图画为W x H数据结构题库及答案 x 18 巨细。这也就OpenCV刚好对应了feature maps每一个点都有9个anchors，一起每个anchors又有可能角点坐标是positive和negative，悉数这些信息都保存 W x H x (9 * 2) 巨细的矩阵。为何这样做？后边接softmax分类取得positive a矩阵计算器nchors，也就相当于初步提取了检测方针候选区域box（一般线性回归计算三要素以为方针在positive anchors中）。

设定两个阈值 __C.TRAIN.RPN_POSITIVE_OVERLAP = 0.7，__C.TRAIN.RPN_NE矩阵的逆GATIVE_OVERLAP = 0.3，在悉数产生的anchor中选取128个positive anchor和128个negative anchor，(np数据结构与算法.sample函数选数据结构严蔚敏取)依据iou与阈值的联系设定标签(label: 1 is positive, 0 is negative, -1 is dont care)。

那么为线性回归方程计算器何要在softmax前后都接一个reshape layer？其实仅仅为了便矩阵的逆于softmax分类，至于详细原因这就要从caffe的结束方法说起了。在caffe根本数据结构blob中以如下方法保存数据：

blo线性回归剖析b=[batch_size, channel，height，width]

对应至上面的保存po线性回归方程的a和b怎样求sitive/negative anch角点是什么ors的矩阵，其在caffe blob中的存储方法为 [1, 2 x 9, H, W] 。而在softmax分类时需求进行positive/negative二分类，所以reshape layer会将其变为 [1, 2, 9xH, W] 巨细，即单独“腾空”出来一个维度以便softmax分类，之后再reshape回复原状。贴一段caffe softmax_loss_layer角点检测算法 .cpp的reshape函数的阐明，十分精辟：

"Number of labels must match number of predictions; "
"e.g., if sof线性回归方程tmax axis == 1 and predi角点标高ction shape is (N, C数据结构图, H, W), "
"lab数据结构教程第5版李春葆答案el count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-角点是什么1}.";

综上所述，RPN网络中运用anchors和softmax初步提取出poopencv是干什么的sitive anchors作矩阵等价为候选区域（其他也有结束用sigmoid替代softmax，原理相似）。

自己的了解：

这个部分全体的进程梳理下便是：首要阅历了一个3 * 3的卷积，矩阵的初等变换规矩再度将feature maps进行特征的糅合，然后咱们经过一个1 * 1 * 18的卷积的进程，主要是让上一步生成的每一张特征图增加一角点速度个通道，9个posiopencv是干什么的tive anchor框和9个negative anchor 这样便是为了后续的分类softmax做准备，两次reshape的原因便是因为原作者运用caffe的时分数据存储受到限制，所以需求两次的reshape进行调整。

2.3bounding box线性回归方程例题详解 regression原理

如下线性回归剖析图所示绿色框为飞机的Ground Truth(GT)，赤色为提取的positive anchors，即便赤色的框被分类器辨以为飞机，但是因为赤色的框定位不准，这张图相当于没有线性回归剖析正确的检测出飞机。所以咱们期望采用一种方法对赤色的框进行微调，使得positive anchors和GT愈加接近。

关于窗口一般运用角点检测算法四维向量(x,y,w,h)标明，分opencv人脸辨认原理别标明窗口的中心点坐标和宽高。如下图opencv是干什么的，赤色的框A代表原始的positive Anchors，绿色的框G代表方针的GT，咱们的方针是寻找一种联系，使得输入原始的anchor A经过映射得到一个跟实在窗口G更接近的回归窗口G’，即：

给定anchor $(A_x,A_y,A_w,角点检测算法A_h)$ 和 $(GT_x,GT_y,角点是什么意思GT_w,GT_h)$
寻找一种转化F，使得 $F(Ax,Ay,Aw,Ah)=(角点是什么意思GTx′,GTy矩阵的迹′,GTw′,GTh′)F(A_x,A_y,A_w,A_h) = (GT_{x}^{‘角点法},GT_{y}^{‘},GT_{w}^{‘},GT_{h}^{‘})$ ，其间
$(GTx′,GTy′,GTw′,GTh′)≈(GTx′,GTy′,GTw′,GTh′)(GT_{x}^{‘},GT_{y}^{‘},GT_{w}^{‘},GT_{hopencv入门要学多久}^{‘}) approx (GT_{x}^{‘},GT_{y}^{‘},GT_{w线性回归方程例题详解}数据结构知识点总结^{‘},GT_{h}^{‘})$

那么经过何种转化F才调从图10中的anchor A变为G’呢？比较简略的思路便是:

观察上面4个公式发现，需求学习的是 $dx(A),dy(A),dw(A),dh(A)d_x(A),d_y(A数据结构c语言版第二版课后答案),d_w(A),d_h(A)$ 这四个转化。数据结构题库及答案当输入的an矩阵的迹chor A与GT相差较小时，矩阵天王能够以为这种转化是一种线性转化，线性回归剖析spss 那么就能够用线性回归来建模对窗口进行微调（留心，只需当anchors A和GT比较接近时，才调运用线性回归模型，否则角点标高就矩阵的逆是凌乱的非线性问题了）。

接下来的问题便是怎样经过线性回归获opencv是干什么的得 $dx(A),dy(A),dw(A),dh(A)d_x(A),d_y(A),d_w(A),d_h(A数据结构)$ 了。线性回归便是给定输入的特征向量X, 学习一组参数W, 使得经过线性回归后的值跟实在值Y十分接近，即Y=WX。关于该问题，输入X是cnn feature map，定义为；一起还有练习传入A与GT之间的转化量，即 $t_x,t_y,t_w,t_h)$ 。输出是四个转化 $dx(A),dy(A),dw(A),dh(A)d_矩阵计算器x(A矩阵计算器),d_y(A),d_w(A),d_h(A)$ 。那么方针函数能够标明为：

其间是对应anchor的feature map组成的特征向量， $W_*$ 是需求学习的参数， $d∗(A)d_opencv3编程入门* (A)$ 是得到的猜矩阵相似测值（* 标明 x，y，w，h，也便是每一个转化对应一矩阵的逆个上述政opencv装置策函数）。为了让猜测值 $d_* (A)$ 与实在值 $t∗角点速度t_矩阵等价*$ 间隔最小，规划丢掉函数：

函数优化方针为：

先做平移

再做缩放

需求阐明，只需在GT角点是什么意思与需求回矩阵相似归框方位比较数据结构图接近时，才可近似以为上述线性转化成立。
说完原理，对应于Faster R-CNN原文，positive anchor与ground truth之角点是什么间的平移量 $t_x,t_y)$ 与标准因子
$(tw,th)角点检测算法(t_w,t_h)$ 如下：

关于练习b线性回归剖析spssouding box regression网络回归分支，输入是copencv装置nn feaopencv是干什么的ture ，监督信号是Anchor与GT的间隔 $t_x,t_y,t_w,t_h)$ ，即练习方针是：输入的情况下使网络输出与监督信号尽可能接近。那么当bouding box regression作业时，再输入时，回归网络分数据结构知识点总结支的输出便是每个Anchor的平移量和转化标准 $(tx,ty,tw,th)(t_x线性回归剖析spss,t_y,t_w,t_h)$ ，明显即数据结构c语言版可用来修正Anchor方位了。

核算悉数的posopencv装置itive角点检测算法 anchor的$(t_x,t_y,t_w,t_h)$,但在究竟loss回传的数据结构题库及答案时分只选取128个做loss回传。

自己的了解：

这个部分全体的进程梳理下便是：实践上这个部分咱们又练习了一个网络，这个网络是简略的线型回归，咱们自己生成的线性回归计算三要素anchor,和实在的标签ground truth,之间运用方差作为丢掉角点坐标函数练习网络，究竟取得 $(tx,t矩阵相乘怎样算y,tw,th)(t_x,t_y,t_w角点坐标,t_h)$ 。

2.4对proposals进行boundingopencv装置 box regress角点坐标ion矩阵计算器

在了解bounding box regression后，再回头来看RPN网络第二条线路，如下图。

先来看一看上图中1×1卷积数据结构严蔚敏第二版课后答案的caffe prototxt定义：

layer {
name: "rpn角点解_bbox_pred"
type: "Convolution"
bottom: "rpn/output"
top: "rpn_bbox_pred"
convolution_param角点是什么意思 {
num_output: 36   # 4 * 9(anchors)
kernel_siz矩阵天王e: 1 pad: 0 stride: 1
}opencv物体辨认
}

能够看到其数据结构严蔚敏第二版课后答案 num_output=36，即经过该卷积输出图画为W x H x 36，在caffe blob存储为 [1, 4 x 9, H, W] ，这opencv入门要学多久儿相当于feature maps每个点都有9个anchors，每个anchors又都有4个线性回归方程计算器用于回归的

转化量。

VGG输出的特征，对应设置个anchors，而RPN输出：角点是什么意思50 * 38 * 512

巨细50 * 38 * 2K为的positive/negative softma角点解x分类特数据结构严蔚敏征矩阵
巨细矩阵天王50 * 38 * 4K为的regression坐标回归特征矩阵

刚好满足RPN结束positive/negative分类 + bounding box regression坐标回归.

2.5Proposal Layer

Proposal Layer担任归纳悉数 $dx(A),dy(A),dw(A),dh(A)d_x(A),d_y(A),d数据结构课程设计_w(A),d_h(A)$ 转化量和positive anchors，核算出精准的proposal，送入后opencv装置教程续RoI Pooling Layer。仍是先来看看Proposal Layer的caff角点速度e prototxt定义：

layer {
name: 'proposal'
type: 'Python'
bottom: 'rpn_cls_prob_reshape'
bottom: 'rpn_bbox_pred'
bottom: 'im_info'
top: 'rois'
python_param {
module: 'rpn.proposal_layer'
layeropencv装置教程:opencv人脸辨认原理 'ProposalLayer'
param_str: "'feat_st线性回归方程公式详解ride': 16"
}
}

Proposal Layer有3个输入：

positivopencv人脸辨认原理e vs negati角点检测算法ve an数据结构chors分类器作用rpn_cl角点法s_prob_resha矩阵的逆pe
对应的bbox reg的 $dx(A),dy(A),dw(A),dh(A)d数据结构课程设计_x(A),角点是什么d_y(A),d_w(A),d_h(A)$ 转化量rpn_bbox_preopencv是干什么的d，
以及im_矩阵的秩info
其线性回归方程公式详解他还有参数feat_stride=16。

首要阐明im_info。关于一副opencv是干什么的恣意巨细PxQ图画，传入Faster R-CNN前首要reshape到固定MxN，im_info=[M, N, scale_fac线性回归剖析spsstor] 则保存了此次缩放的悉数信息。然后经过Conv Layers，经过4次pooling变为WxH=(M/16)x(N/16) 巨细，其间feature_stride矩阵的初等变换规矩=16则保存了该信息，用于核角点速度算anchor偏移量。

Proposal Layer forwa线性回归计算三要素rd角点（caffe layer的前传函数）依照以下次序依次处理：

生成anchors，运用对悉数的anchors做bbox regression回归（这儿的anchors生成和练习时完全一致）
依照输入的posi线性回归方程的a和b怎样求tive softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)个anchors，即提取修正方位后的positive anchors。
限定超出图画间隔的positive anchors为图画间隔（防止后续roi pooling时proposal超出图画间隔）
除去十分小（width<threshold or he角点法ight<threshold）的positive anchors
进行nonmopencv是干什么的aximum suppressi角点法on
Proposal Layer有3个输入：positive和negative anchors分类器作用rpn_cls_prob_reshape，对应的bbox reg的(e.g.线性回归方程例题详解 300)作用作为proposal输出。

之后输OpenCV出proposal=[x1, y1, x2, y2]，留心，因为在第三步中将a数据结构知识点总结ncho角点rs映射回原图判别是否超出间隔，所以这儿输出的proposal是对应MxN输入图画标准的，这点在后续网络中有用。

RPN网络结构就介绍到这儿，总结起来便是：

生成anchors -> softmax分类器提取positvie anchors -> bbox reg回归positive anchors -> Proposal Layer生成proposals

3.R线性回归方程计算器oI Pooling

RoI Pooling层则担任角点解搜集proposal，并核算出proposal featopencv入门要学多久ure maps，opencv人脸辨认原理送入后续网络。Rol pooling层有2个输入：

原始的feature maps
RPN输出的proposal boxes（巨细各不相同）

因为rpn输出角点英文的proposal boxes巨细各不线性回归方程相同，而其opencv是干什么的之后要进入FC层，必须要有固定的巨细，这儿用RoI Pooling层来使得悉数的proposal boxes为固定的巨细。(十分关键)

3.1RoI Pooling原理

RoI Pooling Layer的caffe prototxt的定义：

layer {
name: "roi_pool5"
type: "ROIPooling"
bottom: "con角点英文v5_3"
bottom: "rois"
top: "pool5"
r角点检测oi_poolin角点检测g_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.opencv物体辨认0625 # 1/16
}
}

其间有新参数pooled_w和pooled_h，其他一个参数spatial_线性回归计算三要素scale仔细阅读数据结构c语言版的读者必定现已知道知道用途。RoI Pooling layer forward进程：

因为proposal是对应MXN标准的，数据结构题库及答案所以首要运用spatial_scale参数将其映射回(M/16)X(N/16)巨细的feature map标准；
再将每个proposal对应的feature map区域水平分为po矩阵的迹oled_w * pooled_h的网格；
对网格的每一份都进行m矩阵乘法ax pooling处理。

这线性回归剖析spss样处理后，即便巨细不同的proposal输出作用都是po角点法oled_w * pooled_h固定巨细，结束了固定长度输出。

总结：RoI Pooling

这个层实践的意图便是将咱们输入的features map 和 proposal 的进行形状归一化，后边联接全联接层的时分，输入保持一致

4数据结构题库及答案.Clas矩阵计算器sification

Classification部分运用现已取得的pro矩阵等价posal feature maps，通矩阵相似过full connect层与softmax核算每个proposal详细归于那个类别（如人，车矩阵相似，电视opencv车牌辨认等），输出cls_prob概率向量；一起再次运用bounding box regression取得每个proposal的方位偏移量bbox_pred，用于回归愈加准确的方针检测框。Classificatopencv教程ion部分网络结构如下图。

从RoI Pool矩阵的秩ing获取到7×7=49巨细的proposal featuropencv装置e maps后，送入后续网络，能够看到做了如下2件事：

经过全联接和softm数据结构图ax对proposals进行分类，这矩阵的逆实践上现已是辨数据结构课程设计认的范畴了
再次对proposals进行bounding box regression，获取更高精度的rect box

这儿来看opencv车牌辨认看全联接层InnerProduct矩阵相似 layers，简略的示意图如下，

其核算公式如下：

其间W和bias B都是预先练习好的，即巨细是固定的，当然输入X和输出Y也便是固定大线性回归剖析spss小。所以，这也就印证了之前RoiOpenCV Pooling的必要性。

5.Fa矩阵天王ster R-CNN线性回归方程公式练习

Faster R-CNN的练习，是在现已练习好的model（如VGG_CNN_M_1024，VGG，ZF）的基础上继续进行练习。实践中练习进程角点坐标分为6个进程：

在现已练习好的model上，练习RPN网络，对应stage1_rpn_trai角点速度n.pt
运用进程1中练习好的RPN网络，搜集proposals，对应rpn_t数据结构c语言版第二版课后答案est.pt
第一次练习Fast RCNN网络，对应sta数据结构严蔚敏ge1_fast_rcnn_train.pt
第二练习RPN网络，对应stage2_rpn_train.pt
再次运用进程4中练习好的矩阵的初等变换规矩RPN网络，搜集proposals，对应rpn_test.pt
第2次练习Fast RCNN网络，对应stage2_fast_rcn数据结构课程设计n_train.pt

能够看到练习进程相似于一种“迭代”的进程，不过只循环了2次。至于只循环了矩阵乘法2次opencv车牌辨认的线性回归方程计算器原因是应为作者提到："A similar alternating train矩阵的逆ing can be run for more iterations, but we hav数据结构课程设计e observed n线性回归egligible improvements"，即循角点标高环更多次没有提高了。接下来本章以上述6个进程阐明练习进程。

下面是一张练习进程流程图，应该愈加清楚

5.1练习RPN网络

在该进程中，首要读取RBG提供的预练习好的model（本文运用VGG），初步迭代练习。来看看stage1_rpn_train.opencv物体辨认pt网络结构，如图19。

与检测网络相似的是，依然运用Con数据结构v Layers提取feature maps。整个网络运用的Loss如下：

上述公式中i标明anchors index，pi标明positive softma线性回归方程的a和b怎样求x probability, $P_{i}^{* }$ 代表对应的GT predict概率（即当第i个anchor与GT间IoU>0.7，以为是该anchor是positive， $Pi∗P_{i}^opencv入门要学多久{* }$ =1；反之IoU<0.3时，以为是该anchor是negative， $P_{i}^{* }$ =0；至于那些0.3<IoU<0.7的ancho线性回归计算三要素r则不参加练习）；t代表predic矩阵的初等变换规矩t bounding box， $t^{* }$ 代表对应positive anchor对应的GT bo矩阵的初等变换规矩x。能够看到，整个Losopencv装置教程s分为2部分：

cls loss，即rpn_cls_loss层核算的softmax loss，用于分类anchors为positive与negative的网络练习
reg loss，即rpn_loss_bbo角点坐标x层核算的soomth L1 loss，用于boun数据结构c语言版ding box regression网络练习。留心在该loss中乘了 $P_{i}^{* }$ ，相当于只关心positive anchors的回归（其实在回归中也完全没必要去关心negative）。

因为在实践进程中， $N角点英文clsN_{cls}$ 和矩阵乘法 $N_{reg}$ 间隔过大，用参数平衡二者（如角点标高时设置），使总的网络Loss核算进程中能够均匀考虑2种LoOpenCVss。这儿比较重要是 $L_{reg}$ 运用的soomt线性回归h L1 loss，核算公式如下：

在RPN练习阶段，rpn-data（python AnchorTargetLayer）层会依照和test阶段Proposal层完全相同的方法生成Anchors用于练习
关于rpn_loss_cls，输入的rpn_cls_s角点解cors_reshape和rpn_labels分别对应p与 $P∗Popencv车牌辨认^*$ ， $N_{cls}$ 参数隐含在p与 $P^*$ 的caffe blob的巨细中
关于rpn_loss_bbox，输线性回归剖析入的rpn_bbox_pred和rpn_bbox_targets分别对应t与线性回归剖析 $t^*$ ，rpn_bbox_inside_weigths对应 $P^*$ ，rp数据结构严蔚敏第二版课后答案n_bbox_outside_weigths未opencv装置用到（从soomth_L1_Loss la数据结构题库及答案yer代码中能够看到），而 $N_{reg}$ 相同隐含在caffe blob巨细中

这样，公式与opencv库代码就完全对应了。特别需求留心的是，在练习和检测阶段生成和存储anchor矩阵等价s矩阵等价的次序完全相同，这样线性回归方程计算器练习作用才调被用于检测！

5.2 经过练习好的RPN网络搜集proposals

在该进程中，运用之前的RPN网络，获取proposal rois，一起获取positiv角点是什么意思e softmax probabil矩阵乘法ity，如下图，然后将获取的信息保存在python pickle文件中。该网络本质上和检测中的RPN网络相同，没有什么区别。

5.3 练习Faster RCNN网络

读取之opencv教程前保存的pickle文件，获取proposals与positive probability。从data层输入网络。然后：

将提取的proposals作为rois传数据结构教程第5版李春葆答案入网络，如下图蓝框
核算bbox_inside_weight矩阵相似s + bbox_ou角点法tside_wei线性回归方程例题详解ghts，作用与RPN相同，传入soomth_L1_loss layer，opencv3编程入门如下图绿框

这样就能够练习究竟的矩阵天王辨认softmax与究竟的b角点解o数据结构图undin矩阵相乘怎样算g box regression了，如图21。

之后的stage2练习都是迥然不同，不再赘述了。Faster R-CNN还有一种end-to-end的练习方法，能够一次结束train。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Faster R-CNN详解–基于bestrivern的blog和自己的理解