深度学习与计算机视觉教程(5) | 卷积神经网络(CV通关指南·完结🎉)

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

持续创作,加速成长!这是我参加「日新方案 6 月更文应战」的第2天,点击检查活动概况

  • 作者:韩信子@ShowMeAI
  • 教程地址:www.sho人脸识别用照片可以识别吗wmeai.tech/tutorials/3…
  • 本文地址:www.show人脸识别概念股meai.tech/article-det…
  • 声明:版权一切,转载请联系渠道与作者并注人脸识别315明出处
  • 收藏ShowMeA人脸识别失败怎么解决I检查更多精彩内容

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

本系列为 斯坦福CS231n 《深度学习与核算机视觉(Deep Learning fo谷歌账号r Computer Vision)》的全套学习笔记,对应的龚俊课程效率的英文视频能够在 这儿 检查。更多材料获取办法见文末。


导言

上篇 深度学习与C效率计算公式V教程(4) | 神经网络与反向传达 说到的神经网络是线性分类器的堆叠,只不过在中心参加非线性函数,对中心层发生的模板加权后得到终究的得分。核算机视觉中用到枸杞更多的神经网络结构是卷积神经网络(Convo人脸识别315lutional Neural Networks) ,它与前面说到的前馈神经网络的设想是共同的google,仅仅包含卷积层等特别构建的神经网络层次结构。本篇Sho谷歌playwMeAI给咱们具体打开介绍卷积神经网络。

关于卷积神经网络的具体知识也能够参阅ShowMeAI的深度学习教程 | 吴恩达专项课程 全套笔记解读中的文章卷积神经网络解读

本篇要害

  • 卷积神经网络的前史
  • 卷积神经网络与惯例神经网络的比照;卷积层、池化层、ReLU层、全衔接层;部分衔接、参数同享、最大池化、步长、零填人脸识别失败怎么解决充、数据体尺度等概念
  • 卷积神经网络层的规矩与尺度设置
  • 卷积神经网络经典事例

1.卷积神经网络的前史

1效率计算公式957年,Frank Rosenblatt 创造了第公司让员工下班发手机电量截图一代感知器,第一次结束感知器算法。感知器算法和神经网络很相似,都有 wwx深度学习xbb 等参数,也有参数更新规矩。可人脸识别是感知器只能输出 0011人脸识别用照片可以识别吗个数,参数更新规矩也不是反向传达。

f(x)={0ifw⋅z+b<01otherwisef(x)= begin{公司让员工下班发手机电量截图cases} 0 & if spacespace wcdot z+b<0 \ 1 & otherwise end{cases}

更新规矩

wi(t+1)=wi(t)+(dj−yj(t))xj,iw_i(t+1)=w_i(t)+alpha(d_j龚俊-y_j(t))x_{j,i}

1960年,Widrow 和 Hoff 的 Adaline/Madaline,初次尝试把线性层叠加,整合人脸识别用照片可以识别吗成多层感知器网络,与现代神经网络层的结构比较相似,可是依然没有反向传达或其他练习办法。

1986年 Rumelhart 才初次提出反向传达算法,然后咱们了解的链式法则、更新规矩等才逐渐出现。至此有了神经网络中心的练习办法,可是依效率高发票查验然无法练习大型的神经网络。

2006年,Hinton 和 Sala效率高发票查验khutdinov 的论文标效率的英文明神经网络不只能够练习而且能够高效的练习,可是需求谨慎的初始化,才能反龚俊向传达。他们先预先练习得到隐层的参数,再练习整个网络。

直到谷歌play2012年,深度神经网络才得到大规模的运用。首先是 Geoffrey Hinton 等将 CNN 用于语音辨认,然后其同试验室的效率高发票查验 Alex Acero 等发表了里程碑式的论文,将 CNN 用于 Image net 大赛极大提高辨认率,成为图画分类的标杆办法。

1.1 卷积网络的发生进程

从1959年开端 ,Hubel & Wiesel 做了一些列试验,试图弄明白神经元如何在视觉皮层上工作。他们把电极放进猫的脑袋中,然后给猫不同的视觉影响,比方不谷歌地图同的边际方向、不同的形状等,然后测量神经元的应激响工资超过5000怎么扣税应。

他们得出一些重要的定论:一是大脑皮层上的细胞与视觉中的区域效率计算公式相关联,有映射联系。二是神经元间存在枸杞分层联系。初级层次的细胞对光的方向发生反响,杂乱一点的会对光的移动有反响,超杂乱的能够反响端点,辨认形状。

1980年,Fukushima 的感知神经器初次效率符号将这种简略细胞与杂乱细效率意识方面存在的问题胞的概念形成实例,一种简略细胞与杂乱细胞替换层结构。简略细胞会有一些可调参数效率集,杂乱细胞对简略细胞履行池化人脸识别用照片可以识别吗操作。

1998年,LeCun, Bottou, Bengio, Haffner等人人脸识别概念股初次展现一个实例,运用反向传达和根据梯度的学习办法来练习卷积神经网络,用于邮政编码辨认,效果显著。可是有局限性,不能用到更杂乱的数据中。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

2012年,Alex 等人提出一种现代化的卷积神经网络,称为 Al工商银行exNet。与 LeCun 的很相似,仅仅更大更深,能够充分利用许多图片数据比方 Image net 和 GPU 并行核google算才能。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

今日,CNN现已被广泛运用到图画分类、方针检测、图画切割等。这些技能被广泛用于自动驾驶范畴,运用GPU驱动,将高功能的 GPU 置于嵌入式体系。运用到效率集其他范畴,比方人脸辨认、视频分类、深度学习姿态辨认龚俊、医学影像剖析、星系分类、路标辨认,也运用到游戏中,比方 AlfaGo。除工龄越长退休金越多吗了分类辨认等使命,还可用于图画人脸识别用照片可以识别吗描述、艺术创作(Deep Dream,神经图画风格搬迁)。

2.卷积神经网络胪陈

2.1 卷积人脸识别神经网络和惯例神经网络比照

卷积神经网络(CNN / ConvNet) 和惯例神经网络十分相似:

  • 都是由神经元组成,神经元中有具有学习才能的权重和偏置项。每人脸识别摄像头个神经元都得到一些输入数效率公式据,谷歌进行内积运算后再进行激活函数运算;
  • 整个网络仍旧是一个可导的评分函数,该函数的输入是原始的图画像素,输出是不同类别的评分;
  • 在终究一层(往往是全衔接层),网络仍旧有一个丢失函谷歌play数(比方 SVM 或 Softmax),而且在神经网络中咱们结束的各种技巧和要害仍旧适用于卷积神经网络。

卷积神经网络的结构根据输入数据是图画,向结宫颈癌构中添加了一些特有的性质,使得前向传达函数结束起来更高效,而且大幅度下降了网络中参数的数量。

2.2 惯例神经网络

惯例神经网络的输入是一个向量,比方把一张 3232332 times 32 times 3 的图片延展成 307213072 times 1 的列向量 xx,然后在一系列的隐层中对它做改换。

每个隐层都是由若干的神经元组成,每个神经元都与前一层中的一切神经元衔接(这便是全衔接的概念)。 可是在一个隐层中,效率集神经元相互独立不进行任何衔接。

终究的全衔接层被称为「输出层」,在分类问题中,它输出的值被看做是不同类别的评分值。比方线性分类 WxWxWW10307210 times 3072 的权重矩阵,即 WW 有 10 个效率意识方面存在的问题行向量,终究输出是一个 10110 times 1 的得分向量,其间的每一个值是 WW 的某一个人脸识别一直失败原因行向量和 xx人脸识别身份认证系统 的点积成果,也便是一个神经元的输出。

终究会有 1010 个神经元输出 1010 个值( W0x,W1x,⋯ ,W9xW_0x, W谷歌三件套_1x, cdots, W_9x),xx 和每一个神经元相连,因而效率的拼音是全衔接的。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

缺陷与限制

可是全衔接神经网络在处理大的图片数谷歌翻译据时参数会急速添加,一同效果也不尽善尽美。

  • 比方在 CIF工龄差一年工资差多少AR-10 中,图画谷歌账号的尺度是 3232332 times 32 times 3,对应网络的第一个隐枸杞层中,每一个独自的全衔接神经元的深度学习参数个数即 WW 的一个行向量就有 32323=307232 times 32 times 3=3072 个。
  • 若是一个尺度为 2002003200 ti公积金mes 200 times 3 的图画,会让神经元包含 2002003=120,000200 times 200 times 3=120,000 个权重值。而网络中肯定效率集不止一个神经元,那么参数的量就会快速添加!

全衔接办法功率不高,且参数量大,或许会导致网络过拟合。

2.3 卷积神经网络

关于卷积层的动图龚俊解说也能够参阅ShowMeAI的的深度学习教程 | 吴恩达专项课程 全套笔记解读中的文章卷积神经谷歌安装器网络解读

与惯例Go神经网络不同,卷积神经网络的各层中的神经元都效率是 3 维的:宽度、高度和深度(这儿的深度指的是激活数据体的第三个维度,而不是整个网络的深度,整个网络的深度指的是网络的层数)。

  • 以第一层卷积层为例,输入数据依然是 3232332 times 32 times 3(宽度 times 高度times深度)的,并不会将人脸识别解除方法教程其延展成一个列向量,这样能够坚持图画的空间结构(spatial structure)。
  • 与输入相连的神经元权重不再是 WW 的一个行向量(30723072个参数),而是与输入数据有相同深度的滤波器(fi谷歌空间lter,也称作卷积核),比方是 5535 times 5 times 3效率计算公式 的滤波器 ww
  • 这时的神经元(卷积核)不效率再与输入图画 xx 是全衔接的,而是部分衔接(local connectivity),只和google xx 中一个 5535 times 5 times 3 的小区域进行全衔接(惯例神经网络效率意识方面存在的问题中每个神公司让员工下班发手机电量截图经元都和整个 x人脸识别解除方法教程x 全衔接),滤波器和这个区域核算一个点积 wxwx(核算的时分会展成两个向量进行点积),然后加一个偏置项 bb,就得到一个输出数据(wx+bwx+b)。这样的一个神谷歌安装器经元共有 553+1=765 times 5 times 3+1=76 个参数。
  • 这个滤波器会在 xx 上按必定的步长(stride) 顺次滑动工龄越长退休金越多吗,比方步长为 11 时,终究会得到一个 2828128谷歌浏览器下载 times 28 times 1 的输出数据,称作激活映射(activation map)特征映射(feature map) ,对应 282828 times 28 个神经元的输出。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

关于用来分类 CIFAR-10 中图画的卷积网络,其终究的输出层的维度是 11101谷歌play times 1 times 10,由于在卷积神经网络结构的终究部分将会把全尺度的图画紧缩为包含分类评分的一个向量,向量是在深度方向摆放的。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

效率的英文图左面是惯例神经网络,每个神经元和上层的神经元都是效率意识方面存在的问题全衔接的;右图是卷积神经网络,每个神经元都有三个维度,网络每一人脸识别软件层都将 3D 的输入数据改动为神经元 3谷歌商店D 的激活数据人脸识别并输出。

效率是什么意思这个比方中,赤色的输入层装的是图画,所以它的宽度和高度谷歌账号便是图画的宽度和高度,它的深度是3(代表了R/红、G/绿、B/蓝3个色彩通道)。

蓝色的部分是第一层卷积层公司让员工下班发手机电量截图的输出,这儿的深度明显不为1,标明有多种滤波器。假定咱们有 66555 times 5 的滤波器,每个卷积核代表从输入捕捉某些信息的滤波器,那它人脸识别身份认证系统们顺次滑过整张图片,得到第一个卷效率积层的输出成果是 2828628 times 28 times 6 的。如下图所示:

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

3.卷积神经网络的结构

一个简略的卷积神经网络是由各种层按照顺序摆放组成,卷积神经网络首要由三种类型的层构成:卷积层,池化(Pooling)层和全衔接层(全衔接层和惯例神经网络中的相同)。经过将这些层叠加起来,就能够构建一个完整的卷积人脸识别神经网络。

一个用于 CIFAR-10 图画数据分类的卷积神经网络的结构能够是「深度学习入层谷歌-卷积层-ReLU层-池化层-全衔接层」,这四个层也是现在卷积神经网络比较常用的层公积金

  • 输入层是 [32323][32 times 32 times 3] 存有图画的原始像素,本Go例中图画宽高均为 32,有3个色彩通道。
  • 卷积层中,神经元与输入层中的一效率的拼音个部分区域相连,每个神经元都核算输入层上与自己相连人脸识别软件的区效率是什么意思域与自己权重的内积。卷积层会核算一切神经元的输出。假定运谷歌浏览器下载用12个滤波器(也叫作卷积核),得到的输出数据体的维度便是 [323212][32 times 32 times 12]
  • ReLU层将会逐一元素地进行激活函数操作,比方运用以 00 为阈值的ReLU函数 max(0,−)max(0,-) 作为激活函数。该层对数据尺度没有改动,仍是 [323212][32 times 32 times 12]
  • 池化层在空间维度(宽度和高度)人脸识别用照片可以识别吗上进行降采样效率公式downsampling)操作,假定数据尺度变为 [161612][16 times 16 times 12]
  • 全衔接层将会核算分类评分,数据尺度变为 [1110][1 times 1 times 10] ,其间 10 个数字对人脸识别软件应的便是 CIFAR-10 中 10 个类别的分类评分值。全衔接层与惯例神经网络相同,其间每个神经元都与前一层中一切神经元相衔接。

卷积神经网络一层一层地将图画从原始像素值改换成终究的分类评分值。

  • 卷积层和全衔接层(CONV/FC)谷歌地图对输入履行改换操作的时分,不只会宫颈癌用到激活函数,还会用到许多参数(神经元的权值和偏置项)
  • ReLU层和池化层进行一个固定的函数操作。
  • 卷积层、全衔接层和池人脸识别摄像头化层有超参数,ReLU 层没有。卷积层和全衔接层中的参谷歌浏览器下载数利用梯度下降练习。

实践运用的时分,卷积网络是由多个卷积层顺次堆叠组成的人脸识别软件序列,然后运用激活函数(比方ReLU函数)对其进行逐一处理。然后这些卷积层、激活层、池化层会顺次堆叠,上一层的输出作为下一层的输入。每一层都会运用多个卷积核,每个卷积核对用一个激活映射。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

3.1 卷积核可视化

卷积网络这些卷积层的一切卷积核结束练习后,会发现:

  • 前面几个卷积层的卷积核捕捉和匹配的是一些比较简略的特征,比方边际;
  • 中心几层的卷积核代表的特征变得杂乱一些,比方一些边角和斑驳;
  • 终究几层的特征就会变得特别丰厚和杂乱谷歌翻译

这些卷积核是从简人脸识别失败怎么解决略到杂乱的特征序列。这实践上和 Hubel & Wiesel 的试验成果比较相似,即便在咱们并没有清晰的让网络去学习这些从简略到杂乱的特征,可是给它这种层次结构并经过反向传达练习后,这些类型的卷积核终究也能学到。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

3.2 激活映射与卷积核可视谷歌地图化联系

咱们有 32 个现已在卷积网络中练习好的 555 times 5 卷积核,每一个卷积核滑过原始图画得到人脸识别失败怎么解决一张激活映射,将它们可视化,咱们能够看出卷积核在原图画匹配和寻觅什么。

比方下图上方红框中的第一个卷积核对应得到红框的激活映射,卷积核看起来像是一个定向边际的模板,所以当其滑过图google画,在那些有定向边际的当地会得到较高的值。

之所以称谷歌浏览器作卷积,仅仅核算方式上便是卷积,滤波器和信号(图画)的元素相乘后求和。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

3.3 整个卷积网络的结Go

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

左面的输入层存有原始图画,右边的输出层得到各类别评分。

图画经过一系列卷积层、RELU层、池化层,终究经过全衔接层得到针对不同类别的分类得分,这儿只显示了得分最高的 5 个评分值和对应的类别。

整个网络包含输入层、输出层人脸识别解除方法教程共有 17 层,架构是 [conv-relu-conv-relu-pool] x3-fc-softmax,共有7000个参数,运用 333 times 3 卷积和Go 2人脸识别摄像头22 times 2 池化区域。斯坦福大学 课程主页 上展现的便是这个 CNN 网络。

下面具体介绍卷Go积层、池化层等层次及其工作原理。

4.卷积网络各层具体介绍

4谷歌地图.1 卷积层(Co谷歌地图nvolutional Layer,Conv layer)

卷积层是构枸杞建卷积神经网络的中心层,网络中大部分的核算量都由它发生。

关于Go卷积层的动图解说也能够参阅ShowMeAI的的深度学习教程 | 吴恩达专项课程 全套笔记解读中的工龄差一年工资差多少文章卷积神经网络解读

1公司让员工下班发手机电量截图) 概述

卷积层的参数是由一些可学习的滤波器(filter) 调集构成的。每个滤波器在宽人脸识别摄像头度和高度上都比较小,可是深度和输入数据共同。

比方卷积神经网络第一层的一个典型的滤波器的尺度能够是 5535 times 5 times 3(宽高都是 55 像素,深度是 33 是由于图画应为色彩通道,所以有3的深人脸识别315度)。

在前向传达的时分,让每个滤波器都在输入数据的宽度和高度上滑工商银行动(更精确地说是做卷积),然后核算这个滤波器和输入数据对应每一个区域的内积,终究会生成一个 2 维的激活映射(也叫激活图)(activation map),激活图给出了在每个空间方位处滤波器的反响。

直观地来说,网络会让滤波器学习,成果是当它看到某些类型的视觉特征时就激活宫颈癌,具体的视觉特征或许是某些方位上的鸿沟,谷歌浏览器或许在第一层上某些色彩的斑驳,甚至能够是网络更高层上的蜂巢状或许车轮状图画。

在每个卷积层上,一般有多个滤波器组成调集(比方12个),每个都会生成一个不同的二效率是什么意思维激活映射。将这些激活映射在深度方向上层叠起来就生成了这个卷积层的输出3D数据。

这个3D数据的每一个激活图,都是人脸识别由一些参数相同的神工商银行经元在原图画效率高发票查验的不同方位做内积得到的输出数据组成的。每张激活图对应的一切神经元参数都相同(由于实践上便是同一个滤波器在图画上不同方位滑动的成果,每到一个方位便是一个神经元),称为参数同享

2) 部分衔效率英文翻译

卷积层每个神经元和原图画只在一效率的英文个小区域进行全衔接,称为 部分衔接。由于在处理图画这样的高维度输入时,让每个神经元都与前一层中的一切神经元进行全衔接是不现实的。

部分衔接的空间人脸识别摄像头巨细叫做神经元的感触野(recepti人脸识别ve field) ,它的尺度(其实便是滤波器的空间尺度)是一个超参数。在深度方向上,这个衔接的巨细总是和输入量的深度持平。谷歌翻译即衔接在空间(宽高)上是部人脸识别分的,龚俊可是在深度上总是和输入数据的深度共同谷歌地图

重复一下之前的比方,一张 3232332 times 32 times 3 的图片,滤波器巨细为 5535 times 5 times 3。此刻感触野尺度是 555 times 5,滤波器的深度需求和原图画深度共同,为 33。那么神经元的权重个数为 553=755 times 5 times 3=75 个,再加一个偏置项,共 7676 个。神经元和原图画一个相同巨细的区域是全衔接的,共有 7575 个衔接,可是与整个图画是部分衔接的(只在 555 times 5Go空间上衔接),假定是全衔接则需求有 30723072 个衔接。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

  • 左面:赤色的是输入数据体(比方 CIFAR-10 中的图画),蓝色的部分是第一个卷积层中的一切神经元。卷积层中的每个神经元都仅仅与输入数据体的一个部分空间相连,可是与输入数据体的一切深度维度悉数相连(一切色彩通道)。在深人脸识别解除方法教程度方向上有多个神经元(本例中5个),它们都承受输入数据的同一块区域(感触野相同)。深度方向效率英文翻译上的神经元参数谷歌翻译是不同的。
  • 右边公积金神经人脸识别身份认证系统元内部核算还和曾经相同,仍是核算权重和输入的内积人脸识别身份认证系统,然后进行激活函数运算,仅仅它们的衔接被限制在一个部分空间,即输入数据仅仅原图画人脸识别摄像头的一人脸识别部分。

3) 神经元摆放与输出数据尺度

卷积层效率英文翻译的一切神经元与原始图画卷积后,输出数据体的尺度由三个超参数操控:深度(depth)人脸识别,步长(stride)零填充(zero-padding)

① 深度 :卷积层中运用的滤波器往往有多个,深度便是滤波器的数量

  • 每个滤波器在输入数据中匹配核算不同谷歌商店的模式。
  • 比方第一效率是什么意思个卷积层的输入是原始图画,那么在深度维度上的不同神经元将或许被原图画上不同方向的鸿沟,或许是色彩斑驳激活。将这些沿着深度方向摆放、感触野相同的神经元调集称为深度列(depth column),或许纤维(fibre)。

② 步长:步长便是滤波器每次移动跨过的像素数量

  • 当步长为1,滤波器每次移动1个像素。当步长为 2(实践中很少运效率用比2大的步长),滤波器滑动时每次移动2个像素。这个操作会让输出数据体在空间上变小。

③ 零填充:在图画的鸿沟外填充零像素点

  • Go动时会使输出数据体在空间上变小,比方 323232 times 32 的图画经过一个卷积层输出数据在空间上或许是 282828 times 28 的,经过多层后会敏捷收敛。咱们不希望这样,所以引入了零填充,零填充有一个良好性质,能够操控输出数据体的空间尺度(最常用的是用谷歌安装器来坚持输入数据体在空间上的尺度,这样输入和输出的宽高都持平)。

比方有一个 777 times 7 的原始图片,滤波器的尺度是 333 times 3,步长为 1人脸识别解除方法教程1 时的输出是 555 times 5;步长为 22 时输出是 333 times 3,但步长是 33 的时分尺度不再合适。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

假定图片的尺度是 NNN times N,滤波器尺度是 FFF time谷歌翻译s F,步长为 SS,则输出数据的尺度为谷歌翻译(N−F)/S+人脸识别3151(N-F)/S +1。所以当N=7N=7F=3F=3

  • S=1S=1效率集 时,输出为 55
  • S=2S=2 时,输谷歌浏览器下载出为 3效率公式3
  • S=3S=3 时,输出为 2.3332.333,明显不合理

所以步长的设置不合理会导致网络的异常,引入零填充可必定程度解决这个问题。

下面考虑参加零填充的情形。在 777 time工商银行s 7 的图画外面参加一圈零像素公司让员工下班发手机电量截图,滤效率意识方面存在的问题波器尺度仍为 333 times 3,步长为 1,此刻的输出尺度应该是多少?答案是 777 times 7,由于深度学习此刻的原图画相当于变成 999 ti枸杞mes 9。此刻的输出数据空间尺度和输入的相同。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

综上,可得输出数据尺度的核算Go公式:

假定输入数据体尺度 WWW times W,卷积层中神经元的感触野尺度 FFF times F,步长 SS 和零填充的数量 PP,则输谷歌play出数据体人脸识别软件的空间尺度为 (人脸识别身份认证系统W+2P−F)/S+1(W+2效率公式P-F)/S+1

  • 比方效率计算公式上面深度学习输入是 777 times 7,滤波器是 33谷歌空间3 times 3,步长为11,填充为11,那么就能得人脸识别摄像头到一个777 times 7的输出。

一般来说,当步长 S=效率意识方面存在的问题1S=1谷歌 时,为确保输入尺度和输出尺度相同,零填充的数量为:P=(F−1)人脸识别概念股/2P=(F-1)/2

  • 考虑开始的问题,一张 3232332 times 32 times 3 的图画,经过有 10 个 5535 times 5 times效率公式 3 滤波器的卷积层,步长为 11,零填充数量为 22,则输出的尺度为?明显是 32321032 times 32 times 10。这是由于滤波器尺度 55 步长 11 填充 22 能够坚持空间尺度效率,滤波器的数量又决定了输出的深度。

那么这个卷积层有多少个参数呢?

  • 10个滤波器每个有 553+1=765 times 5 times 3+1=76人脸识别一直失败原因参数,所以共有 760760 个参数。

人脸识别315么这个卷积层一共有多少个神经元呢?Go

  • 答案是 32321032 times 32 time工龄越长退休金越多吗s 10,由于输出数据的每个数据点,都由一个神经元发生。也便是说输出数据体的尺度,就代表着神经元的摆放办法

可是,已然有 32321032 times 32效率符号 times 10 个神经元,每个神经元的参数为 76,google那为什么只要 760 个参数呢?谷歌商店咱们能够在后谷歌翻译面的参数同享部分能够找到答工商银行案。

AlexNet 神经网络架构,赢得了2012年的 Imag人脸识别解除方法教程eNet 应战,它的结构中:

  • 输入图画的尺度是 [2272273][227 times 227 times 3]
  • 在第一个卷积层,神经元运用的感触野尺度 F=11F=11,步长 S=4S=4,不运用零填充 P=0P=0。由于(227−11)/4+1=55(227-11人脸识别软件)/4+1=55,卷积层的深度 K=96K=96,则卷积层的输出数据体尺度为 [555596][55 times 55 times 96]55559655 times 55 ti效率符号mes 96 个神经元中,每个都和输入数据体中一个尺度为 [11113][11 times 11 times 3] 的区域全衔接。在深度列上的 96 个神经元都是与输入数据体中同一个 [11113][11 times 11 times 3] 区域衔接,可是权重不同。

4) 参数同享机制

在卷积层中运用参数同享是用来操控参数的数量。

就用上面的实在事例,在第一个卷积层就有枸杞 555596=290,40055 times 55 times 96=290,400 个神经元(假定神谷歌经元都是独立的)

  • 由于一个滤波器每滑到一个方效率位,就对应一个神经元,得到一个神经元输出。滑过一切方位后谷歌商店的输出数谷歌据空间尺人脸识别身份认证系统度为 555555 times 55,对应着有 5555谷歌浏览器下载55 times 55 个神经元。再加上一共有 96 个滤波器,所以为 55559655 times 55 times 96
  • 每个神经元有 11113+1=36411 times 11 times 3+1=364 个参数。将这些合起来便是 290400364=105,705,600290400 times 364=105,705,600 个参数。单单第一层就有这么多参数,明显这个数目是十分大的。

作一个合理的假定:假定一个特征在核算某个空间方位 (x,y)(x,y)的时分有用,那么它在核算另一个不同方位 (x2,y2)(x_2,y_2)的时分也有用

  • 参数同享的假定是有道理的:假定在图画某些当地探测到一个水平的鸿沟是很重要的,那么在其他一些当地也会相同是有效率计算公式用的,这是由于图画结构具有平移不变性。

根据这个假定,能够显著地削减参数数量。也是根据这个假定,滤波器能够在原图片上滑动。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

假定咱人脸识别们将深度维度上一个独自的 2 维切片看做人脸识别概念股度切片(depth slice),比方这个尺度为 [555596][55 times 55 times 96] 的输出数据体就有 96 个深度切片,每个尺度为 [5555][55 times 55] 。在每个深度切片谷歌翻译上的神经元都运用相同的权重和偏置项。

在这样的参数同享下,比方中的第一个卷积层就只要 96 个不同的参数集了,一个参效率是什么意思数集对应一个深度切片,共有 96(11113+1)=34,94496龚俊 times (11 times 11 times 3+1)=34,944 个不同的参数(包含偏置项)。

在每个深度切片中的 555555 times 55 个权重运用的都是相同的参数。人脸识别315

在反向传达的时分,需求核算每个神经元对它的权重的梯度,所以需求把同一个深度切片上的一切神经元对权重的梯度进行累加,这样就得到了对这个同享权重的梯度。这样,每个切效率的英文片只更新一个权重集

弥补解释:正是由于参效率计算公式数同享,卷积层的前向传达在每个深度切片中能够看做是在核算神经元权重和输入数据体的卷积(这便是「卷积层」名字由来)。这也是为什么总是将这些权重调集称为滤波器(filte龚俊r) (或卷积核(kernel) ),由于它们和输入进行了卷积。

有时分参数同享假定或许没有意义,特别是当卷积神经网络的输入图画是一些清晰的中心结构时分。这时分咱们就应该希望在图片的不同方位学习到完全不同的特征。一个具体的比方便是输入图画是人脸,人脸一般都处于图片中心。你或许希望不工龄差一年工资差多少同的特征,比效率英文翻译方眼睛特征或许头发特征或许(也应该)会在图片的不同方位被学习。在这个比方中,一般就放松参数同享的限制,将层称为部分衔接层(Locally-Conn谷歌地图ected Layer)。

5) 卷积层演示

下面是一个卷积层的运转演示。由于 3D 数据难以可视化,所以一切的数据(输入数据体是效率英文翻译蓝色,权重效率公式数据体是赤色,输出数据体是绿色)都进行深度切片然后排成一列来展现。

  • 输入数据体的尺度谷歌地图W1=5W_1 = 5H1=5H_1 = 5D1=3D_人脸识别3151 = 3
  • 卷积层的参数是 K=2K = 2F=效率意识方面存在的问题3F = 3S=2S =人脸识别软件 2P=1P = 1 。也便是说,有 2 个滤波器,滤波器的尺度是 333 times 3 ,步长是 2。谷歌浏览器
  • 因而,输出数据体的空间尺度是 (5−3+2)/2+1=3(5-3+2)/2+1=3

留意输入数据体工资超过5000怎么扣税运用了零填充 P=1P=1,所以输入数据体外边际一圈都是 00。下面的比方在绿色的输出激活图上循环演示,展现了其间每个元素都是蓝色的输入数据和赤色的滤波器逐元素相乘,然后求其总和,终究加上偏置项得来。高清版展现,主张访问 课程官网。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

6谷歌三件套) 用矩阵乘法结束卷积

卷积运算本质上便是在滤波器和输入数据的部分区域做点积。卷积层的常用结束办法便是利用这一点,将卷积层的前向传达变成一个巨大的矩阵乘法:

  • 输入图画的部分区域被 im2col 操作拉伸为列。比方,假定输入是 [2272273][227 times 227 times 3] ,要与尺度为 1111311 t谷歌浏览器下载imes 11 times 3 的滤波器以步长为 44 进行卷积,就取输入中的 [11113][11 times 11 times 3] 数据块,然后将其拉伸为长度为 11谷歌空间113=枸杞36311 times 11 t效率计算公式imes 3=363 的列向量。重复进效率集行这一进程,由于步长为 44,所公积金以输出人脸识别摄像头的宽高为 (227−11)/4+1=55(227-11)/4+1=55,即需求 55 times 55=3025 个这样的列向量与滤波器做点积。所以输入数据 XX 经过im2col操作后的输出矩阵 X_col 的尺度是 [3633025][363 times 3025] ,其间每列是 XX 上拉伸的感触野,共有 5555=3,02555 times 55=3,人脸识别软件025 个。留意由于感触野之间有堆叠,所以输入数据体中的数字在不同的列中或许有重复。

  • 卷积层的权重也相同被拉伸成行。举例,假定有 96 个尺度为 [11113][11 times 11 times 3] 的滤波器,就生成一个矩阵 W_row,尺度为 [96363][96 times 363]

  • 现在卷积的成果和进行一个大矩阵乘法 np.dot(W_row, X_col) 是等价的了,能得到谷歌商店每个滤波器和每个感触野间的点积。在这个比方中,这个操作的输出是 [963025][96 times 3025] ,给Go出了每个滤波器在每个方谷歌浏览器位的点积输出。

  • 成果终究有必要被从头变为合理的输出尺度 [555596][55 times 55 times 96]

这个办法人脸识别摄像头的缺陷便是占用内存太多,由于在输入数据体中的某些值在 X_col 中被复制了多次。可是谷歌账号,其长处人脸识别概念股是有十分多高效的矩阵乘法结束办法供咱们能够运用,比方常用的 BLAS API。相同,im2col人脸识别软件路能够用在会工龄差一年工资差多少聚操枸杞作中。

反向传达:卷积操作的反向传达(一同关于数据和权重)仍是一个卷积(可是是在空间上翻转的滤波器)。运用一个1维的比方比较容易演示(这儿不再打开)。

7) 其它卷积办法

① 1×1卷积

一些网络结构中会运用 111 times 1 的卷积,这个办法最早是在论文 Network in Network 中出现。在后来的许多模型结构中,运用它首要是起到升降维的作用。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

② 扩张卷积

咱们也会看到扩张卷积(空洞卷积)这样的特别结构。咱们之前看过的卷积层滤波器是接连的,但让滤波器中元素之间有间隙谷歌商店也是合理的规划,这就叫做扩张。这种特别的卷积能够帮助 CNN 有用扩大人脸识别315感触野。

如下图为普通卷积和空洞卷效率意识方面存在的问题积的动图比照:

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

4.2 池化层(Pooling Layer,POOL Layer)

1) 概述

一般,在接连的卷积层之间会周期性地插入一个池化层。它的作用是逐渐下降数据体的空间(宽、高)尺度,这样的话就能削减网络中参数的数量宫颈癌,使得核算资源效率高发票查验消耗变少,也能有用操控过拟合。

池化层最常谷歌账号用的是 MAX 操作,对输入数据体的每一个深度切片独立进行操作,改动它的空间尺度。最常见的方式是运用尺度 222 times 2 的滤波器,以步长为 22 来对每个深度切片进行降采样,将其间B75%75% 的激活信息都丢掉。每个 MAX 操作是从 4Go4 个数字中取最大值(也便是在深度切片中某个 222 times 2 的区域)。深度方向坚持不变,不进行降采样。

池化谷歌浏览器下载层也不用零填充,而且池化滤波器间一般没有堆叠,步长等于滤波器尺度。

2) 池化层的性质

  • 输入数据体尺度:W1H1D1W_1 times H_1 times D_1
  • 有两个超参数:池化尺度 FF ,一般为 22谷歌play33;步长 SS ,一般为 22。实践上 maxmax 池化层一般只要两种超参数设置办法: F人脸识别用照片可以识别吗=3F = 3S=2S = 2 ,叫做堆叠会聚(overlapping pool人脸识别身份认证系统ing);另一种更常用的是 F=2F = 2S=2S = 2
  • 输出数据体尺度: W效率意识方面存在的问题2H2D2W_2 times H_2 times D_2 ,其间:
    • W2=(W1−F)/S+1W_2 = (W_1 – F)/S + 1
    • H2=(人脸识别解除方法教程H1−F)/S枸杞+1H_2 = (H_1 – F)/S + 1
    • D2=D1D_2 = D_1
  • 由于对输入进行的是固定函数核算,所以没有引入参数。此外,在池化层中很少运用零填充。

3) 池化办法

效率的拼音了最大池化,池化单元还能够运用其他的函数,比方均匀池化效率计算公式(average pooling)或 L2 范式池化(L2-norm pooling)。均匀池化前史上比较常用,可是现在现已很少运用了。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

谷歌安装器化层在输入数据体的每个深度切片上,独立地对其进行空间上(高度、宽度)的降采样。

  • 图片左面:本例中,输入数据体尺度 [22422464][224 times 224 times 64] 被降采样到了 [11211264][112 times 112 times 64] ,采取的滤波器尺度是 22,步长为 22,而深度不变。
  • 图片右边:最常用的降采样操作是取最大值,也便是最大池化,这儿步长为 22,每个取最大值操作是从 44 个数字中选取(即 222 times 2 的方块区域中Go)。

反向传效率集

  • max(x,y)max(x,y) 函数的反向传达能够简略理解为将梯度只沿最大的数回传。
  • 在前向传达经过池化层的时分,一般会把池中最大元素的索引记录下来(有时这个也叫作道岔switches),这样在反向传达的时分梯度路由就很高效。

一些争议

  • 许多人以Go为能够不运用池化层。比方在 Striving fo人脸识别身份认证系统r Simplicity: The All Convolutional Net 一文中,提出运用一种只要重复的卷积层组成的结构,不再运用池化层,经过在卷积层中运用更大的步长来下降数据体的尺度。
  • 有发现以为,在练习一个良好的生成模型时,google弃用效率符号池化层也是很重要的。比方改动自编码器(VAEs:variational autoencoders)和生成性对抗网络(GANs:gene人脸识别失败怎么解决rative adversarial networks)。现在看来,未来的卷积网络结构中,或许会很少运用甚至不运用池化层。

4.3 归一化层(Nor人脸识别摄像头malization L谷歌地图ayer)

在卷积神经网络的结构中,提谷歌浏览器下载出了一些归一化层的概念,想法是为了结束在生物大脑中观测到的抑制机制宫颈癌。可是这些层逐渐都不再流行,由于实践证明它们的效果即便存在,也是极端有限的。

关于不同类型的归一化层,能够看看nAlex Krizhevskyn的关于 cuda-convnet library API 的讨论。

4.4 全衔接层(Fully-connected Layer,FC Layer)

全衔接层,顾名思谷歌地图义,神经工龄差一年工资差多少元关于前一层中的一切激活数据是全衔接的,这个和惯例神经网络中相同,一般会把前一层数组拉成一个向量,与 WW 的每个行向量进行点积,得到每一类的分效率集数。

终究一个池化层输出的成果是数据经过整个网络累计得到的,前几个卷积层或许检测一些比较简略的特征比方边际,得到边际图后输入到下一个卷积层效率的英文,然后进行更杂乱的检测,这样层层下来,终究一层的成果能够看成是一组契合模板的谷歌三件套激活状况,比较大的值标明之前的一切检测成果都比较大,激活程度高,这样就会聚了许多的信息。

虽然输出的数据比较简略,但却是十分杂乱的滤波器(或特征)激活后的状况,特征在卷积核中体现。

  • 第一层卷积网络输出的成果比较杂乱,由于第一层的卷积核比较简略,很容人脸识别315易就激活了;
  • 终究一层的卷积核十分杂乱,所以输出的激活图看起来就会很简略,由于人脸识别一直失败原因激活比较困难。可人脸识别解除方法教程是这个激活图却能阐明杂乱特征的激活程度,用来评分是十分合理的。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

1) 全衔接层转化为卷积层

全衔接层和卷积层之间仅有的不同便是卷积层中的神经元只与输入数据中的一个部分效率是什么意思区域衔接,而且在同一个深度切片上的神经元同享参数。然而在两类层中,神经元都是核算点积,所以它们谷歌空间的函数方式是相效率高发票查验同的。因而,将此两者相互转化是或许的:

① 关于任一个卷积层,都存在一个能结束和它相同的前向传达函数的全衔接层

  • 权重矩阵是一个巨大人脸识别身份认证系统的矩阵,除了某些特定工龄越长退休金越多吗块(这是由于效率集有部分衔接),其余部分都是零。而在其间大部分块中,元素都是持平的(由于参数同享)。

② 反过工龄差一年工资差多少来,任何全衔接层都能够被转化为卷积层

  • 比方,一个 K=4096K = 4096(即有 40964096 个类别,WW40964096 个列向量)的全衔接层,输入数据体的尺度是 775127 times 7 times 512人脸识别概念股那么W的每个列向量长度为 775127 time工资超过5000怎么扣税s 7 times谷歌play 512,全衔接之后的输谷歌安装器出为 140961 times 4096
  • 这个全衔接层能够被等效地看做一个 F=7F=人脸识别身份认证系统7P=0P=0S=1S=1K=4096K=4096 的卷积层。换谷歌浏览器句话说,便是将滤波器的尺度设置为和输入数据体的尺度共同也是 775127 times 7 times 512,这样两者卷积公司让员工下班发手机电量截图的成果便是一个实数。又由于有 40964096 个滤波器,所以输出将变成 1140961 times 1 t效率公式imes 4096,这个成果就和运用初始的那效率的拼音个全衔接层相同了。

两种转化的示意图如下图所示:

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

上述两种转化中,全衔接层转化为卷积层在实践运用中愈加有用。

假定一个卷积神经网络的工龄差一年工资差多少输入是 2242243224 time人脸识别解除方法教程s 224 times 3 的图画,一系列的卷积层和池化层将图画数据变为尺度为 775127 times 7 times 512 的激活数据体(在 AlexNet 中便是这样,经过运效率意识方面存在的问题用5个池化层来对输入数据进行空间上的降采样谷歌三件套,每次尺度下降一半,所以终究空间尺度为 224/2/2/2/2/2=7)。

全衔接层中,AlexNet 先运用了两个尺度为 40964096 的全衔接层,然后又运用了一个有1000 个神经谷歌浏览器下载元的全衔接层用于核算分类评分。

咱们能够将这 3 个全衔接层中的恣意一个转化为人脸识别一直失败原因卷积层:

  • 针对第一个衔接区域是 [77512][7 times 7 times 512] 的全衔接层,令其滤波器尺度为 775google127 times 7 tim谷歌地图es 51效率计算公式2K=4096K=4096,这样输出数据体就为谷歌翻译 [114096][1 times 1 times 4096] 了;
  • 针对第二个全衔接层,令其滤波器尺度人脸识别摄像头1140961 times 1 times 4096K=4096K=4096,这样输出数据体仍为 [114096][1 times 1 times 4096]
  • 对终究一个全衔接层也做相似的,令其滤谷歌商店波器尺度为 1140961 times 1 times 4096K=1000K=1000,终究输出为[1 times 1 times 1000]$ 。

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

咱们留意到,每次相似的改换,都需求把全衔接层的权重 WW 重塑成卷积层中和输入数据尺度相同的滤波器。这个转化最大的意义是让一些核算更高效:

  • 让卷积网络在一张更大的输入图片上滑动(即把一张更大的图片的不同区域都分别带入到卷积网络,得到每个区域的得分),得到多个输出,这样的转化能够让咱们在单个前向传达的进程中结束上述的操作。

咱们来看看这个比方:

  • 谷歌浏览器 2242243224 times 224 times 3 的图片经过卷积网络(不包含终究三个google全衔接层)后得到 775127 times 7 times 512 的激活数据体人脸识别身份认证系统(降采样5次,除32)。然后经人脸识别概念股过第一个全衔接层,该全衔接层的神经元需求 775127 times 7 times 512 个参数。

  • 假定换成一张 384384384 times 384 的大图片经过相同的网络(不包含终究三个全衔接层)等效输出尺度为 121251212 times 12 times 512384/32工资超过5000怎么扣税=12384/32 = 12),假定直接用来经过效率集全衔接层,由于尺度不同,会无法经过。

    • 这时就需求把 384384384 times 384 的图片切成 666 times 6224224224 times 224 的小图画顺次经过卷积网络,人脸识别摄像头这样全衔接层之前的输效率英文翻译出为 3谷歌空间6 个 775127 times 7 times 512 的激活数据体,远远大于 121251212 times 12 times 512,所以由于全衔接层的存在,导致许多的重复运算。
    • 可是假定将 3 个全衔接层转化来的3个卷积层,就不会存在尺度的问题,384384384 t工龄差一年工资差多少imes 384 的图片能够直接经过转谷歌三件套化后的卷积网络,终究得到 6610006 times 6 tim人脸识别失败怎么解决es 1000 的输出(由于 (12−7)/1+1=6(12 – 7)/1 + 1 = 6(384−224)/32+1=6(384-224)/32+1 = 6)。这样咱们能够在 384384384 times 384 图画上一次得到 666 times 6 个分类得分数组,而不是独立的得到 36 个巨细为 [111000][1 times 1 times 1000]人脸识别身份认证系统得分数组,大大节约核算量。

5.卷积神经网络层的摆放与尺度设置

5.1 层的摆放规矩

卷积神经网络一般是宫颈癌由三种层构成:卷积层,池化层和全衔接层(简称FC)。ReLU 激活函数也Go应该算是工龄越长退休金越多吗一层,它逐元素地进行激活函数操作。

卷积神经网络最常见的方式便是将一些卷积层和 ReLU 层放工龄越长退休金越多吗在一同,其后紧跟池化层,然后重复如此直到图画在空间上被缩小到一个满足小的尺度,在某个当地过渡成满足衔接层也较为常见。google终究的全衔接层谷歌账号得到输出,比方分类评分等。

换句话说,最常见的卷积神经网络结构如下:

INPUT → [[CONV → RELU]*N → POOL?]*M → [FC → RELU]*K → FC

其间 * 指的是重复次数,POOL? 指的是一个可选的池化层。其间 N>=0N >谷歌空间=0(一般 N<=3N<=3),M>=0M>=0K>=0K>=0(一般 K<3K<3)。

例如,下面是一些常见的网络结构规矩:

  • INP宫颈癌UT → FC,结束一个线性分类器,此处 N=M=K=0N = M = K = 0

  • INPUT → CONV → RELU →效率的英文 FC效率计算公式

  • INPUT → [CONV → RELU → POOL]*2 → FC → RELU → FC,此谷歌三件套刻在每个池化层前只要一个卷积效率集层;

  • INPUT → [CONV → RELU → CONV → RELU → POOL]*公司让员工下班发手机电量截图3 → [FC → RELU]*2 → FC,此刻每个池人脸识别化层前有两个卷积层,这个思路适用于更大更深的网络,由于在履行具有破坏性的池化操作前,多谷歌三件套重的卷积层能够从输入数据中学习到更多的杂乱特征。

经历几个小滤波器卷积层的组合比一个大滤波器卷积层好

假定你一层一层地堆叠了 33333 times 3 的卷积层(层与层之间有非线性激活函数)。

  • 第一个卷积层中的每个神经元都对输入数据体有一个 333 ti工资超过5000怎么扣税mes 3 的感触野
  • 第二个卷积层上的神经元对第人脸识别解除方法教程一个卷积层有一个 333 times 3 的感触野,也便是对深度学习输入数据体有 555 ti效率的拼音mes 5 的感枸杞触野(32-30-28)。
  • 在第三个卷积层工商银行上的神经元对第二个卷积层有 333 times 3 的感触野,也便是对输入数据体有 777 times 7 的感触野。

下图是第1层和第2层卷积层的堆叠感触野示意图

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

假定不采用这3个 333 times效率公式 3 的卷积层,而是运用一效率个独自的有人脸识别失败怎么解决 777 times 7 的感触野的卷积层,那么一切神经元的感触野也是 777 times人脸识别一直失败原因 7,可是就有一些缺陷:

  • ① 多个卷积层与非线性的激活层替换的结构,比单枸杞一卷积层的结构更能提取出深层的更好的特征。
  • ② 假定一切的数据有 CC 个通道,即输人脸识别摄像头入输出数据深度均为 CC,那么独自的 777 time谷歌plays 7 卷积层将会包含 C(77C)=49C2C times效率英文翻译 (7 times 7 times C) = 49 C^2 个参数,而3个 333 times 3 的卷积层的组合仅有 3(C(3深度学习3C))=27C工商银行2效率意识方面存在的问题3 times (C tim工商银行e谷歌空间s (3 times 3 times谷歌翻译 C)) = 27 C^2 个参数。

直观说来,最好挑选带有小滤波器的卷积层组合,而不是用一个带有大的滤波器的卷积层。前者能够表达出输入数据中更多个强力特征,运用的参数也更少。

仅有的缺乏是,在进行反向传枸杞达时,中心的卷积层或许会导致占用更多的内存。

5.2 层的尺度设置规矩

1) 输入层

原始输入图画,常常设置为 2N2人脸识别用照片可以识别吗^N 方式。常用数字包含32(比方CIFAR-10),64,96(比方STL-10)或224(比方ImageNet卷积神经网络)、人脸识别384和512。

2) 卷积层

  • 应该运用小尺度滤波器效率的拼音(比方 333 times 3 或最多 555 times 5),运用步长 S=人脸识别概念股1S=1
  • 要对输入数据进行零填充,这样卷积层就不会改动输入数据在空间维度上的尺度。比方
    • F=3F=3,那就运用 P=1P=1 来坚持输入尺度;
    • F=5F=5,那就运用 P=2P=2 来坚持输入尺度。
    • 一般关于恣意 FF,当 P=谷歌浏览器(F−1)/2P=(F-1)/2 的时分能坚持输入尺度。
  • 假定有必要运用更大的滤波器尺度(比方 777 times 7 之类),一般只用在第一个输入原始图画的卷积层上。

3) 池化层

  • 负责对输入数据的空间维度进行降采龚俊样。
  • 最常用的设置是用用 222 times 2 感触野(即 F=2F=人脸识别身份认证系统2 )的最大值会聚,步长为 22S=2S=2)。留意这一操作将会把输入数据中 75效率高发票查验% 的激活数据丢掉(谷歌翻译由于对宽度和高度都进行了 2 的降采样)。
  • 另一个不那么常用的设置是运用 333 time公积金s 3 的感触野,步长为 2。最大值会聚的感触野尺度很少有超过 3的,由于会聚操作过于剧烈,易造成数据信息丢掉,这一般会导致算法功人脸识别用照片可以识别吗能变差。

在某些事例(尤其是前期的卷积神经网络结构)中,根据前面的各种规矩,内存的运用量敏捷飙工龄差一年工资差多少升。

  • 例如,运用 64 个尺度为 333 times 3 的滤波器对 2242243224 times 224 times 3 的图画进行卷积,零填充为 1,得到的激活数据体尺度是 [22422464][224 times 224 times 64] 。这个数量便是一千万的激效率的英文活数据,或许便是72MB的内存(每张谷歌翻译图便是这么多效率公式,激活函数和梯度都是)。

由于GPU一般由谷歌地图于内存导致功能瓶颈,所以做出一些妥协是有必要的。在实践中,人们倾向于在网络的第一个卷积层做出人脸识别妥协。

  • 例如,能够妥协或许是在第一个卷积层运用效率公式步长谷歌账号22,尺度为 777 times 7 的滤波器(比方在Z人脸识别一直失败原因Fnet中)。在宫颈癌AlexNet中,滤波器的尺度的 111111 times 11,步长为 4。

6.卷积神经网络经典事例

这些网络的具体结构会在后续再打开介深度学习绍。

关于具体的下述网络结构解说也能够谷歌play阅读ShowMeAI的的深度学习教程 | 吴恩达专项课程 全套笔记效率意识方面存在的问题解读中的文章经典CNN网络实例详效率计算公式

6.1 LeNet

第一个成功的卷积神经网络运用,是Yann LeCun在上世纪90年代结束的。当然,最著名仍是被运用在谷歌账号辨认数字和邮政谷歌play编码等的 LeNet 结构。

6.效率高发票查验2 AlexNet人脸识别用照片可以识别吗

AlexNet 卷积神经网络由Alex Krizhevsky,Ilya Sutskever 和 Geoff Hinton 结束人脸识别用照片可以识别吗。AlexNet 在2012年的 ImageNet ILSVRC 竞赛 中夺冠,功能远远超出第二名(16%的 top5 错误率,第二名是 26% 的 top5 错误率)。这个网人脸识别身份认证系统络的结构和 LeNet 十分相似,可是更深更大,而且运用了层叠的卷积层来效率意识方面存在的问题获取特征。

6.3 ZF Net

Matthew Zeiler 和 Rob Fergus 创造的网络在2013年 ILSVRC 比赛中夺冠,它被称为 ZFNet(Zeiler & Fergus Net 的简称)。它经过修改结构中的超参数来工龄差一年工资差多少结束对 AlexNet 的改善,具体说来便是添加了中心卷积层的尺度,让第一层的步长和滤波器尺度更小。

6.4 GoogLeNet谷歌翻译

2014年 ILSVRC 的胜利者是谷歌的 Szeged等 结束的卷积神经网络。它首要的奉献效率的英文便是结束了一个奠基模块,它能够显著地削减网络中参数的数量(AlexNet中有60M,该网络中只人脸识别失败怎么解决要4M)。以及,GoogLeNet 没有在卷积神经网络的终究运用全衔接层,而是运用了一个均匀池化,把许多不是很重要的参数都去除掉深度学习了。GooLeNet 还有几种改善的版别,最新的一个是 Inception-v4。

6.5 VGGNet

VGGNet人脸识别 是Karen Simonyan和 Andrew Zisserman结束的卷积神经网络,在2谷歌安装器014年 ILSVRC 获得第二名的成绩效率的英文。它首要的奉献是展现出网络的深度是算法优良功能的要害部分谷歌浏览器下载。他们最好的网络包含了 16 个卷积/全衔接层。网络的结构人脸识别摄像头十分共同,自始至终人脸识别一直失败原因悉数运用的是 333 times 3 的卷积和 222 times 2 的池效率是什么意思化。

6.人脸识别摄像头6 R谷歌esNet

残差网络(Residual Network)是2015年ILSVRC的胜利者,由何恺明等结束。它运效率集用了特别的效率的拼音跃链接人脸识别身份认证系统,许多运用了 批量归一化(batch normalization)。这个结构相同在终究没有运用全衔接层。

6.7 核算上的考量

在构建卷积神经网络结构时,最大的瓶颈是内存瓶颈。大部分现代GPU的内存都不太人脸识别一直失败原因大。要留意三种内存占用来源:

1) 来人脸识别摄像头中心数据体尺度

卷积神经网络中的每一层中都有激活数据体的原始数值,以及丢失函数对它们的梯度(和激活数据体尺度共同)。一效率公式般,大部分激活数据都是在网络中靠前的层中谷歌浏览器下载(比方第一个卷积层谷歌商店)。

  • 在练习时,这些数据需求放在内存中,效率意识方面存在的问题由于反向传达的时分还会用到。
  • 在测验时能够优化:让网络在测验运转时分每层都只存储当前的激活数据,然后丢掉前面层的激活数据,这样就能削减巨大的激活数据量。

2) 来自参数尺度

  • 即整个网络的参数的数量、反向传达时它们的梯度值,以及运用 momentum、Adagrad 或 RMSProp 等办法进行最优化时的每一步核算缓存。
  • 因而,存储参数向量的内存一般需求在参数向量的容量基础上乘以3或许更多。

3) 卷积神经效率计算公式网络结束还有各种零星的内存占用,比方成批的练习数效率高发票查验据,扩充人脸识别315的数据等

一旦关于一切这些数值的数量有了一个大略估计(包含激活数据,梯度和各种杂人脸识别用照片可以识别吗项),把这个值乘以4,得到原始的字节数(工龄差一年工资差多少由于每个浮点数占用4个字节,假定是双精度浮点数那便是占用8个字节),然后多次除以 1024 分别得到占用内存的 KB人脸识别315、MB,终究是GB计量。假定你的网络有内存问题,一个常用的办法是下降批尺度(batch s谷歌商店ize),由于绝大多数的内存都是被激活数据消耗掉了。

6.8 拓宽参阅

ConvNetJS CIFAR-10 demo 能够在服务器上实时地调试卷积神经网络的结构,观察核算成果。

7.拓宽学习

能够点击 B站 检查视频的【双语字幕】版别

  • 【课程学习攻略】斯坦福C效率高发票查验S231n | 深度学习与核算机视觉
  • 【字幕+材料下载】斯坦福CS231n | 深度学习与核算机视觉 (2017全16讲)
  • 【CS231n进阶课】密歇根EECS498 | 深度学习与核算机视觉
  • 【深度学习教程】吴恩人脸识别用照片可以识别吗达专项课程 全套笔记解读
  • 【Stanford官网】CS231n: Deep Learning for Computer Vi谷歌安装器sion

8谷歌浏览器下载.要害总结

  • 卷积神经网络的前史
  • 卷积神经网络与惯例神经网络的比照;
  • CNN 卷积谷歌空间层、池化层、ReLU层、全衔接层;
  • CNN 部分衔接、参数同享、最大池化、步长、零填充 、数据体尺效率计算公式
  • C人脸识别用照片可以识别吗NN 层的规矩与尺度设深度学习
  • CNN 经典事例

ShowMeAI 斯坦福 CS231n 全套解读

  • 深度学习与核算机视觉教程(效率的英文1) | C谷歌商店V导言与基础 @CS231n人脸识别身份认证系统
  • 深度学习与核算机视觉教程(2) | 图画分类与机器学习基础 @C人脸识别S231n
  • 深度学习与核算机视觉教程(3) | 丢失函数与最优化 @CS231n
  • 深度学习与核算机视觉教程(4) | 神经网络与人脸识别身份认证系统反向传达 @CS231n
  • 深度学习与核算机视觉教程(5) | 卷积神经网络 @CS231n
  • 深度学习与核算机视觉教程(6) | 神经网络练习技巧 (上) @CS231n
  • 深度学习与核算机视觉教程(7) | 神经网络练习技巧 (下) @CS231n
  • 深度学习与核算机视觉教程(8) | 常见深度学习框架介绍 @CS231n
  • 深度学习与核算机视觉教程(9) | 典型CNgoogleN架构 (Ale人脸识别xnet, VGG, Googlen效率是什么意思et, Restnet等) @CS231n
  • 深度学习与核算机视觉教程(10) | 轻量化CNN架构 (Squeez谷歌eNet, ShuffleNet, MobileNet等) @CS231人脸识别摄像头n
  • 谷歌浏览器下载度学习与核算机视觉教程(11) | 循环神经网络及视觉运用 @CS231n
  • 深度学习与核算机视觉教程(12) | 方针检测 (两阶段, R-CNN系列) @CS231n
  • 深度学习与核算机视觉教程(13) | 方针检测 (谷歌地图SSD, YOLO系列) @CS231n
  • 深度学习与核算机视觉教程(14) | 图画切割 (FCN, SegNet, U-Net, PSPNet, DeepLab, RefineNet) @CS231n
  • 深度学习与核算机视觉教程(15) | 视觉模型可视化与可解释性 @CS231n
  • 深度学习与核人脸识别身份认证系统Go机视觉教程(16) | 生成模型 (PixelRNN, PixelCNN, VAE, GAN)谷歌浏览器下载 @CS231n
  • 深度学习与核算机视谷歌地图觉教程(17) | 深度强化学习 (马尔可夫决策进程, Q-人脸识别概念股Learning, DQN) @CS231n
  • 深度学习与核算机视觉教程(18) | 深度强谷歌商店化学习 (梯度战略, Actor-Critic,人脸识别软件 DDPG, A3C) @CS231n

ShowMeAI 系列教程引荐

  • 大厂技能结束:引荐与广告核算解决方案
  • 大厂技能结束:核人脸识别失败怎么解决算机视觉解决方案
  • 大厂技能结束:自然语言处理行业解决方案
  • 图解Py人脸识别概念股thon编程:从入门到通人脸识别晓系列教程
  • 图解数据剖析:从入门到通晓系列教程
  • 图解AI数学基础:从入门到通晓系列教程
  • 公司让员工下班发手机电量截图解大数据技能:从入门到通晓系列教程
  • 图解机器学习算法:从入门到通晓系列教程
  • 机器学习实战:手把手教你玩转机器学习系列
  • 深度学习教程:吴恩达专项课程 全套效率笔记解读
  • 自然语言处理教程:斯坦福CS224人脸识别概念股n课程 课程带学与全套笔记解读
  • 深度学习与核算机视觉教程:斯坦福CS231n 全套笔记解读

深度学习与核算机视觉教程(5) | 卷积神经网络(CV通关攻略结束)

发表回复

提供最优质的资源集合

立即查看 了解详情