Abstract

深卷积网络在静止图画的视觉辨认方面获得了巨大的成功。但是,关于视频中的动作辨认,相关于传统办法的优势并不明显。本文的意图是发现规划有用的视频动作辨认转化网结构的准则,并在有限的练习样本中学习这些模型。咱们的第一个奉献是时刻段网络(TSN),这是一种新的依据视频的动作辨认结构。它是依据长途时刻结构建模的思想。它结合了稀少的时刻采样战略和视频级监控,可以运用整个动作视频进行高效和有用的学习。另一个奉献是咱们研讨了运用时刻段网络学习视频数据上的ConvNets的一系列好的实践。咱们的办法在HMDB51(69.4%)和UCF101(94.2%)的数据集上获得了最好的功能。咱们还将学习到的ConvNet模型可视化,定性地证明了时刻段网络和所提出的杰出实践的有用性。

introduction

依据视频的动作辨认因为其在安全和行为剖析等领域的运用,引起了学术界的广泛重视[1,2,3,4,5,6]。在动作辨认中,有两个要害和相得益彰的方面:表象和动态。辨认系统的功能在很大程度上取决于它是否可以从中提取和运用相关信息。但是,因为份额改变、视点改变和相机运动等许多杂乱性,提取这样的信息并不是一件简单的事情。因而,规划有用的表明来应对这些应战,一起保持动作类的分类信息就变得至关重要了。最近,卷积网络(ConvNets)[7]在物体、场景和杂乱事件的图画分类方面获得了巨大的成功[8,9,10,11]。还引进了转化网来解决依据视频的动作辨认问题[12,1,13,14]。深度凸网具有很强的建模才干,可以借助大规模的监督数据集从原始视觉数据中学习区别表明。但是,与图画分类不同,端到端深度凸网仍然无法在依据视频的动作辨认中获得相关于传统手艺特征的明显优势。 在咱们看来,ConvNets在依据视频的动作辨认中的运用受到两大障碍的阻碍。首要,长程时刻结构在了解动作视频的动态过程中起着重要作用[15,16,17,18]。但是,干流的ConvNet结构[1,13]一般只重视外观和短期运动,因而缺少纳入长时刻时刻结构的才干。最近有几次测验[19,4,20]来处理这个问题。这些办法大多依赖于具有预先界说的采样距离的密布时刻采样。当运用于长视频序列时,这种办法会发生过高的核算价值,这约束了其在现实国际中的运用,而且存在丢掉超过最大序列长度的视频的重要信息的危险。其次,在实践中,练习深度卷积网络需求很多的练习样本才干到达最优功能。但是,因为数据搜集和注释的困难,揭露可用的动作辨认数据集(例如UCF101[21]、HMDB51[22])在大小和多样性方面仍然有限。因而,在图画分类中获得明显成功的一起Convnet[9,23]面临着很高的过拟合危险。 这些应战促进咱们研讨两个问题:1)怎么规划一个有用和高效的视频级结构来学习视频表明,而且可以捕获长规模的时刻结构;2)怎么在有限的练习样本下学习ConvNet模型。特别是,咱们将咱们的办法构建在成功的两流体系结构[1]之上,一起解决了上面提到的问题。在时刻结构建模方面,一个要害的观察是接连的帧是高度冗余的。因而,一般导致高度类似的采样帧的密布时刻采样是不必要的。相反,在这种情况下,稀少时刻采样战略将更有利。受此启发,咱们开发了一个视频级的结构,称为时刻分段网络(TSN)。该结构运用稀少采样方案从长视频序列中提取短片段,其间样本沿时刻维度均匀散布。在其上,选用分段结构来聚集来自采样摘录的信息。从这个意义上说,时刻段网络可以对整个视频的长途时刻结构进行建模。此外,这种稀少采样战略以极低的价值保存了相关信息,然后在合理的时刻和核算资源预算下完成了对长视频序列的端到端学习。(意思便是依据必定的时刻片段收集样本,节省核算资源) 为了充沛开释时刻段网络结构的潜力,咱们选用了最近推出的十分深化的ConvNet体系结构[23,9],并探究了一些杰出的实践来克服因为练习样本数量有限而构成的上述困难,包含1)跨通道预练习;2)正则化;3)增强数据增强。一起,为了充沛运用视频中的视觉内容,咱们对两流ConvNet的四种输入办法进行了实证研讨,即单RGB图画、堆叠RGB差分、堆叠光流场和堆叠翘曲光流场。 咱们在两个具有应战性的动作辨认数据集UCF101[21]和HMDB51[22]上进行了试验,以验证该办法的有用性。在试验中,运用时刻段网络学习的模型在这两个具有应战性的动作辨认数据集上的功能明显优于最新技能。咱们还可视化了咱们学习的双流模型,企图为未来的动作辨认研讨供给一些见解。

Related Works

动作辨认在过去几年中得到了广泛的研讨[2,24,25,26,18]。以前与咱们相关的作业分为两类:(1)用于动作辨认的卷积网络,(2)时刻结构建模。 用于动作辨认的卷积网络。有几项作业一直在测验规划有用的ConvNet体系结构来辨认视频中的动作[12,1,13,27,28]。Karparis等人的研讨。[12]在大型数据集(Sports-1M)上测验了具有深层结构的ConvNets。Simonyan等人。[1]经过运用ImageNet数据集进行预练习,经过核算光流来显式捕捉运动信息,规划了包含空间和时刻网络的双流ConvNet。Tran等人。[13]在真实和大规模的视频数据集上探究了3D ConvNet[27],他们企图经过3D卷积运算来学习外观和运动特征。Sun等人。[28]提出了一种分解时空卷积网的办法,并运用不同的办法对三维卷积核进行分解。最近,一些作业会集于运用ConvNets[4,19,20]来建模长途时刻结构。但是,这些办法直接对较长的接连视频流进行操作。受核算成本的约束,这些办法一般处理固定长度的序列,规模从64到120帧。关于这些办法来说,因为其有限的时刻掩盖规模,从整个视频中学习并不是一件简单的事情。咱们的办法与这些端到端的深度卷积网络的不同之处在于它新颖地选用了稀少时刻采样战略,使得可以在不受序列长度约束的情况下运用整个视频进行高效的学习。 时刻结构建模。 许多研讨作业致力于为动作辨认的时刻结构建模 [15,16,17,29,30,18]盖顿等人 [16] 注释了每个视频的每个原子动作,并提出了用于动作检测的 Actom 序列模型(ASM)。 Niebles 等人[15] 提出运用潜在变量对杂乱动作的时刻分解进行建模,并选用 Latent SVM [31] 以迭代办法学习模型参数。 王等[17] 和 Pirsiavash 等人 [29] 别离运用潜在层次模型 (LHM) 和分段语法模型 (SGM) 将杂乱动作的时刻分解扩展为层次化办法。 Wang [30] 规划了一个次序骨架模型 (SSM) 来捕获动态 posetlet 之间的关系,并履行时空动作检测。 Fernando [18] 模拟了用于动作辨认的 BoVW 表明的时刻演化。 但是,这些办法仍然无法拼装端到端的学习方案来对时刻结构进行建模。 所提出的时刻段网络在着重这一准则的一起,是第一个对整个视频进行端到端时刻结构建模的结构。

Action Recognition with Temporal Segment Networks

在这一部分中,咱们给出了运用时刻段网络进行动作辨认的详细描绘。具体地说,咱们首要介绍了时刻段网络结构中的基本概念。然后,咱们研讨了在时刻段网络结构内学习双流ConvNet的杰出实践。终究,咱们描绘了学习到的双流ConvNet的测验细节。

Temporal Segment Networks

正如咱们在SEC中所评论的。1、现有办法的双流ConvNet的一个明显问题是不能对长途时刻结构进行建模。这首要是因为它们对时刻上下文的拜访受到约束,因为它们被规划为仅在单个帧(空间网络)或短片段中的单个帧仓库(时刻网络)上操作。但是,杂乱的动作,如体育动作,包含跨越相对较长时刻的多个阶段。假如不能将这些动作中的长途时刻结构运用到ConvNet练习中,那将是相当大的丢失。为了解决这个问题,咱们提出了时刻段网络,这是一个如图1所示的视频级结构,可以在整个视频中对动态进行建模。

TSN网络翻译
具体来说,咱们提出的时刻段网络结构也由空间流网和时刻流网组成,旨在运用整个视频的视觉信息来履行视频级猜测。时刻段网络不是在单个帧或帧仓库上作业,而是在从整个视频中稀少采样的一系列短片段上操作。该序列中的每个代码片断都将生成其自己的操作类的初步猜测。然后,将推导出片段之间的一致作为视频级猜测。在学习过程中,经过迭代更新模型参数来优化视频等级猜测的丢失值,而不是两个流ConvNet中运用的摘录等级猜测的丢失值。 办法上,给定一个视频V,咱们将其分红K个时长相等的段{S1,S2,,SK}。然后,时刻段网络对摘录序列建模如下:
TSN网络翻译
这儿(t1,t2,,tk)是一个片段序列。从其对应的片段Sk中随机采样每个摘录Tk。F(Tk;W)是表明具有参数W的ConvNet的函数,该参数对短片段Tk进行操作并发生一切类的类分数。分段共同性函数G组合来自多个短片段的输出,以获得它们之间的类别假定的共同性。依据该一致,猜测函数H猜测整个视频的每个动作类的概率。这儿咱们挑选广泛运用的Softmax函数用于H。结合规范的分类穿插熵丢失,关于分段共同性G=G(F(T1;W),F(T2;W),,F(Tk;W))的终究丢失函数构成如下:
TSN网络翻译
其间 C 是动作类其他数量,yi 是关于类别 i 的真实标签。 在试验中,依据之前关于时刻建模的作业 [16,17],片段的数量 K 设置为 3。 一致函数 G 的办法仍然是一个悬而未决的问题。 在这项作业中,咱们运用 G 的最简单办法,其间 Gi = g(Fi(T1), . . ., Fi(TK))。 这儿运用聚合函数 g 从同一类在一切片段上的分数推断出类分数 Gi。 咱们依据经验评价了聚合函数 g 的几种不同办法,包含咱们试验中的均匀均匀、最大值和加权均匀。 其间,均匀均匀用于陈述咱们终究的辨认精度。 这个时刻段网络是可微的,或者至少具有次梯度,这取决于g的挑选。这答应咱们运用多个片段来联合优化具有规范反向传达算法的模型参数W。在反向传达过程中,模型参数W相关于损耗值L的梯度可以导出为:
TSN网络翻译
其间K是时刻段网络运用的段数。 当咱们运用依据梯度的优化办法,如随机梯度下降(SGD)来学习模型参数时,方程3确保参数更新运用从一切摘录等级猜测得到的分段共同性G。经过这种办法进行优化,时刻段网络可以从整个视频而不是一小段视频中学习模型参数。一起,经过固定一切视频的K,咱们拼装了一种稀少时刻采样战略,其间采样的片段只包含一小部分帧。与以往运用密布采样帧[4,19,20]的作业比较,该算法大大降低了在帧上评价ConvNet的核算价值。

Learning Temporal Segment Networks

时刻段网络为进行视频级学习供给了一个坚实的结构,但为了获得最优功能,有必要考虑一些实际问题,例如练习样本的数量有限。为此,咱们研讨了一系列在视频数据上练习深度凸网的杰出实践,这些实践也直接适用于学习时刻段网络。 网络架构。网络结构是神经网络规划中的一个重要因素。一些作业已经标明,更深的结构可以提高对象辨认功能[9,10]。但是,最初的双流ConvNet[1]选用了相对较浅的网络结构(ClarifaiNet[32])。在这项作业中,咱们挑选了带批处理规范化的初始程序(BN-Inception)[23]作为构建块,因为它在精度和效率之间获得了很好的平衡。咱们将原有的BN-先启体系结构运用到双流ConvNet的规划中。与原始的双流ConvNet[1]相同,空间流ConvNet在单个RGB图画上操作,而时刻流ConvNet以一堆接连的光流场作为输入。 网络输入。咱们还有爱好探究更多的输入办法,以增强时刻段网络的区别才干。最初,双流ConvNet对空间流运用RGB图画,对时刻流运用堆叠的光流场。在这儿,咱们主张研讨两种额定的办法,即RGB差分和warped optical flow fields。 单个RGB图画一般对特定时刻点的静态外观进行编码,而且缺少有关前一帧和下一帧的上下文信息。如图2所示,两个接连帧之间的RGB差异描绘了外观改变,这可能对应于运动明显区域。在文[28]的启发下,咱们将叠加的RGB差作为另一种输入办法进行试验,并考察其在动作辨认中的功能。

TSN网络翻译
时刻流ConvNets以光流场为输入,旨在捕捉运动信息。但是,在传神的视频中,一般存在摄像机运动,光流场可能不会会集在人的动作上。如图2所示,因为相机的运动,布景中会杰出显现很多的水平移动。受改进的密布轨道[2]作业的启发,咱们主张将翘曲光流场作为额定的输入办法。在文献[2]的基础上,咱们首要估计单应矩阵,然后对摄像机运动进行补偿,然后提取出歪曲的光流。如图2所示,歪曲的光流抑制了布景运动,并使运动会集在艺人身上。 网络练习。因为用于动作辨认的数据集相对较小,练习深度ConvNet面临着过度拟合的危险。为了缓解这一问题,咱们规划了几种战略来练习时刻段网络中的ConvNet,如下所示。 跨通道预训。当方针数据集没有足够的练习样本时,预练习已被证明是初始化深度凸网的一种有用办法[1]。因为空间网络选用RGB图画作为输入,因而运用在ImageNet[33]上练习的模型作为初始化是很自然的。关于其他办法,如光流场和RGB差分,它们本质上捕捉到了视频数据的不同视觉方面,其散布与RGB图画不同。咱们提出了一种跨通道预练习技能,其间咱们运用RGB模型来初始化时刻网络。首要,咱们经过线性变换将光流场离散到0到255之间。这一过程使得光流场的规模与RGB图画相同。然后,咱们修改了RGB模型第一卷积层的权值来处理光流场的输入。具体地说,咱们对RGB通道上的权重进行均匀,并经过时刻网络输入的通道数来复制该均匀值。这种初始化办法对时态网络作用很好,减少了试验中过拟合的影响。(这儿主张看下代码怎么进行的操作) 正则化技能。 Batch Normalization [23] 是处理协变量偏移问题的重要组成部分。 在学习过程中,batch normalization 会估计每个 batch 内的激活均值和方差,并运用它们将这些激活值转化为规范的高斯散布。 这种操作加速了练习的收敛,但因为有限数量的练习样本对激活散布的估计存在偏差,因而也会导致传输过程中的过度拟合。 因而,在运用预练习模型初始化后,咱们挑选冻住除第一个之外的一切批归一化层的均值和方差参数。 因为光流的散布与RGB图画不同,第一个卷积层的激活值会有不同的散布,咱们需求相应地从头估计均值和方差。 咱们称这种战略为部分 BN。 一起,咱们在 BN-Inception 架构中的大局池化层之后添加了一个额定的 dropout 层,以进一步减少过拟合的影响。 空间流 ConvNet 的丢掉率设置为 0.8,时刻流 ConvNet 设置为 0.7。 数据增强。数据增强可以生成不同的练习样本,并避免严峻的过拟合。在原有的双流ConvNet中,选用了随机裁剪和水平翻转的办法来增加练习样本。咱们开发了两种新的数据增强技能:角点裁剪和标准颤动。在角点裁剪技能中,提取的区域仅从图画的角点或中心挑选,以避免隐含地聚焦于图画的中心区域。在多标准裁剪技能中,咱们选用了ImageNet分类中运用的标准颤动技能[9]来进行动作辨认。咱们提出了一种有用的标准颤动完成办法。咱们将输入图画或光流场的大小固定为256340,裁剪区域的宽度和高度从{256,224,192,168}中随机挑选。终究,将这些裁剪区域的大小调整为224224用于网络练习。事实上,这种完成不只包含份额颤动,还涉及纵横比颤动。

Testing Temporal Segment Networks

终究,给出了咱们对时刻段网络的测验办法。因为一切的代码片级ConvNet在时刻段网络中共享模型参数,因而学习的模型可以像一般ConvNet相同履行帧办法的评价。这使咱们可以与没有时刻段网络结构的学习的模型进行公正的比较。具体来说,咱们遵从了原始的双流ConvNet[1]的测验方案,其间咱们从动作视频中采样了25个RGB帧或光流仓库。一起,咱们从采样帧中裁剪4个角点和1个中心,以及它们的水平翻转来评价ConvNet。关于空间和时刻流网络的交融,咱们对它们进行加权均匀。当在时刻段网络结构内学习时,空间流网和时刻流网之间的功能距离比本来的两流网小得多。依据这一事实,咱们将空间流的权重设置为1,将时刻流的权重设置为1.5,然后给空间流更多的权重。当一起运用正常光流场和翘曲光流场时,时刻流的权重被分为1(光流)和0.5(翘曲光流)。它在SEC中进行了描绘。3.1在Softmax归一化之前运用分段共同性函数。为了测验模型与练习模型的共同性,咱们在Softmax归一化之前交融了25帧和不同码流的猜测分数。

Experiments

在本节中,咱们首要介绍咱们的办法的评价数据集和完成细节。然后,咱们探讨了提出的学习时刻段网络的杰出实践。在此之后,咱们经过运用时刻段网络结构证明了树立长时刻时刻结构模型的重要性。咱们还将咱们的办法的功能与最先进的技能进行了比较。终究,咱们将学习到的ConvNet模型可视化。

Datasets and Implementation Details

咱们对两个大型动作数据集进行试验,即 HMDB51 [22] 和 UCF101 [21]。 UCF101 数据集包含 101 个动作类和 13、320 个视频剪辑。 咱们遵从 THUMOS13 应战赛的评价方案 [34]并选用三个练习/测验拆分进行评价。 HMDB51 数据集是来自各种来历的很多传神视频,例如电影和网络视频。 该数据集由来自 51 个动作类其他 6、766 个视频片段组成。 咱们的试验遵从运用三个练习/测验拆分的原始评价方案,并陈述这些拆分的均匀准确度。 咱们运用小批量随机梯度下降算法学习网络参数,其间批量设置为256,动量设置为0.9。咱们运用来自ImageNet[33]的预先练习的模型来初始化网络权重。咱们在试验中设定了较小的学习速度。关于空间网络,学习速率被初始化为0.001,而且每2000次迭代减少到110。整个练习过程在4500次迭代中停止。关于时态网络,咱们将学习率初始化为0.005,在12,000和18,000次迭代后,学习率降至110。最大迭代次数设置为20,000次。关于数据增强,咱们运用位置颤动、水平翻转、角裁剪和份额颤动技能,如第3.2节所述。关于光流和翘曲光流的提取,咱们挑选了在OpenCV顶用CUDA完成的TVL1光流算法[35]。为了加快培训速度,咱们选用了具有多个GPU的数据并行战略,该战略运用咱们的Caffe[36]和OpenMPI 2的修改版本来完成。在UCF101上,运用4个TITANX图形处理器,空间TSN的整个练习时刻约为2小时,时刻TSN约为9小时。

Exploration Study

在本节中,咱们将重点查询第3.2节所述的杰出做法,包含培训战略和投入办法。在这项探究性研讨中,咱们运用了改编自[23]的具有十分深结构的两流ConvNets,并在UCF101数据集的Split 1上进行了一切的试验。 咱们在 3.2 节中提出了两种练习战略,即穿插模态预练习和部分 BN with dropout。 具体来说,咱们比较了四种设置:(1)从头开始练习,(2)仅像[1]中那样预练习空间流,(3)运用穿插模态预练习,(4)穿插模态预练习和 带有 dropout 的部分 BN。 成果总结在表 1 中。首要,咱们看到从头开始练习的功能比本来的两个流 ConvNets(基线)差得多,这意味着有必要仔细规划学习战略以降低过度练习的危险。 拟合,特别是关于空间网络。 然后,咱们借助空间流的预练习和时刻流的跨模态预练习来协助初始化双流 ConvNets,它获得了比基线更好的功能。 咱们进一步运用带有 dropout 的部分 BN 来规范练习过程,然后将辨认功能提高到 92.0%。

TSN网络翻译
在第3.2节中,咱们提出了两种新的办法:RGB差分法和翘曲光流场。表2陈述了不同办法的功能比较成果。这些试验是在表1中验证的一切杰出实践下进行的。咱们首要观察到RGB图画和RGB差异的组合将辨认功能提高到87.3%。这一成果标明,RGB图画和RGB差可能编码互补信息。成果标明,光流和翘曲光流的功能十分挨近(87.2%比86.9%),而两者的交融可以将功能提高到87.8%。将四种办法结合起来,准确率到达91.7%。因为RGB差异可能描绘类似但不稳定的运动办法,咱们还评价了其他三种办法的组合的功能,这带来了更好的辨认准确率(92.3%比91.7%)。咱们估测,光流可以更好地捕捉运动信息,有时RGB差分在描绘运动时可能不稳定。另一方面,RGB差可以作为运动表明的低质量、高速替代。
TSN网络翻译

Evaluation of Temporal Segment Networks

在这一末节中,咱们将重点研讨时刻段网络结构。咱们首要研讨了分段共同性函数的影响,然后比较了不同的ConvNet结构对UCF101数据集Split 1的影响。为了进行公正的比较,咱们仅运用RGB图画和光流场作为输入办法。如3.1节所述,分段数K被设置为3。 在等式中。(1),分段共同性函数是由它的聚集函数g界说的。在这儿,咱们评价了三种候选:(1)最大聚集,(2)均匀聚集,(3)加权均匀,关于g的办法。试验成果总结在表3中。咱们看到均匀聚集函数获得了最好的功能。因而,在下面的试验中,咱们挑选均匀池作为默许的聚合函数。然后咱们比较了不同网络体系结构的功能,成果总结如表4。具体地说,咱们比较了三种十分深化的体系结构:BN-初始[23]、GoogLeNet[10]和VGGNet-16[9],一切这些体系结构都接受了上述杰出实践的练习。在比较的体系结构中,改编自BN-先启[23]的甚深两流ConvNets的准确率最高,到达92.0%。这与其在图画分类使命中的较好体现是共同的。因而,咱们挑选BN-Inception[23]作为时刻段网络的ConvNet体系结构。

TSN网络翻译
TSN网络翻译
在设置了一切规划选项后,咱们现在将时刻段网络(TSN)运用于动作辨认。成果如表4所示。表5还给出了组件在辨认精度方面的逐一组件剖析。咱们可以看到,即便运用了一切评论的杰出做法,时刻分段网络也可以提高模型的功能。这证明了对长时刻时刻结构进行建模关于更好地了解视频中的动作是至关重要的。它是由时刻段网络完成的。
TSN网络翻译

Comparison with the State of the Art

在探究了杰出的实践和了解了时刻段网络的作用之后,咱们预备树立咱们的终究动作辨认办法。具体地说,咱们拼装了三个输入模态和一切描绘为咱们终究辨认办法的技能,并在两个具有应战性的数据集:HMDB51和UCF101上进行了测验。表6总结了咱们的办法,其间咱们比较了咱们的办法与传统办法,例如改进轨道(IDTS)[2]、MoFAP表明[39],以及深度学习表明,例如3D卷积网络(C3D)[13]、轨道池深度卷积描绘符(TDD)[5]、分解时空卷积网络(FSTCN)[28]、长时刻卷积网络(LTC)[19]和要害卷挖掘结构(KVMF)[41]。咱们的最好成果在HMDB51数据集上比其他办法高3.9%,在UCF101数据集上高1.1%。咱们的办法的优越功能证明了时刻段网络的有用性,并证明了长时刻时刻建模的重要性。

TSN网络翻译

Model Visualization

除了辨认精度,咱们还希望进一步了解学习到的 ConvNet 模型。 从这个意义上说,咱们选用了 DeepDraw [42] 东西箱。 该东西对只有白噪声的输入图画进行迭代梯度上升。 因而,经过多次迭代后的输出可以被视为仅依据 ConvNet 模型内部的类常识的类可视化。 该东西的原始版本仅处理 RGB 数据。 为了对依据光流的模型进行可视化,咱们调整该东西以与咱们的时刻 ConvNets 一起作业。 因而,咱们初次在动作辨认 ConvNet 模型中可视化有趣的类信息。 咱们从 UCF101 数据会集随机挑选五个类别,太极拳、拳击、跳水、跳远和骑自行车进行可视化。 成果如图 3 所示。关于 RGB 和光流,咱们可视化了经过以下三种设置学习的 ConvNet 模型:(1)没有预练习; (2) 仅经过预练习; (3) 与时刻段网络。

TSN网络翻译
一般来说,经过预练习的模型比没有经过预练习的模型更能表征视觉概念。人们可以看到,没有预先练习的空间和时刻模型都几乎不能发生任何有意义的视觉结构。运用练习前过程中传递的常识,时空模型可以捕获结构化的视觉办法。 还很简单注意到,只用单帧等短期信息练习的模型往往会将视频中的场景办法和对象误认为动作辨认的重要依据。比方,在《潜水》课上,单帧空间流ConvNet首要寻觅水和潜水台,而不是潜水者。它的时刻流对应研讨光学流,倾向于重视地表水波动引起的运动。跟着时刻段网络引进的长时刻时刻建模,学习的模型显然更重视视频中的人,似乎是在建模动作类的长时刻结构。还以“潜水”为例,时刻分段网络的空间转化网生成了以人为首要视觉信息的图画。图画中可以辨认不同的姿态,描绘了一个跳水动作的不同阶段。这标明用所提出的办法学习的模型可能会体现得更好,这在咱们的定量试验中得到了很好的反映。咱们主张读者参考更多动作类的可视化补充资料以及可视化过程的更多细节。

Conclusions

在本文中,咱们提出了时刻段网络(TSN),这是一个视频级的结构,旨在对长时刻的时刻结构进行建模。正如在两个具有应战性的数据集上所展现的那样,这项作业将最先进的技能带到了一个新的水平,一起保持了合理的核算成本。这在很大程度上归因于具有稀少采样的分段体系结构,以及咱们在本作业中探究的一系列杰出实践。前者供给了一种获取长时刻时刻结构的有用和高效的办法,而后者使在有限的练习集上练习十分深的网络成为可能,而不会呈现严峻的过拟合。