CVPR 2022 | 未知目标检测模块STUD：学习视频中的未知目标

前语构建能够检测散布外(OOD)方针的牢靠方针检测器是至关重要的，但没有得到充分探究。要害应战之一是，模型缺乏来自不知道数据的监督信号，然后对OOD方针发生过于自信的猜测。

文章提出了一种根据时空不知道蒸馏(STUD)的不知道方针检测结构，该结构从户外视频中提取（蒸馏出）不知道方针，并对模型的决议计划鸿沟进行有含义的正则化。STUD首先在空间维度上辨认不知道候选方针提案，然后在多个视频帧上聚合候选方针以构成决议计划鸿沟附近的不同的不知道方针集。作者采用根据能量的不确定性正则化丢失，它比照地刻画了散布中的不知道方针和提取的不知道方针之间的不确定性空间。

STUD为方针检测确立了OOD检测使命的最早进功能，与之前的最佳方法比较，FPR95分数降低了10%以上。

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

论文：Unknown-Aware Object Detection: Learning What You Don’t Know from Videos in the Wild

论文：arxiv.org/abs/2203.03…

代码：github.com/deeplearnin…

1.初步介绍

方针检测模型在被练习的已知上下文中现已取得了巨大的成功，可是在处理网络练习时没有触摸过的因而不能被网络猜测到的不知道类别-散布外（OOD）数据时却体现挣扎。教方针检测器感知到不知道的方针关于建立一个可依赖的视觉体系是要害的，特别是在自动驾驶和医疗分析等安全要害的运用中。

虽然现已OOD检测方面已有一些作业，可是在方针检测的上下文方面仍然有待探究。不像图画级的OOD检测，对不知道方针的检测需求对杂乱场景更细粒度的了解。

实践运用中，一些图画或许在一些特别的范畴是OOD的，可是在别的当地是散布内（ID）的。比如：自动驾驶中，方针检测模型被用来辨认ID方针（车辆、行人），可是能够对一个OOD的方针发生一个置信度很高的猜测。（如图中的deer，被检测为置信度很高的行人类）原因：方针检测器最小化练习误差却没有考虑练习类别之外出现的不确定性。

问题

在开放国际中，OOD方针出现的方法太多了(如图b,BDD100K数据集中的OOD方针)。而在现已标示了ID方针后，再标示OOD方针成本太高了。

处理方案

作者提出经过时空不知道蒸馏（STUD）的不知道方针方针检测结构，其从户外视频中提取不知道方针，并有含义地规范化模型的决议计划鸿沟；测验经过共同优化方针检测和OOD检测的体现来完成模型正则化。蒸馏的概念：化学概念，从混合物中别离出物质的进程。

细节

包括两个组件，别离完成

1.从视频中蒸馏出多种不知道方针的STUD；在空间维，关于一帧内的ID方针，根据一个OOD点评方法在参阅帧中辨认出不知道方针候选方针，接着经过在特征空间中线性组合所挑选的方针来提取不知道方针，并经过相异度度量来加权，在时刻维度上，从多个视频帧中聚合不知道物体。

2.运用提取得到的不知道方针来正则化方针检测器；运用不确定性正则化分支练习方针检测器，有利于在ID和OOD方针之间学习更保守的决议计划鸿沟，这有助于在推理进程中符号未见过的OOD方针。

奉献

1.提出STUD，处理了具有应战性可是违背充分探究的OOD问题，第一个利用视频信息进行OOD辨认的方针检测模型。

2.经过在时刻和空间维度上蒸馏多种不知道方针，有效地调整方针检测器，无需人工标示OOD方针;且STUD比在高位像素空间合成不知道量（GAN或许运用负主张作为不知道量）更有优势。

3.在BDD100K和Youtube-VIS上点评了STUD，在确保ID方针精度的一起，完成OOD方针SOTA（在BDD100K上逾越FPR95地10.88%）。

2.根本问题介绍

之前的OOD检测都是把整个图画视为反常，进行检测，或许导致图1（a）的歧义。而天然图画不是单一的实体，而是由很多方针和一些别的组件构成。知道一个图画的反常区域能够完成安全地处理不熟悉的方针。与图画级的OOD检测比较，方针级的OOD检测在现实感知中更加相关，但也更有应战性，由于需求推理细粒度方针级的OOD不确定性。

本文作者也因而设计了牢靠的方针检测器，测试感知不知道的OOD方针，即在ID类别上练习的方针检测器能够检测不在练习类别之内的方针，并且能够做出一个置信度猜测。

OOD检测可视为一个二分类问题，区分ID与OOD方针。ID内方针视为1，类别标签在散布内，OOD方针视为0，语义信息在散布之外。

3.方法结构

文章的不知道方针感知方针检测结构练习与OOD不确定性正则化分支串联的方针检测器，二者同享特征提取器和猜测头，并从头开端联合练习，如下图。

OOD检测结构包括两个组件。

1）Spatial-Temporal Unknown Distillation(STUD)组件。

该组件无需明确的对不知道物体的监督信号，就能够从富含时空信息的视频中蒸馏出不知道方针。

本文提出的方针检测蒸馏进程是在方针等级上履行的，而不是影像等级。针对每一个ID方针，都会构造一个相应的OOD方针的对应物（counterpart）。提炼（蒸馏）出的不知道方针将被用于模型的正则化。以无监督方法构建OOD方针或许会增加样本杂乱度以及需求观测OOD方针的多样性，因而运用STUD，从视频中丰富的时空信息中提取不知道方针。

空间维度上，关于给定帧中的每个 ID 方针，经过对来自参阅帧的方针特征的线性组合来创建不知道的对应方针，其间方针特征的线性组合是经过不相似性丈量进行加权。与运用单个方针比较，运用多个方针能够捕获更多样化的不知道散布。STUD对主张生成器的特征输出进行操作以核算差异性分数，其间经过对时刻戳相近但不同的两帧中的方针特征别离进行重编码（经过一个小网络），核算差异性分数：

差异性分数越大，两帧中的方针特征差异性就越大，则这些方针中更有或许包括模型正则化的不知道方针，如下图路灯和广告牌，具有更显著的差异性。终究对参阅帧中的不知道方针进行加权均匀，来获取不知道方针，其间权值来自差异性分数的归一化指数。

下式从左至右别离为对方针特征进行加权均匀后得到的不知道方针特征，以及权值

时刻维度上，参阅以上两帧之间的差异性分数核算方法，STUD在多个参阅帧上履行，在时刻维度上捕获额外的不知道方针的多样性。调查不一起间戳的帧越多，不知道方针的多样性就越多。STUD在时刻范围内随机采样T个参阅帧，将T帧的方针特征向量连接起来，核算其与主帧的差异性分数，再以相似的方法进行加权均匀，然后获取不知道方针，扩展了时刻维度上的不知道方针多样性。

下式是多帧之间的方针特征加权均匀之后的得到的不知道方针特征。

不知道候选方针挑选，经过以上方法在空间与时刻维度上获取不知道方针特征后，对其进行挑选获取终究的OOD方针是很重要的一步，挑选进程的首要意图是过滤去经过以上方法获取的参阅帧中不知道方针中或许是ID方针或许简略布景的不知道方针，然后终究获取OOD方针，以削减模型混杂ID与OOD方针的或许性。为了防止这种状况，作者依据能量得分对主张进行预过滤，然后将选定的主张用于STUD中。

2）不知道感知练习方针。

在现已获取OOD方针后，作者的练习方针设置为在履行方针检测使命的一起，对模型进行正则化处理，是ID方针发生低的不确定分数，使不知道方针发生高的不确定分数。总体丢失函数设置为：

其间beta是结合两个丢失函数的标准权重。Ldet是检测丢失函数，Luncertainty是不确定性分数丢失函数。

不确定性正则化；作者采用了一个丢失函数，它比照地刻画了不确定性外表，扩大了已知 ID 方针和不知道 OOD 方针之间的可别离性，正则化丢失函数（不确定性分数丢失函数）为：

在推理进程中，作者运用逻辑回归不确定性分支的输出进行OOD检测；关于OOD检测，作者运用常见的阈值机制来区分ID和OOD方针，阈值的挑选通常是为了让高份额的ID数据（例如95%）被正确分类。

不知道蒸馏与模型正则化进程之间的相互作用，作者以为，一组精心提炼的不知道方针能够改进根据能量的比照正则化，并协助学习已知和不知道方针之间更准确的决议计划鸿沟。其次，由于比照性不确定性丢失扩大了已知和不知道方针之间的能量差距，不知道蒸馏模块能够从更准确的不知道方针挑选中获益（经过根据能量的过滤）。当这两个部分的体现令人满意时，整个练习进程就会收敛。

4.试验

作者运用两个大规模的视频数据集作为ID数据：BDD100K和Youtube-VIS2021。关于这两项使命，作者在两个包括不同视觉类别的OOD数据集上进行点评：MS-COCO和nuImages，作者进行了细心的重复数据处理，以确保ID和OOD数据之间没有语义堆叠。

为了点评OOD检测功能，作者试验记录了两个方针：1.FPR95，当ID样本的真实阳性率为95%时，OOD样本的假阳性率；（2）AUROC，接收器操作特征曲线下的面积。为了点评ID数据的方针检测功能，作者试验记录了常用的mAP方针。

首要试验成果比照：

融化试验成果：

可视化成果：

笔者点评：

笔者以为，近年来不知道方针检测（开放国际方针检测）的相关作业并不多，上一年和今年的CVPR中各有几篇。作为CVPR2022中为数不多的不知道方针检测方面的作业，从练习进程中ID数据与OOD数据之间的相互作用关系动身，提出模块与练习约束方法，一起确保了两个使命功能，颇为出彩。现在不知道方针检测现在作业并不多，遇到瓶颈的CV研究者也许能够在这个小范畴寻求打破。

CV技能攻略创建了一个核算机视觉技能交流群和免费版的常识星球，现在星球内人数现已600+，主题数量达到200+。

常识星球内将会每天发布一些作业，用于引导咱们去学一些东西，咱们可依据作业来继续打卡学习。

技能群内每天都会发最近几天出来的顶会论文，咱们能够挑选感兴趣的论文去阅览，继续follow最新技能，若是看完后写个解读给咱们投稿，还能够收到稿费。

另外，技能群内和本人朋友圈内也将发布各个期刊、会议的征稿通知，若有需求的请扫描加好友，并及时重视。

加群加星球方法：重视大众号CV技能攻略，获取修改微信，邀请加入。

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

欢迎能够写以下内容的朋友联络我（扫描文中二维码）。

TVM入门到实践的教程
MNN入门到实践的教程
数字图画处理与Opencv入门到实践的教程
OpenVINO入门到实践的教程
libtorch入门到实践的教程
Oneflow入门到实践的教程
Detectron入门到实践的教程
caffe源码阅览
深度学习从入门到精通（从卷积神经网络开端讲起）
最新顶会的解读。例如最近的CVPR2022论文。
各个方向的体系性总述、首要模型发展演变、各个模型的立异思路和优缺点、代码解析等。
若自己有想写的且这上面没说到的，能够跟我联络。

声明：有一定报酬，具体请联络详谈。

其它文章

核算机视觉入门道路

CVPR2022 | 重新审视池化：你的感受野不是最理想的

CVPR 2022 | 不知道方针检测模块STUD：学习视频中的不知道方针

CVPR2022 | 根据排名的siamese视觉盯梢

CVPR2022 | 经过方针感知Transformer进行常识蒸馏

CVPR2022丨无监督预练习下的视频场景切割

从零建立Pytorch模型教程（六）编写练习进程和推理进程

从零建立Pytorch模型教程（五）编写练习进程–一些根本的配置

从零建立Pytorch模型教程（四）编写练习进程–参数解析

从零建立Pytorch模型教程（三）建立Transformer网络

从零建立Pytorch模型教程（二）建立网络

从零建立Pytorch模型教程（一）数据读取

一份热力图可视化代码运用教程

一份可视化特征图的代码

关于快速学习一项新技能或新范畴的一些个人思维习惯与思想总结

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。