前言 近来,世界计算机视觉大会 ICCV(International Conference on Computer Vision)公布了 2023 年论文选用成果,本届会议共有 8068 篇投稿,接收率为26.8%。ICCV 是全球计算机范畴顶级的学术会议,每两年举办一次,ICCV 2023 将于本年10月在法国巴黎举办。本年,旷视研讨院 14 篇论文当选,包括纯视觉 3D 方针检测、多模态 3D 检测、图画匹配、光流估量、3D 点云配准等范畴。

本文转载自旷视研讨院

仅用于学术分享,若侵权请联系删去

欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个布置结构最全教程收拾

【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!

以下为当选论文概览:

01PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

PETRv2:一个一致的纯视觉 3D 感知结构

PETRv2 是一个一致的纯视觉3D感知的结构。根据 PETR,PETRv2 首要扩展了 PETR 中的 3D 方位编码进行时序建模,完成了不同帧之间物体方位的时序对齐。为了适用于多使命学习(如 BEV 切割和 3D 车道检测),PETRv2 针对不同使命规划了特定的查询向量,并运用一致的 Transformer 解码器进行解码。在 3D 物体检测、BEV 切割和 3D 车道检测方面,PETRv2 都获得了最先进的功用,并对噪声体现出了很强的鲁棒性。咱们还对 PETR 结构进行了详细的稳健性分析。咱们期望 PETRv2 能作为 3D 感知的一个稳健根底线。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:3D 方位编码,多使命,车道线,鲁棒性

论文链接:arxiv.org/pdf/2206.01…

代码链接:github.com/megvii-rese…

02 Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object DetectionStreamPETR:面向纯视觉 3D 检测的以方针为中心的时序建模结构

咱们提出了一种长时序建模的纯视觉 3D 方针检测结构——StreamPETR。该算法针对视频流进行规划,用可选择的有限帧进行练习,在测验时能够习惯更长的时间帧甚至无限帧。StreamPETR 将运用方针查询组成的 memory queue 作为高效的时序表征,使用注意力机制进行高效时序建模,在几乎不增加额外计算成本的情况下,能够大幅进步单帧检测器的检测功用。在 nuScenes 榜单上,StreamPETR 是第一个与激光雷达功用适当的在线纯视觉 3D 方针检测算法。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:时序建模,稀少方针查询,快速论文链接:arxiv.org/pdf/2303.11…代码链接:github.com/exiawsh/Str…

03 Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

跨模态 Transformer:快速且鲁棒的多模态交融 3D 检测结构

咱们提出了一个快速且鲁棒的 3D 检测器——Cross Modal Transformer(CMT)。咱们的模型保留了 DETR 的规划,不同模态的特征仅在 token level 进行交融,交融办法便是最简略的 concat 。咱们在 nuScenes 测验集上单模型架构获得了 SOTA 的检测成果 74.1% NDS,且推理速度超过所有现有计划。别的,咱们的模型具有十分强的鲁棒性,用于对抗传感器损毁以及颤动问题,即便整个 LiDAR 在运行时损毁,咱们的模型依旧能坚持纯视觉模型的推理精度。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:快速、鲁棒、传感器故障、高精度

论文链接:arxiv.org/pdf/2301.01…

代码链接:github.com/junjie18/CM…

04 OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation

OnlineRefer:一个简略的在线参考视频方针切割结构

RVOS 使命旨在使用言语指令切割视频方针,而现在干流的计划是 offline model。在本文中,咱们打破了以往只有 offline model 合适 RVOS 的认知,并给出了一个 online baseline,名为OnlineRefer。该办法根据 Deformable DETR,运用上一帧的猜测框作为当前帧的参考点(query propogation),逐帧切割方针。咱们的作业对单帧检测器进行简略的 query propogation,就在 Refer-Youtube-VOS 和 Refer-DAVIS17 上完成了 SOTA 体现, 也期待该作业能够为 Segment Anything Model(SAM)在视频范畴的使用提供启示。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:视频切割、提示词切割、SAM

论文链接:arxiv.org/abs/2307.09…

代码:github.com/wudongming9…

05 Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching

经过由不确定度引导的自习惯图画歪曲完成鲁棒高效的立体匹配

关于双目视觉中的深度估量问题,根据关联性的立体匹配技能是现在的干流计划。但现有技能存在着难以运用一套固定参数的模型,在多种杂乱场景下保持安稳体现的问题。因此,咱们对立体匹配算法的鲁棒性进行了深入研讨,提出了根据不确定度引导的自习惯图画歪曲模块,规划了新的立体匹配结构 CREStereo++,完成了模型鲁棒性的有效进步。本算法在 Robust Vision Challenge 2022 比赛中获得冠军,其轻量级版本在 KITTI 数据集上与同计算量级的其他算法比较也有更超卓的体现。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:立体匹配、自习惯、鲁棒使命

论文链接:arxiv.org/abs/2307.14…

06 OccNet: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions带有遮挡的匹配网络:根据3D占据估量的鲁棒的图片匹配网络

图画匹配办法大部分疏忽了由于相机运动和场景结构形成的物体之间的遮挡联系。针对这个问题,咱们提出了一种名为OccNet的图画匹配办法,它使用3D占位模型来描绘物体之间的遮挡联系,并找出遮挡区域内的匹配点。借助占用估量(OE)模块中编码的概括误差与遮挡感知(OA)模块结合,OccNet能大幅简化启动多视图一致的3D表征的过程。咱们在实在世界和模仿数据集上评价了OccNet的功用,试验成果显示,不管是否在遮挡场景下,OccNet的体现都优于现有的最先进办法。

ICCV 2023 | 旷视研究院入选论文亮点解读

不仅能够匹配可见点,还能够匹配图中的连线(遮挡点)

关键词:匹配、遮挡、占位估量、3D、位姿

07 DOT: A Distillation-Oriented Trainer

DOT:一个面向蒸馏的优化器

常识蒸馏将大模型中的常识传递给小模型,其丢失函数往往包括具体使命丢失和蒸馏丢失。咱们发现引进蒸馏丢失后,学生模型的使命丢失反而更大了。这是一个不直观的权衡。咱们猜测这是由于蒸馏丢失优化缺乏,由于教师模型的使命丢失低于学生模型,而较低的蒸馏丢失使学生更接近教师,从而获得更好的使命丢失收敛。本文针对蒸馏丢失优化缺乏的问题,提出了一种面向蒸馏的优化器 DOT。DOT 别离考虑使命和蒸馏丢失的梯度,然后对蒸馏丢失使用较大的动量以加速其优化。咱们经过试验证明 DOT 打破了这种权衡,即两种丢失都得到了充沛优化。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:常识蒸馏、优化算法、动量法

论文链接:arxiv.org/abs/2307.08…

08 Cumulative Spatial Knowledge Distillation for Vision Transformers

用于 ViT 的突变空间常识蒸馏

从 CNN 中提取常识关于 ViT 来说是一把双刃剑。CNN 的图画友好的部分概括误差有助于 ViT 更快、更好地学习,但带来了两个问题:(1) CNN 和 ViT 的网络规划完全不同,导致中心特征的语义层次不同,使得根据空间的常识传递办法效率低下。(2) 从 CNN 中提取常识限制了后期练习过程中网络的收敛,由于 ViT 整合大局信息的才能遭到 CNN 部分概括误差监督的抑制。为此,咱们提出了突变空间常识蒸馏(CSKD)。CSKD 将 CNN 的空间常识蒸馏到 ViT 的对应token,无需引进中心特征。CSKD 使用突变常识交融(CKF)模块,引进了 CNN 的大局响应,并在练习过程中逐渐着重其重要性。CKF 在早期练习阶段使用 CNN 的部分概括误差,并在后期充沛发挥 ViT 的大局才能。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:常识蒸馏、异构网络、概括偏置

论文链接:arxiv.org/abs/2307.08…

09 Supervised Homography Learning with Realistic Dataset Generation

根据实在数据集生成的有监督单应性矩阵学习

本文提出了一个迭代结构,包括生成阶段和练习阶段,以生成实在的练习数据用于有监督单应性学习。在生成阶段,给定一组 unlabeled 的图画对,使用预先估量的主平面 mask 和图画对之间的单应性矩阵生成具有实在运动的有 GT 图画对。在练习阶段,生成的数据经过所提出的两个模块 CCM 和 QAM 进行完善并用于练习网络。练习好的网络将用于更新下一阶段预先估量的单应性矩阵;经过这种迭代策略,数据质量和网络功用能够逐渐的一起进步。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:单应性矩阵估量、有监督学习、数据生成

论文链接:arxiv.org/abs/2307.15…

10 MEFLUT: Unsupervised 1D Lookup Tables for Multi-exposure Image FusionMEFLUT: 根据无监督1D查找表的多曝光交融

本文介绍了一种用于多曝光图画交融(MEF)的新办法。咱们发现曝光图画的交融权重能够编码为一个 1D lookup table (1D LUT),该表以像素强度值作为输入,并输出相应的交融权重。咱们为每个曝光图画学习一个独立的1D LUT,然后不同曝光下的所有像素都能够独立地查询对应的1D LUT,以完成高质量、高效率的交融。为了学习这些1D LUT,咱们将注意力机制引进到构建的MEF网络的多个维度中,以明显进步交融质量。其次,与之前很少考虑实践布置的办法不同,咱们经过现已练习好的网络来构建1D LUT,在实践布置中只需要布置1D LUT而不需要布置整个网络,经过该办法能够不受任何平台束缚,能够高质量、高效率的进行布置。此外,咱们收集了一个新的包括960个样本的MEF数据集。咱们在收集的数据集以及公开的数据集上进行了很多试验,验证了咱们的办法的有效性。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:多曝光图画、高动态规模、无监督、快速、高效

11 Learning Optical Flow from Event Camera with Rendered Dataset

根据烘托数据的事情相机光流学习

本文根据计算机图形烘托技能提出了一个具有精确的事情数据和光流标签的高质量数据集,被称为 MDR。别的,本文提出了一个即插即用的自习惯调理模块 ADM,用于将输入的事情数据调整到最佳的稠密度区间,合作光流估量网络得到更精确的估量成果。试验表明,咱们的 MDR 数据集能够促进根据事情相机的光流估量的学习,曾经的光流估量网络在咱们的数据集上进行练习时,能够不断地进步它们的功用。此外,干流的光流估量管道装备咱们的 ADM 模块能够进一步进步功用。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:事情相机、光流、组成数据集

论文链接:arxiv.org/abs/2303.11…

12 GAFlow: Incorporating Gaussian Attention into Optical Flow

GAFlow:融入高斯注意力机制的光流估量

本文提出一种新的光流估量办法,将高斯注意力引进光流模型(GAFlow),以在表征学习过程中着重部分特性,并在匹配过程中强化运动关联性。具体来说,本文提出高斯束缚层(GCL)和高斯引导注意力模块(GGAM),这些根据高斯的模块能够自然地融入到现有光流结构中。高斯束缚层可插入现有的 Transformer 模块,以强化包括细粒度结构信息的部分邻域的特征学习;高斯引导注意力模块不仅承继了高斯散布的邻域特性,还能在匹配过程中将重点放在场景相关的可动态学习区域。试验证明 GAFlow 在泛化性测验和在线基准上都完成了较好的功用。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:光流、高斯注意力

13 Explicit Motion Disentangling for Efficient Optical Flow Estimation

根据显式运动解耦的高效光流估量

本文提出了一种新的光流估量结构 EMD-Flow,将大局运动学习与部分光流估量分脱离,这样就能用更少的运算资源处理大局匹配和部分细化。网络包括两个新模块:多标准运动聚合(MMA)和置信度引导光流传播(CFP),这两个模块充沛使用跨标准匹配信息和自包括的置信度图,以大局办法处理密布匹配的不确定性,生成较密布的初始光流。最后,合作一个轻量级解码模块处理小位移,完成一个高效且安稳的光流估量结构。试验证明 EMD-Flow 在标准光流数据集上获得了功用和运行时间之间更好的平衡。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:光流、运动解耦、高效模型

14 SIRA-PCR: Sim-to-Real Adaptation for 3D Point Cloud Registration

SIRA-PCR: 根据组成到实在域习惯的 3D 点云配准

咱们根据仿真室内场景数据集 3D-FRONT 构建了第一个用于 3D 点云配准的大规模室内场景组成数据集,名为 FlyingShapes。一起,咱们还提出了一种生成式的从组成数据到实在数据的域习惯 pipeline,名为 SIRA。其中,一种自习惯的重采样模块被用于消除组成与实在点云数据之间的低层次散布差异。经过这种办法,咱们练习得到的模型在室内场景数据集 3DMatch 和室外场景数据集 ETH 上获得了 SOTA 的配准成果,别离达到了 94.1% 和 99.0% 的配准召回率。

ICCV 2023 | 旷视研究院入选论文亮点解读

关键词:点云配准、域习惯、组成数据集

欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ沟通群:470899183。群内有大佬担任回答我们的日常学习、科研、代码问题。

其它文章

CV的未来发展方向?平常最喜欢逛的几个地方

练习网络loss出现Nan解决办法

比Meta「切割一切AI」更全能!港科大版图画切割AI来了:完成更强粒度和语义功用

Segment Anything项目收拾汇总

Meta Segment Anything会让CV没前途吗?

CVPR’2023年AQTC挑战赛第一名解决计划:以功用-交互为中心的时空视觉言语对齐办法

6万字!30个方向130篇 | CVPR 2023 最全 AIGC 论文汇总

常识蒸馏最新进展

ICCV2023 | 当标准感知调制遇上Transformer,会碰撞出怎样的火花?

CVPR 2023 | 完全无监督的视频物体切割 RCF

新加坡国立大学提出最新优化器:CAME,大模型练习成本下降近一半!

SegNetr来啦 | 超越UNeXit/U-Net/U-Net++/SegNet,精度更高模型更小的UNet宗族

ReID专栏(二)多标准规划与使用

ReID专栏(一) 使命与数据集概述

libtorch教程(三)简略模型建立

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境建立:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子运用

NeRF与三维重建专栏(二)NeRF原文解读与体烘托物理模型

NeRF与三维重建专栏(一)范畴布景、难点与数据集介绍

反常检测专栏(三)传统的反常检测算法——上

反常检测专栏(二):评价指标及常用数据集

反常检测专栏(一)反常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探求BEV流程(上篇)

可见光遥感图画方针检测(三)文字场景检测之Arbitrary

可见光遥感方针检测(二)主要难点与研讨办法概述

可见光遥感方针检测(一)使命概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT​

AI最全材料汇总 | 根底入门、技能前沿、工业使用、布置结构、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉沟通群

聊聊计算机视觉入门

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。