视觉切割技能在街景了解中具有重要方位,一起也面对许多应战。美团街景了解团队经过长时间探究,构建了一套统筹精度与功率的切割技能系统,在运用中获得了显著作用。一起,相关技能斩获了CVPR 2023比赛2项冠军1项第三名。本文将详细介绍街景了解中切割技能的探究与运用,希望能给从事相关研讨作业的同学带来一些帮助或启示。

1 问题背景

街景数据经过不同设备进行收集获取,以各种摄像头收集的视频图画及各种雷达收集的点云为首要载体。其间,摄像头收集的视频图画具有低本钱、易获取的特点,是最为常见的街景数据类型,而本文处理的街景数据首要为视频图画数据。街景视频图画数据作为室内外场景的重要信息载体,是核算机视觉很多使命的要害研讨方针。

为了从视频图画数据中解析有用的街景信息,核算机视觉各项技能融汇互补,完结对交通路途、室内外空间等街景进行深度全面的了解,这个过程一般被称为街景了解。街景了解相关技能的开展在核算机视觉技能演进中扮演着非常重要的人物,一起也对很多下流使命(例如场景重建、主动驾驶、机器人导航等)发挥着重要的作用。

总的来说,街景了解技能融汇了很多核算机视觉技能,从不同技能的辨认成果的表明办法上,可以划分为四个层级:点级、线级、面级、体级,以及每个层级内、不同层级间要素的逻辑联系。其间:

  1. 点级提取技能用于解析各种与“点”相关的信息,以提取坐标及特征描绘子为主,包含通用特征点、语义要害点等各种点级信息的提取技能,处理方针包含各种要素,用于表征要素的方位、特征等信息。
  2. 线级提取技能用于解析各种与“线”相关的信息,以提取线条为主,包含车道线、地平线、各类曲线/直线等各种线级信息的提取技能,处理方针包含各种线条,用于表征要素的方位、矢量、拓扑等信息。
  3. 面级提取技能用于解析各种与“面”相关的信息,以提取区域为主。街景视频图画数据因为透视投影的成像办法,一切信息均展现在二维平面上,该平面依据不同语义、不同实例被划分为不同区域,这些区域表征了要素的二维方位、概括、语义等信息。本层次才能包含语义切割、实例切割等提取技能。
  4. 体级技能用于解析各种与“体”相关的信息,以提取三维结构为主,包含深度估量、视觉显式/隐式三维重建等提取技能,用于表征场景及要素的三维结构信息。
  5. 逻辑联系提取技能依据以上技能的提取的要素及场景信息,经过时序信息交融及逻辑推理,提取不同层级或同一层级要素间的逻辑联系,包含点的匹配联系、线的拓扑联系、要素的多帧盯梢及方位联系等。

详细到现实场景,点级、线级、面级提取技能的的辨认成果,如下图1所示:

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

在街景了解中,各类视频图画切割技能是“面级”提取和“逻辑联系”提取中的要害技能,完结对街景二维信息的像素级表征。在街景切割中,因为实践场景的杂乱性,面对很多难题。

首要,街景切割的杰出难点是要素的形状、标准差异大,如图2榜首列所示(图画示例来自于数据集[1])。因为现实场景中各种方针的多样性以及视频图画成像的局限性,收集数据中方针存在各种异型或不完好问题。此外,因为透视成像的问题,远处与近处的相同方针在图画中大小差异极大。这两个问题要求街景切割算法具有鲁棒的杂乱方针精准切割才能。

其次,街景切割的另一难点是恶劣天然条件带来的搅扰,如图2第二、三列所示(示例来自于数据集[2])。因为实践场景中恶劣气候或极点光照条件是经常出现的,收集数据中方针往往受到天然条件的影响,存在可见度低、遮挡或含糊等问题。这要求街景切割算法具有困难方针的发现与辨认才能。

此外,因为街景了解中需求运用视频/图画等不同数据办法不同成果表征的切割技能,怎么构建高功率迭代的切割技能?怎么确保不同切割算法间相互配合、功能互补,一起确保多种算法在有限的核算资源与维护本钱下共存?怎么将切割使命与其他使命结合,变得愈加一致敞开?也是街景切割亟需处理的难题。

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

为了处理以上难题,美团街景了解团队在切割技能上做了很多探究,构建了一系列实在杂乱场景下的高精度切割算法,完结了杂乱方针精准切割及困难方针的发现辨认。一起,也对高功率切割技能进行了实践,完结了切割模型的高效迭代与运用,并探究了一致敞开的的街景视觉切割技能。终究,提出的相关技能在街景了解中获得了显着的作用,相关算法被CVPR 2023接收为Workshop论文,并且在国际比赛中获得了2项冠军1项第三名的成果。

2 研讨现状

2.1 切割技能系统

切割作为核算机视觉三大根底使命(分类、检测、切割)之一,对方针进行像素粒度的方位和概括信息表明。核算机视觉进入深度学习年代之后,切割使命依据不同的运用场景进一步细分开展出各种子使命,依照数据办法的不同分为两大类:图画切割和视频切割,如下图3所示(图片来自[3][15]等文献):

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

图画切割使命的处理方针是单张图画,依据输出成果表明办法的不同,逐步开展出语义切割、实例切割、全景切割等。其间,语义切割将图画中每个像素分配到对应的语义类别,代表作业有FCN[4]、U-Net[4]、DeepLab[6]、OCRNet[7]、SegFormer[8]等。实例切割的方针是将图画中每个实例进行切割,并辨认出每个实例的语义类别,代表作业有Mask-RCNN[9]、YOLACT[10]、SOLO[11]等。全景切割的方针是将图画中一切像素分配到对应的语义类别中,并区分不同实例,代表作业有EfficientPS[12]、Panoptic-DeepLab[13]、UPSNet[14]等。除了以上切割使命以外,还有一些其他图画切割技能在许多场景有运用需求,如抠图、显著性方针切割等图画切割使命。

视频切割使命的处理方针具有时序联系的视频序列,其不只关注单帧的空间维度信息,一起关注多帧间的时序维度信息。依照输入和输出成果的表明办法的不同,视频切割分为视频方针切割、视频语义切割、视频实例切割、视频全景切割等;视频方针切割依据输入办法的不同,进一步分为主动视频方针切割、半主动视频方针切割、交互式视频方针切割、言语引导的视频方针切割等子使命。主动视频方针切割仅运用视频帧作为输入,切割出视频序列方针所在区域,代表作业有OSVOS[16]、MATNet[17]等。半主动视频方针切割除了输入视频序列以外还输入指定所要切割的方针,代表作业有SiamMask[18]、STM[19]、AOT[20]等。交互式视频方针切割是指在用户的交互下,对视频远景方针进行切割,代表作业有MiVOS[21]等。言语引导的视频方针切割经过输入文本来指定所要切割的方针,代表作业有CMSANet[22]等。

除了依照以上办法对切割使命进行分类以外,也可以依据模型学习范式或许监督程度来进行分类,依据练习数据标示信息受限程度的不同,分为强监督切割、无监督切割、半监督切割、弱监督切割等。当切割模型实践运转时,许多运用场景下设备的核算资源往往是受限的,例如一些移动端设备供给的核算资源非常有限,然而实践需求又要求模型具有必定的实时性,这就要求切割模型在模型架构规划上具有高效性。一些作业聚集于此进行研讨,如BiSeNet[23]、STDCNet[24]等。此外,实在国际中的语义类别杂乱多样,各个类别的数据散布也不均匀,因而也衍生出了开集切割、长尾切割等研讨方向。

2.2 街景切割现状

针对街景切割中存在的问题,许多办法提出了相应处理方案。

为了处理杂乱方针的精准切割问题,PSPNet[25]提出金字塔池化模型,运用不同标准上下文信息完结不同标准物体的切割。OCRNet[7]引进物体上下文特征表明模块用于上下文信息增强的特征,猜测每个像素的语义类别。SegFormer[8]提出一种新的层次结构Transformer编码器输出多标准特征,一起引进多层感知机解码器聚合来自不同层的信息,得到不同方针的切割成果。此外,也有一些依据视频的办法,例如TMANet[26]经过运用相邻帧的特征对当时帧进行增强,处理方针精准切割问题。现在已有的办法中,依据图画的办法首要从上下文特征增强的角度出发,但因为单帧单视角的信息关于场景的信息描写不够完好,因而关于杂乱方针的精准切割是困难的。一起,依据视频的办法首要运用周围帧的特征增强当时帧的特征,但因为多帧特征的对齐与交融存在困难,因而杂乱方针的精准切割仍难以处理。

为了处理困难方针的发现与辨认问题,难样本发掘技能通用被用于增强特征的辨别才能。为了削减辨认难样本的核算开销,已有的作业首要在两个方向进行了探究:每个batch内的精确查找、整个数据集的近似查找。例如,OHEM[27]依据丢失函数的反应在batch中主动挑选困难样本,以使练习更有用和更高效,削减了深重的启示式查找做法和超参数。此外,UHEM[28]经过剖析视频序列上经过练习的检测器的输出来主动获得很多困难的负样本。此外,SCHEM[29]运用类别签名在练习期间以较小的额外核算本钱在线盯梢特征嵌入,经过运用该签名辨认困难负样本。现在已有的办法中,经过优化练习策略的办法增强难样本的学习才能,然后完结困难方针的发现与辨认,但因为这些方案都是经过束缚模型练习然后间接到达方针发现的意图,因而并不能完全处理困难方针的发现与辨认问题。

为了处理切割模型的高功率迭代问题,研讨人员也做出了许多努力。为了进步切割使命的标示功率,ScribbleSup[30]、FocalClick[31]、MiVOS[21]等经过交互式切割的办法加速对图画或视频方针的像素级标示。此外,因为长尾散布的存在,CANet[32]、PADing[33]等经过少样本学习和零样本学习的办法削减对稀少类别数据样本的依赖,还有一些作业经过重采样、类别平衡丢失函数等办法在练习过程中缓解长尾问题。别的,在模型结构的规划上需求重视功率,例如BiSeNet[23]、STDCNet[24]等模型经过多分支网络结构获取更好的实时性,ShuffleNet[34]、MobileNet[35]等经过特别算子和模块削减模型的核算量和参数量。

跟着切割技能的开展,衍生出了许多不同的切割子使命,如语义切割、实例切割、全景切割等,其在数据标示办法、输出表征办法、模型结构规划等方面都存在着必定的差异。在不同的切割算法间找到一致的处理方案,充分运用不同办法的切割标示数据等都是重要的研讨问题。MaskFormer[36]、OneFormer[37]等办法提出了通用的切割模型结构,其将语义切割、实例切割、全景切割等使命一致起来,并且能较为容易地由图画切割推行到视频切割。近期提出的Segment Anything Model[38]则作为一个零样本根底切割模型,可以“切割一切”,依据SAM可以进一步开宣布许多的切割下流运用,如语义切割、实例切割等、视频方针切割等。

3 核心技能

本部分针对街景了解切割使命存在的问题,从实在杂乱场景下的高精度切割、切割模型的高功率迭代以及通向一致敞开的街景切割等三个方面介绍相应的处理方案。

3.1 杂乱场景下的高精度切割

3.1.1 依据时空对齐的杂乱方针精准切割

杂乱方针的精准切割问题,体现为杂乱方针中经常存在部分区域的猜测成果具有高不确定性,导致该区域难以精准切割乃至切割过错。一般,经过交融周围帧的猜测信息,可以进步当时帧方针切割的确定性,然后进步该方针的切割精度。为处理杂乱方针的精准切割问题,街景了解团队提出了一种依据时空对齐的杂乱方针精准切割结构(Motion-State Alignment Framework,简称MSAF),如下图4所示:

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

MSAF重新考虑了视频信号带来的信息增益:视频中包含的语义信息可分为动态语义和静态语义,动态语义存在于接连多帧的时序联系中,可以增益方针区域的方位信息和特征描绘;静态语义存在于确定时间的单帧图画中,可以有用康复方针区域的细节信息。动静态语义可以为切割模型带来不同方面的确定性信息增益。

MSAF首要提取视频相邻多帧的特征,经过动态特征对齐机制及静态特征对齐机制,别离对当时帧的动静态语义特征进行增强,接着从动态语义特征中提取方针区域描绘子、从静态语义中提取方针像素描绘子,然后求解像素描绘子与区域描绘子的特征间隔,为每个像素指定精确的区域类别,完结杂乱方针的精准切割。

终究,与干流的图画、视频级切割办法比较,依据时空对齐的杂乱方针精准切割办法在Cityscapes[1]、CamVid[39]等数据集上均到达抢先的精度,并具有较快的推理速度。

3.1.2 依据样本主动发掘的困难方针发现

为了处理困难方针发现与辨认的问题,街景了解团队提出了一种依据样本感知、发掘、净化的困难方针发现结构(Perceive, Excavate and Purify,简称PEP),如下图5所示:

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

首要,运用特征金字塔主干网络提取不同标准的特征,然后将不同标准特征别离输入到三个分支:实例感知分支、实例描绘分支、特征学习分支。

实例感知分支对主干特征每个像素点进行分类,开始确定像素点方位是否存在实例;实例描绘分支学习不同实例的原始特征描绘子,一起运用样本发掘子网络来发掘困难方针,并表征为提取描绘子。此外,引进实例关联子网络来进步相同实例的相似性、下降不同实例的相似性,完结方针净化,进一步进步切割功能。最后,原始的和发掘的实例描绘子与特征学习分支的通用特征施行卷积操作得到各个方针的切割成果。

终究,与干流的切割办法比较,依据样本主动发掘的困难方针发现办法在COCO[40]等数据集上到达抢先的精度。

3.2 切割模型的高功率迭代

为了更好地习惯街景了解中变化多样的实在场景,满意各种不断新增的实践事务需求,街景切割模型需求不断进行迭代。因而,树立一种高功率的迭代办法是非常必要的。街景了解团队经过长时间探究,构建了一套面向切割使命的高效数据-模型闭环,可以以有限的本钱堆集很多的高质量有标签切割数据集,不断进步切割模型的功能,还可以高效地完结模型迭代,以满意实践事务场景的定制化需求。数据-模型闭环的全体流程图如下图6所示:

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

实践的街景了解事务场景中经过数据回流可以获取海量的无标示数据,这些无标示数据经过很多街景了解模型的推理猜测可以得到丰厚多样的标签属性,由此可以构建可以覆盖各种杂乱场景、层次结构丰厚的街景了解系统标签树。在新增的事务需求到来时,依托系统标签树可以及时高效地获取很多与需求相关性较高的数据。此外,模型在数量很多的无标示数据上经过主动学习也可以筛选发掘出不确定性更高、对模型迭代愈加有价值的数据。

面对高价值的数据,经过模型与标示人员高效协同作业的半主动化数据标示,可以获得标示质量更有确保的数据,也可以经过伪标签技能,依据已有的模型获取很多带有伪标签的数据,然后经过有监督或半监督练习完结模型迭代。迭代之后,功能愈加优异、才能愈加丰厚的新模型不只可以在事务场景中更好地赋能,还可以更好地助力数据-模型闭环中的各个环节。由此,数据-模型闭环完结不断迭代、循环。

在切割模型的实践布置运用时,需求平衡好事务侧的辨认精度和模型的核算资源。为此,构建了包含轻量级、中等量级、重量级的切割模型族。轻量级的切割模型凭仗其较小的参数量和极高的吞吐量,常用于核算资源有限的端侧布置或许调用量极大的服务端布置等场景;中等量级的切割模型则用于对精度要求更高,调用量规划中等的场景;重量级的切割模型则凭仗其极高的模型容量和辨认精度,经过模型蒸馏、伪标签生成、预标示生成等手法助力愈加轻量的模型的功能进步和数据-模型闭环,使其优势可以发挥到实践事务场景的前哨。

此外,经过模型量化、高功能布置等手法,可以进一步进步模型的履行功率,下降核算本钱,完结切割模型的高功率运用。

3.3 通向一致敞开的街景切割

近期,跟着ChatGPT[41]、Stable Diffusion[42]等天然言语处理、多模态大模型的火爆,人们对大模型、一致模型的关注度持续进步,一致的视觉大模型的热度也不断上升,Segment Anything Model[38]、UniAD[43]等的出现也显示出了通用一致的根底模型在视觉领域的潜力。街景了解团队在切割一致大模型上也在不断探究。

在图画切割上,探究包括语义切割、实例切割、全景切割、边际检测等多使命的一致切割模型结构,并经过多使命练习充分发挥多种类型切割标示数据的潜力,确保不同使命间相互配合,获得增益。在视频切割上,也在探究包括视频语义切割、视频实例切割、视频全景切割、视频方针切割等使命的一致切割模型结构,在视频切割标示困难的情况下充分运用已有的各种视频切割标示及图画标示数据。此外,将图画和视频的各自切割使命中学习到的常识迁移到另一个使命中也是非常重要的研讨内容。

别的,切割使命与其他视觉使命的相互交融、相互配合也是一个非常重要的方向,其在街景了解技能系统中有着重要的作用。如切割使命与分类、检测使命的交融,不只可以在核算资源有限的场景下下降资源的占用,进步系统全体的吞吐,还能充分发挥不同视觉使命监督信息的潜力。

除了视觉使命内各个使命之间的交融和一致,与切割使命相关的跨模态研讨也有着严重潜力,如与文本模态结合的开集切割使命、文本引导的指向性切割使命等,其不只可以将切割使命推行到愈加敞开的实在环境中,还可以经过文本这个桥梁进步人与切割模型之间的交互才能,使其可以愈加速速、精准地完结定制化的切割需求。依据切割使命的更高层次的语义推理研讨也有着重要的价值,在切割技能这样细粒度的根底场景了解、语义解析才能的加持下,辅以常识先验、逻辑推理才能强大的大言语模型,在未来也可以在街景了解场景中发生巨大的运用价值。

总之,通向愈加一致、愈加敞开的街景视觉切割模型已经成为了现在以及未来的重要方向,街景了解团队将会持续实践、沉淀,探究视觉切割模型的未来。

4 CVPR 2023 技能成果

依据街景了解中的切割技能堆集,街景了解团队在CVPR 2023宣布了2篇Workshop论文,并在相关比赛中获得了2项冠军1项第三名的成果,一起相应技能成果已经请求多项国家专利。

4.1 论文宣布

面向切割使命的依据时空对齐的杂乱方针精准切割办法、依据样本主动发掘的困难方针发现办法完善为2篇学术论文:《Motion-state Alignment for Video Semantic Segmentation》[44]、《Perceive, Excavate and Purify: A Novel Object Mining Framework for Instance Segmentation》[45],被CVPR 2023接收为Workshop论文(8页长文)。

4.2 恶劣气候街景了解比赛双赛道冠军

在主动驾驶场景中,恶劣气候(如雾、雨、雪、弱光、夜间、曝光、暗影等)会给感知系统带来很大的搅扰。为了确保主动驾驶轿车在恶劣气候的情况下平稳运转,感知系统需求具有处理极点气候的才能。虽然核算机视觉技能在街景了解等场景中的体现正在快速开展,可是已有的评测基准首要会集在晴朗的气候条件下(好气候、有利的照明),即使是当时功能最好的算法,在恶劣气候条件下也会出现严重的功能下降。为此,ACDC Challenge提出了专门针对恶劣气候的评测基准,用于促进对不利气候和光照条件下鲁棒视觉算法规划的研讨。

本次比赛中,街景了解团队获得了语义切割、全景切割两个赛道的冠军。

4.3 视频了解比赛视频全景切割赛道第三名

像素级场景了解是核算机视觉中的基本问题之一,其意图是辨认给定图画中每个方针的语义类别和精确方位。因为现实国际实践上是动态而非静态的,因而面向视频的全景切割关于现实运用具有合理性和实用性。因而,PVUW Challenge提出了天然场景下具有实用且具有应战的大规划视频全景切割数据集并举办比赛,用于促进视频全景切割的算法研讨。

本次比赛中,街景了解团队获得了视频全景切割赛道的第三名。

5 事务运用

美团街景了解中的切割技能在多个事务场景得到了广泛运用,其间首要包含地图、主动配送、门店实景化等事务。

地图是美团本地生活服务必不可少的根底设施,地图数据主动化出产是地图事务的重要环节,该环节首要从图画等数据中进行各类交通要素的提取与处理,切割技能在其间发挥着重要作用。首要,切割技能作用于低质图画过滤,提取路途、车辆、镜头遮挡物等类别的精确区域,辨认并防止了路途拥堵、镜头遮挡等低质图画影响地图数据出产流程。一起,切割技能作用于交通要素提取,有用提取各类车道线(例如单白实线、双黄虚线、四线等)、各类物体阻隔物(例如栅门、水马、混凝土石墩等)的方位信息、概括信息、语义信息、实例信息等,用于后续要素出产。

此外,切割技能作用于路途结构提取,解析主辅路及路口结构等,获取路途结构,一起用于交通要素的方位信息提取。别的,切割技能也作用于卫星印象辨认,如主动化提取建筑楼栋用于地图前端的烘托等。如下图7所示:

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

主动配送事务环绕美团外卖、跑腿等核心事务,进步配送功率和用户体会。高精地图是主动驾驶的核心基建,为了确保低本钱、高鲜度,高精地图的出产过程中视频图画数据的切割发挥着重要作用。其间,各类车道线、地上箭头、交通标牌等各类要素切割为交通要素的提取供给了重要信息,杆体、公交站台等交通设施的切割为交通设施提取供给了重要信息,进步了高精地图出产中要素提取的主动化率和精度。

此外,高功率的语义切割模型为高精地图的定位图层供给了70+类的语义切割,支撑了定位图层的出产,高精度语义切割支撑了感知模型的半监督学习。别的,视频图画切割技能为视觉高精地图建图供给了各类要素的提取及盯梢才能,进步了建图的成功率、主动化率和精度。

门店实景化事务触及广泛的线下室内场景,意图是供给依据以视觉为主的室内建图与烘托处理方案,供给对线下场景的几何、语义、物体等内容的了解以及烘托才能,切割技能在其间发挥着重要作用。在门店实景化事务中,切割技能进步了重建精度和烘托成功率,有用支撑了门店布局估量、营业面积核算、要害设施主动化计数等。

此外,切割技能在智能标示、数据生成等运用中也发挥着重要作用,一起也在为街景了解中其他技能进行赋能。

6 总结与展望

切割技能在街景了解中占有重要方位,一起也面对很多应战。为了应对这些应战,美团街景了解团队构建了一套统筹精度与功率的切割技能系统,在事务运用中获得了显著作用。

跟着人工智能技能的开展,街景了解中的切割技能也将愈加精确、愈加通用、愈加智能。结合多源数据与先进模型的主动化迭代,切割作用将会越来越精确;结合言语及视觉大模型等先进技能,切割技能将逐步完结敞开国际的“万物切割”;结合大规划言语模型的成功与经历,切割技能也将通向更高层语义联系的建模与推理。

未来,美团街景了解团队将不断推进视觉技能在街景了解中的运用与演进,为场景重建、主动驾驶、机器人导航等运用场景供给愈加高效快捷的技能支撑。

7 作者简介

金明、旺旺、祎婷、兴岳、钧峰等,均来自美团根底研发平台/视觉智能部。

8 参考文献

  • [1] Cordts, Marius and Omran, Mohamed and Ramos, Sebastian and Rehfeld, Timo and Enzweiler, Markus and Benenson, Rodrigo and Franke, Uwe and Roth, Stefan and Schiele, Bernt. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016.
  • [2] Christos Sakaridis, Dengxin Dai, and Luc Van Gool. ACDC: The Adverse Conditions Dataset with Correspondences for Semantic Driving Scene Understanding. In ICCV, 2021.
  • [3] Kirillov, Alexander and He, Kaiming and Girshick, Ross and Rother, Carsten and Doll{‘a}r, Piotr. Panoptic segmentation. In CVPR, 2019.
  • [4] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
  • [5] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
  • [6] Chen, Liang-Chieh and Papandreou, George and Kokkinos, Iasonas and Murphy, Kevin and Yuille, Alan L. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI, 2017.
  • [7] Yuan, Yuhui, Xilin Chen, and Jingdong Wang. Object-contextual representations for semantic segmentation. In ECCV, 2020.
  • [8] Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M and Luo, Ping. SegFormer: Simple and efficient design for semantic segmentation with transformers. In NeurIPS, 2021.
  • [9] He, Kaiming and Gkioxari, Georgia and Doll{‘a}r, Piotr and Girshick, Ross. Mask r-cnn. In ICCV, 2017.
  • [10] Bolya, Daniel and Zhou, Chong and Xiao, Fanyi and Lee, Yong Jael. Yolact: Real-time instance segmentation. In ICCV, 2019.
  • [11] Bolya, Daniel and Zhou, Chong and Xiao, Fanyi and Lee, Yong Jae. Solo: Segmenting objects by locations. In ECCV, 2020.
  • [12] Mohan, Rohit and Valada, Abhinav. Efficientps: Efficient panoptic segmentation. IJCV, 2021.
  • [13] Cheng, Bowen and Collins, Maxwell D and Zhu, Yukun and Liu, Ting and Huang, Thomas S and Adam, Hartwig and Chen, Liang-Chieh. Panoptic-deeplab: A simple, strong, and fast baseline for bottom-up panoptic segmentation. In CVPR, 2020.
  • [14] Xiong, Yuwen and Liao, Renjie and Zhao, Hengshuang and Hu, Rui and Bai, Min and Yumer, Ersin and Urtasun, Raquel. Upsnet: A unified panoptic segmentation network. In CVPR, 2019.
  • [15] Zhou, Tianfei and Porikli, Fatih and Crandall, David J and Van Gool, Luc and Wang, Wenguan. A survey on deep learning technique for video segmentation. TPAMI, 2022.
  • [16] Caelles, Sergi and Maninis, Kevis-Kokitsi and Pont-Tuset, Jordi and Leal-Taix{‘e}, Laura and Cremers, Daniel and Van Gool, Luc. One-shot video object segmentation. In CVPR, 2017.
  • [17] Zhou, Tianfei and Li, Jianwu and Wang, Shunzhou and Tao, Ran and Shen, Jianbing. Matnet: Motion-attentive transition network for zero-shot video object segmentation. TIP, 2020.
  • [18] Wang, Qiang and Zhang, Li and Bertinetto, Luca and Hu, Weiming and Torr, Philip HS. Fast online object tracking and segmentation: A unifying approach. In CVPR, 2019.
  • [19] Oh, Seoung Wug and Lee, Joon-Young and Xu, Ning and Kim, Seon Joo. Video object segmentation using space-time memory networks. In ICCV, 2019.
  • [20] Yang, Zongxin, Yunchao Wei, and Yi Yang. Associating objects with transformers for video object segmentation. In NeurIPS 2021.
  • [21] Cheng, Ho Kei, Yu-Wing Tai, and Chi-Keung Tang. Modular interactive video object segmentation: Interaction-to-mask, propagation and difference-aware fusion. In CVPR, 2021.
  • [22] Ye, Linwei and Rochan, Mrigank and Liu, Zhi and Zhang, Xiaoqin and Wang, Yang. Referring segmentation in images and videos with cross-modal self-attention network. TPAMI, 2021.
  • [23] Yu, Changqian and Wang, Jingbo and Peng, Chao and Gao, Changxin and Yu, Gang and Sang, Nong. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In ECCV 2018.
  • [24] Fan, Mingyuan and Lai, Shenqi and Huang, Junshi and Wei, Xiaoming and Chai, Zhenhua and Luo, Junfeng and Wei, Xiaolin. Rethinking bisenet for real-time semantic segmentation. In CVPR, 2021.
  • [25] Zhao, Hengshuang and Shi, Jianping and Qi, Xiaojuan and Wang, Xiaogang and Jia, Jiaya. Pyramid scene parsing network. In CVPR, 2017.
  • [26] Hao Wang, Weining Wang, and Jing Liu. Temporal memory attention for video semantic segmentation. In ICIP 2021.
  • [27] Abhinav Shrivastava, Abhinav Gupta, and Ross Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.
  • [28] SouYoung Jin, Aruni RoyChowdhury, Huaizu Jiang, Ashish Singh, Aditya Prasad, Deep Chakraborty, and Erik Learned- Miller. Unsupervised hard example mining from videos for improved object detection. In ECCV, 2018.
  • [29] Yumin Suh, Bohyung Han, Wonsik Kim, and Kyoung Mu Lee. Stochastic class-based hard example mining for deep metric learning. In CVPR, 2019.
  • [30] Lin, Di and Dai, Jifeng and Jia, Jiaya and He, Kaiming and Sun, Jian. Scribblesup: Scribble-supervised convolutional networks for semantic segmentation. In CVPR, 2016.
  • [31] Chen, Xi and Zhao, Zhiyan and Zhang, Yilei and Duan, Manni and Qi, Donglian and Zhao, Hengshuang. Focalclick: Towards practical interactive image segmentation. In CVPR, 2022.
  • [32] Zhang, Chi and Lin, Guosheng and Liu, Fayao and Yao, Rui and Shen, Chunhua. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning. In CVPR, 2019.
  • [33] He, Shuting, Henghui Ding, and Wei Jiang. Primitive generation and semantic-related alignment for universal zero-shot segmentation. In CVPR, 2023.
  • [34] Zhang, Xiangyu and Zhou, Xinyu and Lin, Mengxiao and Sun, Jian. Shufflenet: An extremely efficient convolutional neural network for mobile devices. In CVPR, 2018.
  • [35] Howard, Andrew G and Zhu, Menglong and Chen, Bo and Kalenichenko, Dmitry and Wang, Weijun and Weyand, Tobias and Andreetto, Marco and Adam, Hartwig. Mobilenets: Efficient convolutional neural networks for mobile vision applications. Arxiv, 2017.
  • [36] Cheng, Bowen, Alex Schwing, and Alexander Kirillov. Per-pixel classification is not all you need for semantic segmentation. In NeurIPS, 2021.
  • [37] Jain, Jitesh and Li, Jiachen and Chiu, Mang Tik and Hassani, Ali and Orlov, Nikita and Shi, Humphrey. Oneformer: One transformer to rule universal image segmentation. In CVPR, 2023.
  • [38] Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C and Lo, Wan-Yen and others. Segment anything. Arxiv, 2023.
  • [39] Gabriel J Brostow, Jamie Shotton, Julien Fauqueur, and Roberto Cipolla. Segmentation and recognition using structure from motion point clouds. In ECCV, 2008.
  • [40] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
  • [41] OpenAI.openai.com/blog/chatgp…. 2022.
  • [42] Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj{“o}rn. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
  • [43] Hu, Yihan and Yang, Jiazhi and Chen, Li and Li, Keyu and Sima, Chonghao and Zhu, Xizhou and Chai, Siqi and Du, Senyao and Lin, Tianwei and Wang, Wenhai and others. Planning-oriented autonomous driving. In CVPR, 2023.
  • [44] Su, Jinming and Yin, Ruihong and Zhang, Shuaibin and Luo, Junfeng. Motion-state Alignment for Video Semantic Segmentation. In CVPRW, 2023.
  • [45] Su, Jinming and Yin, Ruihong and Chen, Xingyue and Luo, Junfeng. Perceive, Excavate and Purify: A Novel Object Mining Framework for Instance Segmentation. In CVPRW, 2023.

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等要害词,可查看美团技能团队历年技能文章合集。

斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用

| 本文系美团技能团队出品,著作权归属美团。欢迎出于分享和沟通等非商业意图转载或运用本文内容,敬请注明“内容转载自美团技能团队”。本文未经许可,不得进行商业性转载或许运用。任何商用行为,请发送邮件至tech@meituan.com请求授权。