ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技

人工智能技能正在成为内容范畴的中台力气，其中视觉AI已经渗透到内容出产、内容审核、内容分发、用户互动、商业化变现等各个环节。美团视觉智能部以场景化的内容产品、智能化的内容东西助力工业，在内容的创作、内容分发等环节运用广泛。前不久，美团视觉智能部的8篇论文被多媒体和计算机视觉范畴顶会ACM MM 与ECCV收录，本文将快速带你了解这8篇论文的研讨成果及其可在内容范畴的落地运用。

内容出产

围绕资料解析、构思生成、展现自适应等内容出产链路，需求继续优化智能抠图、智能延拓、图画案牍生成等核心功能模块。因而，在驱动视觉语义切割、跨模态生成等底层技能方向需求继续晋级与创新。

ECCV | Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation（依据自适应空间二元穿插熵的弱监督语义切割）

论文作者：吴桐（北京理工大学&美团实习生），高广宇（北京理工大学），黄君实（美团），魏晓明（美团），魏晓林（美团），刘驰（北京理工大学）

论文下载：PDF

论文简介：弱监督语义切割旨在处理全监督语义切割使命中所需的像素级标签人工本钱和时刻开支较大的缺陷，经过引进较弱的监督信息来下降相关本钱。其中本文所运用的图画级监督本钱最低，但其较低的信息量也带来了更大的应战。当时的通用流程是先经过分类网络生成切割伪标签，经过后处理细化后再用伪标签练习语义切割网络。从前办法首要有以下缺陷：1）生成的伪标签物体轮廓不明晰；2）前布景的划分阈值需求人工调理，下降了泛用性；3）功能严峻依靠后处理，练习杂乱度较高。为了缓解这些缺陷，咱们提出了一个新的丢失函数——空间二元穿插熵丢失（Spatial-BCE），经过为远景和布景像素分配不同的优化方向来进步它们之间的特征差异性，从而完成愈加明晰的伪标签物体轮廓，如下图1所示：

ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技

此外，咱们还引进了自适应阈值，经过在练习中让丢失函数自行划分前布景像素的份额，并在推理时可同样将划分阈值交由网络生成。最后，咱们还规划了配套的迭代式练习办法，大幅进步了初始伪标签的准确率，即使不运用杂乱的后处理办法，咱们也能够完成当时的最优功能。很多试验标明，咱们的办法在PASCAL VOC 2012和MS-COCO 2014数据集上在均可成为SoTA，如下图2所示：

该办法关于广告营销资料解析、产品白底图（如下图3）出产等使命，具有强壮的提效作用。针对营销资料、产品主图等元素解析才能，传统的办法需求运用结构化PSD来完成各资料元素、产品主体的别离，这极大地约束了解析才能的运用场景。尽管，能够引进语义切割的才能来处理静态图片的资料解析，可是其标示本钱高、主体定义繁杂等问题，一直困扰着规划和算法人员。为此，依据很多简单搜集的图片级标签，能够经过本文的弱监督语义切割才能，高效地完成像素级的构思资料解析，从而为后续的构思重组和生成供给满足的供给。

ACM MM | Efficient Modeling of Future Context for Image Captioning（依据自适应空间二元穿插熵的弱监督语义切割）

论文作者：费政聪（美团），黄君实（美团），魏晓明（美团），魏晓林（美团）

论文下载：PDF

论文简介：现有的图画描绘（Image Caption）生成办法一般从左到右逐一生成单词，并受到局部信息（包含给定图画和历史单词）的约束。有许多研讨的方针是在解码过程中尝试运用大局上下文进行优化，例如迭代解码，但是，怎么有用和高效地结合未来上下文仍有待探究。

为了应对这个问题，受到非自回归图画描绘（Non-Autoregressive Image Captioning, NAIC）能够运用修改掩码操作来了解双边联系的启发，咱们旨在将这一进步移植到传统的自回归图画描绘模型中，一起保持推理功率，不添加额外的时刻本钱，如下图4所示：

具体来说，自回归和非自回归图画描绘模型首先经过共享视觉编码器进行联合练习，以强制视觉编码器包含有用的未来上下文；然后，迫使自回归图画描绘模型对其不一致猜测词的散布校准（类似于常识蒸馏），一起额外捕捉非自回归模型中跨层沟通的因果变化。试验成果标明，咱们提出的办法在MS COCO基准的自动指标点评和人类点评方面明显超过了最先进的基准模型。

本文办法关于智能广告案牍、产品介绍生成（如下图5）有严重价值，有助于提高营销、曝光点击率，削减人工规划本钱。关于广告营销案牍的生成，产品图片给用户的第一印象来自于外观，它对用户的决议计划有着重要的影响。因而，图画描绘生成系统有必要能够充沛发掘图片视觉信息，反映产品的外观特征，然后促成顾客的点击和下单转化。本文提出的高效未来信息建模办法，有助于更细粒度、更高质量的文本生成。

内容分发

高效的内容分发离不开对其结构化描绘，包含图画视频的标签化、模态间（图-文、视频-文本）相关性等。近年来跟着图文/短视频内容的广泛性、个性化及热门效应日趋明显，对新标签下的模型冷启动、更细粒度（包含空间上、语义上）的图文匹配、精密化的图画/视频-文本检索提出了更高的技能要求。

ACM MM | PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding（针对单阶段全景指代切割的像素-短语匹配网络）

论文作者：丁子涵（北京航空航天大学&美团实习生），惠天瑞（中国科学院信息工程研讨所），黄君实（美团），魏晓明（美团），魏晓林（美团），刘偲（北京航空航天大学）

论文下载：PDF

论文简介：Panoptic Narrative Grounding (PNG) 是一项新式使命，其方针是切割由静止图画的密布叙说字幕描绘的things和stuff类别的视觉对象。之前的两阶段办法首先经过现有的全景切割模型提取切割候选区域，然后进行粗粒度的区域-短语匹配以得到每个名词短语对应的切割成果。

但是，两阶段办法一般有以下缺陷：1）第一阶段低质量候选区域的功能约束；2）区域特征池化导致的空间细节丢失；3）需为things和stuff类别别离规划的杂乱策略。为了缓解这些缺陷，咱们提出了一种单阶段端到端像素短语匹配网络（PPMN）（如下图6），经过直接将每个短语与其对应的像素匹配并简单的组合输出全景切割。

因而，咱们的模型能够从密布注释的像素-短语对而不是稀疏的区域-短语对的监督中运用满足和更精密的跨模态语义对应。此外，咱们还提出了一种言语兼容像素聚合（LCPA）模块，经过多轮优化进一步增强短语特征的判别才能，该模块为每个短语挑选最兼容的像素，以自适应地聚合相应的视觉上下文。很多的试验标明，咱们的办法在 PNG 数据集上完成了最优的功能，该使命也为信息流场景下的像素级图画内容了解及图文对齐使命垫定了基础。

本文办法关于信息流场景下的用户评论标签发掘有严重价值。评论数据作为用户对商家的多维度描绘，承载了很多真实、多样的用户爱好点。发掘评论数据中的文本标签及图片定位信息，有助于咱们从图文多模态角度深入了解用户爱好，从而完成内容的精准投放。本文的办法弥补了以往粗粒度图文发掘使命的不足，经过端到端的像素-语句级别对齐，完成了更为精准、细致的多模态内容了解才能。该才能可直接用于图画标签发掘、跨模态以文搜图、图文多模态一致性判别等使命。

ACM MM | Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval（依据注意力机制的常识图推理概念传达办法及其在视频文本检索使命中的运用）

论文作者：方晟（中国科学院计算技能研讨所），王树徽（中国科学院计算技能研讨所），卓君宝（中国科学院计算技能研讨所&美团实习生），黄庆明（中国科学院计算技能研讨所），马彬（美团），魏晓明（美团），魏晓林（美团）

论文下载：PDF

论文简介：跟着短视频渠道的兴起，视频数量的急剧增加使得视频文本检索技能越发要害。这个使命的首要应战在于怎么找到视频和文本间细粒度的语义相关。为了处理这个问题，本文提出了一个依据注意力的概念传达网络结构（Attentional Concept Propagation, ACP），如下图7所示：

本文考虑了概念层级的信息，在内容层面匹配的基础上引进了语义层面的匹配。在语义层面的匹配分支中，本文规划了概念传达机制来发掘视频中的隐含语义。具体来说，在外部常识的辅导下，本文的办法运用概念间的相关，扩展得到检测器之外的概念，以此来丰厚视频的表征。经过这种方式，本文的办法完成了细粒度的视频文本的匹配，然后得到更准确的检索成果，并在多个不同的基准模型以及多个公开数据集上运用了该办法，均获得了安稳的功能提高，证明了本文办法的有用性和泛化功能。

该办法能够在短视频范畴，用于扩展通用视频标签体系并为视频内容供给好的基础表征，从而在内容分发场景下，为用户呈现愈加契合用户查找意图与潜在爱好的视频内容，改进用户体会。

ECCV | PromptDet: Towards Open-vocabulary Detection using Uncurated Images（运用未经处理的图画面向敞开词汇的方针检测）

论文作者：冯承健（美团），钟毓杰（美团），揭泽群（美团），初祥祥（美团），任海兵（美团），魏晓林（美团），谢伟迪（上海交通大学），马林（美团）

论文下载：PDF

论文简介：这项作业的方针是建立一个可扩展的方针检测器，运用零手动标示将方针检测器扩展到新的/未见过的类别，如下图8所示：

为了完成这一点，咱们做出了以下四项奉献：

为了追求泛化性，咱们提出了一个两阶段的敞开词汇方针检测器，运用来自预练习视觉言语模型的文本编码器对类别无关的物体提议区域进行分类。
为了将RPN 提议区域的视觉潜在空间与预练习文本编码器的潜在空间配对，咱们提出了区域提示（prompt）学习办法，以将文本嵌入空间与物体区域的视觉特征对齐。
为了扩大学习过程以检测更广泛的类别，咱们经过一种新颖的自练习结构运用可用的在线资源，该结构允许在很多嘈杂的未经处理的网络图画上练习所提出的检测器。
为了点评咱们提出的检测器，PromptDet，咱们在具有应战性的 LVIS 和MS-COCO数据集进行了广泛的试验。与现有办法比较，PromptDet运用更少的额外练习图画和零手动标示，表现出卓越的检测功能。

本文办法关于用户种草图片的了解和归类有严重价值，有助于向其他用户引荐相关产品和景点。用户在种草或点评时一般会共享一些图片，而在寻找好产品或好去处时一般运用文本来查找，图片和文本之间没有直接的对应联系，然后不能依据用户的查找文本引荐相关的种草产品和景点。经过本文提出的办法，能够依据自定义的文本（如产品名称）检测图片中的物体，对种草图片进行了解和归类。当用户运用文本查找时，能够向用户引荐最相关的种草产品和景点，完成精准和多样化的种草内容引荐，提高种草转化率。

ACM MM | Synthesizing Counterfactual Samples for Effective Image-Text Matching（组成反现实样本以进行有用的图画-文本匹配）

论文作者：魏浩（中国科学院计算技能研讨所），王树徽（中国科学院计算技能研讨所），韩歆哲（中国科学院计算技能研讨所），薛哲（北京邮电大学），马彬（美团），魏晓明（美团），魏晓林（美团）

论文下载：PDF

论文简介：图画文本匹配（Image-Text Matching）是跨模态范畴的一个基础研讨问题，旨在衡量图画和文本之间的语义类似性。最近的作业一般运用难负样本发掘（Hard Negative Mining）来捕获图画和文本之间的多重对应联系。不幸的是，拥有丰厚信息的负样本在练习数据中非常稀疏，很难在随机采样的小批次中获得。受到因果推理的启发，本文经过类比难负样本发掘和因果效应优化来处理这一问题。本文提出了反现实匹配（Counterfactual Matching, CFM）办法（如下图9），用于愈加有用的匹配联系发掘。

如上图，CFM包含三个首要部分，即用于自动因果因子辨认的特征挑选、用于保障因果因子完整性的自我探究和用于反现实样本组成的自我调整。与传统的难负样本发掘比较，该办法缓解了过拟合现象，有用地捕获了图画和文本之间的细粒度匹配相关。本文将CFM与三种最先进的图画文本匹配模型结合起来进行点评。在两个公开数据集上进行的试验标明，本文提出的办法具有很强的通用性和有用性。

本文办法关于提高图画文本相关性建模作用具有重要价值，可进一步提高在图文相关性，图画细粒度了解，图画、视频检索等下流使命的作用（如下图10）。在内容展现中，关于提高信息流内容的图画-文本、视频封面-文本相关性，改进用户体会具有重要意义。

ACM MM | Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer（依据网络常识与使命常识迁移的零样本视频分类）

论文作者：卓君宝（中国科学院计算技能研讨所&美团实习生），朱妍（中国科学院计算技能研讨所&美团实习生），崔书豪（美团），王树徽（中国科学院计算技能研讨所），黄庆明（中国科学院计算技能研讨所），马彬（美团），魏晓明（美团），魏晓林（美团）

论文下载：PDF

论文简介：零样本视频分类旨在辨认在模型练习过程中从未见过的视频类别，一般经过构建视觉特征和语义嵌入之间的映射来完成。研讨标明经过发掘视频包含的物体作为特点并结合外部常识能有用提高模型的功能。可是，从可见类别发掘的物体特点不能有用泛化到未见类，且外部常识中特点之间的联系与视频中出现的特点联系存在较大偏差。本文提出了依据网络常识的特点构建办法和特点-类别联系发掘办法，如下图11所示：

依据视频类别名称在网络中搜集相关的图画，并运用预先练习的物体辨认模型对搜集的图画进行辨认，提取频频出现的物体作为该视频类别相关的特点，构建特点-类别联系。经过所发掘的特点以及外部常识，采用图神经网络学习视觉特征到类别的映射，有用提高模型的泛化才能。此外，为处理现有办法过拟合到已见类别的问题，本文提出经过估计已见类和未知类之间的类似度来辅导模型练习的办法。试验标明，所提办法取得了明显的功能提高。

本文办法可在需求新的类别标签时，快速完成样本冷启动，加快标签模型研发。对依据标签的短视频内容运营，媒资办理，内容分发等运用能起到重要支撑。能够经过少数示例样本快速构建视频分类模型，从存量内容池中自动发掘高价值内容（如：“探店种草”）匹配大众点评App“发现好去处”的产品定位，在主页信息流中为用户供给丰厚的信息参考，如下图12所示：

模型量化

ACM MM | Towards Accurate Post-Training Quantization for Vision Transformer（迈向Vision Transformer的高精度后量化算法）

论文作者：丁一芙（北京航空航天大学&美团实习生），秦浩桐（北京航空航天大学），闫青华（北京航空航天大学），柴振华（美团），刘豪杰（美团），魏晓林（美团），刘祥龙（北京航空航天大学）

论文下载：PDF

论文简介：后量化是CNN模型紧缩中较为老练的一个研讨方向，但是怎么在Vision Transformer上完成无损后量化在学界依然是一个没有处理的问题。经过引进高精度的后量化算法，能够处理Transformer结构在服务端布置功率不高、显存占用过大的落地痛点，一起也为Mobile Transformer在移动端设备的落地供给更多可能性。

现有的研讨办法中比较代表的是华为诺亚方舟试验室的FQ-ViT，在极低比特的情况下对量化差错的点评与实践仍存在较大差错，一起对具有幂率散布的SoftMax层的处理办法有待有进一步优化。依据上述观察，咱们提出了一种名为APQ-ViT（Accurate Post-training Quantization framework for Vision Transformer）的办法（如下图13）：经过引进底部差错消除的逐块校准策略，依据块层面感知量化差错，削减数化对最终输出的影响，并规划了一种马太效应保持的Softmax后量化映射办法，能够达到在8 bit工业场景下基本功能无损的紧缩作用，并且在更低比特（4/6 bit）下也能明显下降模型量化带来的精度丢失。

本文办法可为内容场景中多媒体了解使命Transformer模型快速量化布置发生的功能丢失问题供给优化计划，一起也为端侧Transformer的落地运用供给技能支撑，并进一步削减App的包体积。

本文介绍了美团视觉智能部围绕线上内容出产与分发，在跨模态匹配与生成、语义切割、物体检测、模型紧缩等范畴所做的一些科研作业，以及这些科研成果在实践场景中的运用，希望对我们有所协助或启发。

阅读美团技能团队更多技能文章合集

前端 | 算法 | 后端 | 数据 | 安全 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等要害词，可检查美团技能团队历年技能文章合集。

| 本文系美团技能团队出品，著作权归属美团。欢迎出于共享和沟通等非商业目的转载或运用本文内容，敬请注明“内容转载自美团技能团队”。本文未经许可，不得进行商业性转载或许运用。任何商用行为，请发送邮件至tech@meituan.com申请授权。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ACM MM & ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技

内容出产

内容分发

模型量化

近期文章

近期评论