元探究:依据场景方针谱的探究性分层视觉和言语导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
Essay Address:[2303.04077] Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding (arxiv.org)

Project Navigation: rllab-snu.github.io/projects/Me…

论文布景与奉献

1、概念与布景

​ 虚拟导航是指在虚拟环境中进行导航使命,进一步能够说是像原神或王者荣耀中的探究峡谷地图使命。与此同时,视觉与言语交互技能成为一个新式穿插的热点。近年来,研讨者期望智能体在对视觉和言语信息有用处理的基础上经过跨模态语义对齐实现对新环境和人类意图的精确感知,并要求在感知前提下自主做出途径规划和行为决策。

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
Peter Anderson等人于2018年首先提出视觉言语导航使命,而且公开了与使命相对应的依据实在环境的R2R数据集,并在Matterport-3D模拟器上完结了仿真。

2、问题与应战

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
由上图能够看出VLN和VQA的相同点在于都能够被公式化成为依据视觉的序列到序列编码和解码的问题。但视觉言语导航的序列比VQA更长,而且在运用实在图画的视觉言语使命中,VLN是仅有输出操作(a0、a1、… aT)以操纵相机视角的滚动。

​ 经过对VLN范畴中很多代表性作业进行梳理和总结,在复杂的虚拟环境中导航使命面临的关键性应战大致分为以下三方面:

  • 跨模态语义难以对齐
    • 言语是多字符组合,视觉对应的图画区域是具有二维空间关系的多通道像素值的组合,数据差异性很大
  • 语义了解与推理困难(导航使命部分)
    • 人类不行能给出带有详细移动步骤的指令,智能体需求识别出指令包括的关键场景和物体,并将语义信息与视觉信息一起进行推理,然后得到动作空间的途径规划,并将其分解为一系列履行步骤。很大难点在于,指令的语义与行为的细粒度对齐关系通常较少在练习数据中显式地进行标示 ,因而要求具有自主的推理才干
  • 模型泛化才干较弱
    • 场景泛化才干——因为光照、视角等要素变化,来自新环境的视觉模态输入自身具有不同特性信息,智能体首要对其进行精确的感知和了解,才干继续后续的导航使命
    • 指令泛化才干——受到数据采集和标示等要素的限制,练习数据中指令有限,面对新的多样的指令信息怎么学习和了解
    • 行为泛化才干——能够了解新指令还不行,精确完结指令对应的动作十分困难

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
看一下2018年Anderson的值得一提的奉献便是这个验证试验,这儿的student-forcing练习办法是运用自己生成的输出作为输入的,成果在练习环境和新环境下成功率别离为38.6%和21.8%,差异显著,说明泛化才干从那时起就成为一个经典应战。

3、本文所研讨问题

首要应战:怎么了解不知道环境的自然言语指令

首要限制:假如一个动作是错误的,那么智能体无法遵从指令或探究不必要的区域,从而导致导航走上不行康复的道路。

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
这张图了解一下,便是智能体重复探究部分区域,可是找不到方针位置,这种状况叫做regretful exploitation problem

4、本文首要奉献

​ Ⅰ 提出一种新颖有用的依据场景方针谱的探究性分层视觉和言语导航办法Meta-Explore,该办法经过结合探究和运用战略,实现高效、精准的虚拟导航。

​ Ⅱ 提出了一种新的视觉标明办法——场景方针谱(Spectral-domain Object Spectrum, SOS),用于辅导导航进程。该办法能够有用地捕捉场景中物体之间的关系,并提供有用的语义信息头绪。

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
​ Ⅲ 在3个常用的评价虚拟导航代理程序功能的基准测验集(R2R、SOON和REVERIE)上对Meta-Explore办法进行了试验验证,并与其他基线办法进行了比照。试验成果标明,Meta-Explore办法在测验集上获得了较好的体现,尤其在SOON测验集上比较其他基线办法提高了**17.1%的成功率和20.6%**的SPL值。

Meta-Explore办法结构

总结:凭借SOS视觉表达获得语义上有意义的头绪,运用形式挑选器构建包括探究和运用两个模块在内的分层导航模型

1️⃣形式挑选器

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
首先,从本文弥补材猜中拿出来的Meta-Explore的整体结构给我们讲一讲。

1、初始化PexploreP_{explore}和拓扑图(途径规划中最短途径问题一般都要用到这个Dijskra算法或者是A*算法),先是随机探究更新拓扑图和节点对应物体特征、全景RGB特征以及言语指令。

2、这儿有一句在 时间t 状况下cross-modal embedding是指将视觉信息和言语信息加权求和,生成代表当时状况的躲藏状况的进程。详细来讲,就分红:

榜首部分,预处理完了之后,作者用ResNet-101作为卷积神经网络模型进行特征提取,这儿在Exploitation模块中是运用场景方针谱这个办法把物体信息捕捉到频谱域上的。

第二部分,便是用Transformer网络将导航指令转换成特征向量

第三,便是穿插注意力机制,对视觉特征和言语特征进行加权求和,而且输出一个代表当时状况的躲藏状况,叫做 Hidden State

最终,为了考虑到历史节点的影响,将拜访过的节点信息进行编码融合,赋值给Ht

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

接着看算法,下面就用到了PexploreP_{explore} 这个值,便是用到了形式挑选器,假如PexploreP_{explore} 大于0.5,那么就探究形式,假如小于0.5就转换成运用形式。最下面这儿的SmodeS_{mode} 其实便是形式挑选器,它来调节PexploreP_{explore} 的大小,进而决定下一步举动的形式。

然后让我们看看论文里关于挑选器的一些图:

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
上面这张就解说了cross-modal embedding的穿插注意力机制,生成的Ht,也便是躲藏状况Hidden State经过FFNN机制(也便是前馈神经网络)输出PexploreP_{explore} ,再由各自模块生成举动向量ata_{t} 来履行相应的动作。详细怎么输出如下,凭借FFNN和特征权重矩阵。

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

2️⃣探究模块——随机探究,更新拓扑图

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

1、拓扑图构建首要分红2部分,便是要将环境中节点分为两类,已拜访和未拜访,未拜访的意思便是智能体没抵达可是能够看得到。然后对那些未拜访的节点进行边缘连接。

2、自我监督便是运用2层前馈神经网络来得到估计值A,跟实在值B比较,我图上面不该该加绝对值的这块,意思便是假如A=B那就按照最短途径上挑选下一个候选节点,假如A>B那么说明智能体依据猜测跑快了,所以要保守一点举动;假如A<B那么说明智能体依据猜测跑慢了,所以要激进一点举动。

3、最终探究战略,依据算法来看,是依据Softmax函数实现的,

依据后面弥补资料以及相关的资料,我大致认为是这样核算的:

Fexplore=esimilarity(Ht,vi)sum(esimilarity(Ht,vi)),vi代表各个未拜访节点F_{explore}=\frac{e^{similarity(H_{t},v_{i})}}{sum(e^{similarity(H_{t},v_{i})})},v_i代表各个未拜访节点
similarity(Ht,vi)标明当时状况的躲藏状况Ht与节点vi之间的类似性衡量(如余弦类似度)similarity(H_{t},v_{i})标明当时状况的躲藏状况H_t与节点v_i之间的类似性衡量(如余弦类似度)
wi=eFexploresum(eFexplore),wi代表每个未拜访节点在softmax函数中对应的权重w_{i}=\frac{e^{F_{explore}}}{sum(e^{F_{explore}})},w_i代表每个未拜访节点在softmax函数中对应的权重

也便是,智能体会将未拜访节点的探究概率经过softmax来生成一个权重的概率散布,随机挑选一个未拜访节点,并将其作为下一步要前往的方针。

(这儿之所以屏蔽了已拜访节点的探究概率核算,便是为了增强智能体的鲁棒性,避免陷入部分最优解的状况)

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
原文:可是这儿也很奇怪,为什么算法写成max?

3️⃣运用模块

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
下图展示了算法进程,首先将未拜访但能够调查到的节点加入拓扑图中,经过导航得分SnavS_{nav}来确认一个部分方针点,然后需求经过途径规划抵达那个部分方针点。
(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

最终总结其间的技能难点在于:

1、SOS怎么实现可查找范围扩大?

2、部分方针是依据导航得分确认的,那导航得分是怎么核算的?

3、规划途径到部分方针

有新型的视觉表达办法,SOS场景方针谱,首要技能体现在二维傅里叶变换上。首要便是用SGCN办法来生成物体信息标明,能够将物体信息捕获在频谱域上,而且比RGB图画嵌入等办法愈加易于猜测

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

部分方针查找:

Step 1 在SOS中,智能体运用SGCN生成的频谱域中的物体信息来构建方针向量,将其与周围一切可调查节点之间的特征向量进行比较,核算它们之间的语义类似度,挑选类似性得分最高的节点确认为方针节点。(语义类似度依据余弦类似度的办法,智能体将该节点特征向量与周围一切调查节点之间的特征向量进行内积核算,并将成果除以各自的模长得到)

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
Step 2 智能体运用Dijskra算法或者A*算法在拓扑图上规划途径,将自然言语指令解析成一个包括关键词和描绘词汇的列表,并将其与已规划的途径进行比较。然后,它运用一种依据余弦类似度的办法来核算对齐程度得分

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

导航试验部分

1、VLN数据集=进程驱动数据集+方针驱动数据集

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

  • R2R数据集 <进程驱动>

    榜首个依据实在室内场景的最常用的数据集。下图中, 上半部为智能体沿某条途径运动时的场景图序列, 蓝色箭头标明当时场景下一步的运动方向; 下半部为该途径对应的 3 条指令, 指令中的色彩标示与上半部途径图画序列的方框色彩相对应。

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

  • SOON数据集<方针驱动>

  • REVERIE数据集<方针驱动>

    特色:指令侧重重视对于方针物体的描绘, 而移动进程则十分简略, 意图是评价智能体自主导航并精确识别寻觅方针物体的才干。

2、评价方针(评价智能体导航精确性)

  • Navigation Score首要重视途径规划方面的体现,包括了途径长度 TL、成功率 SR、成功率加权逆途径长度 SPL、运用Oracle战略核算的导航使命成功率 OSR。
  • Object grounding performanc则首要重视代理人在识别和定位方针物体方面的体现,包括了方针发现成功率 FSR和方针发现成功率加权逆途径长度 FSPL。

3、比较类型和办法的设置

  • For each tasks:recurrent, sequential, and topological map
  • For specific exploitation methods: homing,jump和local goal search

4、与常见VLN基准测验集比较

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
在R2R数据集上,Meta-Explore办法相对于其他探究型和层次型基线办法都获得了更好的体现。详细来说,Meta-Explore办法在一切验证集和测验集划分中都优于其他探究型基线办法,在成功率和SPL等方针上均获得了更好的体现。此外,Meta-Explore办法还优于SMNA、Regretful-Agent、FAST和SSM等层次型基线办法,在成功率方面获得了更好的体现。

​ 在SOON数据集上,Meta-Explore办法相对于其他基线办法并没有显着的优势。尽管Meta-Explore在测验集未见过场景中获得了较好的体现,但在验证集和测验集已见过场景中并没有显着优势。

​ 在REVERIE数据集上,因为该数据集是一个新颖的多模态导航使命,因而没有可比性的基线模型。可是,在试验成果中能够看出,Meta-Explore相对于随机探究战略有所提高,而且能够经过Meta-Explore来适应不同的导航场景。

​ 归纳来看,Meta-Explore办法在R2R数据集上体现较好,在SOON数据集上体现一般,在REVERIE数据集上也有必定的提高。这一定论标明,Meta-Explore办法能够适用于不同类型的导航使命,而且具有必定的泛化才干。

(❗但注意上述成果仅适用于确认的三个数据集,在实际运用中,还需求考虑模型的可扩展性、鲁棒性等要素,并进行愈加全面和深化的评价)

5、与不同类型的部分查找办法比较

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

​ 该部分经过试验比较了运用不同类型的部分方针查找办法对导航使命功能的影响,并分析了SOS特征在导航使命中的效果。作者运用了R2R数据集和SOON数据集进行评价。其间,R2R数据集是一个依据自然言语描绘的导航使命,SOON数据集则是一个依据视觉图画的导航使命。对于这两个数据集,作者别离运用了Oracle、Random、Greedy和SOS四种不同类型的本地方针查找办法,并比较了它们在成功率和SPL等方针上的体现。 试验成果标明,在R2R数据集上,运用Oracle办法能够获得最好的功能;而在SOON数据集上,运用SOS办法能够获得最好的功能。此外,在两个数据集上都发现,相对于Random和Greedy办法,SOS办法能够显著提高导航使命功能。

在弥补材猜中有个部分方针查找比照图的例子:

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航

6、融化研讨

(新)元探索:基于场景对象谱的探索性分层视觉和语言导航
​ 弥补材猜中的成果标明,在空间、光谱和言语三个标明域中,光谱域特征对导航功能的增强最大。

评述