在刚刚结束的国际机器人 Habitat 物体方针导航挑战赛 (Habitat ObjectNav Challenge 2022) 上，字节跳动 AI Lab-Research 团队提交的办法 ByteBOT 取得冠军。该办法结合了根据地图的传统办法以及端到端的深度仿照学习办法，集两种办法的优势于一体，达到了当时最好的成果。

物体方针导航 (Object Navigation) 是智能机器人的基本使命之一。在此使命中，智能机器人在一个未知的新环境中主动探究并找到人指定的某类物体。物体方针导航使命面向未来家庭服务机器人的应用需求，当人们需求机器人完成某些使命时，例如拿一杯水，机器人需求先寻觅并移动到水杯的方位，然后帮人们取到水杯。

Habitat Challenge 挑战赛由 Meta AI 等机构联合举行，是物体方针导航范畴的知名赛事之一，截至 2022 今年已接连举行４届，本次比赛共有 54 支参赛队参加。在比赛中，字节跳动 AI Lab-Research 团队的研讨者针对现有办法的缺乏，提出了一种全新的物体方针导航结构。该结构巧妙地将仿照学习与传统办法结合，从一众办法中锋芒毕露取得冠军。在要害指标 SPL 中大幅度超过了第二名及其他参赛部队的成果。历史上该赛事的冠军部队一般是 CMU、UC Berkerly、Facebook 等知名研讨机构。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

Test-Standard 榜单

Test-Challenge 榜单

Habitat Challenge 比赛官网：aihabitat.org/challenge/2…

Habitat Challenge 比赛 LeaderBoard：eval.ai/web/challen…

1. 研讨动机

现在的物体方针导航办法能够大致分为端到端的办法和根据地图的办法两大类。端到端的办法提取输入的传感器数据的特征，再送入一个深度学习模型中得到 action，此类办法一般根据强化学习或仿照学习（如图１Map-less methods）；根据地图的办法一般会构建显式或隐式地图，然后经过强化学习等办法在地图上选取一个方针点，最后规划途径并得到 action（如图１Map-based method）。

图１　端到端的办法(上)和根据地图的办法（下）流程示意图

在经过大量试验比照两类办法后，研讨者们发现这两类办法各有好坏：端到端的办法不需求构建环境的地图，因而更加简洁，且不同场景的泛化能力更强。但由于网络需求学习编码环境的空间信息，依靠大量的练习数据，且难以一同学习一些简略的行为，比如在方针物体邻近停下。而根据地图的办法运用栅格来存储特征或语义，具有显式空间信息，因而这类行为的学习门槛较低。但它非常依靠准确的定位成果，并且在一些如楼梯等环境中，需求人工规划感知和途径规划战略。

根据上述结论，字节跳动 AI Lab-Research 团队的研讨者们希望将两类办法的优势结合起来。然而这两类办法的算法流程差异很大，难以直接组合；此外也很难规划出一种战略直接融合两种办法的输出。因而研讨者规划了一种简略但有效的战略，使两类办法根据机器人的状态交替进行主动探究和物体查找，然后将各自的优势最大程度地发挥出来。

2. 比赛办法

算法首要有两个分支组成：根据概率地图的分支和端到端的分支。算法的输入是第一视角的 RGB-D 图画和机器人位姿，以及需求寻觅的方针物体类别，输出是下一步动作 (action)。首要对 RGB 图画进行实例切割，并将其与其他原始输入数据一同传给两个分支。两个分支别离输出各自的 action，并由一个切换战略决议终究输出的 action。

图2 算法流程示意图

根据概率地图的分支

根据概率地图的分支借鉴了 Semantic linking map[2] 的思想，对作者原来发表在 IROS 机器人顶会的论文[3]的办法进行了简化。该分支根据输入的实例切割成果、深度图和机器人位姿，一方面构建 2D 语义地图；另一方面根据预先学习的物体间相关概率，对一张概率地图进行更新。

概率地图的更新办法包括以下几种：当检测到方针物体但没有满足掌握时(相信概率 confidence score 低于阈值)，此刻应该持续接近调查，因而概率地图上相应区域的概率值应该进步（如图 3 上方所示）；同理，如果检测到和方针物体有相关的物体（例如桌子和椅子放在一同的概率比较高），则相应区域的概率值也会进步（如图 3 下方所示）。算法经过挑选概率最高的区域作为方针点，鼓励机器人接近潜在方针物体以及相关物体进一步调查，直到找到相信概率高于阈值的方针物体。

图3 概率地图更新办法示意图

端到端的分支

端到端分支的输入包括 RGB-D 图画、实例切割成果、机器人位姿，以及方针物体类别，并直接输出 action。端到端分支的首要作用是引导机器人像人类一样寻觅物体，因而采用了 Habitat-Web[4] 办法的模型和练习流程。该办法根据仿照学习，经过在练习会集搜集人类寻觅物体的示例样本练习网络。

切换战略

切换战略首要根据概率地图和途径规划的成果，在概率地图分支和端到端分支输出的两个 action 中挑选一个作为终究输出。当概率地图中没有概率大于阈值的栅格，机器人需求对环境进行探究；当地图上无法规划出可行途径时，此刻机器人可能处于一些特殊环境（如楼梯），这两种情况下会采用端到端分支，使机器人具备满足的环境适应能力。其他情况则挑选概率地图分支，充分发挥其在寻觅方针物体方面的优势。

该切换战略的效果如视频所示，机器人一般情况下利用端到端分支高效地探究环境，一旦发现了可能的方针物体或相关物体，则切换到概率地图分支接近调查，如果方针物体的相信概率大于阈值，则在方针物体处停下；否则该区域的概率值会不断降低，直到没有概率大于阈值的栅格，机器人从头切换回端到端持续探究。

视频链接：bytedance.feishu.cn/docx/GfWydt…

从视频中能够看出，这种办法兼具了端到端办法和根据地图的办法的优势。两个分支各司其职，端到端办法首要负责探究环境；概率地图分支负责接近感兴趣区域进行调查。因而该办法不只能够在杂乱场景探究（如楼梯），还降低了端到端分支的练习要求。

3. 总结

针对物体主动方针导航使命，字节跳动 AI Lab-Research 团队提出了一种结合经典概率地图与现代仿照学习的结构。该结构是对传统办法与端到端办法相结合的一次成功的测验。在 Habitat 比赛中，字节跳动 AI Lab-Research 团队提出的办法大幅度超出了第二名及其他参赛部队的成果，证明了算法的先进性。经过将传统办法引入现在干流的 Embodied AI 端到端办法，来进一步补偿端到端办法的一些缺乏，然后使得智能机器人在帮助人、服务人的道路上更进一步。

近期，字节跳动 AI Lab-Research 团队在机器人范畴的研讨还被 CoRL、IROS、ICRA 等机器人顶会收录，其间包括物体位姿估计、物体抓取、方针导航、自动装配、人机交互等机器人核心使命。

【CoRL 2022】Generative Category-Level Shape and Pose Estimation with Semantic Primitives

论文地址：arxiv.org/abs/2210.01…

【IROS 2022】3D Part Assembly Generation with Instance Encoded Transformer

论文地址：arxiv.org/abs/2207.01…

【IROS 2022】Navigating to Objects in Unseen Environments by Distance Prediction

论文地址：arxiv.org/abs/2202.03…

【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension

论文地址：arxiv.org/pdf/2210.13…

【ICRA 2022】Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets

论文地址：arxiv.org/abs/2204.05…

【IROS 2021】Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation

论文地址：arxiv.org/abs/2108.02…

【IROS 2021】Learning to Design and Construct Bridge without Blueprint

论文地址：arxiv.org/abs/2108.02…

4. 参考文献

[1] Yadav, Karmesh, et al. “Habitat-Matterport 3D Semantics Dataset.” arXiv preprint arXiv:2210.05633 (2022).

[2] Zeng, Zhen, Adrian Rfer, and Odest Chadwicke Jenkins. “Semantic linking maps for active visual object search.” 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.

[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. “Navigating to Objects in Unseen Environments by Distance Prediction.”arXiv preprint arXiv:2202.03735(2022).

[4] Ramrakhya, Ram, et al. “Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

5. 关于我们

字节跳动 AI Lab NLP&Research 专注于人工智能范畴的前沿技术研讨，涵盖了自然语言处理、机器人等多个技术研讨范畴，一同致力于将研讨成果落地，为公司现有的产品和事务供给核心技术支持和服务。团队技术能力正经过火山引擎对外开放，赋能 AI 创新。

字节跳动 AI-Lab NLP&Research 联系办法

招聘咨询：fankaijing@bytedance.com
学术协作：luomanping@bytedance.com

扫描下方海报二维码或联系HR进行简历投递，快来参加我们吧

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

1. 研讨动机

2. 比赛办法

3. 总结

4. 参考文献

5. 关于我们

近期文章

近期评论