ReLoc：运用分层站点地图和视图合成的室内视觉定位

doi:10.1007/s11390-021-1373-1

ReLoc：运用分层站点地图和视图合成的室内视觉定位

ReLoc: Indoor Visual Localization with Hierarchical Sitemap and View Synthesis

摘要

摘要: 1、研究背景（context）
近年来，随着增强现实技术、基于位置的服务以及自动驾驶技术的快速发展，基于地图数据的相机定位方法受到了工业界和学术界的广泛关注。室内视觉定位，即针对已知场景的查询图像的6自由度相机姿态估计，主要应用于机器人技术和增强现实技术。然而，在实际应用中，特别是在大规模室内场景中，光靠单纯的SLAM技术几乎不能满足需求。这是因为在大规模室内场景中，例如商场、楼宇，长时间的SLAM必然会导致姿态的漂移，从而导致定位出错。此外室内定位问题还存在以下难点：1）随着家具被移动和人群行走，场景外观随时间的巨大变化；2）离线构建地图时的视点与在线定位时的视点可能存在较远距离。这些情况极易造成认知混淆问题，可显著降低室内定位的准确度和可靠性。因此，基于地图数据，面向大规模室内场景的精准的视觉定位技术具有非常重要的研究意义。
2、研究目标（Objective）
已知场景本身如何高效计算相机的位姿信息，特别是针对大规模室内场景布局，如整个一座楼，如何快速定位相机当前的位姿信息，是服务和巡检机器人、基于场景的增强现实等应用的重要技术基础，也是本文研究的主要目标。此外，现场查询图像和预先录制的室内图像之间的视觉差异很大，这对视觉定位也是一个巨大的挑战。而基于地图数据，面向大规模室内场景的视觉定位技术是解决此类问题的一个有效途径，具有重要的实际意义。
3、研究方法（Method）
为了解决上述难题，我们提出一个基于RGB图像的视觉定位系统-ReLoc，它包含结构化地图构建（离线）和视觉定位（在线）两部分。具体地，我们的方法主要包括以下三个方面：1）提出离线的多层级地图的组织和构建。除从提取的场景布局上以不同位置、多重角度的视点合成新的视图，以达到丰富原始数据集的目的。并针对扩展的数据集，组织和建立了分层场景地图，为在线定位提供方便的图像和几何数据协同查询和处理。2）提出一种基于图像统计信息的新的全局图像描述符BMVC（block mean，variance，and color）。使用BMVC重新排列候选图像的列表，可进一步筛选出查询图像的最近邻，从而提高定位的效率。3）提出一种新的相似性度量算法，该算法同时关注了图像的外观信息和几何分布，并被用于位姿验证阶段，旨在从多个候选位姿中选择一个可靠性最高的位姿作为最终结果。在基准数据集上的实验结果表明，我们的方法在视觉定位的可靠性和准确性方面优于最新方法。
4、结果（Result&Findings）
我们使用InLoc数据集作为基准数据集，本工作从三个方面评估提出的定位方法：
1）图像检索算法的召回率评估；
为了验证我们提出的图像检索算法的有效性，我们对提出的检索算法进行性能评估，并使用召回率Recall@N作为评估指标，表1-1中展示了相应算法的检索效果。Recall@N是指在图像检索模块返回的N个最近邻数据库图像里，得到定位正确的图像的概率，即召回率数值越高，表示该方法越有效。正确定位被定义为，在N个数据库图像中存在着至少一个与查询图像相关的数据库图像，其中相关性取决于查询和数据库图像是否关联到相同的平面特征。
通过表1-1，我们可以清楚的发现我们提出的图像检索方法可以有效的检索相似的图像，为后期的定位提供有效的基础。
2）位姿验证算法的有效性评估；
为了证明位姿算法的有效性，我们报告了两种不同的位姿验证算法在不同的数据集上的实验结果。以DensePV位姿验证算法作为基准，对比了我们提出的LayoutPV位姿验证算法，并且分别给出了这两种方法在原始数据集和扩展数据集上的表现，如表1-2所示。
3）定位精度的比较实验
为了验证算法的定位性能，我们比较了几种方法的定位精度。其中，InLoc和InLoc+N+S是我们的ReLoc方法的主要基准，InLoc+N+S是InLoc的一种变体，集成了法向估计和语义分割的思路用于查询图像的相机定位。除了InLoc及其变体之外，我们还与其他的定位的基准方法，即Direct 2D-3D匹配和DisLoc进行了比较。实验结果显示了我们的定位算法具有更高的精度，详细的分析请参考我们的论文。
5、结论（Conclusions）
针对已知大场景的历史数据库信息，包括2D图像数据库和对应的3D点云信息，本文研究了一种基于图像检索技术和学习特征的全局定位方法。选择了一种基于学习的特征表达，作为图像的描述，用于图像检索，以应对查询图像和数据库图像外观差别显著的挑战。在离线阶段，研究了一种在历史数据库的基础上组织和构建多层级地图的表达方式，用来为在线定位提供方便的图像/几何数据的查询/处理。此外，我们还研究了一种基于图像统计信息的全局图像描述子，用于辅助图像检索的重排序。最后提出了一种位姿验证算法，用于输出可靠性更高的查询图像相机位姿。本工作提出的方法在视觉定位的有效性和准确性方面优于最新方法。

Abstract: Indoor visual localization, i.e., 6 Degree-of-Freedom camera pose estimation for a query image with respect to a known scene, is gaining increased attention driven by rapid progress of applications such as robotics and augmented reality. However, drastic visual discrepancies between an onsite query image and prerecorded indoor images cast a significant challenge for visual localization. In this paper, based on the key observation of the constant existence of planar surfaces such as floors or walls in indoor scenes, we propose a novel system incorporating geometric information to address issues using only pixelated images. Through the system implementation, we contribute a hierarchical structure consisting of pre-scanned images and point cloud, as well as a distilled representation of the planar-element layout extracted from the original dataset. A view synthesis procedure is designed to generate synthetic images as complementary to that of a sparsely sampled dataset. Moreover, a global image descriptor based on the image statistic modality, called block mean, variance, and color (BMVC), was employed to speed up the candidate pose identification incorporated with a traditional convolutional neural network (CNN) descriptor. Experimental results on a popular benchmark demonstrate that the proposed method outperforms the state-of-the-art approaches in terms of visual localization validity and accuracy.

HTML全文

参考文献()

施引文献

资源附件()