We use cookies to improve your experience with our site.

基于立面组件布局关联的建筑立面解析网络

Element-Arrangement Context Network for Facade Parsing

  • 摘要: 1、研究背景(Context):建筑立面解析旨在从建筑物立面图像上识别并标注建筑立面所包含的各类立面组件(如窗户、窗台、门、烟囱等),并提取对应组件的位置和尺寸等几何参数,从而得到建筑立面结构化表达。建筑立面解析可广泛应用于计算机视觉和图形学的多个领域,包括建筑物重建、程序建模、城市规划、增强现实/虚拟现实、以及城市导航等。建筑物立面解析,可提供丰富的建筑立面语义和几何细节,对提升建筑物三维模型的视觉质量与真实感有重要作用。传统的立面解析方法往往需要依赖人工设计的先验知识,制定繁琐规则和处理流程,在面对复杂的建筑立面场景时欠缺鲁棒性。近年来,基于深度学习的方法被应用于建筑物立面解析,较大地提升了建筑立面的语义分割效果。然而,大多数方法没有充分考虑建筑立面的结构先验,包括建筑立面部件的矩形形状、对称性,以及立面布局的规律性,这些结构先验对于获得布局合理、结构完整的立面解析结果至关重要。
    2、目的(Objective):本文的研究目的在于将建筑立面的结构先验引入到建筑立面解析任务中,基于目标检测网络,建模建筑立面上部件间布局上下文,利用水平方向和竖直方向上立面的空间关联,聚合部件的局部特征和建筑立面的全局特征,提升部件识别和定位的准确率,以得到布局合理、结构完整的建筑立面解析结果。
    3、方法(Method):建筑立面部件大多为矩形形状,因此我们的建筑立面解析网络采用目标检测网络为骨架,设计了一个新的部件布局上下文立面解析网络(Element-Arrangement Context Network,EACNet)。为充分利用立面布局上下文信息,我们设计了一种新的部件布局上下文模块(Element-Arrangement Context Module,EACM),由两路并行的单向注意力支路来分别收集空间列上下文和行上下文信息,随后将两路上下文信息与局部图像特征进行聚合,输入到一个检测器,以获得建筑立面部件的语义和几何。这种双路的单项上下文聚合机制可以充分利用建筑立面部件的空间排列规律性和外观相似性。我们在四个公开的数据集(Graz50, ECP, CMP, eTRIMS)上均取得了最优性能,验证了所提方法的有效性和鲁棒性。
    4、结果(Result & Findings):我们在四个公开的数据集(Graz50, ECP, CMP, eTRIMS)上对所提建筑立面解析网络EACNet进行了充分的实验验证。与当下最先进的基于分割的建筑立面解析方法相比,我们的元素上下文排布网络在Graz50数据集上取得了最高的平均像素解析精度,在ECP数据集上实现最高的交并比指标。在CMP数据集上,通过大量消融实验,以及与现有基于注意力机制的检测方法对比,验证了所提元素上下文排布网络EACNet的有效性。而对于eTRIMS数据集上倾斜视角的街景图像,通过结合一个成熟的视角校正方法,对比现有最优基于语义分割的立面解析方法,我们EACNet网络可将立面解析的平均精度提升近8%。
    5、结论(Conclusions):我们设计的基于部件布局上下文的建筑立面解析网络(EACNet)可以充分利用建筑立面部件的对称性、布局规律性等结构先验,所提EACNet引导解析网络关注于建筑立面上水平方向、竖直方向部件相关性,有效地提升了建筑立面解析的准确性,验证了在深度学习网络中引入建筑立面的结构先验对改善建筑立面解析结果的重要性。

     

    Abstract: Facade parsing aims to decompose a building facade image into semantic regions of the facade objects. Considering each architectural element on a facade as a parameterized rectangle, we formulate the facade parsing task as object detection, allowing overlapping and nesting, which will support structural 3D modeling and editing for further applications. In contrast to general object detection, the spatial arrangement regularity and appearance similarity between the facade elements of the same category provide valuable context for accurate element localization. In this paper, we propose to exploit the spatial arrangement regularity and appearance similarity of facade elements in a detection framework. Our element-arrangement context network (EACNet) consists of two unidirectional attention branches, one to capture the column-context and the other to capture row-context to aggregate element-specific features from multiple instances on the facade. We conduct extensive experiments on four public datasets (ECP, CMP, Graz50, and eTRIMS). The proposed EACNet achieves the highest mIoU (82.1% on ECP, 77.35% on Graz50, and 82.3% on eTRIMS) compared with the state-of-the-art methods. Both the quantitative and qualitative evaluation results demonstrate the effectiveness of our dual unidirectional attention branches to parse facade elements.

     

/

返回文章
返回