We use cookies to improve your experience with our site.

基于可微几何原型分解的高效结构化三维重建

Efficient and Structure-Aware Three-Dimensional Reconstruction via Differentiable Primitive Abstraction

  • 摘要:
    研究背景 从多视图图像重建精细三维模型是计算机视觉与图形学领域的基础问题,但常需要在效率与保真度之间进行权衡。现有方法主要分为两类:一类基于体素/密集网格表示,计算开销大,难以用于实时或资源受限场景;另一类基于简单的几何几何原型(如点、线、面、基本体),虽然效率高且具有部件可分性,但往往难以捕捉精细的几何细节。近年来,基于神经隐式场(如符号距离函数SDF或占用场)的方法取得了高保真重建效果,但通常依赖计算昂贵的神经网络进行场函数预测,并且缺乏显式的部件划分,这限制了它们在需要部件级操作(如编辑、装配)或高效渲染等下游应用中的潜力。因此,如何在保证重建保真度的同时,生成计算高效、结构清晰(部件可分离)、网格轻量化的三维模型,是一个亟待解决的重要挑战。
    目的 本文旨在提出一种新颖的三维重建方法,能够从多视图RGB图像中高效地重建出高质量、部件可分离且网格轻量化的三维模型。该方法的目标是克服现有技术在效率、几何细节捕捉能力和结构感知(部件可分性)之间的固有矛盾,实现重建保真度与模型复杂度之间的更优平衡。通过这种方式,生成的模型不仅视觉效果好,而且结构清晰、易于编辑和高效渲染,更能满足交互式设计、虚拟现实/增强现实(VR/AR)、机器人操作等实际应用的需求。
    方法 本文提出一个包含两个主要阶段的重建流程(如图1所示):1. 可微几何原型分解 (Differentiable Primitive Abstraction):首先,利用标准的运动恢复结构(Structure-from-Motion, SfM)技术从输入的多视图图像中估计相机姿态和稀疏点云,并对点云进行去噪处理。接着,将场景抽象为一组由解析符号距离函数(Analytical Signed Distance Functions, SDFs)表示的长方体几何原型。利用可微体积渲染(Differentiable Volume Rendering)技术,通过最小化渲染图像与输入图像之间的颜色差异(渲染损失),同时结合一个表面损失项(鼓励SDF零水平集贴合去噪后的稀疏点云)和一个新颖的几何原型剪枝损失项(惩罚重叠区域中较小的几何原型以获得更简洁的分解),共同优化所有长方体几何原型的位姿(旋转、平移)和尺寸(长宽高)。这一阶段输出一个由优化后的几何原型隐式定义的、初步的、部件可分离的场景几何表示。2. 自动由粗到精网格优化 (Automatic Coarse-to-Fine Mesh Refinement):将第一阶段得到的几何原型组合直接导出为一个初始的、部件化的三角网格(每个几何原型对应几个三角面)。然后,采用一种自动的、由粗到精的网格优化策略来恢复被几何原型分解所忽略的精细几何细节。该策略迭代地进行两个步骤:1) 顶点位置优化:固定网格拓扑,利用可微光栅化(Differentiable Rasterization)渲染当前网格,并根据渲染损失反向传播梯度来微调顶点位置。渲染颜色通过查询第一阶段训练好的、已固定的外观模型(通常是一个小型MLP)获得。2) 自适应网格细分:根据优化过程中累积的每个三角面片的渲染误差,选择误差最高的面片进行中点细分(Midpoint Subdivision),从而在几何细节丰富或重建误差较大的区域动态增加网格分辨率。这两个步骤交替进行,直到达到预设的迭代次数或时间限制。最终,输出一个细节丰富、网格轻量化(相比体素或密集神经场方法)且部件属性得以保留的高保真三角网格,并可以烘焙纹理贴图以实现高效渲染。
    结果 本文在多个标准三维重建数据集(包括DTU, BlendedMVS, Tanks&Temples)上进行了实验评估,并与最新的相关方法(如NeRF2Mesh, DBW)以及纯神经表面重建方法(如NeuS, Gaussian Surfels)进行了定量和定性比较。表1和图2、3为部分结果数据。●定量结果:在DTU数据集上,本方法在几何重建精度(以Chamfer距离衡量)上显著优于NeRF2Mesh和DBW(平均CD分别为2.10, 2.92, 3.85),同时生成的网格极其轻量化(平均面片数约14.6k,远低于NeRF2Mesh的212.7k,但高于DBW的0.5k)。与NeuS和Gaussian Surfels相比,本方法几何精度略有差距(CD 2.10 vs 1.69/1.24),但在处理效率上大幅领先(总耗时约13分钟 vs 18分钟/4.5小时),且生成的网格顶点/面片数量减少了1-2个数量级(约7.3k/14.6k vs 915k+/1.8M+),并具备独特的部件可分离特性。●定性结果:可视化结果表明,本方法能够生成清晰、有意义的几何原型分解结果,重建的网格具有很高的视觉保真度,表面光滑且细节丰富,优于对比方法(后者可能存在噪声、空洞或过度平滑)。方法能有效处理具有一定复杂几何结构的对象,并保持部件的独立性,支持直观的部件级编辑操作(如交换、删除、复制)。此外,本方法在视图外插方面也表现出良好的鲁棒性,能在未观测视角生成合理的几何和纹理。●消融研究:通过移除或替换方法中的关键组件(如点云先验、表面损失、剪枝损失、几何原型初始化策略、网格优化阶段等),验证了各部分设计的有效性和必要性。例如,验证了基于点云的初始化优于随机初始化,剪枝损失有助于获得更简洁的分解,自动网格优化阶段对于恢复细节至关重要。局限性:当前使用长方体几何原型限制了对具有复杂曲面或非刚性物体的表达能力;几何原型分解主要基于几何拟合,缺乏语义理解;对于纹理缺失严重或光照变化剧烈的低质量输入图像,重建效果可能会下降。
    结论 本文成功提出并验证了一种新颖的两阶段三维重建框架,该框架通过结合可微的解析几何几何原型分解和自适应的网格优化技术,实现了从多视图图像高效生成高质量、结构感知(部件可分离)且轻量化的三维模型。研究结果表明,该方法在重建保真度、计算效率和模型复杂度之间取得了优于现有技术的平衡,特别是在生成具有清晰部件结构、易于编辑和高效渲染的模型方面展现出显著优势。这为需要结构化三维表示的下游应用(如交互式内容创建、AR/VR、机器人感知与操作)提供了一种实用且有效的解决方案。未来的工作包括探索引入语义先验指导几何原型分解、采用更具表达力的几何原型类型(如超二次曲面、混合表示)、增强对低质量输入的鲁棒性,以及结合材质恢复等方面,以进一步扩展方法的适用性和性能。

     

    Abstract: Reconstructing detailed three-dimensional (3D) models from multi-view images often involves a trade-off between efficiency and fidelity. Existing methods based on volumetric representations or dense meshes can be computationally expensive, while primitive-based methods struggle to capture fine geometric details. We propose a novel method that addresses this challenge by combining differentiable primitive abstraction with adaptive mesh refinement. Our method first abstracts the scene into a set of cuboid primitives represented by analytical signed distance functions (SDFs), enabling part separability. This stage leverages differentiable volume rendering to efficiently optimize the primitives’ poses and sizes. Subsequently, an automatic coarse-to-fine refinement procedure, guided by rendering loss, restores fine geometric details. Our method yields high-quality, part-separable meshes with low geometric complexity, suitable for applications requiring part manipulation and efficient rendering. We demonstrate the effectiveness of our method on the Technical University of Denmark Multi-View Stereo (DTU-MVS), BlendedMVS, and Tanks and Temples datasets, achieving a better balance between mesh complexity and reconstruction fidelity compared with existing techniques.

     

/

返回文章
返回