We use cookies to improve your experience with our site.

SinGRAV: 基于单个自然场景样本的三维场景生成模型

SinGRAV: Learning a Generative Radiance Volume from a Single Natural Scene

  • 摘要:
    研究背景 近几年来,随着神经辐射场技术的提出,三维场景重建和新视角合成质量得到了显著提升,三维场景生成也开始受到更多的关注,取得了明显进展。然而,目前的很多三维生成式模型需要对每个类别的场景,收集大量样本的图片,如人脸图片、汽车图片等,从中学习该类别场景的分布,从而生成新场景。
    目的 一般自然场景的类别繁多,对每种类别的场景都收集大量样本的图片,代价很高。同时,在很多类别的场景中,如草坪、城市建筑等,单个场景中不同的区域存在着丰富和鲜明的局部分布,这些局部区域存在很多相似性,但又有丰富的多样性。此外,近年来提出的基于单个样本的图片生成式模型,可以有效地从单个图片中学习局部先验,用于生成多样的新图片。因此,本文探索从单个三维场景样本中,学习其中的局部分布,生成新的三维场景。
    方法 本文提出的方法旨在从单个场景的多视角观测中学习得到一个场景生成模型,用以生成体素化表示的新场景。与学习特定类别下不同样本的先验不同,本文提出的方法关注的是学习单个场景的内在分布。为此,本文提出的方法使用三维卷积网络作为生成器,因为它的操作具有良好的局部性。为了逐渐从粗到细地学习训练场景在不同尺度下的特征,以控制生成的质量,本文提出框架使用混合多尺度架构。其中生成器金字塔包含一系列的3D卷积生成器。所提出的方法是在从生成场景中渲染得到的图片上进行对抗训练的,因此在每个尺度上设计了一个对应的2D图像鉴别器。为了使每个尺度上的生成器和鉴别器学习对应尺度的分布,生成器和图像鉴别器的感受野在每个尺度上是被限制的。同时,为了保证所生成场景的空间合理性,本文框架在最粗尺度上的输入噪声中注入了3D空间锚点,同时在对应的鉴别器中引入了联合鉴别RGB图像和深度图像的策略。在训练时,以由粗到细的尺度顺序,分别训练每个尺度的生成器和鉴别器。最终,本文提出的模型可以在克服由单个训练样本带来的模式坍塌的挑战的同时,有效地学习训练场景中的布局和细节先验,生成更多新的场景。
    结果 结果表明,本文提出的方法可以利用从训练场景中学习的局部先验,生成具有合理的外观和几何空间分布的新场景,而其他基线模型则遇到了严重的模式坍塌问题。同时,基于本文提出的模型和体素化的场景表示,也可以实现一些场景编辑任务和动画效果。
    结论 本文探索了基于单个训练场景的三维生成任务,提出了一个混合的多尺度生成器——鉴别器框架,克服了单个训练样本带来的模式坍塌问题,并在场景表示、网络结构、监督策略等方面做了合理的设计,使得所提出的方法可以同时实现较好的生成多样性、合理的空间布局和渲染结果。在消融实验中,本文对所提出的方法中的关键设计的有效性进行了充分地验证。同时本文提出的方法存在一些局限性,包括:1)它需要对单个场景收集几十至上百张多视角图片; 2)体素化的表达限制了它建模大场景的能力;3)无法很好地处理高度结构化的、由单个物体构成的场景,如一个人的头部模型场景等。因此,未来需要更多的设计,去克服目前存在的这些限制。

     

    Abstract: We present SinGRAV, an attempt to learn a generative radiance volume from multi-view observations of a single natural scene, in stark contrast to existing category-level 3D generative models that learn from images of many object-centric scenes. Inspired by SinGAN, we also learn the internal distribution of the input scene, which necessitates our key designs w.r.t. the scene representation and network architecture. Unlike popular multi-layer perceptrons (MLP)-based architectures, we particularly employ convolutional generators and discriminators, which inherently possess spatial locality bias, to operate over voxelized volumes for learning the internal distribution over a plethora of overlapping regions. On the other hand, localizing the adversarial generators and discriminators over confined areas with limited receptive fields easily leads to highly implausible geometric structures in the spatial. Our remedy is to use spatial inductive bias and joint discrimination on geometric clues in the form of 2D depth maps. This strategy is effective in improving spatial arrangement while incurring negligible additional computational cost. Experimental results demonstrate the ability of SinGRAV in generating plausible and diverse variations from a single scene, the merits of SinGRAV over state-of-the-art generative neural scene models, and the versatility of SinGRAV by its use in a variety of applications. Code and data will be released to facilitate further research.

     

/

返回文章
返回