基于文字的复杂图像合成综合系统

doi:10.1007/s11390-020-0305-9

基于文字的复杂图像合成综合系统

A Comprehensive Pipeline for Complex Text-to-Image Synthesis

摘要

摘要: 目的本文主要研究如何根据输入的英文文本，由计算机自动生成一幅含有多个物体和背景的复杂场景图片，即说话生图。
说话生图在在计算机视觉领域是一个具有挑战性的研究课题。当今互联网上可以找到数以亿计的图片，但是这些图片的内容不一定符合特定用户的多种特殊要求，而且用户可能期望得到一些超现实的图片，因此通过检索的方法并不一定能得到期望的图片。文字是大多数人用作描述一个场景或者画面的常用工具，因此本项目的目标在于通过用户提供的文字描述信息生成符合用户要求的图片。
只含有单个物体的简单图片在网络上比较容易找到。复杂的场景图片由于含有的语义信息比较多而复杂，一般包括一个背景和前景物体，这些物体和背景之间一般存在某些位置关系，比如A物体挨着B物体，C物体存在于背景的某个区域等，造成了完全符合输入文字要求的场景图片较难检索。因此，我们需要利用现有的前景物体图片和背景图片资料，对其进行分析和重组，根据用户输入的文本来合成需要的场景图片。
本文的研究有两方面的重要性。第一，根据文本生成图片能够降低人工检索图片的盲目性和低效性，由输入文本一次性得到满足要求的图片；第二，能够提高现有图片资源的利用率。
方法本文的大致框架如图1所示。本课题的基本设计主要包括以下几个部分：（1）文字处理：对于用户输入的文字，首先需要用自然语言处理（Natural Language Processing，NLP）工具Stanford Core NLP进行处理，这个语言分析工具使计算机知道要生成的图片包括什么物体，物体需要符合什么样的约束条件。这些约束条件包括成对的前景物体之间的位置关系以及前景物体和背景区域之间的位置关系，我们用多个语义三元组（Semantic Triplets）来表示这些约束。
（2）检索前景物体和背景场景：结果图片中需要的各种物体和背景图片都需要从数据库中选择出来。我们建立了包括已经标记和分割的前景物体数据库，也必须包括经过分析的背景图片数据库。我们根据文字处理的结果首先根据名称和属性信息检索所需的前景物体，然后对背景图片集中的图片进行字幕生成（Image Captioning），根据名称和一定的规则检索需要的背景图片。
（3）受约束MCMC优化算法图像生成：这一步就是把物体以合适的大小摆放到合适的位置，使得这些物体的状态满足文字描述的要求。刚从数据库中选出的物体可以随意选择初始位置，每优化一次就改变一次物体的位置和大小。我们对于物体当前状态建立一个代价函数。在位置方面，代价函数主要计算物体是否重叠，是否在合理的背景区域，相对位置关系是否正确；在大小方面，主要考虑物体的相对大小和透视效果的影响。我们使用MCMC（Markov Chain Monte Carlo）采样方法来对代价函数进行优化，此方法能够在较短时间内降低代价，找到最优解。
（4）图片后处理：在后处理阶段，由于前景物体和背景图片对象来自不同的源图像，因此需要进行一些后处理，使各部分合成和谐的图片结果。我们使用了两种不同的区域融合方法：基于泊松的融合（Poisson based blending）和基于重光照（Relighting based blending）的混合。基于泊松的融合可以使前景物体块具有自然的边界和和谐的颜色，基于重光照的融合可以处理光照的协调。
结果我们的图像生成结果具有以下优点。首先，我们的合成结果是清晰的高分辨率图像，具有完整的前景对象和清晰的背景场景。第二是能够与输入的句子语义一致。第三，图像中的物体和场景是合理的，所有的前景对象有适当的位置和大小。最后，我们的结果图前景物体和背景图像颜色协调的和谐图像。
图5中展示了我们方法所生成的场景图片及其对应的输入语句，图6展示了我们的用户调查结果。结果表明，大多数用户认为我们的方法可以生成更高质量的结果图像，具有更高的文本-图像匹配度。我们的方法在系统可用性上得分较低，因为我们的系统在每个输入句子上生成结果图像的时间比训练过的Obj-GAN模型要长一些。
本文的方法也存在一些局限性。由于语言文字的复杂性，我们目前还不能处理所有的文字信息，比如天气，时间，季节等信息。因为前景物体源图片中含有一些俯视图或者仰视图，这样会造成相应前景物体与背景图片的视角不一致。如下图7所示。一定成的的视角不一致是不会造成明显的影响的，但是不排除有少数图片的视角差异比较大，如果融合到一个场景中会造成明显的视角差异错误。
结论本文的方法在实现过程中需要从多方面制定规则以控制合成的效果。比如，场景中前景物体不能重叠，它们之间的位置关系要符合人的观察习惯，在调整尺寸的时候，需要注意近大远小等问题。在本文中，我们经过长时间的研究和实验最终得到较高质量的合成场景图片，实现用户只要输入一句文字，就能得到相应的场景图片。
在未来，我们期望处理更复杂、更有意义的文本，比如一段文字甚至一个故事，生成更生动、更复杂的合成图像或者视频，与图像相比，视频内容时空一致性的研究更具挑战性。利用文字生成的视频具有更好的传播性，在教学、办公、自媒体等领域具有很高的应用价值。

Abstract: Synthesizing a complex scene image with multiple objects and background according to text description is a challenging problem. It needs to solve several difficult tasks across the fields of natural language processing and computer vision. We model it as a combination of semantic entity recognition, object retrieval and recombination, and objects’ status optimization. To reach a satisfactory result, we propose a comprehensive pipeline to convert the input text to its visual counterpart. The pipeline includes text processing, foreground objects and background scene retrieval, image synthesis using constrained MCMC, and post-processing. Firstly, we roughly divide the objects parsed from the input text into foreground objects and background scenes. Secondly, we retrieve the required foreground objects from the foreground object dataset segmented from Microsoft COCO dataset, and retrieve an appropriate background scene image from the background image dataset extracted from the Internet. Thirdly, in order to ensure the rationality of foreground objects’ positions and sizes in the image synthesis step, we design a cost function and use the Markov Chain Monte Carlo (MCMC) method as the optimizer to solve this constrained layout problem. Finally, to make the image look natural and harmonious, we further use Poisson-based and relighting-based methods to blend foreground objects and background scene image in the post-processing step. The synthesized results and comparison results based on Microsoft COCO dataset prove that our method outperforms some of the state-of-the-art methods based on generative adversarial networks (GANs) in visual quality of generated scene images.

HTML全文

参考文献()

施引文献

资源附件()