We use cookies to improve your experience with our site.

BiGAE: 一种双向生成式自编码器

Bi-GAE: A Bidirectional Generative Auto-Encoder

  • 摘要:
    研究背景 自动编码器 (AEs) 是一种用于高效地编码数据以降低维数,并将编码解码为重构数据的深度学习算法。近年来,随着AEs被广泛应用于图像的分类与重建和异常检测等各个领域,如何提高自编码器的生成和表征能力成为了一个热门的研究课题。由于解码器的生成和编码器的表征是双向的映射过程,因此AEs本质上是一个联合的双向优化问题。近年来,引入并优化基于GAN机制的网络模型逐渐成为AE的重点发展方向。一方面,对于解码的生成能力而言,生成对抗网络(GANs)已经成为最先进的生成模型;另一方面,对于编码的特征表示能力而言,基于GAN的编码器可以有效地从隐变量空间中提取某些分布方向,这些成分对应于数据分布的某些特定语义属性。然而,如何在保证模型收敛的同时,实现编码器和解码器/生成器之间的双向映射的联合优化仍然是一个亟需解决的挑战。实际上,大多数现有的自动编码器不能自动权衡双向映射。这是因为大多数的先前工作都具有以下两个限制之一:1) 许多先前的编码设计依次实现解码/生成过程和编码过程的双向优化,这种耦合训练机制不能保证生成器的生成和编码器的表示同时单独优化;2) 在一些双向训练的网络中,不能单独保证数据空间和隐变量空间的循环一致性,这限制了特征学习的进一步优化。
    目的 针对研究背景中提出的两个挑战,我们的研究目标是:1)实现自编码器中双向映射的同步优化和联合优化;2)保证编码器和解码器的特征表示能力和数据生成能力分别进行独自优化。此外,在实现上述两个目标的同时,我们还试图保证双向自编码器的收敛性。
    方法 我们提出了一种基于BiGAN的无监督双向生成式自编码器Bi-GAE。首先,Bi-GAE采用了一个双向学习框架,该框架受到Bi-GAN框架设计的启发,但引入了三个主要的修改,包括在:1)损失函数中引入Wasserstein距离,2)增加一个嵌入式GAN框架来优化真实隐变量空间分布和重构隐变量空间分布的循环一致性,3)为生成器和编码器分别设计两个优化项。一方面,Bi-GAE同时实现了编码器和解码器的双向优化。具体来说,Bi-GAE同时接收编码器和解码器的数据样本和潜在样本的输入,并以有效学习隐变量空间和数据空间的联合分布为优化目标,同时训练它们的表征能力和生成能力。另一方面,引入Bi-GAE的三个主要修改进一步增强了该双向框架的收敛性。其次,Bi-GAE利用添加的两个优化项和嵌入的MMD-GAN结构来优化隐变量/数据空间分布的循环一致性。这些优化提高了Bi-GAE的特征表示能力,同时保留了相比于单向GAN框架而言仍具有竞争力的生成能力。此外,我们从理论上证明了优化真实数据和重构数据/潜在空间分布之间的循环一致性可以提高生成器/编码器特征学习能力的下界。
    结果 我们进行了大量的实验,从以下三方面来评估Bi-GAE的性能: 1) 编码器的特征表示能力;2)解码器的生成能力;3)AEs整体重建能力。与同类算法相比,Bi-GAE的表征能力使高分辨率图像的平均分类精度提高了8.09%。此外,我们在不同分辨率的多个图像数据集上评估了Bi-GAE的生成能力,发现相比于BiGAN和WGAN,Bi-GAE在生成结果方面具有竞争力。最后,我们发现在512x512重构时,Bi-GAE使SSIM提高了0.045,FID降低了2.48,这反映了整体性能的显著提高。
    结论 本文提出了一种无监督生成式自编码器Bi-GAE,实现了生成器和编码器的双向联合优化。此外,对于编码器和解码器,我们合理地设计了优化机制来实现真实数据和重构数据/隐变量空间之间的循环一致性优化。在编码过程中,我们嵌入了基于MMD的GAN网络结构来改善特征表示和增强Bi-GAE的收敛性。在解码过程中,我们引入了一个基于SSIM的优化项来引导生成器遵循人类视觉模型。理论分析和实验结果表明,Bi-GAE实现了在具有竞争生成能力的前提下表征能力的提升,并且Bi-GAE在训练中具有稳定的收敛性。

     

    Abstract: Improving the generative and representational capabilities of auto-encoders is a hot research topic. However, it is a challenge to jointly and simultaneously optimize the bidirectional mapping between the encoder and the decoder/generator while ensuing convergence. Most existing auto-encoders cannot automatically trade off bidirectional mapping. In this work, we propose Bi-GAE, an unsupervised bidirectional generative auto-encoder based on bidirectional generative adversarial network (BiGAN). First, we introduce two terms that enhance information expansion in decoding to follow human visual models and to improve semantic-relevant feature representation capability in encoding. Furthermore, we embed a generative adversarial network (GAN) to improve representation while ensuring convergence. The experimental results show that Bi-GAE achieves competitive results in both generation and representation with stable convergence. Compared with its counterparts, the representational power of Bi-GAE improves the classification accuracy of high-resolution images by about 8.09\% . In addition, Bi-GAE increases structural similarity index measure (SSIM) by 0.045 , and decreases Fréchet inception distance (FID) by 2.48 in the reconstruction of 512\times 512 images.

     

/

返回文章
返回