WavEnhancer: 聚合小波变换和Transformer的图像增强网络

李梓诺; 陈绪行; 郭淑娜; 王书强; 潘治文

doi:10.1007/s11390-024-3414-z

WavEnhancer: 聚合小波变换和Transformer的图像增强网络

WavEnhancer: Unifying Wavelet and Transformer for Image Enhancement

摘要

摘要:
研究背景 图像增强是数字图像处理中广泛使用的技术，旨在提高图像的美观性和视觉质量。然而，基于像素级或全局级修改的传统增强方法有效性是有限的。近年来，随着深度学习的技术的发展，各种工作现在正专注于利用神经网络进行图像增强。但是，这些技术通常未能从不同图像频率来优化图像。本研究通过引入基于Transformer的模型来解决这一差距，该模型结合了小波变换，可用于从不同频域的角度来改善图像。本研究所提出的模型精炼了图像的各个频域，并且同时考虑了局部细节和高级特征。因此，所提出的技术产生了优越的增强结果。本研究通过全面的指标对所提模型的性能进行了评估，结果表明我们提出的模型达到了SOTA。
目的本研究旨在从不同的图像频率中来优化图像，以达到结合局部特征和全局特征的目的。本研究从两个来源汲取灵感：小波变换和Transformer。该方法旨在从图像中提取新特征，并在不同频域中加以增强，这使得网络能够从不同频带中提取信息，并提高模型处理各种图像结构和模式的能力。在这种情况下，我们可以通过从输入图像中捕获更多详细和准确的信息，提高增强后图像的整体质量。本研究的主要贡献如下：1) 仅在像素或全局水平上进行的研究不足以产生满意的结果。本文提出了一种基于小波变换和Transformer的新颖框架WavEnhancer。WavEnhancer框架强调像素和全局水平的重要性。2) 在本研究中，我们提出了一个结合多频率和全局细化技术的模型。我们使用公共基准数据集评估其性能，并证明其优于现有最先进方法。
方法本研究所提出的图像增强模型由三个主要组成部分构成，即小波变换、全局风格重映射模块（GSR）和详细参数精细化模块（DPR）。具体而言，我们的方法使用多频特征提取以获得更丰富的信息，然后通过全局细化将这些信息融合在一起，进一步提高恢复质量。小波变换是一种广泛使用的技术，可以在计算成本最小的情况下高效地对图像进行下采样，同时确保不丢失信息。这使得它非常适合我们的多频优化方法。我们模型的初始阶段涉及将输入图像经过离散小波变换（DWT）过程，该过程产生代表低频区域的LL通道以及描述高频部分的HL、LH和HH通道。这个过程保留了表示低频区域的几何特征和颜色上下文的近似系数，在LL通道中。同时，高频区域从HL、LH和HH通道检索纹理信息。高频通道经过使用Smooth L1正则化的U-Net块处理以实现收敛，而低频区域则作为全局风格重映射模块的输入。随后，两个模块生成它们对应的精细分量，这些输出通过逆离散小波变换（IDWT）技术集成起来重建图像。最后，我们引入了详细参数精细化模块，以产生增强的风格化输出。
结果我们利用三种不同的指标来评估了各种方法的效果：峰值信噪比（PSNR）、结构相似性指数（SSIM）和Delta E。PSNR是一个工程术语，用于表示信号的最大可能功率与影响其表现忠实度的噪声功率之间的比率。SSIM指数是基于初始未压缩或无失真图像作为参考的图像质量的测量或预测。Delta E指标在CIELab颜色空间中评估人眼感知的色彩变化。无论是PSNR还是SSIM的更高值均表明性能更优，而Delta E的较低值则表示颜色更具视觉吸引力。实验结果表明，我们的方法在所有指标上均优于其他所有方法。当必要信息不可用时，我们将结果标记为“N/A”。在可能的情况下，我们使用每个模型的可用预训练模型对两个数据集进行了额外的评估。尽管我们的方法在多个数据集上展示了有希望的成果，但我们的结果与真实情况之间仍存在一些差异。在某些情况下，网络的结果过度增强，导致亮度过高，细节不足。这些凸显的挑战强调了进行更多研究以优化基于深度学习的图像增强方法的效率和精确度的重要性。此外，识别这些挑战可以为未来研究提供方向，以尝试使用不同的网络框架和损失函数来帮助克服这些限制。
结论本文提出了一种新模型，用于改善图像不同频带的质量。该方法采用了一种在小波域内操作的基于Transformer的模型，将离散小波变换（DWT）模块与Transformer模块相结合，以优化图像的低频区域。Transformer产生的逆离散小波变换（IDWT）在输入我们的全局风格重映射模块进一步改进之前，会通过经过优化的U-Net的高频域进行额外处理。我们的方法不仅强调区域优化，也强调全局优化，这使它与其他最先进的方法区分开来。作为未来的研究方向，我们寻求通过增加小波池化的下采样倍数并将注意力机制融入模型中来进一步提高性能。

Abstract: Image enhancement is a widely used technique in digital image processing that aims to improve image aesthetics and visual quality. However, traditional methods of enhancement based on pixel-level or global-level modifications have limited effectiveness. Recently, as learning-based techniques gain popularity, various studies are now focusing on utilizing networks for image enhancement. However, these techniques often fail to optimize image frequency domains. This study addresses this gap by introducing a transformer-based model for improving images in the wavelet domain. The proposed model refines various frequency bands of an image and prioritizes local details and high-level features. Consequently, the proposed technique produces superior enhancement results. The proposed model’s performance was assessed through comprehensive benchmark evaluations, and the results suggest it outperforms the state-of-the-art techniques.

HTML全文

参考文献()

施引文献

资源附件()