We use cookies to improve your experience with our site.
刘伍琴, 林敏轩, 黄海斌, 马重阳, 宋玉, 董未名, 徐常胜. 情感感知的音乐驱动电影蒙太奇[J]. 计算机科学技术学报, 2023, 38(3): 540-553. DOI: 10.1007/s11390-023-3064-6
引用本文: 刘伍琴, 林敏轩, 黄海斌, 马重阳, 宋玉, 董未名, 徐常胜. 情感感知的音乐驱动电影蒙太奇[J]. 计算机科学技术学报, 2023, 38(3): 540-553. DOI: 10.1007/s11390-023-3064-6
Liu WQ, Lin MX, Huang HB et al. Emotion-aware music driven movie montage. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 38(3): 540−553 May 2023. DOI: 10.1007/s11390-023-3064-6.
Citation: Liu WQ, Lin MX, Huang HB et al. Emotion-aware music driven movie montage. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 38(3): 540−553 May 2023. DOI: 10.1007/s11390-023-3064-6.

情感感知的音乐驱动电影蒙太奇

Emotion-Aware Music Driven Movie Montage

  • 摘要:
    研究背景 随着社交网络和移动应用的快速发展,创作高质量的短视频和蒙太奇变得越来越受欢迎和重要。电影是蒙太奇的最佳资源之一,通常会剪辑和组合成较短版本,并配以背景音乐,以获得原始电影的预告片亮点。然而,现有的蒙太奇编辑工具通常依赖于用户手动从电影中选择镜头并与音乐对齐,这是繁琐和耗时的。对于非专业用户来说,生成与音乐节奏和情感相匹配的令人满意的电影蒙太奇仍然很困难,而且所选镜头还需要提供原始内容或故事的合理和可理解的摘要。
    目的 本研究旨在提出一种新的自动化电影蒙太奇生成方法,该方法可以自动从输入电影中生成与用户指定音乐节奏和情感相匹配的蒙太奇。该研究具有重要的实际应用价值,可以为用户提供更加方便快捷的电影蒙太奇生成工具。
    方法 我们采用了一两阶段框架,第一阶段我们构建了一个基于CLIP和对比学习的网络,通过对比学习方法,在情感空间中对音乐、文本和图像的多模态信号进行对齐,将听觉、视觉等多模态语义信息映射到相同的嵌入空间中,并通过计算它们之间的相似度来对齐多模态信号。在第二阶段,我们提出了一种基于情感相似度和其他约束条件(如场景级别的故事完整性和镜头级别的节奏同步)的联合优化方法,以生成与音乐情感相一致的电影蒙太奇。
    结果 我们与其他基线方法在情感一致性、故事完整性和节奏同步性等方面进行了定性的对比,均优于基线方法。同时在音乐情感可辨别度、音乐情感分类准确度等进行了定量对比,均取得优异的表现。
    结论 本研究提出的情感感知的音乐驱动电影蒙太奇生成方法可以生成情感一致的蒙太奇。我们正式将其定义为一个优化问题,并提出了一个两阶段的框架,包括一个基于学习的模块来预测情感相似度和一个基于优化的模块来选择和组合候选电影镜头。通过定性和定量评估,我们证明了我们的方法可以生成情感一致的蒙太奇,并且优于其他基线方法。

     

    Abstract: In this paper, we present Emotion-Aware Music Driven Movie Montage, a novel paradigm for the challenging task of generating movie montages. Specifically, given a movie and a piece of music as the guidance, our method aims to generate a montage out of the movie that is emotionally consistent with the music. Unlike previous work such as video summarization, this task requires not only video content understanding, but also emotion analysis of both the input movie and music. To this end, we propose a two-stage framework, including a learning-based module for the prediction of emotion similarity and an optimization-based module for the selection and composition of candidate movie shots. The core of our method is to align and estimate emotional similarity between music clips and movie shots in a multi-modal latent space via contrastive learning. Subsequently, the montage generation is modeled as a joint optimization of emotion similarity and additional constraints such as scene-level story completeness and shot-level rhythm synchronization. We conduct both qualitative and quantitative evaluations to demonstrate that our method can generate emotionally consistent montages and outperforms alternative baselines.

     

/

返回文章
返回