Meta如何革新视频生成：四个模型的原理与训练方法

本篇文章的部分核心观点、图表及数据，出自财通证券于2024年10月21日发布的报告《信息技术-计算机行业专题报告：Meta Movie Gen的论文告诉我们什么？》，如需获得原文，请前往文末下载。

随着人工智能技术的飞速发展，特别是在深度学习和大数据的推动下，AI视频生成技术已经成为计算机视觉和多媒体领域的研究热点。这项技术的核心在于通过算法模拟和学习大量的视频数据，从而生成新的、逼真的视频内容。AI视频生成技术的应用前景广泛，包括娱乐、教育、广告、游戏开发等多个领域。Meta公司作为科技行业的领军企业，其在AI视频生成领域的研究进展备受业界关注。

关键词：Meta，AI视频生成，模型原理，训练方法，Movie Gen

Movie Gen Video：视频生成模型的创新之路

Meta的Movie Gen Video模型是一个具有300亿参数的庞大模型，它基于Transformer架构，采用了LLaMa3的骨干结构，并进行了适应性调整。该模型在约1亿个视频和10亿张图像上进行预训练，能够推理物体运动、主体-客体交互、几何、相机运动和物理学，并学习各种概念的合理运动，自然地生成多种宽高比、可变分辨率、不同时长的高质量图像和视频。

Movie Gen Video的训练过程分为三个主要步骤：低分辨率T2I预训练、联合低分辨率图像和视频预训练、高分辨率微调。这种分阶段的训练方法使得模型在处理时间维度时，能够更好地捕获视频的运动特征，提高视频生成的质量。

在模型训练架构上，Meta采用了TAE（Temporal Autoencoder）模型，将图像和视频映射到时空压缩的潜在空间中学习。TAE模型通过优化目标函数，提高生成质量和效率。此外，Meta还采用了流匹配（Flow Matching）训练方法，通过找到生成空间中从初始状态到目标状态的最优传输路径，以更少的计算步骤达到高质量生成。

Movie Gen Audio：音频生成模型的突破

Movie Gen Audio是一个130亿参数的基础模型，用于视频和文本到音频的生成。它遵循输入的文本提示，可以生成48kHz高质量电影音效，并实现和视频画面同步的音乐。该模型在约100万小时的音频上预训练，通过音频延伸技术可以为长达几分钟的视频生成连贯的长音频。

Movie Gen Audio的创新之处在于它不仅学习了物理关联，还学习了视觉和音频世界之间的心理关联，可以生成与视觉场景匹配的环境音，以及与视觉动作同步的声音效果。这种模型架构的创新，使得生成的音频能够更好地与视频内容相匹配，提供更加沉浸式的观看体验。

在训练数据选择方面，Movie Gen Audio模型将学习音频和条件输入之间不同层次的关系，包括屏幕上的叙事声音、生成叙事化的屏幕外音频以及非叙事音频。这些训练数据的选择和处理，使得模型能够更好地理解和模拟人类情感，生成与气氛相匹配的背景音乐。

Video Personalization：个性化视频模型的探索

个性化视频模型Video Personalization基于Movie Gen Video模型，通过微调实现特定人像的视频生成。这一模型的训练使用包含人类的视频子集，自动构建图像与文本输入和视频输出对。训练过程包括预训练和后训练阶段，预训练在原始的Movie Gen Video模型基础上进行，后训练则针对个性化视频生成进行优化。

Video Personalization模型的关键在于使用可训练的长提示MetaCLIP视觉编码器从人脸图像中提取身份特征，然后使用投影层将其与文本特征维度对齐，进而输入到Transformer的交叉注意力模块进行训练。这种训练方法使得模型能够生成保持用户身份的同时遵循文本提示的个性化视频。

Instruction-Guided Precise Video Editing：精确视频编辑的革命

指令引导下的精确视频编辑功能允许用户使用文本指令对原视频或生成视频进行精确编辑，包括风格和细节。由于在视频编辑方面缺乏大规模监督数据，Movie Gen Edit团队采用多阶段的训练方法，将视频生成与先进的图像编辑功能结合起来，既能进行局部编辑也能全局更改，比如添加、移除或替换元素，以及背景或风格修改。

Movie Gen Edit的基础架构基于视频生成模型进行了若干改动，包括视频输入的条件化、任务嵌入向量的加入以及权重初始化的策略。视频训练分为三个阶段：单帧视频编辑、多帧视频编辑和基于反向翻译的视频编辑。这种训练方法克服了由于缺乏监督数据而产生的“训练—测试”不一致性问题，使得模型能够在带有噪声的视频和编辑指令的条件下进行“去噪”。

总结

Meta的四个模型——Movie Gen Video、Movie Gen Audio、Video Personalization和Instruction-Guided Precise Video Editing——在AI视频生成领域展现了强大的潜力和创新能力。这些模型不仅在技术上实现了突破，更在应用层面提供了新的可能性。从高质量的视频生成到个性化视频的定制，再到精确的视频编辑，Meta的技术进展为多媒体内容的创造和编辑带来了革命性的变化。随着技术的不断进步和优化，我们可以预见，AI视频生成技术将在未来的多媒体领域扮演越来越重要的角色。