复旦团队以强化学习问鼎AI视频生成两大权威榜单

强化学习浪潮席卷 AI 视频生成:复旦大学团队斩获两大权威榜单桂冠

近年来,以 Deepseek 为代表的强推理语言模型大放异彩,再次证明了强化学习(RL)在训练顶尖大语言模型过程中的核心价值。然而,这股强大的技术浪潮似乎尚未充分涌入同样火热的视频生成领域。令人欣喜的是,来自复旦大学等机构的研究团队率先迈出了探索性的一步,将强化学习的威力注入视频生成模型。经过 RL 优化的模型,不仅生成的视频画面更加自然流畅,逻辑也更为合理连贯。凭借出色的成果,该团队的研究分别在 VDC (Video Detailed Captioning) [1] 和 VBench [2] 两大国际权威评测基准中拔得头筹。

精准捕捉动态细节:视频细粒度描述的突破

要让机器生成高质量的视频,首先需要让机器“看懂”视频。视频细粒度文本描述 (Video Detailed Captioning, VDC) 任务正是为此而生,它旨在为视频内容生成详尽、准确的文字描述,这些描述如同“标签”一样,是训练和指导视频生成模型的关键基础。

在此方向上,复旦大学团队提出了名为 Cockatiel [3] 的创新方法。该方法在权威的 VDC 榜单上一举夺魁,超越了众多业界知名的视频理解多模态大模型,包括通义千问 Qwen2-VL、VILA1.5、LLaVA-OneVision 以及 Google 的 Gemini-1.5 等强劲对手。

图片

图片

Cockatiel 的制胜秘诀在于巧妙地融合了高质量的合成数据与人类偏好对齐。研究者们设计了一套精巧的三阶段微调训练流程

图片

  1. 构建细粒度人类偏好数据集:研究团队首先针对视频描述的多个关键维度(如描述对象、对象特征、动态行为、镜头语言、背景环境等)进行了细致的人工标注,收集人类对于描述质量的偏好信息。这为后续模型的“品味”培养奠定了基础。
  2. 多模型集成与奖励模型驱动优化:基于第一阶段的人工标注数据,训练出一个“奖励模型”(Reward Model)。这个模型学会了评估视频描述的优劣。随后,利用该奖励模型对多个预训练模型生成的视频描述进行打分,并基于评分结果,对一个 13B 参数量的多模态大语言模型进行人类偏好对齐优化,使其生成的描述更符合人类的期望。
  3. 知识蒸馏,打造轻量高效模型:为了方便下游任务的部署和低成本推理,研究者们进一步将优化后的 13B 大模型“知识蒸馏”到一个 8B 参数量的轻量级模型中,在保持核心能力的同时,显著降低了计算资源需求。

值得一提的是,整个 Cockatiel 模型的训练,是在单机环境下完成的,展现了极高的训练效率和性价比。

实验结果有力地证明了 Cockatiel 的优越性。由 Cockatiel 系列模型生成的视频描述,不仅维度全面、叙述精准详实,而且显著减少了“幻觉”现象(即生成与视频内容不符的信息)。如下图所示的案例对比中,相较于 ViLA、LLaVA 和 Aria 等基线模型,Cockatiel-13B 不仅能准确覆盖基线模型描述的细节(黄底高亮部分),更能捕捉到它们遗漏的关键信息(红底高亮部分),同时有效避免了不实内容的产生,展现出更高的可靠性与准确度。这为后续训练更优质的视频生成模型铺平了道路。

图片

迈向更逼真流畅:强化学习赋能视频生成

在打下了坚实的视频理解基础后,该研究团队乘胜追击,将目光投向了利用强化学习直接优化视频生成的过程。他们开创性地提出了 IPOC (Iterative Preference Optimization with Critic) [4] 方法,这也是首次将迭代式强化学习偏好优化引入视频生成领域的尝试。

IPOC 方法一经提出便取得了惊人的效果。在权威的视频生成评测基准 VBench 上(截至 2025 年 4 月 14 日数据),IPOC 以 86.57% 的总分强势登顶,超越了包括阿里巴巴的通义万相、OpenAI 的 Sora、腾讯的 HunyuanVideo、Minimax、Google 的 Gen3 以及 Pika 等在内的众多国内外顶尖视频生成模型。

图片

图片

IPOC 方法的核心优势在于其迭代式的强化学习优化框架,这种设计有效规避了传统强化学习训练过程中可能出现的不稳定问题。更具吸引力的是,该方法对训练资源的要求极低,仅需少量的人工偏好数据和计算资源,就能以较低成本实现显著的效果提升。其模型细节(更多详情请参阅论文和开源代码)可以概括为以下三个阶段:

图片

  1. 构建富有洞察的人工偏好数据:IPOC 采用了两种互补的人工标注方式:逐视频打分 (Pointwise Annotation)成对视频排序 (Pairwise Annotation)。特别地,标注者在给出评分或排序的同时,还需要提供详细的理由,形成带有“思维链”(Chain-of-Thought, CoT)风格的标注。这种富含解释信息的标注数据,能帮助模型更深入地理解视频内容与文本提示之间的细微语义对应关系,从而构建出高质量的人类偏好数据集。
  2. 训练高效的“批评家”奖励模型:基于第一阶段的标注数据,IPOC 训练了一个基于多模态大模型的 “奖励”或“批评家”模型 (Critic Model)。这个模型的亮点在于,仅需少量人工数据和算力即可高效训练完成。一旦训练好,它就能自动化地对单个视频进行质量评分,以及对视频对进行优劣排序。这意味着在后续的迭代优化中,无需反复进行昂贵且耗时的人工标注,大大提升了优化效率。此外,该奖励模型具有良好的通用性和**“即插即用”**特性,能够灵活适配各种不同的视频生成模型。
  3. 迭代式强化学习优化闭环:这是 IPOC 的核心循环。首先,利用当前版本的文本到视频(T2V)模型根据文本提示生成一批新的视频样本。然后,由训练好的奖励模型(Critic Model)自动对这些新生成的视频进行评价和打分,形成新的偏好数据。接着,利用这些自动标注的偏好数据来进一步优化 T2V 模型。这个 “视频生成采样 → 样本奖励计算 → 偏好对齐优化” 的过程不断迭代,推动 T2V 模型持续进步。值得一提的是,IPOC 框架设计灵活,能够兼容当前主流的偏好优化算法,如基于对比排序的 Diffusion-DPO 和基于二分类评分的 Diffusion-KTO。用户可以根据具体需求灵活选择优化目标。这两种方法的训练目标公式分别如下:
    • DPO (Direct Preference Optimization):
      图片
    • KTO (Kahneman-Tversky Optimization):
      图片

实验结果直观地展示了 IPOC 优化带来的显著提升:

  • 时序一致性增强:如下方动图对比所示,对于“宇航员骑着狮子在沙漠中前行”的提示,相较于基线模型 CogVideoX-2B(左图),经过 IPOC 优化的 IPOC-2B(右图)生成的视频中,狮子的行走动作明显更加自然连贯,整体动态流畅度得到大幅改善。

    Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion’s paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.

  • 结构合理性提升:在处理“女孩与猛犸象在异星冰原奔跑”的场景时,对比 CogVideoX-2B(左图),IPOC-2B(右图)生成的视频中,人物和猛犸象的结构更加合理,比例和形态更符合常识。

    Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth’s massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.

  • 动态与美学改善:对于“女子在咖啡馆喝咖啡”的温馨场景,相较于 CogVideoX-2B(左图),IPOC-2B(右图)生成的视频不仅人物动作更加流畅自然,整体画面的美观度(包括人物形象、光影氛围、背景细节等)也得到了显著提升。

    Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.

这些成果表明,通过引入强化学习进行偏好对齐优化,视频生成模型的质量得到了全方位的提升,向着更真实、更流畅、更符合人类审美的目标迈进了一大步。

相关资源与参考文献

[1]. Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. “Auroracap: Efficient, performant video detailed captioning and a new benchmark.” arXiv preprint arXiv:2410.03051 (2024).
* 项目主页: https://wenhaochai.com/aurora-web/

[2]. Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. “Vbench: Comprehensive benchmark suite for video generative models.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.
* 项目主页: https://vchitect.github.io/VBench-project/

[3]. Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. “Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption.” arXiv preprint arXiv:2503.09279 (2025).
* 项目主页: https://sais-fuxi.github.io/projects/cockatiel/

[4]. Yang, Xiaomeng, Zhiyu Tan, and Hao Li. “Ipo: Iterative preference optimization for text-to-video generation.” arXiv preprint arXiv:2502.02088 (2025).
* 项目主页: https://yangxlarge.github.io/ipoc//