快手CineMaster:电影级3D可控视频生成新突破

图片

近年来,诸如Sora、可灵等视频生成模型凭借其令人瞩目的性能,使得创作者仅凭文本指令便能打造出高质量的视频作品。然而,我们观赏电影时所见的精彩片段,往往是导演在特定场景中对多个元素的运动轨迹、摄像机的拍摄角度进行精密编排,并经过后期剪辑才得以呈现的艺术结晶。以惊心动魄的赛车追逐场景为例,镜头不仅需要紧密跟驰飞速的赛车,更要通过捕捉关键的超车瞬间来凸显比赛的紧张与激烈。遗憾的是,当前主流的视频生成模型尚无法在三维(3D)场景中实现对目标物体与摄像机运动的协同控制与生成,这在一定程度上限制了人工智能在影视制作领域的进一步发展。

为了突破这一瓶颈,快手可灵的研究团队近期在“3D感知可控视频生成”这一前沿领域取得了开创性进展,正式推出了名为 CineMaster 的电影级文本到视频生成框架。这一创新框架赋予用户导演般的创作自由:在提供整体性的文本描述之后,用户可以通过一套交互式工作流程,如同专业导演一般,在3D空间中精心布局场景元素,细致设定目标物体的运动轨迹和摄像机的运镜方式,从而引导模型生成完全符合创作意图的视频内容。值得一提的是,该项研究的论文已被计算机图形学领域的顶级会议 SIGGRAPH 2025 正式录用

图片


图片

CineMaster:实现3D感知的精准目标与相机运动控制

CineMaster 的强大之处在于其对3D场景中目标物体和相机运动的感知与控制能力,具体表现为:

a) 目标与相机协同控制
图片

b) 目标运动精细控制
图片

c) 相机运动灵活控制
图片

从以上演示中可以清晰地观察到,CineMaster 能够精准响应用户提供的多模态、细粒度控制指令,生成高度符合预期的视频内容。该框架支持对幅度较大的目标运动和相机运镜进行可控生成,为复杂动态场景的创作提供了可能。

CineMaster 框架剖析

CineMaster 通过一个精心设计的两阶段工作流程,实现了对文本到视频生成过程的高度可控性:

第一阶段:构建具备3D感知的控制信号。
在此阶段,用户可以利用交互式界面,在虚拟的3D空间中直观地调整目标的三维边界框 (3D Bounding Box) 和摄像机的位置及朝向。这一过程非常贴近真实电影拍摄中导演反复推敲演员走位与镜头调度的创作实践。当场景布局和运镜路径设定完成后,系统会导出详细的相机轨迹数据以及每一帧画面的投影深度图,这些信息将作为第二阶段视频生成的关键条件输入。

第二阶段:基于控制信号的视频生成。
如下图所示,CineMaster 的核心生成模型采用了一种语义布局ControlNet (Semantic Layout ControlNet) 架构。该架构能够有效地整合目标的运动控制信号(例如,预设的轨迹)和目标的类别标签信息(例如,人、车、建筑等),从而实现对场景中每一个目标动态的明确指导和精准控制。此外,框架中还集成了一个相机适配器 (Camera Adapter),它负责融入相机的运动控制信号,用以定义和实现视频序列的整体运镜风格和全局动态。

图片

CineMaster 训练数据的构建之道

图片

为了让 CineMaster 学习到精准的3D感知和可控生成能力,高质量的训练数据至关重要。其数据构建流程旨在从任意视频片段中自动提取出三维边界框(3D bounding boxes)、物体的类别标签以及视频的相机轨迹信息。这一复杂流程主要包含以下四个关键步骤:

  1. 目标检测与分割优化:首先,利用 Qwen2-VL 模型增强实体描述信息,以此提升开放词汇目标检测模型 Grounding DINO 的性能。随后,结合 SAM v2 (Segment Anything Model v2) 实现视频中各个实例的精确分割。
  2. 视频深度信息估计:接着,采用 DepthAnything V2 模型来估算视频中每一帧画面的绝对深度信息,为后续的3D重建提供基础。
  3. 单帧三维边界框计算:在每个被分割出的目标实例的掩码(Mask)面积最大的那一帧,通过深度投影技术,将其分割结果投射到点云空间,并据此计算出该目标的三维边界框。
  4. 序列三维边界框与场景深度图生成:利用 Spatial Tracker 实现的三维点跟踪结果,计算出所有目标在整个视频序列中的完整三维边界框轨迹。最后,将整个三维场景重新投影,生成对应的深度图序列。

此外,该框架还借助 MonST3R 技术来精确计算视频的相机轨迹。

对比效果:CineMaster 的优越性

图片

上图直观地展示了 CineMaster 与现有基线方法在可控视频生成任务上的对比结果。通过观察可以发现,传统的基线方法往往难以将用户给定的运动条件与场景中相应的目标物体进行明确而有效地关联,并且常常存在目标运动与相机运动相互耦合、难以独立控制的问题。

相比之下,CineMaster 则展现出显著优势:它能够生成不仅符合文本提示,而且严格遵循目标运动和相机运动控制信号的高质量视频。这意味着用户可以更精细、更自由地主导视频内容的动态呈现。如需观看更多精彩的视频演示效果,欢迎访问项目主页。

总结与展望

研究者们推出 CineMaster 的核心愿景,是为广大用户提供一种前所未有的、具备强大3D感知能力的可控视频生成体验,让每一位创作者都能像专业导演一样,自如地驾驭镜头语言,挥洒创意。

为实现这一宏大目标,团队不仅精心构思并实现了一套具备3D感知能力的交互式工作流程,使得用户能够直观、便捷地编辑场景中物体与相机的复杂运动;更进一步地,他们开发出一种先进的多模态条件控制视频生成模型,该模型能够精准理解并执行用户的创作意图,生成符合预期的动态视觉内容。

尤为值得一提的是,这项研究还贡献了一套完整且高效的从任意视频中提取3D控制信号的数据构建流程。这套流程不仅为 CineMaster 模型的训练提供了坚实的数据基础,更为未来3D可控视频生成领域的研究与发展提供了宝贵的实践经验和技术参考。

更多技术细节与深入探讨,敬请参阅原论文。


关于我们与招贤纳士

快手视觉生成与互动中心 (Kuaishou Visual Generation and Interaction Center) 正是“可灵”视频生成大模型背后的核心驱动力量。我们团队的技术航向聚焦于视觉内容生成多模态互动两大前沿领域。

我们的愿景是,通过深度融合计算机视觉/图形学、多模态机器学习、XR/HCI (扩展现实/人机交互) 等多学科的尖端技术与知识:

  • 一方面,赋能每一位用户更好地表达自我、创作卓越的视觉内容。
  • 另一方面,为广大用户带来更优质的内容消费体验与新颖的交互模式。

我们长期面向全球招聘在 GenAI (生成式人工智能)多模态等相关方向拥有卓越才能的伙伴(包括社会招聘、校园招聘及实习生)。我们热切期盼对技术怀有热忱、对创新抱有梦想的您加入我们的行列,共同探索人工智能的无限可能,共创激动人心的未来!

简历投递邮箱: zhangluowa@kuaishou.com