Sparse VideoGen揭秘:AI视频生成提速50%,画质无损
Sparse VideoGen揭秘:AI视频生成提速50%,画质无损
未知变量AI 视频创作提速:Sparse VideoGen 如何在不牺牲画质的前提下将推理时间减半?
自从 OpenAI 的 Sora 模型惊艳亮相以来,人工智能视频生成领域便迎来了井喷式的发展。得益于扩散模型(Diffusion Models)日益强大的生成潜能,我们已经能够见证足以媲美真实世界的视频效果。然而,在模型生成的逼真度不断攀升的同时,其运算速度却遭遇了瓶颈,这无疑成为了阻碍该技术大规模应用的巨大壁垒。
目前,即便是顶尖的视频生成模型,如 Wan 2.1 和 HunyuanVideo,在单块 H100 GPU 上生成一段仅 5 秒钟的 720p 视频,往往也需要耗费超过 30 分钟。究其原因,3D 全注意力(3D Full Attention)模块是主要的性能瓶颈,其计算时间占据了总推理时长的 80% 以上。
为了攻克这一难题,来自加州大学伯克利分校与麻省理工学院的研究团队携手,带来了一项创新方案:Sparse VideoGen。
- 论文标题:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
- 论文链接:https://arxiv.org/abs/2502.01776
- 代码库:https://github.com/svg-project/Sparse-VideoGenn
- 项目主页:https://svg-project.github.io/
Sparse VideoGen 提出了一种无需对现有模型进行任何重新训练的视频生成加速策略。它通过深入挖掘注意力机制中固有的空间与时间稀疏性,并巧妙结合自适应稀疏选择算法与底层算子优化,成功地将视频生成的推理时间缩短了一半。更令人振奋的是,与传统的密集注意力(Dense Attention)方法相比,Sparse VideoGen 生成的视频在视觉上几乎无法察觉到任何差异,保持了极高的像素保真度(PSNR 高达 29)。值得一提的是,Sparse VideoGen 是首个能够在如此高保真度下实现显著加速的方法。
目前,Sparse VideoGen 已经成功适配了包括 Wan 2.1、HunyuanVideo、CogVideoX 在内的多款业界领先的开源模型,并且能够为文生视频(T2V)和图生视频(I2V)等多种任务提供加速。该团队已将所有相关代码开源,其研究成果也已被人工智能顶级会议 ICML 2025 接收。
扩散式视频生成的性能瓶颈剖析
扩散模型已然成为图像与视频生成领域的主流技术范式。特别是基于 Transformer 架构的视频扩散模型(Video Diffusion Transformers, DiTs),它们在捕捉长程时空依赖关系和刻画视觉细节方面展现出非凡的优势。然而,DiTs 模型的核心组件——3D 全注意力机制——也带来了沉重的计算负担。在该机制下,每一个数据单元(token)不仅需要关注当前帧内的空间上下文信息,还必须参与到跨越不同帧的时间维度建模中。随着视频分辨率和帧数的增加,注意力机制的计算复杂度呈二次方级别增长,远超常规的图像生成模型。
以 HunyuanVideo 和 Wan 2.1 模型为例,在单块 H100 GPU 上生成一段 5 秒钟、720p 分辨率的视频,耗时高达 29 分钟,其中注意力相关的计算占据了超过 80% 的时间。如此高昂的计算成本,极大地限制了扩散视频模型在实际应用场景中的部署和推广。
Sparse VideoGen 的核心设计理念:发掘注意力机制的内在稀疏性
研究者发现,视频扩散 Transformer 的注意力图谱(Attention Map)中,并非所有信息都同等重要,而是呈现出两种显著的稀疏模式:空间稀疏性(Spatial sparsity)与时间稀疏性(Temporal sparsity)。基于此,大部分注意力头(Attention Head)可以被划分为两类,即空间注意力头(Spatial Head)和时间注意力头(Temporal Head)。
空间注意力头(Spatial Head):聚焦空间邻近信息
空间注意力头主要关注同一帧内以及相邻几帧中的 Token。它们的注意力图谱通常呈现出一种块状分布,权重集中在主对角线附近区域。这类注意力头主要负责建模视频帧内部的局部空间连贯性,确保生成的单帧图像内容协调一致。
时间注意力头(Temporal Head):捕捉跨帧关联信息
时间注意力头则侧重于捕捉不同帧之间相同或相似 Token 的关联。其注意力图谱往往呈现出一种斜线状或带状分布,并且具有相对恒定的步长。这种机制确保了视频内容在时间维度上的一致性,例如,同一物体在连续多帧画面中能够保持其外观和运动的连贯性。
通过对注意力模式进行这样的解构,模型便能在计算过程中智能地识别出哪些 Token 是“关键少数”,哪些是可以被“忽略”的,从而为构建高效的稀疏注意力策略奠定了基础。
实现无损像素保真度的关键:动态自适应的稀疏策略
尽管空间和时间注意力头分别应对了空间和时间的连贯性问题,但要真正实现近乎无损的像素保真度,核心在于如何最优地组合和运用这两种稀疏模式。
研究表明,在视频生成的不同去噪步骤(denoising steps)中,或者当面对不同的生成提示(prompts)时,最优的稀疏策略可能会发生显著的变化。这意味着,采用一种固定的、静态的稀疏模式难以保证在所有情况下都能取得最佳效果。因此,动态的、自适应的策略变得至关重要。
为此,Sparse VideoGen 引入了一种在线稀疏模式优化方法(Online Profiling)。该方法通过动态地决定每个注意力头所应采用的稀疏注意力掩码(Attention Mask),从而灵活地调整稀疏策略。具体步骤如下:
- 在每个推理步骤开始时,随机采样极少数(仅占总数的 0.05%,大约 64 个)的查询 Token (Query Token)。
- 针对这些采样得到的 Token,分别运用空间稀疏模式和时间稀疏模式计算其注意力输出,并与传统的密集注意力(Dense Attention)结果进行对比,评估误差。
- 为每一个注意力头选择能够产生最小误差的那种稀疏模式。
令人惊讶的是,仅仅利用这极少量的(约 64 个,仅占全部 Token 总量的 0.1%)Query Token 进行在线分析,就足以准确预测出当前步骤下最优的稀疏模式。这种**“轻量级探索 + 局部误差拟合”**的策略,其额外的计算开销微乎其微(低于 3%),却能在不同生成阶段精准地选取最合适的稀疏模式,从而在有效加速的同时,最大限度地保证了生成视频的画质(PSNR > 29)。
从算子层面优化稀疏计算:布局转换与核心算子加速
尽管利用注意力机制的稀疏性能够显著提升计算速度,但如何将其潜力发挥到极致,仍然是一个需要细致考量的问题。特别是时间注意力头(Temporal Head)所固有的非连续内存访问模式,对 GPU 的并行计算效率构成了不小的挑战。
时间注意力头需要跨越多个视频帧来访问位于相同空间位置的 Token。然而,在传统的张量存储布局中,数据通常是以“帧优先”(frame-major)的方式组织的,即同一帧的所有 Token 在内存中是连续存储的,而不同帧中对应相同空间位置的 Token 则会分散在内存的不同区域。这种分散存储对于时间注意力头的跨帧访问而言,效率低下。
为了解决这个痛点,Sparse VideoGen 创新性地引入了一种**硬件友好的内存布局转换(Layout Transformation)**机制。该方法通过将张量数据从“帧优先”布局转换为“Token 优先”(token-major)布局,使得时间注意力头在进行跨帧访问时,所需的 Token 在内存中能够呈现连续排列,从而极大地优化了内存访问模式。具体来说,这种转换通过高效的转置操作实现,将原本在内存中分散的、分属于不同帧但对应同一空间位置的 Token 重新组织成连续的内存块,这种布局更符合 GPU 高效访存的特性。
这种精心设计的布局转换不仅提升了内存访问的效率,还使得稀疏注意力计算能够更充分地利用 GPU 强大的并行处理能力。实验数据表明,在应用了布局转换之后,Sparse VideoGen 在处理时间注意力头时实现了接近理论峰值的加速效果,从而显著提升了整体的推理速度。
除了对注意力机制本身的优化,Sparse VideoGen 团队还对计算流程中的 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)这两个关键模块进行了定制化的算子级优化,以进一步挖掘推理效率的潜力。在标准的 PyTorch 实现中,QK-Norm 和 RoPE 的计算开销相对较大,有时甚至会成为推理过程中的性能瓶颈。针对此,研究者们对这两个模块进行了深度优化:
- 优化后的 QK-Norm 算子在所有测试场景下的吞吐量均超越了 PyTorch 的标准实现,平均加速比达到了 7.4 倍。
- 同样,定制化的 RoPE 实现在处理不同帧数的情况下均展现出更高的吞吐量,平均加速比更是高达 14.5 倍。
实验成果:媲美原模型的画质,显著的推理速度提升
在对 Wan2.1、HunyuanVideo 和 CogVideoX 等主流视频生成模型的实际测试中,Sparse VideoGen 展现出了其强大的性能优势:
- 显著的加速效果:在 H100 GPU 上,将 HunyuanVideo 的推理耗时从大约 30 分钟锐减至 15 分钟以内;Wan 2.1 的推理时间也从 30 分钟缩短到 20 分钟。
- 优异的画质保持:生成的视频在峰值信噪比(PSNR)指标上稳定保持在 29dB 以上,与原始密集注意力模型输出的画质几乎无异。
- 广泛的兼容性:能够无缝集成到多种现有的 SOTA 视频生成模型中(如 Wan 2.1、CogVideoX、HunyuanVideo)。
- 多任务支持:同时支持文本生成视频(T2V)和图像生成视频(I2V)两类主流任务的加速。
展望未来,视频扩散模型的复杂度势必持续攀升。如何在保证生成质量的同时,有效提升推理效率,无疑是该领域持续探索的核心议题。Sparse VideoGen 的研究成果为此指明了一个极具潜力的方向:深入理解模型内部的结构特性,并结合自适应的稀疏化策略,有望成为视频生成推理优化的“黄金搭档”。
这项工作也启发我们,模型的性能提升并非只有“堆参数、扩规模”一条路,洞察并利用其内在规律,或许能开辟出一条更为高效且可持续的突破路径。









