ViLAMP:混合精度视觉语言模型高效处理万帧长视频
ViLAMP:混合精度视觉语言模型高效处理万帧长视频
未知变量本项研究的第一作者是中国人民大学高瓴人工智能学院的硕士研究生程传奇,他目前在蚂蚁技术研究院实习,专注于多模态大模型领域。蚂蚁技术研究院的副研究员关健为共同第一作者。
长视频理解的挑战与机遇
近年来,视觉语言模型(Vision-Language Models, VLMs)取得了令人瞩目的进步,但在长视频理解这一领域,挑战依然严峻。想象一下,一段标准清晰度、每秒 24 帧的视频,短短几分钟就能产生超过百万级别的视觉标记(token)。这个数量级已经远远超出了当前主流大语言模型(LLMs)通常能处理的 4K 到 128K 上下文窗口极限。
当我们面对动辄数小时的电影或电视剧这样的长视频内容时,现有方法的局限性就更加明显了:
- 粗略采样:随机或均匀地抽取视频帧,很容易遗漏掉稍纵即逝的关键信息。
- 特征融合:虽然可以将多帧信息压缩,降低数据维度,但这个过程往往会牺牲掉一部分语义信息的完整性。
如何才能让机器像人一样,既能抓住长视频的重点,又能理解其全局脉络呢?
ViLAMP:引入“混合精度”策略,高效处理万帧视频
针对上述难题,来自蚂蚁集团和中国人民大学的研究团队最近提出了一种创新的解决方案——ViLAMP(Video-Language Model with Mixed Precision)。这是一种新型的视觉语言大模型,其核心亮点在于采用了独特的“混合精度”处理策略,旨在高效地驾驭超长视频内容。
ViLAMP 的理念借鉴了人类观看视频的习惯:我们会高度关注那些情节密集、信息量大的关键场景(高精度处理),而对于一些过渡性的、信息相对稀疏的片段则会快速浏览(强力压缩)。ViLAMP 正是模拟了这一过程,对视频中的不同内容区别对待。
- 论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- 论文地址:https://arxiv.org/abs/2504.02438
- 代码仓库:https://github.com/steven-ccq/ViLAMP
实验结果相当出色:ViLAMP 在包括 Video-MME 在内的五个主流视频理解基准测试中,性能全面超越了现有方法,尤其在处理长视频时优势更为显著。更令人印象深刻的是,该模型仅需单张 NVIDIA A100 GPU,就能连续处理长达 10,000 帧的视频(如果按每秒采样 1 帧计算,相当于约 3 小时的视频时长),并且在整个过程中保持了稳定的理解准确率。这一突破不仅极大地提升了长视频处理的效率,也为在线教育、智能监控、体育赛事直播分析等需要深度理解长视频内容的实际应用场景打开了新的想象空间。据了解,相关研究成果已被人工智能顶级会议 ICML 2025 接收。
上图展示了 ViLAMP 在处理不同长度视频(横轴:0 到 10,000 帧)时的 GPU 内存占用情况(纵轴:MB)。测试环境为单块 NVIDIA A100 GPU。
上图展示了 ViLAMP 在 VideoNIAH(视频版“大海捞针”)任务上的测试结果。横轴表示视频的总帧数(2K 到 10K),纵轴表示目标短视频在整个长视频中的相对位置(0% 代表开头,100% 代表结尾)。
洞察:视频信息天然存在时空冗余
为了找到解决长视频处理效率瓶颈的钥匙,研究团队首先对市面上几种主流的视觉语言模型(如 LLaVA-OneVision, LLaVA-Video, Qwen2-VL, LongVA)进行了深入的系统性分析。他们发现了一个普遍现象:视频信息在时间和空间维度上都存在着显著的稀疏性和冗余性。
具体来说:
- 帧间注意力稀疏:当模型被问及与视频内容相关的问题时(Query),其注意力会高度集中。分析显示,超过 90% 的注意力实际上只落在了不到 5% 的视频帧上,这些帧可以被称为“关键帧”。有趣的是,这些关键帧之间往往还存在着较高的视觉相似性。
- 帧内注意力同样稀疏:即使在单帧图像内部,模型的注意力分布也并非均匀。大约 50% 的图像块(Patch,即将图像切分成的最小单元)就吸引了模型 80% 的注意力。而这些受关注的图像块,与相邻关键帧中对应位置的图像块相比,其相似度也远高于随机水平。
这些发现揭示了一个核心问题:现有模型在处理视频时,对所有帧、所有图像块都投入了几乎同等的计算资源,这造成了大量的浪费。事实上,我们并不需要对视频的每一处细节都进行精细分析。
基于这一洞察,研究团队提出了“差分蒸馏原则”(Differential Distill Principle)。其核心思想是:有效识别并保留视频中真正重要的信息,同时大力压缩那些虽然与主题相关但信息高度重复的内容。这里,“重要信息”需要同时满足两个条件:
- 高查询相关性:与用户当前提出的问题或任务(Query)紧密相关。
- 低信息冗余性:包含独特的、不可替代的视频内容信息。
这一原则为后续设计更高效的视频处理算法奠定了重要的理论基础。
ViLAMP 架构:双层混合精度,智能分配资源
既然发现了现有模型在处理视频时的计算资源浪费问题,那么如何解决呢?研究团队基于“差分蒸馏原则”,精心设计了专门面向长视频的高效处理架构——ViLAMP。它的核心优势在于能够根据信息的重要性,自适应地分配计算资源。
ViLAMP 模型结构图
ViLAMP 通过一个层次化的压缩框架来实现“混合精度”策略:
- 帧级别:对于承载核心信息的关键帧,保留其完整的、高精度的视觉 token 表示,确保关键细节不丢失。
- 帧级别:对于非关键帧,则采取强力压缩策略,大幅减少其占用的计算资源。
- Patch 级别:在处理非关键帧时,通过差分机制,进一步增大其中重要图像块(Patch)的权重,压缩冗余信息。
为了实现这个策略,模型设计了两个关键的核心机制:
1. 差分关键帧选择(Differential Keyframe Selection, DKS)
如何精准地找到那些既重要又不重复的关键帧?ViLAMP 采用了一种基于贪心策略的选择算法。该算法的目标是在最大化与用户查询(Query)相关性的同时,引入一种差分机制来主动降低被选中帧之间的相似度(冗余性)。这样就能确保挑选出来的关键帧集合既能覆盖核心内容,又具有足够的信息多样性。
2. 差分特征合并(Differential Feature Merging, DFM)
对于数量众多的非关键帧,ViLAMP 并未简单丢弃,而是创新性地采用了差分加权池化(Differential Weighted Pooling)技术。通过这种方式,每个非关键帧被高效地压缩成一个信息量最大化的单一 token。在压缩过程中,模型会智能地赋予那些与用户查询相关且包含独特视觉信息的图像块(Patch)更高的权重;同时,对于那些与邻近关键帧内容高度重复的图像块,则会降低其权重。这样一来,既实现了计算量的大幅削减,又最大限度地保留了非关键帧中的有效信息。
这种双层混合精度架构的设计,使得 ViLAMP 能够在准确捕捉视频核心信息与显著降低计算开销之间取得巧妙的平衡。
性能突破:基准测试全面领先
ViLAMP 的实际表现如何?研究团队在五个主流的视频理解基准数据集上进行了广泛的实验评估,结果令人信服:
- 性能卓越:ViLAMP 以 70 亿(7B)参数的规模,在多项基准上达到甚至超越了部分 700 亿(70B)参数量级的更大模型的表现。特别是在衡量长视频理解能力的 Video-MME 长视频子集上,ViLAMP 的性能相比之前的最优模型(SOTA)提升了 4.8%。
- 提出全新挑战:VideoNIAH:研究团队注意到,现有的视频理解基准普遍存在视频时长较短的问题,难以充分评估模型处理超长视频的能力。为此,他们专门设计并提出了一个面向视频理解场景的“大海捞针”(Needle in a Haystack)任务,命名为 VideoNIAH。该任务模拟了一个真实场景:将一段时长较短(通常在 1 分钟以内)的目标视频片段,随机插入到一个长达数小时的视频“干草堆”中。模型需要在没有任何关于插入位置先验信息的情况下,仅凭视频内容,在超长的上下文中定位到这个“针”(目标片段),并准确理解其内容,回答相关问题。
- 挑战性:与大家熟知的基于纯文本的 NIAH 任务不同,VideoNIAH 的答案无法直接从视频对应的文本描述或字幕中轻易提取。这要求模型必须具备对视频内容本身进行深层次理解和推理的能力。因此,VideoNIAH 本质上更具挑战性,模型很难像在文本 NIAH 任务中那样达到近乎完美的准确率(如 99%)。其性能上限会受到模型对目标短视频原始 QA 理解能力的制约。
- ViLAMP 表现:在这个极具挑战性的新基准上,ViLAMP 展示了强大的长视频建模能力。即使在处理包含 10,000 帧(约 3 小时) 的超长视频时,ViLAMP 依然能够保持 58.15% 的准确率(作为参考,其在原始 QA 数据集上的准确率为 78.9%),显著超越了 VideoChat-Flash 基线模型 12.82%。
- 效率惊人:相比于 LLaMA-VID 基线模型,ViLAMP 的内存消耗降低了约 50%。在处理 8,192 帧的长视频时,其所需的计算量(FLOPs)减少了 80% 以上。这使得在有限的硬件资源下处理长视频成为可能。
- 组件有效性验证:深入的消融实验(Ablation Study)进一步验证了 ViLAMP 各个创新组件的有效性。结果表明:
- 与现有的关键帧选择方法(如均匀采样、基于相似度的方法)相比,DKS 在长视频场景下展现出明显的性能优势。
- 与 Q-former、平均池化等常见的特征融合/压缩方案相比,DFM 在所有测试的数据集上都带来了 3 个百分点以上的稳定性能提升。
模型在各项基准上的性能表现对比
ViLAMP 在 Video-MME 排行榜上的位置
ViLAMP 与其他模型在计算效率(内存、计算量)上的对比
结语
ViLAMP 的提出,通过其创新的差分蒸馏框架和混合精度策略,成功突破了长期以来困扰视觉语言模型的长视频处理计算瓶颈。它不仅在性能上实现了显著的飞跃,更重要的是,为视频理解领域贡献了新的研究思路和高效的技术路径。
这项工作所展现出的原理性贡献和巨大的实用价值,无疑将有力推动视频理解技术在更多真实世界场景中的应用落地,例如更智能的视频内容分析、检索,更高效的在线学习平台,以及更可靠的长时间监控系统等。我们期待看到未来有更多基于 ViLAMP 框架的创新研究涌现,持续拓展机器理解动态视觉世界的边界。








