AI 视频创作提速:Sparse VideoGen 如何在不牺牲画质的前提下将推理时间减半?
自从 OpenAI 的 Sora 模型惊艳亮相以来,人工智能视频生成领域便迎来了井喷式的发展。得益于扩散模型(Diffusion Models)日益强大的生成潜能,我们已经能够见证足以媲美真实世界的视频效果。然而,在模型生成的逼真度不断攀升的同时,其运算速度却遭遇了瓶颈,这无疑成为了阻碍该技术大规模应用的巨大壁垒。
目前,即便是顶尖的视频生成模型,如 Wan 2.1 和 HunyuanVideo,在单块 H100 GPU 上生成一段仅 5 秒钟的 720p 视频,往往也需要耗费超过 30 分钟。究其原因,3D 全注意力(3D Full Attention)模块是主要的性能瓶颈,其计算时间占据了总推理时长的 80% 以上。
为了攻克这一难题,来自加州大学伯克利分校与麻省理工学院的研究团队携手,带来了一项创新方案:Sparse VideoGen。
论文标题:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spati ...
Cognition AI 开源 CUDA 内核编写大模型 Kevin-32B:强化学习再显神威本周三,因发布“全球首个 AI 软件工程师”而声名鹊起的 AI 初创公司 Cognition AI,再次为我们带来惊喜——他们开源了一款名为 Kevin-32B 的大模型。这款模型的独特之处在于,它运用强化学习技术,专攻 CUDA 内核的编写。
据悉,Kevin-32B 是在 QwQ-32B 模型的基础上,利用 KernelBench 数据集,通过多轮 GRPO(Group Relative Policy Optimization,一种强化学习算法)训练精心打磨而成。其在推理性能上,已经成功超越了 o3 和 o4-mini 等业界领先模型。
这一消息在机器学习社区激起了热烈反响。不少从业者表示,他们一直期待能有一种类似 DeepSeek R1 训练风格的方法来提升代码生成效率,如今 Cognition AI 的这一成果,无疑是“久旱逢甘霖”。
深入剖析:Kevin-32B 的强化学习训练之道Cognition AI 在其官方博客中,对 Kevin-32B 模型强化学习的训练机制进行了详尽的 ...
这篇引人瞩目的论文,其第一作者是来自微软 DKI 团队的 Chaoyun Zhang。他不仅是 Windows 平台首个智能体系统——UFO 的核心开发者(该项目在 GitHub 上已斩获约 7,000 Stars,在开发者社区中激起了热烈反响),同时也是一篇长达 90 余页的 GUI Agent 领域综述文章的主要执笔人,对该领域的关键进展与技术框架进行了系统性的梳理。项目的其他主要贡献者同样来自微软 DKI 团队,均拥有深厚的研究底蕴和丰富的工程实践经验。
论文标题:UFO²: The Desktop AgentOS
论文地址:https://arxiv.org/abs/2504.14603
开源代码:https://github.com/microsoft/UFO/
项目文档:https://microsoft.github.io/UFO/
GUI 自动化的演进与挑战近年来,图形用户界面(GUI)自动化技术正悄然重塑我们与计算机交互及日常办公的方式。然而,以机器人流程自动化(RPA)为代表的传统自动化工具,往往因其依赖固定脚本而显得力不从心,不仅对界面变化极为敏感,维护成 ...
在人工智能浪潮席卷全球的今天,大型语言模型的研发突飞猛进。其中,推理能力作为衡量模型智能化程度的核心标尺,已然成为各大AI巨头竞相角逐的技术制高点。
然而,随着模型体量的不断增大,推理效率逐渐显现为制约模型实际部署与性能发挥的关键瓶颈。
洞察及此,NVIDIA基于Meta AI的Llama模型家族,推出了Llama-Nemotron系列模型。这是一个专为高效推理而生的大型模型开放家族,不仅在推理能力和效率上表现卓越,更采用了对企业用户十分友好的开放许可协议。
Llama-Nemotron系列目前包含三个不同规模的模型:
Nano (80亿参数)
Super (490亿参数)
Ultra (2530亿参数)此外,还有一个专为处理超长上下文设计的独立变体 UltraLong (80亿参数)。
论文标题:Llama-Nemotron: Efficient Reasoning Models
arXiv 地址:https://arxiv.org/pdf/2505.00949
代码仓库:https://github.com/NVIDIA/NeMo
数据集:https://huggingfa ...
百度启动第三届“文心杯”创业大赛,亿元级投入加速AI应用创新百度今日正式宣布,备受瞩目的第三届“文心杯”创业大赛,定于4月25日面向全球创业者拉开帷幕。作为国内大模型领域一项高规格、重磅投入的创投盛事,本届大赛将携总规模近亿元的“现金+资源”组合投资,旨在全面赋能大模型技术的创新突破与实际应用场景的加速落地。百度创始人、董事长兼首席执行官李彦宏特别强调:“我们将进一步加大对创业者的支持力度,单一项目的获奖金额将实现翻倍。其中,特别大奖的投资额度最高可达人民币7000万元!”
丰厚投入与全方位支持:为AI创业者降低门槛本届大赛继续秉持“技术开放、生态共生”的核心理念,并设立了极具吸引力的阶梯式激励体系,为优秀的创业项目提供丰厚回报:
一等奖:获得价值人民币 2,000万元 的投资组合(包含现金与资源)。
二等奖:获得价值人民币 1,000万元 的投资组合(包含现金与资源)。
三等奖:获得价值人民币 500万元 的投资组合(包含现金与资源)。
特别大奖:针对极具潜力的项目,提供最高可达人民币 7,000万元 的特别投资。
更值得一提的是,为了鼓励更多团队参与创新实践,所有成功报名的参 ...
潜在空间:点燃AI图像与视频创作的想象之源上个月,GPT-4o的图像生成能力着实火了一把,尤其是它生成的“吉卜力”风格图片,在网络上引发了热烈讨论,再次将生成式AI推向了风口浪尖。
在这波热潮背后,有一个关键技术功不可没,那就是潜在空间(Latent Space)。它就像是生成模型的“引擎”,为图像、视频乃至更多内容的创作提供了源源不断的动力和无尽的想象空间。
最近,知名研究者Andrej Karpathy也关注到了这个领域,并转发了Google DeepMind研究科学家Sander Dielman的一篇深度博客文章。这篇文章深入探讨了生成模型(涵盖图像、音频、视频等)是如何巧妙利用潜在空间来提升生成效率和作品质量的。
博客原文链接:https://sander.ai/2025/04/15/latents.html
Sander Dielman自2015年加入DeepMind以来,深度参与了众多明星项目,包括大名鼎鼎的WaveNet、AlphaGo,以及近期的Imagen 3和Veo等,研究领域横跨深度学习、生成模型和表征学习(Representation Learning), ...
强化学习浪潮席卷 AI 视频生成:复旦大学团队斩获两大权威榜单桂冠近年来,以 Deepseek 为代表的强推理语言模型大放异彩,再次证明了强化学习(RL)在训练顶尖大语言模型过程中的核心价值。然而,这股强大的技术浪潮似乎尚未充分涌入同样火热的视频生成领域。令人欣喜的是,来自复旦大学等机构的研究团队率先迈出了探索性的一步,将强化学习的威力注入视频生成模型。经过 RL 优化的模型,不仅生成的视频画面更加自然流畅,逻辑也更为合理连贯。凭借出色的成果,该团队的研究分别在 VDC (Video Detailed Captioning) [1] 和 VBench [2] 两大国际权威评测基准中拔得头筹。
精准捕捉动态细节:视频细粒度描述的突破要让机器生成高质量的视频,首先需要让机器“看懂”视频。视频细粒度文本描述 (Video Detailed Captioning, VDC) 任务正是为此而生,它旨在为视频内容生成详尽、准确的文字描述,这些描述如同“标签”一样,是训练和指导视频生成模型的关键基础。
在此方向上,复旦大学团队提出了名为 Cockatiel [3] 的创新方法。该方法在权威的 VDC ...
菲尔兹奖得主陶哲轩:当顶尖数学家遇上 AI 编程助手这个五一假期,当许多人享受休闲时光时,世界顶尖数学家、菲尔兹奖得主陶哲轩 (Terence Tao) 却投入到了一个有趣的技术项目中。他在社交媒体上宣布,借助大型语言模型 (LLM) 的力量,他成功编写并开源了一个概念验证 (proof-of-concept) 软件工具。
这个工具的核心目标是:验证那些涉及任意正参数的数学估计(Estimate)是否在常数因子范围内成立。
项目地址:https://github.com/teorth/estimates
简单来说,陶哲轩开发的这个框架,旨在实现分析学中常见“估计”不等式的自动化或半自动化证明。这里的“估计”通常指形如 X≲Y(在渐近记法中等价于 X=O(Y),表示 X 的增长速度不快于 Y 的某个常数倍)或 X≪Y(等价于 X=o(Y),表示 X 相对于 Y 是无穷小)的不等式。
为何需要这样一个工具?数学研究中的自动化“痛点”开发这个工具的想法,源于陶哲轩近期与他曾经指导的博士生、现任普林斯顿大学助理教授 Bjoern Bringmann 的一次深入讨论。
他们 ...
揭秘大模型上下文理解的关键:自注意力机制中的“极大值”现象近年来,大型语言模型(LLMs)在理解和运用上下文知识方面取得了长足的进步,令人印象深刻。然而,其内部运作机制的许多细节仍有待探索。
最近,一篇即将发表于 ICML 2025 的重磅研究 《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》,为我们揭示了 LLM 内部的一个关键现象。研究发现,在现代 Transformer 模型的自注意力(Self-Attention)模块中,查询(Query, Q)和键(Key, K)的表征里存在着高度集中的极大值 (Massive Values),而值(Value, V)的表征中则没有这种模式。这种现象在广泛采用旋转位置编码(Rotary Positional Embedding, RoPE)的模型中普遍存在,对于深入理解 LLM 如何处理上下文信息具有里程碑式的意义。
这项研究由罗格斯大学张永锋教授领导的团队完成,第一作者为该校博士生金明宇。金明宇同学已在 ...
随着机器学习技术的飞速发展,如何让模型在不断变化的环境中保持稳定表现,成为了学界和业界关注的焦点。其中,**领域泛化(Domain Generalization, DG)和领域适应(Domain Adaptation, DA)**正是应对这一挑战的关键技术方向。近年来,**CLIP(Contrastive Language-Image Pretraining)模型凭借其出色的零样本(zero-shot)**识别能力,在DG和DA任务中显露出巨大潜力,有望显著提升模型跨领域工作的性能。然而,目前针对CLIP在这两大领域应用的系统性梳理尚属空白,这恰恰凸显了新近发布的这篇综述论文的重要价值。
论文基本信息
论文标题: CLIP-Powered Domain Generalization and Domain Adaptation: A Comprehensive Survey
论文链接: https://arxiv.org/pdf/2504.14280
论文代码库: https://github.com/jindongli-Ai/Survey_on_CLIP-Powered_Domai ...

