时光飞逝,2025年才刚刚揭开序幕,人工智能领域已是浪潮迭起,新突破层出不穷,令人目不暇接。
特别是在计算机视觉这一前沿阵地,无论是炙手可热的生成式AI、功能强大的多模态基础模型,还是这些技术在实际应用中的落地生根,都取得了令人瞩目的成就。我们正共同见证着,计算机视觉领域正经历一场深刻的变革:从以往专注于单一任务的“专才”模型,逐步迈向能够处理多种信息、适应多样化任务的“通才”型、多模态基础架构。与此同时,这些先进技术正以前所未有的速度,向移动智能终端和各个产业场景加速渗透,展现出巨大的应用潜力。
以当前备受瞩目的**「文生图」技术赛道为例,研究者们通过巧妙融合并持续优化自回归模型与扩散模型,不断刷新着视觉模型架构的认知边界。正是这种理论层面的持续突破与产业应用需求的紧密结合**,共同将计算机视觉推向了一个崭新的发展阶段。
不止于此,视频内容的智能生成、多模态大模型的深入发展,乃至三维(3D)视觉技术的探索,无一不在以惊人的迭代速度,持续拓展我们对智能视觉能力的想象空间。
把握前沿脉搏:为何聚焦顶级学术会议?面对如此迅猛的技术浪潮,如何才能紧跟热点,洞悉前沿研究的脉搏?参加一场高质量 ...
AI 与物理学联手:抗体-抗原复合物结构预测的新探索
在生物医学的广阔领域中,精准预测抗体-抗原复合物的三维结构,其重要性不言而喻。这不仅是我们深入洞察免疫系统如何响应病原体入侵、揭示免疫应答精妙机制的钥匙,更是设计和优化治疗性抗体——这类被誉为“生物导弹”的药物——的基石。然而,要想达到原子级别的精确度,目前的技术手段依然面临着不小的挑战,各种预测模型得出的结果也常常伴随着一定程度的不确定性。
现有方法的局限性近年来,深度学习的浪潮席卷了生命科学领域,其中,AlphaFold的横空出世无疑为蛋白质结构预测带来了革命性的突破。它在预测单一蛋白质或常规蛋白质复合物结构方面展现了惊人的准确性。但令人稍感遗憾的是,当AlphaFold面对更为复杂的抗体-抗原相互作用时,其预测成功率却不尽如人意。究其原因,主要是因为抗体与抗原之间往往缺乏如蛋白质家族内部那样强烈的协同进化(co-evolutionary)信号——这是AlphaFold赖以进行精确预测的关键信息之一。
另一方面,传统的基于物理学的分子对接工具,作为另一种预测复合物结构的途径,虽然在某些情况下能够提供有价值的参考,但它们普遍存在一 ...
AI 赋能医疗新篇章:OpenAI HealthBench 引领大模型评估革新
人工智能(AI)在提升人类福祉方面肩负着重要使命,其中,改善医疗健康是其核心目标之一。大型语言模型(LLM)若能得到审慎的开发与有效的部署,无疑将为医疗健康领域带来革命性的变化:它们不仅能拓宽健康信息的传播路径,让更多人受益,还能辅助临床医生提升诊疗服务质量,并赋能个体与社区更好地进行健康管理。
然而,要将这一美好愿景变为现实,科学家们必须确保这些AI模型在实际应用中既高效实用,又绝对安全。因此,建立科学的评估测试体系,用以衡量模型在真实医疗场景下的表现,就显得至关重要。尽管学术界和产业界已在此方向投入巨量心血,但现行的多数评估基准,在模拟真实医疗环境的复杂性方面仍显不足,尤其在采纳和验证资深医学专家的意见方面存在短板,这无疑限制了模型进一步优化的空间和潜力。
HealthBench:专为医疗场景打造的评估利器针对这一挑战,OpenAI 的 Health AI 团队最近推出了一项名为 HealthBench 的开源基准测试项目。该项目致力于精准评估大型语言模型在医疗健康领域的综合性能与安全性。值得一提的是, ...
本项研究的第一作者是中国人民大学高瓴人工智能学院的硕士研究生程传奇,他目前在蚂蚁技术研究院实习,专注于多模态大模型领域。蚂蚁技术研究院的副研究员关健为共同第一作者。
长视频理解的挑战与机遇近年来,视觉语言模型(Vision-Language Models, VLMs)取得了令人瞩目的进步,但在长视频理解这一领域,挑战依然严峻。想象一下,一段标准清晰度、每秒 24 帧的视频,短短几分钟就能产生超过百万级别的视觉标记(token)。这个数量级已经远远超出了当前主流大语言模型(LLMs)通常能处理的 4K 到 128K 上下文窗口极限。
当我们面对动辄数小时的电影或电视剧这样的长视频内容时,现有方法的局限性就更加明显了:
粗略采样:随机或均匀地抽取视频帧,很容易遗漏掉稍纵即逝的关键信息。
特征融合:虽然可以将多帧信息压缩,降低数据维度,但这个过程往往会牺牲掉一部分语义信息的完整性。
如何才能让机器像人一样,既能抓住长视频的重点,又能理解其全局脉络呢?
ViLAMP:引入“混合精度”策略,高效处理万帧视频针对上述难题,来自蚂蚁集团和中国人民大学的研究团队最近提出了一种创新的解决方案— ...
开启「分步思考」新范式。
人工智能的新篇章:借鉴大脑,引入时间维度在科学界,一个普遍的认识是:即便当前最尖端的人工智能(AI),在性能和效率上仍难以与结构复杂、运作高效的人类大脑相提并论。
为了推动人工智能领域的发展,研究者们常常将目光投向大自然,汲取灵感。无论是通过模拟进化来融合模型、为语言模型演化出更优的记忆机制,还是探索人工生命的广阔空间,都是这一思路的体现。虽然人工神经网络(ANNs)近年来驱动了AI取得瞩目成就,但它们本质上仍是生物神经网络的一种简化模拟。这就引出了一个关键问题:我们能否通过融入生物大脑的关键特性,将人工智能的能力与效率推向一个全新的高度?
一群研究者决定从一个认知科学的核心要素——时间——入手,进行全新的探索。
就在最近,由Transformer架构的作者之一 Llion Jones 联合创办的 Sakana AI 公司,发布了一项名为**「连续思维机器」(Continuous Thought Machine, CTM)的创新成果。这是一种新颖的人工智能模型,它将神经元活动的同步性**作为其核心推理机制。可以将其视为一种新型的人工神经网络,巧妙地利用神经 ...
AI视频创作再掀浪潮:Higgsfield带你轻松玩转专业级运镜
编辑 | 杨文
还记得去年九月,我们一同审视了那些号称100%由AI操刀的广告大片吗?彼时,AI的镜头语言虽有新意,却也难掩一些令人莞尔的瑕疵,比如那略显怪异的人物手指:
亦或是模特行走时,那仿佛下一秒就要“崴断”的脚踝:
然而,仅仅经过半年的迅猛发展,AI视频技术已然迭代升级,迈入了全新的发展阶段。
就在不久前,音乐组合Partyof2斥资2500美元精心打造了一支MV。令人惊叹的是,一位内容创作者(博主)利用一款名为Higgsfield的AI视频生成工具,几乎是“一比一”地复刻了MV中的专业镜头,其效果之逼真,用“毫无二致”来形容也毫不为过。
据这位博主分享,整个过程出奇地简单:只需上传一张歌手的静态照片,然后在Higgsfield AI中选用“Mouth In”(嘴部特写)的镜头运动预设,短短几分钟内,一个专业水准的特写镜头便新鲜出炉。
而下面这个令人印象深刻的镜头,则运用了Higgsfield AI的另一项“黑科技”——“机械臂运镜(ROBO ARM)”。值得一提的是,Higgsfield是目前市面上唯一 ...
这篇引人注目的研究成果,题为《Multi-party Collaborative Attention Control for Image Customization》,由中国科学院计算技术研究所的科研团队倾力打造。其中,硕士研究生杨晗担任第一作者,安竹林副研究员与杨传广助理研究员为共同通讯作者。
论文标题: Multi-party Collaborative Attention Control for Image Customization
论文原文: https://arxiv.org/abs/2505.01428
开源代码: https://github.com/yanghan-yh/MCA-Ctrl
背景:AI 图像生成的浪潮与个性化定制的挑战近年来,生成式人工智能(Generative AI)领域取得了令人瞩目的飞跃,特别是文本到图像(T2I)生成模型的迅猛发展,使得人工智能系统能够依据用户提供的文本提示(prompt)创造出高度逼真的图像。从 DALL·E 的 pioneering 探索,到 Stable Diffusion、Midjourney 等模型的相继涌现与迭 ...
国际科学智能联盟正式成立:携手开启“大科研时代”新纪元2024年5月9日下午,一场意义非凡的盛会——国际科学智能联盟(International AI for Science Union)成立仪式,在北京大学中关新园的科学报告厅隆重举行。该联盟由北京大学、上海交通大学、中国科学技术大学、北京科学智能研究院等超过五十家国内外顶尖的高等学府、科研机构以及行业内的领军企业共同发起。其宏伟目标在于,借助人工智能的强大力量,驱动科研范式的深刻变革,进而加速科学发现的进程,并促进科研成果与产业应用的协同发展,共同谱写“大科研时代”的崭新篇章。
图示:成立活动现场,嘉宾云集,共襄盛举
全球智慧协同,共绘科研新蓝图在人工智能赋能科学研究(AI for Science)的浪潮席卷全球,深刻重塑着传统学科边界,并日益贯通学术研究与产业应用之间创新链条的时代背景下,国际科学智能联盟的成立,无疑吸引了全球科学界与产业界的广泛关注与重要代表的积极参与。
北京大学常务副校长、深圳研究生院院长、中国科学院院士张锦在致辞中表示,北京大学将充分发挥其在多学科交叉融合方面的独特优势,积极联动全球范围内的顶尖科研力量,为科 ...
2024年5月9日,一场聚焦AI前沿的盛会——“AI进化论:大模型驱动下的客户体验变革”主题论坛,在山城重庆圆满落幕。本次论坛由国内知名的智能通讯云服务商容联七陌携手中国客户服务节组委会及行业媒体客户观察共同主办。
与会专家学者与行业精英们齐聚一堂,深入剖析了大模型技术如何与客户服务场景擦出火花,共同勾勒出智能客服从单纯的技术展示迈向真正为企业创造价值的演进蓝图,为业界带来了宝贵的实战经验与极具前瞻性的行业洞察。

技术浪潮:从单点优化到系统级能力飞跃在论坛上,容联七陌的产品专家刘倩一针见血地指出了传统客服体系的痛点:高达60%的客户需求仍需人工介入处理,效率与成本面临严峻考验。而大语言模型 (Large Language Models, LLMs) 的崛起,正为这一困境带来了三大革命性的突破:
语言理解的精准深化:相较于传统技术,大模型能够更精确 ...
洞悉微观宇宙:ulrb 工具借助机器学习革新稀有生物圈定义
微生物的世界浩瀚无垠,其种类之繁多,蕴藏着难以估量的遗传信息。在这个微观宇宙中,稀有生物圈(rare biosphere)扮演着至关重要的角色——它不仅是维系生态系统抵抗力与复原力的关键,也是宿主相关微生物共生关系的潜在源泉。
传统上,研究人员通常依赖等级丰度曲线(Rank Abundance Curve, RAC)对微生物进行排序,或通过设定固定的丰度阈值来界定稀有生物圈。然而,这种基于阈值的方法往往缺乏灵活性,难以适应不同研究场景和数据集的内在差异,导致研究结果的可比性受限。
为了突破这一瓶颈,来自波尔图大学(Universidade do Porto)等机构的科研团队另辟蹊径,开发并开源了一款名为 ulrb 的创新软件。这款工具独具匠心之处在于,它运用无监督机器学习技术,能够智能地将微生物群落划分到最适宜的丰度类别中。这项重要成果以“Definition of the microbial rare biosphere through unsupervised machine learning”为题,已于 2024 年 4 ...

