Harmon:统一视觉表征赋能AI多模态理解与生成
Harmon:统一视觉表征赋能AI多模态理解与生成
未知变量本文将介绍一项由吴思泽主导的研究工作。吴思泽目前是南洋理工大学 MMLab@NTU 的四年级博士生,师从 Chen Change Loy 教授。他的研究兴趣广泛,主要聚焦于利用多模态模型进行视觉理解与生成,以及开放世界环境下的目标检测与分割等前沿领域。他已在 ICCV、CVPR、ICLR 等计算机视觉和机器学习领域的顶尖学术会议上发表了多篇具有影响力的论文。
- 论文题目:Harmonizing Visual Representations for Unified Multimodal Understanding and Generation (为统一多模态理解与生成协调视觉表征)
- 论文链接: https://arxiv.org/abs/2503.21979
- 代码地址: https://github.com/wusize/Harmon
- 项目主页:https://wusize.github.io/projects/Harmon
- 在线演示 (Demo): https://huggingface.co/spaces/wusize/Harmon
一、引言:迈向统一的多模态理解与生成
近期,诸如 GPT-4o 等模型在图像生成方面展现出的惊人能力,再次印证了构建一个能够同时胜任理解与生成任务的统一多模态模型的巨大潜力。然而,如何在同一个框架内巧妙地融合并协调这两种在处理粒度上存在显著差异的任务(图像理解侧重于高层语义,图像生成则更关注细节纹理),无疑是一项艰巨的技术挑战。
从视觉表征的视角来看,现有的统一模型大致可以归为以下三种主流范式:
- 理解与生成共享 CLIP/SigLIP 表征:这类方案(如 EMU2、ILLUME)在理解和生成任务中均采用 CLIP 或 SigLIP 这类强大的语义视觉表征,并借助 Diffusion Model 将这些表征解码为图像。其局限性在于,图像生成过程与大语言模型 (LLM) 的互动相对较弱,LLM 输出的特征向量 (embeddings) 更多是作为生成模型的条件输入,限制了更深层次的语义交互。
- 理解与生成共享 VQGAN/VAE 表征:另一些模型(如 Transfusion、Show-o、ViLA-u)则统一采用 VQGAN 或 VAE 等自编码器产生的视觉表征。由于 VQGAN/VAE 主要用于图像压缩,其表征更侧重于图像的纹理和局部细节,对高层视觉语义的捕捉能力相对有限,导致这类方法在图像理解任务上往往表现平平。
- 解耦理解与生成的视觉表征:还有一类方法(如 Janus、UniFluid)选择为理解和生成任务分别采用不同的视觉表征。具体而言,理解任务依赖于能够编码高层语义的 CLIP/SigLIP 表征,而生成任务则使用 VQGAN 这类更擅长细节重建的表征。这种解耦设计虽然在一定程度上发挥了各自表征的优势,但也可能引入额外的复杂性,并错失了统一表征可能带来的协同效应。
二、Harmon 模型:巧妙协调理解与生成的视觉表征
与 Janus 等模型将理解和生成的视觉编码器分离开来的思路不同,Harmon 致力于探索如何在统一的视觉表征基础上,实现图像理解与生成任务的和谐共存与相互促进。
(一) 来自 MAR 的重要启示
图 1:Linear Probing 结果及特征图激活可视化
MAR (Masked AutoRegressive model) 是一种基于图像掩码建模的生成范式,它借鉴了表征学习领域经典的 MAE (Masked AutoEncoders) 所采用的编码器-解码器 (Encoder-Decoder) 架构。Harmon 的研究者们通过实验敏锐地观察到,MAR 的编码器在进行图像生成任务的训练过程中,竟也“无心插柳”般地学习到了对视觉语义进行有效建模的能力。
如图 1 所示,通过 Linear Probing(一种评估特征表征质量的常用方法)进行验证,MAR 编码器提取的特征在语义理解任务上的表现远超传统的 VQGAN 和 VAE。同时,其特征图激活也显示出对不同视觉语义概念(如特定物体或场景)具有更精准的响应。这一发现为构建统一的视觉表征提供了关键的灵感。
(二) Harmon 框架:共享 MAR 编码器,赋能理解与生成
图 2:Harmon 模型整体框架图
Harmon 的核心框架如图 2 所示,其精髓在于通过共享 MAR 编码器来同时驱动图像理解和图像生成两大任务:
- 图像理解:当执行理解任务时,MAR 编码器负责处理输入的完整图像,提取其视觉特征。随后,大语言模型 (LLM) 会结合这些图像特征以及用户的文本指令,输出相应的文本描述或回答。
- 图像生成:在生成任务中,Harmon 沿用了 MAR 的掩码建模范式。MAR 编码器处理图像中当前可见(即已经生成)的部分内容,LLM 则在其中扮演关键角色,实现跨模态的交互与信息融合,最后由 MAR 解码器根据这些信息预测并生成图像的剩余(被掩码)部分。
这种设计使得同一个视觉编码器能够适应不同任务的需求,为实现真正的理解与生成协同进化奠定了基础。
(三) Harmon 的三阶段训练策略
为了高效地训练 Harmon 模型,研究者们设计了一个精心规划的三阶段训练流程:
- 模态对齐阶段:此阶段的核心目标是实现 MAR 视觉模块与 LLM 之间的初步对齐。在这一阶段,LLM 的参数被冻结,训练重点集中在优化 MAR 编码器和解码器的参数,使其能够更好地理解并配合 LLM。
- 联合训练阶段:在模态初步对齐后,模型将在大规模的图文对数据上进行联合训练。此时,包括 MAR 编码器、解码器以及 LLM 在内的所有模型参数都将参与更新,从而使各个模块能够更紧密地协同工作。
- 高质量微调阶段:最后一个阶段,模型会利用少量高质量的图文数据进行精细微调。同时,为了提升生成图像的质量,输入图像的分辨率也从此前的 256x256 提升至 512x512。
三、实验效果:理解与生成能力双双提升
Harmon 模型在多项基准测试中展现了其卓越的性能,无论是在多模态理解还是文本生成图像方面,都取得了令人瞩目的成果。
(一) 多模态理解能力接近领先水平
在多个权威的多模态理解基准测试中,Harmon 的表现非常出色,其性能已十分接近于目前领先的解耦模型 Janus-Pro。
这充分证明了 Harmon 所采用的统一视觉表征方案在保持强大理解能力方面的有效性。
(二) 文本生成图像能力优势显著
在文本到图像的生成任务上,Harmon 的优势尤为突出,多项指标均大幅领先同类统一模型,甚至在某些方面可以媲美或超越顶级的文生图专用模型。
图像美学质量:在衡量生成图像美学效果的基准(如 MJHQ-30K)上,Harmon 的得分远超其他统一多模态模型,并且其表现已经接近甚至超过了像 SDXL 这样的专业文生图模型。
指令遵循与一致性:在评估模型对复杂文本指令的理解和生成内容与指令一致性的 GenEval 基准上,Harmon 的表现更是大幅领先于所有参与比较的专家模型和统一模型。
世界知识的运用:值得一提的是,Harmon 能够更有效地利用多模态大模型所蕴含的丰富世界知识来指导图像生成。在专门为此设计的 WISE (World Knowledge in Image Synthesis Evaluation) 基准测试中,Harmon 的得分远超 Janus 等其他统一模型。
(三) 理解与生成的协同促进作用
实验进一步揭示了 Harmon 设计的巧妙之处。如图 3 所示,与采用解耦视觉编码器的方案(图 3d,其中理解和生成的视觉模块各自独立)相比,Harmon 的协同视觉表征使得理解任务的学习能够显著提升生成任务的性能指标(图 3b)。
图 3:理解与生成任务之间的相互作用分析
这一发现有力地证明了统一视觉表征对于实现生成与理解能力协同进化所具有的巨大潜力。当两个任务共享并共同优化同一个强大的视觉表征时,它们可以相互学习、相互促进,从而达到 1+1 > 2 的效果。
四、可视化效果展示
以下图片展示了 Harmon 模型在文本生成图像方面的一些出色样例,直观地体现了其强大的生成能力和对文本指令的精准理解。











