无需微调:MCA-Ctrl协同注意力革新AI图像定制

图片

这篇引人注目的研究成果,题为《Multi-party Collaborative Attention Control for Image Customization》,由中国科学院计算技术研究所的科研团队倾力打造。其中,硕士研究生杨晗担任第一作者,安竹林副研究员与杨传广助理研究员为共同通讯作者。

图片

背景:AI 图像生成的浪潮与个性化定制的挑战

近年来,生成式人工智能(Generative AI)领域取得了令人瞩目的飞跃,特别是文本到图像(T2I)生成模型的迅猛发展,使得人工智能系统能够依据用户提供的文本提示(prompt)创造出高度逼真的图像。从 DALL·E 的 pioneering 探索,到 Stable Diffusion、Midjourney 等模型的相继涌现与迭代,该领域的技术革新正以前所未有的速度推进。

在基础 T2I 模型能力日臻完善的今天,图像定制化(Image Customization)的需求应运而生,并日益受到关注。简而言之,图像定制化技术致力于在精确保持参考图像中主体(subject)身份特征与核心属性的前提下,依据新的文本指令或视觉参照,生成该主体的全新视觉呈现。这项技术在诸多领域展现出巨大的应用潜力,例如电子商务中的虚拟试衣、数字内容创作领域的个性化角色设计,以及广告营销中的创意视觉生成等。

图片

目前,图像定制化领域的主流方法主要可以归纳为三大技术路径:

  1. 基于反演优化(inversion-based)的方法: 此类方法试图通过优化找到能够重建参考图像的潜在编码,进而进行编辑。
  2. 基于多模态编码器(multimodal encoder-based)的方法: 它们通常利用强大的编码器来理解图像和文本信息,以指导生成过程。
  3. 新兴的基于注意力控制(attention control-based)的方法: 这类方法通过精细调控生成模型内部的注意力机制来实现对图像内容的定制。

尽管上述方法在各自的适用场景中均取得了一定的成果,然而,通过我们系统的实验评估与实际应用检验,发现当前的技术方案仍普遍面临以下几个亟待突破的关键瓶颈:

  1. 可控性有待提升: 当前主流的文本驱动方法在精确控制图像背景、整体布局等非主体元素方面仍显乏力。尽管诸如 PhotoSwap 等新兴技术尝试引入图像作为额外条件,但其功能往往局限于单一的替换或添加操作,未能实现对场景元素的统一、灵活调控。
  2. 复杂视觉场景驾驭困难: 当面对包含多个物体相互作用、存在遮挡等复杂视觉情境时,现有模型常常出现主体特征“泄露”或扩散到邻近区域的问题。这主要是由于模型在生成过程中,对于高响应区域(即与主体相关的关键区域)的理解和生成不够准确所致。
  3. 背景融合的自然度欠佳: 在利用图像作为条件进行控制时,新生成的主体或元素与原始图像背景的融合效果往往不尽如人意,可能出现边缘生硬、光照不一致等问题,影响整体视觉的和谐度。

核心方法:多主体协同注意力控制(MCA-Ctrl)

针对上述挑战,本文提出了一种无需微调(tuning-free)的通用图像定制框架——多主体协同注意力控制(MCA-Ctrl)。该方法巧妙地利用预训练扩散模型内部蕴含的丰富知识来实现高质量的图像定制。其核心创新点在于,能够将来自条件图像或文本提示的语义信息与待编辑主体图像的内容进行深度融合,从而生成主体在新情境下的逼真且富有创意的视觉表现。MCA-Ctrl 的设计主要聚焦于三类核心定制任务:主题替换(subject replacement)主题生成(subject generation)主题添加(subject addition)

MCA-Ctrl 支持通过条件图像条件文本两种方式进行图像定制,其工作流程(如下图 A 和 B 所示)大致如下:首先,引入一个主体定位模块(Subject Location Module, SLM),对图像中的目标主体进行精准定位。随后,系统运用一种创新的**三路并行扩散(three parallel diffusion processes)机制,在这些过程中通过精巧的自注意力注入(self-attention injection)与查询(query)**操作,既能捕获并保留特定主体的核心视觉特征,又能将这些特征与条件信息所定义的语义空间布局完美结合。

更具体地,在每个扩散步骤(diffusion step)中,MCA-Ctrl 系统会执行以下两个关键的注意力操控步骤:

  1. 自注意力局部查询(Self-Attention Local Query, SALQ): 目标扩散过程从主体图像和条件信息中分别检索外观特征和背景内容(如图 C 所示)。
  2. 自注意力全局注入(Self-Attention Global Injection, SAGI): 将主体图像和条件信息中提炼出的注意力图谱直接注入到目标扩散过程中(如图 D 所示)。

图片

1. 自注意力局部查询(SALQ)的精妙运作

从任务目标出发,我们期望从主体图像中精确提取其独特的外观特征,同时从条件信息(无论是图像还是文本)中查询并借鉴其背景内容和整体语义布局。受到 MasaCtrl 方法的启发,我们巧妙地利用自注意力层中的键(key)和值(value)特征来表征图像内容。如上图(C)所示,在目标生成过程中,系统通过查询特征 Q,分别从主体图像和条件信息中检索所需的前景主体外观和背景上下文。特别地,我们引入了主题掩码(subject mask)和背景掩码(background mask)来约束查询区域,确保查询操作的精准性。这种设计不仅保证了生成图像在语义布局上与条件信息的一致性,也为特定对象的外观替换和背景的自然对齐提供了坚实基础。

2. 自注意力全局注入(SAGI)的强化效能

尽管 SALQ 操作能够有效地进行特征迁移,但单独使用时,生成的图像往往会面临两个问题:(1)细节部分的真实感有所欠缺;(2)主体特征与背景之间可能出现轻微的混淆或渗透。 我们分析认为,这主要是因为查询过程本质上是一种局部特征的融合,原始特征与查询到的特征在局部区域的混合,难免会导致一定程度的特征交叉和信息损失。

为了克服这些局限,我们进一步提出了全局注意力混合注入(Global Attention Blending Injection)机制,旨在显著增强生成图像的细节真实度和内容一致性。具体做法如上图(D)所示:首先,分别计算条件图像和主体图像完整的注意力矩阵;接着,利用掩码对这些注意力矩阵进行过滤,从而精准分离出主体特征和背景特征;最后,将这些提纯后的特征直接注入到目标扩散过程中。这种“重构式”的特征替换,能够直接且有效地强化前景主体的细节表现和背景区域的真实感,同时显著降低了不同来源特征之间发生混淆的可能性。

实验效果与评估

下图直观展示了 MCA-Ctrl 在图像编辑与生成任务中的出色能力。前三行清晰揭示了其在主体编辑方面的强大性能,涵盖了主体替换、主体添加以及在复杂视觉场景下的主体替换等多种应用。这些结果充分证明了 MCA-Ctrl 在确保主体特征与背景环境高度一致性及生成结果真实感方面的优越性。第四行则重点突出了 MCA-Ctrl 卓越的零样本(zero-shot)定制生成能力,无论是在物体、动物还是人物等不同类别的主体上,均能实现高质量、高一致性且富有创意的图像再现。

图片

量化评估结果进一步印证了 MCA-Ctrl 的领先性。

  • 表 1 展示了在 DreamEditBench 基准上进行的主题替换任务的量化评估。与 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等主流方法相比,MCA-Ctrl 在各项评价指标上均展现出与之相当甚至更优的性能。
  • 表 2 则聚焦于 DreamBench 基准上的主题生成任务。在统一参数设置下进行测试时,MCA-Ctrl 的表现优于 Text Inversion、Re-Imagen 和 IP-Adapter,但略逊于 DreamBooth 和 BLIP-Diffusion。然而,在经过针对性的参数优化后,MCA-Ctrl 成功取得了与 BLIP-Diffusion 和 DreamBooth 相媲美的优异成绩。
  • 此外,表 3 呈现的人工评估结果也极具说服力,表明 MCA-Ctrl 在**主体特征对齐度(subject alignment)文本语义对齐度(text alignment)**两个关键维度上均表现突出。

图片

图片

图片

我们还深入探究了自注意力全局注入(SAGI)模块中注入步数 τ_sagi 对图像生成质量的影响,如下图所示。实验清晰地表明,在处理复杂场景时,如果完全移除 SAGI 操作(即 τ_sagi = 0),会导致诸如目标定位失败和全局特征严重混淆等问题。随着 τ_sagi 的逐步增加,主体特征的清晰度和准确性也随之显著提升。

然而,一个值得注意的现象是,当 τ_sagi 的值超过总去噪步骤的约 60%(这是一个在多数实验案例中观察到的经验阈值)后,继续增加 SAGI 的执行步数对于图像质量的提升效果将趋于平缓甚至饱和。这一现象揭示了两个重要的洞见:

  1. 早期介入的关键性: 在去噪过程的初期阶段,SAGI 能够非常有效地帮助模型建立主体与背景之间正确的语义关联,为后续的精细化生成奠定良好基础。
  2. 过犹不及的风险: 在去噪过程的后期,当图像细节已基本形成时,过度的全局特征注入反而可能干扰或破坏这些已经生成的精细特征,导致效果适得其反。

这种“边际效应递减”的特性,为我们后续在实际应用中优化算法参数、平衡效果与效率提供了宝贵的指导。

图片

为了方便广大研究者和开发者体验 MCA-Ctrl 的强大功能,我们还在项目的代码仓库中精心构建了一个交互式的图像定制化演示系统(如下图所示)。用户可以轻松上手,根据自己的具体需求,利用本文提出的方法高效完成各种图像定制任务。

图片

总结与展望

综上所述,本研究成功提出了一种无需额外训练(training-free)的创新图像定制化生成方法——MCA-Ctrl。该模型通过精妙设计的三路并行扩散过程间的协同注意力控制机制,实现了在主体驱动的图像编辑与生成任务上的高质量与高保真度输出。特别值得一提的是,MCA-Ctrl 创新性地引入了主题定位模块,从而有效克服了在复杂视觉场景中常见的特征混淆难题。大量的实验对比结果充分证明,相较于当前多数同类先进技术,MCA-Ctrl 无论在图像编辑的精确性还是生成结果的创新性方面,均展现出更为优异的综合性能。