ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models¶

会议: CVPR 2025
arXiv: 2503.19902
代码: https://visual-ai.github.io/ice
领域: 图像生成
关键词: concept learning, intrinsic concepts, diffusion model, Stable Diffusion, triplet loss, concept decomposition

一句话总结¶

提出 ICE 两阶段框架，仅用单个 T2I 扩散模型从单张图像自动定位物体级概念并分解为内在属性（类别、颜色、材质），实现无标注、无额外模型的层次化视觉概念提取。

研究背景与动机¶

领域现状: T2I 扩散模型（如 Stable Diffusion）积累了丰富的视觉世界知识，已被用于图像分类、分割、语义对应等任务。生成式概念学习旨在从图像中分解和理解组成复杂场景的基本元素。

现有痛点: (1) Textual Inversion/DreamBooth 需要多张同概念图像学习，无法从单图提取；(2) Break-A-Scene 依赖人工标注 mask；(3) ConceptExpress 等方法只提取物体级概念，忽略颜色/材质等内在属性；(4) LangInt 需要为每个概念轴训练独立编码器，扩展性差。

核心矛盾: 视觉概念定义本身具有模糊性和层次性 — 一个"红色金属球"包含物体类别（球）、颜色（红色）、材质（金属）等多层内在概念，现有方法缺乏系统化的分解机制。

本文切入角度: 完全利用预训练 T2I 模型的内在能力（CLIP 编码器做文本检索、自注意力层做分割），无需引入额外预训练模型。

方法详解¶

整体框架¶

两阶段架构： 1. Stage 1 - 自动概念定位: 零训练地从图像中提取文本概念 + 对应 mask 2. Stage 2 - 结构化概念学习: 分两个 phase 学习物体级概念和内在概念

关键设计¶

1. 自动概念定位（Stage 1, 无训练） - 功能: 迭代地从图像中提取概念和 mask，直到图像中无剩余物体。 - 核心流程: 1. Image-to-Text Retriever $\mathcal{T}(\mathbf{x})$: 用 CLIP 编码器的 SpLiCE 框架将密集嵌入分解为稀疏可解释的语义概念，获取 top-1 文本概念 $c_i$ 2. Zero-shot Segmentor $\mathcal{S}(\mathbf{x}, c_i)$: 利用 Stable Diffusion 的自注意力层（DiffSeg）生成对应 mask $\mathbf{m}_i$ 3. 迭代移除: $\mathbf{x}' = \mathbf{x} \odot (1 - \mathbf{m}_i)$，更新图像后重复 - 设计动机: 完全复用 T2I 模型内部组件，不引入外部模型，确保框架的轻量性和一致性。

2. 物体级概念学习（Stage 2, Phase 1） - 功能: 为每个物体级概念 $c_i$ 学习两个 token: concept-specific $c_i^{conspec}$（表示通用语义类别）和 instance-specific $c_i^{inspec}$（表示实例特有属性）。 - 核心思路: 用三元组损失把 concept-specific token 拉近 anchor（Stage 1 提取的文本概念），推远 instance-specific token: $$\mathcal{L}_{triplet}^{obj} = \max(0, \|\mathcal{E}(anchor) - \mathcal{E}(c_i^{conspec})\|_2^2 - \|\mathcal{E}(anchor) - \mathcal{E}(c_i^{inspec})\|_2^2 + \gamma)$$ - 设计动机: 三元组损失的 anchor 来自 Stage 1 的高质量文本概念初始化，提供了比随机初始化更好的学习起点。

3. 内在概念学习（Stage 2, Phase 2） - 功能: 将 instance-specific token 进一步分解为内在属性 token $c_j^{intrinsic}$（如颜色、材质）。 - 核心思路: 为每种内在概念构造专属 anchor 文本（如"the colour of $c_i^{inspec}$"），用内在三元组损失约束: $$\mathcal{L}_{triplet}^{intrinsic} = \max(0, \|\mathcal{E}(anchor_j) - \mathcal{E}(c_j^{intrinsic})\|_2^2 - \|\mathcal{E}(anchor_j) - \mathcal{E}(c_k^{intrinsic})\|_2^2 + \gamma)$$ - 概念精炼: 在 Phase 2 后对 U-Net 和文本编码器进行少量 fine-tuning（300步），确保内在概念与视觉属性精确对齐。 - 设计动机: 层次化分解（物体级→内在概念级）比一次性学习所有概念要稳定得多。

损失函数¶

\[\mathcal{L}_{total} = \mathcal{L}_{recon} + \lambda_{att}\mathcal{L}_{att} + \lambda_{triplet}\mathcal{L}_{triplet}\]

$\mathcal{L}_{recon}$: 去噪重建损失
$\mathcal{L}_{att}$: 注意力 mask 损失（Wasserstein距离对齐注意力图与分割mask）
$\mathcal{L}_{triplet}$: 三元组损失（物体级或内在级，按 phase 切换）
超参: $\lambda_{att} = 1 \times 10^{-5}$, $\lambda_{triplet} = 1$

训练配置: Phase 1 400步 → Phase 2 400步 → Refinement 300步，单 3090 GPU。

实验关键数据¶

主实验 — UCE 基准（CLIP 编码器）¶

方法	SIMI↑	SIMC↑	ACC1↑	ACC3↑
Break-A-Scene	0.627	0.773	0.174	0.282
ConceptExpress	0.689	0.784	0.263	0.385
ICE	0.738	0.822	0.325	0.518

DINO 编码器评估¶

方法	SIMI↑	SIMC↑	ACC1↑	ACC3↑
ConceptExpress	0.319	0.568	0.324	0.470
ICE	0.677	0.755	0.476	0.638

ICE 在 DINO 特征空间的优势更加显著（SIMI 提升 112%），说明学到的概念具有跨编码器的泛化性。

消融实验¶

变体	CLIP SIMI↑	CLIP SIMC↑	DINO SIMI↑	DINO ACC3↑
ConceptExpress	0.689	0.784	0.319	0.470
ICE w. mask only	0.710	0.781	0.493	0.604
ICE w/o Stage Two	0.726	0.807	0.501	0.604
ICE w/o text init	0.722	0.814	0.548	0.627
ICE Full	0.738	0.822	0.677	0.638

Mask 质量对比¶

方法	mIoU↑	Recall↑	Precision↑
ConceptExpress	0.483	0.676	0.657
ICE	0.635	0.893	0.720

ICE 的 Recall 从 0.676 提升到 0.893，表明自动概念定位能捕获更多物体区域。

关键发现¶

每个模块都有贡献: 消融显示 mask、text init、Stage Two 学习各自提供增量收益。
Mask质量是基础: ICE 的 mIoU=0.635 远超 ConceptExpress 的 0.483，更好的定位带来更好的概念学习。
DINO空间优势更大: 说明 ICE 学到的概念不只是 CLIP 语义，而是更通用的视觉属性。
无需额外模型: 全部复用 T2I 模型内部组件（CLIP编码器+自注意力分割），实现端到端一致性。

亮点与洞察¶

概念层次化分解（物体→类别+实例→内在属性）的设计思路清晰优雅
Stage 1 完全零训练，仅利用 T2I 模型内部组件完成概念定位和分割
三元组损失 + 文本 anchor 的设计巧妙地将概念约束嵌入学习过程
是首个从单张图像同时提取物体级和内在级概念的无监督框架

局限与展望¶

依赖 DiffSeg 的零样本分割质量，复杂重叠场景可能提取不完整
内在概念类型（颜色、材质）需要预定义，无法自动发现新属性维度
训练步数较少（共 1100 步），概念精炼可能不够充分
仅在 Unsplash 数据集上评估，缺乏多样化场景的验证
概念分解的可解释性仍有提升空间（某些内在概念可能纠缠）

评分¶

⭐⭐⭐⭐ — 框架设计精巧，从 T2I 模型中挖掘概念分解能力的路径新颖；实验在 UCE 基准上全面领先，但内在概念类型需预设是局限。