Universal Guideline-Driven Image Clustering via a Hybrid LLM Agent¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://clustering-agent.github.io/ (项目页)
领域: LLM Agent / 图像聚类
关键词: 文本引导聚类, 概念代理, 指令感知嵌入, 最小生成树, 免训练

一句话总结¶

本文提出首个用「文本指南」统一各类图像聚类场景（通用 / 细粒度 / 多视角 / 长尾）的免训练混合 LLM 智能体：先用 MLLM 把图像写成「概念代理 caption」再交给指令感知嵌入模型，得到对齐指南的嵌入直接喂给传统聚类算法；当簇数未知时再用一套基于最小生成树（MST）的 LLM 遍历选择性合并小簇，把昂贵的 LLM 调用从 \(O(M^2)\) 降到 \(O(M\log M)\)，在四类任务上全面超越需要专门训练的方法。

研究背景与动机¶

领域现状：图像聚类的传统做法（K-Means、DBSCAN）靠静态编码器产生嵌入、再用数学距离度量分组，本质上不理解视觉语义；后来的深度聚类引入专门训练策略来引导聚类过程。

现有痛点：这些方法严重「碎片化」——为通用物体分类优化的方法做不了细粒度区分，为均衡分布设计的方法在长尾数据上崩溃，单视角聚类无法同时处理多个标准。每换一个场景就得换一套专门方案、甚至重新训练，实际部署极受限。已有的文本引导方法也只能一次处理单一、具体的标准（按颜色「或」按物种，不能两者兼顾），或要为新标准重新训练，或假设簇数已知。

核心矛盾：用户真实需求是「按一段自然语言指南聚类」——从简单指令（"按颜色分组"）到复合多属性要求（"按品牌和用途整理运动鞋"）。但一个直觉方案「把图像和指南直接丢给多模态指令感知嵌入器」会失败：一是现有多模态嵌入器处理不了复杂指南；二是指南里关键但视觉不显著的属性，会被视觉上强势却无关的特征「盖过」（比如卡牌按花色分组时，牌面数字的布局会主导花色这一意图）。

本文目标：构建第一个由文本指南驱动、免训练、能横跨「通用↔细粒度、全局↔局部、均衡↔长尾」的统一聚类框架，并且把 LLM 语义推理的强大与计算成本可控这两件事调和起来。

切入角度：与其让嵌入器直接「看图配指令」，不如插入一个文本中介——先用 MLLM 按指南把图像「翻译」成只聚焦相关属性的文字描述，借此把纠缠的视觉属性显式解开，再编码。这样既得到对齐指南的嵌入，又天然支持把多个标准组合进同一表示。

核心 idea：用「概念代理 caption」把视觉属性解纠缠后再编码（GCPM），再用「MST 引导的选择性 LLM 合并」处理簇数未知的自动发现——用嵌入的效率干常规判断，只在语义真正复杂处才花 LLM。

方法详解¶

整体框架¶

整个系统是一个免训练的两阶段混合智能体：输入是一组图像 \(X=\{x_1,\dots,x_N\}\) 加一段文本指南 \(G\)（用户给定，或在缺失时由 LLM 用启发式提示自动生成），输出是按指南分好的簇 \(C=\{C_1,\dots,C_M\}\)，即 \(C=f(G,X)\)。

第一阶段 GCPM 负责把「图像 + 指南」转成对齐指南的嵌入：MLLM 按指南指定的属性集 \(A\subseteq G\) 给每张图写概念代理 caption，再用指令感知嵌入模型编码，产物可直接喂给标准聚类算法。第二阶段按簇数是否已知分流：已知簇数时 K-Means 一步到位；簇数未知（真实世界更常见）时先用 HDBSCAN 得到初始小簇，再用 MST-based LLM Traversal 选择性地把同质小簇合并成大簇。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像集 X + 文本指南 G"] --> B["文本引导范式<br/>缺指南时 LLM 启发式生成"]
    B --> C["生成式概念代理建模 GCPM<br/>MLLM 写概念 caption → 指令感知编码"]
    C -->|簇数已知| D["K-Means"]
    C -->|簇数未知| E["HDBSCAN 出初始小簇"]
    E --> F["基于 MST 的 LLM 遍历<br/>Ward 距离 + MST + 选择性合并"]
    D --> G["按指南聚好的簇"]
    F --> G

关键设计¶

1. 文本引导范式与自动指南生成：把"聚类标准"从硬编码变成一段可组合的自然语言

碎片化的根源在于「聚类标准」被写死进了模型或训练目标，换标准就得换方法。本文把标准抽象成文本指南 \(G\)，其中包含一组分组属性 \(A=\{a_1,\dots,a_k\}\subseteq G\)（如鸟类聚类里的"尾形""翼色"），框架只需读这段文字就能切换任务，因此天然支持复合、多视角、抽象语义这些以前要专门方案才能做的事。当用户给不出明确指南时（对数据集先验有限），作者用一套启发式提示让 LLM 调用自身知识生成合适的聚类指南，必要时再借助无监督的数据子结构探索找出基本标准、喂给 LLM 生成指南。注意全程保持无监督——任何提示都不含真值标签。这一层是整个「通用性」的来源：后面所有组件都只对 \(G\) 负责，不对具体任务负责。

2. 生成式概念代理建模（GCPM）：用文本中介把纠缠的视觉属性解开再编码

直接拿多模态指令感知嵌入器「看图配指令」有两个硬伤：综合聚类里没被显式问到的细粒度属性会被淹没；维度特定聚类里视觉显著但无关的属性会喧宾夺主。GCPM 用一个文本中介绕开它：第一步用 MLLM 当 captioning 模型 \(f_{caption}\) 抽取聚焦概念的描述

\[c_i = f_{caption}(A, x_i), \quad A \subseteq G,\]

这一步把指南指定的属性显式「surface」成文字，实现属性解纠缠；第二步用指令感知嵌入模型 \(f_{embed}\) 编码这段概念代理 caption

\[h_i = f_{embed}(S, c_i), \quad S \subseteq G,\]

其中 \(S\) 指定本次聚类的关注焦点（可以是单个属性，也可以是 \(A\) 里全部属性的全局定义）。得到的嵌入 \(H=\{h_1,\dots,h_N\}\) 可直接送进 K-Means 等标准算法：\(C=\text{Clustering}(H)\)。它有效的关键在于「先写成文字再编码」——文字这一中介强制把视觉上纠缠的属性拆成可读的条目（卡牌"数字"与"花色"被分开陈述），从而让嵌入按指南而非按视觉显著度组织，这是直接多模态编码做不到的。

3. 基于 MST 的 LLM 遍历：只在语义复杂处花 LLM，把合并代价从 \(O(M^2)\) 压到 \(O(M\log M)\)

簇数未知时直觉是用 HDBSCAN，但作者观察到 HDBSCAN 倾向产出一致的小簇、却合并不了同质簇（高精度、极低召回）——它擅长把明显相似的样本聚在一起，但样本量大或变异复杂时因密度本质而乏力。让 LLM 来判断「哪些小簇该合并」语义上最靠谱，但朴素两两比较要 \(O(M^2)\) 次 LLM 调用，太贵。MST 遍历的做法是：对 HDBSCAN 产出的簇（含孤立点 singleton）用 Ward 距离 算两两距离

\[d(C_1, C_2) = \frac{|C_1|\cdot|C_2|}{|C_1|+|C_2|}\,\lVert m_{C_1} - m_{C_2}\rVert^2,\]

其中 \(m_{C_i}\) 是簇质心；Ward 距离同时考虑簇大小和质心间隔，适合层次合并。再由距离矩阵 \(D\in\mathbb{R}^{M\times M}\) 构造最小生成树 \(T=MST(D)\)，它给出一个「优先评估最近簇对」的遍历顺序，保证最有希望合并的候选先被 LLM 看到。沿 \(T\) 的边按距离升序，逐对询问合并 LLM \(f_{merge}\)：

\[p = f_{merge}(G, C_i, C_j), \quad p \in \{0,1\},\]

每个簇用「离质心最近的 Top-\(K\)（\(K=5\)）样本的 GCPM caption」来表示，\(p=1\) 就合并并更新后续含 \(C_i\) 或 \(C_j\) 的边、\(M\) 减一；一轮里若没有任何合并则停止。再加两个省钱技巧：缓存历史决策避免重复询问、跳过此前被拒绝的簇对。作者基于合理的合并概率假设证明期望 LLM 调用为 \(O(M\log M)\)（证明在附录），且该设计因为操作在「簇」而非「样本」上、天然支持把新样本当作新簇增量合并，无需像传统算法那样重聚类。

实验关键数据¶

主实验¶

四类任务统一评测：通用聚类 GC（CIFAR-10 / STL-10 / ImageNet-10）、多视角聚类 MC（Fruit / Card / CIFAR10-MC）、细粒度聚类 FC（CUB / Stanford Dogs / Cars / Oxford Flowers）、本文新提的长尾电商聚类 LC（ABO-LC）。骨干用 QWen2.5-VL-Instruct(7B) 同时做 captioning 与合并；三种嵌入器对应 GCPM-I（INSTRUCTOR-large 335M）/ GCPM-E（E5-Mistral 7B）/ GCPM-G（GME-Qwen2-VL 7B）。全部 inference、零训练。

通用聚类（簇数已知用 K-Means，ACC %）：

方法	是否需训练	CIFAR-10 ACC	STL-10 ACC	ImageNet-10 ACC
IDCTCL（前 SOTA）	是	92.7	92.7	97.2
LFSS	是	93.4	86.1	93.2
IC\|TC（免训练 LLM）	否	88.4	97.4	-
GCPM-G（本文）	否	94.1	98.8	98.8

GCPM-G 在 ImageNet-10 达 98.8% ACC，超过需训练的 IDCTCL 1.6%；MC 的 Fruit 数据集 GCPM-G 达 99.9% NMI，明显高于 Multi-Sub 的 98.5%。免训练却全面压过专门训练的方法。

长尾电商 ABO-LC（10,756 件商品 / 4,952 个真值簇，78.7% 的簇 ≤2 个样本，簇数未知）：

方法	ACC	NMI	ARI
IC\|TC（已知簇数）	5.5	35.3	5.3
GCPM-I + K-Means	55.7	92.9	38.4
GCPM-E + HDBSCAN（未合并）	-	92.3	28.2
GCPM-E + MST Traversal	-	93.1	51.5

极端长尾下 K-Means 的「均衡簇」假设失效，HDBSCAN+MST 在不知道簇数的前提下反而拿到最高 ARI 51.5，比 K-Means 的 38.4 更适合真实分布。

消融实验¶

MST Traversal 对 HDBSCAN 初始结果的提升（BCubed 精度/召回，ImageNet-10 与 Card-Number）：

配置	簇数	B-Prec.	B-Rec.
K-Means（已知簇数）	10	98.6	98.6
HDBSCAN（合并前）	7034	99.7	19.9
HDBSCAN + MST（合并后）	251	93.5	62.3

GCPM 概念代理 caption 的价值（GME-Qwen 为嵌入器，K-Means，NMI %）：

caption 策略	ImageNet-10	Card-Number	Stanford Cars
仅图像	94.7	71.9	61.5
标准 caption	93.7	73.3	69.2
GCPM 概念代理 caption	96.7	82.0	86.2

LLM 调用效率（MST Traversal 的 LLM 调用数 / 样本数比）：

数据集	样本数	LLM 调用	调用/样本比
ImageNet-10	13000	11232	0.86
Card-Number	8029	6506	0.81
Stanford Cars	8041	10803	1.34

关键发现¶

MST Traversal 在自动簇发现里是决定性的：ImageNet-10 的 ARI 从 0.3 直接拉到 72.1（Max Δ +72.1）；本质是补上了 HDBSCAN「高精度低召回」的短板——合并后簇数从 7034 收到 251、召回从 19.9% 升到 62.3%，只牺牲很小的精度。
嵌入器有清晰层级，但有反例：总体 MLLM 嵌入（GCPM-G）> LLM 嵌入（GCPM-E）> 普通指令感知编码（GCPM-I）；但 Card 数据集上 GCPM-E（数字标准 91.1% NMI）反超 GCPM-G（82.0%），因为牌面数字与花色在单图里视觉高度纠缠，此时「先写成文字再编码」的概念代理路线比直接多模态嵌入更能解开纠缠——恰好印证 GCPM 的设计动机。
任务类型决定 MST 收益大小：GC 提升巨大、抽象语义标准（Fruit 物种 +52.9 NMI）收益大、视觉模式清晰的标准收益小；FC 提升相对温和（因细粒度需极精确判断，作者用更保守的合并提示，宁可不合也不错合）。
效率可控：LLM 调用/样本比仅 0.81–1.34，远低于朴素两两比较的 \(O(M^2)\)；MST 在「簇」而非「样本」上操作、加缓存与拒绝跳过，进一步压低调用。

亮点与洞察¶

「文本中介解纠缠」是最巧的一招：与其指望多模态嵌入器自己分清纠缠属性，不如先用 MLLM 把图写成只谈相关属性的文字，强行把视觉属性拆成可读条目再编码——Card 数据集上的反例（文字路线反超多模态）正是这一思路最有说服力的证据。
把 LLM 当"贵但精的裁判"、用 MST 决定何时请它：嵌入干常规、LLM 只在最有希望合并的簇对上出手，是一种很可复用的「贵推理选择性调用」范式，可迁移到任何「便宜近似 + 昂贵精判」的流水线（检索重排、主动学习、agent 工具调用）。
免训练却全面 SOTA：全程 inference、零微调，却在四类任务上压过需要专门训练的方法，说明现代 VLM/LLM 的语义先验足以替代任务特定训练，工程落地价值大。
新建长尾基准 ABO-LC 有现实意义：78.7% 簇 ≤2 样本的极端长尾，正是电商真实场景，填补了均衡假设基准的空白。

局限与展望¶

强依赖 LLM/MLLM 质量：caption 抽取与合并判断都压在 QWen2.5-VL 上，模型若漏掉指南里的细属性或误判簇对相似性，错误会直接传导到聚类结果。
无监督指南带来的精度损失：作者承认合并后精度略降，部分源于指南是无监督生成、缺真值而有歧义，以及 LLM 偶尔难以解读细微的指南差异；他们把改进寄望于提示优化（附录）。
FC 收益有限：细粒度场景因需极精确判断只能用保守合并提示，MST 提升不大（多在 +1～3 NMI），说明该混合范式对「细微类间差异」尚未完全解决。
调用/样本比仍接近 1：虽为 \(O(M\log M)\)，Stanford Cars 上调用/样本比达 1.34，大规模数据下的绝对 LLM 调用量与延迟仍是部署考量；可探索更激进的候选剪枝或更轻量的合并代理。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个用文本指南统一四类聚类场景的免训练框架，「概念代理解纠缠 + MST 选择性 LLM 合并」两处设计都很有原创性。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 GC/MC/FC/LC 四类十余数据集、三种嵌入器、BCubed/效率/caption 多维消融，并自建长尾基准，三随机种子。
写作质量: ⭐⭐⭐⭐ 动机与方法链条清晰、算法伪代码完整；细节多压在附录，正文部分公式与超参需对照附录才能完全复现。
价值: ⭐⭐⭐⭐⭐ 免训练即 SOTA、统一多场景、LLM 调用可控，对实际部署（尤其电商长尾）有直接落地价值。