Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Ii4HBlERix
代码: https://github.com/YU-deep/ViF.git
领域: 多模态VLM / Agent / 幻觉缓解
关键词: 多智能体系统, 视觉幻觉, 幻觉滚雪球, 视觉中继 token, 注意力重分配

一句话总结¶

本文发现 VLM 多智能体系统（MAS）会出现"幻觉滚雪球"——某个 agent 的视觉误判被后续 agent 通过纯文本流不断放大；作者通过逐轮/逐层/逐 token 的注意力分析定位到"中间层单峰视觉 token"是承载视觉证据的关键，进而提出 ViF：用这批视觉中继 token 在 agent 之间额外搭一条"视觉流"，并配合注意力重分配，模型无关地缓解滚雪球，在 8 个 benchmark、4 种 MAS 结构、10 个底座上稳定提升 2.4–3.8%。

研究背景与动机¶

领域现状：用 VLM 驱动的多智能体系统（MAS）正成为解决复杂多模态任务的主流方案——多个 agent 多轮通信协作，做协同推理、多轮指令跟随、复杂多模态理解，能啃下单个模型搞不定的问题。

现有痛点：MAS 在协作时暴露出一个全新的可靠性故障——多智能体视觉幻觉滚雪球。某个 agent 对图像的误读或对文本消息的过度偏好，会随着信息在后续 agent 间流动而被层层放大，最终产出灾难性的、关于视觉内容的传播性幻觉。这是单 agent 研究无法覆盖的新问题。

核心矛盾：滚雪球源于两个相互作用的机制：（1）内在幻觉——单个 VLM agent 自己就会对视觉内容产生错误描述；（2）幻觉传播——agent 之间靠生成的文本流来转述视觉信息，而文本会压缩并选择性强调视觉特征，使得幸存的幻觉断言被下游 agent 当作权威证据照单全收。正因为后续 agent 把前文文本当成强证据，早期幻觉被放大而非被纠正。所以仅仅压低单 agent 幻觉（既有工作的做法）根本解决不了传播问题。

切入角度：作者先做了一组诊断性注意力分析，从逐轮、逐层、逐 token 三个维度拆解：随 agent 轮次增加，分给视觉 token 的注意力持续下降（平均从 0.165 → 第 10 轮 0.099 → 第 20 轮 0.063，共降 62%），其中中间层降幅最大（-60%），远超首层（-21%）和末层（-30%）；同时注意力被转移到指令 token 上。更关键的是，在中间层呈"单峰"形态的视觉 token——一小撮但至关重要——最能保留视觉专属信息（丢掉它们时性能掉得最狠），但其占比随轮次锐减（第 1 轮 1.22% → 第 20 轮 0.10%），正好与视觉注意力峰的消失同步。

核心 idea：既然文本流转述会丢失视觉证据，那就额外开一条视觉流——直接把那批中间层单峰"视觉中继 token"在 agent 之间传递，并通过注意力重分配放大这种理想模式，让视觉证据顶住"视觉→文本"的信息损耗，不被文本先验完全挤掉。

方法详解¶

整体框架¶

ViF 是一个轻量、模型无关的缓解范式，套在任意 VLM-based MAS 上：原本 agent 之间只靠文本流转述视觉内容，ViF 在此之上额外搭一条视觉流。在每一轮，它先从前一 agent 的视觉 token 里按中间层注意力趋势挑出"单峰"子集作为视觉中继 token，用当前指令把它们语义化，再注入下一个 agent；同时在中间层和深层做注意力重分配，把注意力从无效视觉 token / 指令 token 收过来、补给有效视觉 token，从而把"视觉注意力峰"延续到更深的 agent 轮次。对于用了 Flash-Attention、拿不到注意力分数的新模型，作者还提供了基于 Key-Norm 的替代选择方案。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["前一 agent：视觉 token + 指令"] --> B["视觉信息中继<br/>选中间层单峰视觉 token<br/>再用指令上下文化"]
    B -->|"拿不到注意力分数时"| C["Key-Norm 替代选择"]
    B --> D["注入下一 agent<br/>中继 token 插在视觉与指令之间"]
    C --> D
    D --> E["注意力重分配<br/>中间层温度缩放 + 收集/重分配"]
    E --> F["下一 agent 生成输出<br/>逐轮循环"]

关键设计¶

1. 视觉信息中继：用单峰视觉 token 在 agent 间架一条视觉流

这一设计直击"文本流转述导致视觉证据丢失"的痛点。作者不再只靠文本传递视觉信息，而是把视觉 token 集合 \(V=\{v_1,\dots,v_m\}\) 按中间层注意力分配的趋势逐 token 分解，挑出呈单峰形态的那批作为初始视觉中继 token \(R=\{r_1,\dots,r_n\}\subset V\)，其中 \(n\ll m\)——前面的分析证明这批 token 语义高度相关、几乎不含无关 token，是最能承载视觉证据的"精华"。但仅由视觉编码器切出来的原始中继 token 并没有特定语义，于是用一个轻量 Transformer block \(f(\cdot)\) 把它们和指令 token \(I\) 拼接后上下文化：

\[\hat{R} = f(R \oplus I)[:n]\]

这里 \(\oplus\) 表示拼接，取前 \(n\) 个分量以保持中继 token 的原始长度。为保留空间信息，对 \(\hat{R}\) 沿用与前一 agent 相同的位置编码策略；随后把中继 token 插在下一 agent 的原始视觉 token 与指令 token 之间，连同其他 token 一起喂给 LLM。这样下游 agent 拿到的是"原生、无偏"的视觉语义载体，而不是被前一 agent 压缩转述过的文本，从源头上抵抗了视觉→文本的信息损耗。

2. 注意力重分配：把理想的视觉注意力峰延续到更深轮次

光传中继 token 还不够——分析显示深层 agent 会系统性地把注意力从视觉挪向指令，视觉峰逐轮消失。于是作者主动重塑注意力分布。首先在中间层对 Softmax 加温度缩放，放大视觉注意力的动态趋势（无论上升还是下降），促使单峰形态浮现：

\[A = \mathrm{Softmax}_\tau(S) = \frac{\exp(s/\tau)}{\sum_{i=1}^{m}\exp(s_i/\tau)}\]

其中 \(\tau\) 是温度参数，\(S\)、\(s\) 为注意力分数矩阵与分数。其次在中间层用一个收集掩码 \(M_c\) 把无效视觉 token 集 \(V_\oslash\) 和指令 token 上的注意力收集起来（系数 \(\alpha\)），再用重分配掩码 \(M_r\) 补给有效视觉 token 集 \(V_\circ=V-V_\oslash\)，整个过程保持总注意力恒为 1。深层则方向相反——把注意力从视觉 token 重分配给指令 token（与分析中"深层视觉 token 不重要"一致），相应修改两个掩码与系数。这样既激活了视觉中继 token，又把"中间层视觉、深层文本"的理想分工固化下来。

3. Key-Norm 替代方案：让 Flash-Attention 模型也能选 token

单峰 token 的选择依赖注意力分数，但许多新模型用了 Flash-Attention 2/3，注意力分数根本拿不到，这会让前两个设计在这些模型上失效。作者据此设计了一个基于 Key-Norm（key 矩阵的 L2 范数）的替代方案来近似原本基于注意力分数的选择策略，从而把 ViF 的"模型无关"承诺真正落到这些工程现实上——表格里带 \(*\) 号的结果（LLaVA-OV、Qwen2-VL、Qwen2.5-VL 等）正是用 Key-Norm 跑出来的，效果与注意力分数版本相当。

损失函数 / 训练策略¶

ViF 的核心可学习部件是上下文化用的轻量 Transformer block \(f(\cdot)\)；注意力重分配涉及三个关键超参——单峰显著度阈值 \(\omega\)、温度 \(\tau\)、重分配系数 \(\alpha\)，作者通过敏感性分析确定合理取值。方法整体是即插即用的缓解模块，不改动底座 VLM 的训练。

实验关键数据¶

主实验¶

在 3 个综合 benchmark（MME / MMBench / MM-Vet）+ 5 个幻觉 benchmark（CHAIR / POPE / AMBER / MMHal-Bench / HallBench）上，覆盖 4 种 MAS 结构（linear / layered / random / circular）与多个底座，ViF 一律带来稳定提升。

MAS 结构	底座	POPE↑	AMBER↑	HallBench↑	平均提升
Linear	LLaVA-NeXT-7B	88.6 ↑1.8	89.3 ↑2.3	55.3 ↑2.4	↑3.2%
Circular	LLaVA-NeXT-7B	93.3 ↑2.3	92.7 ↑3.3	55.7 ↑2.6	↑3.8%
Circular	Qwen2.5-VL-7B*	93.4 ↑2.1	95.9 ↑2.4	57.3 ↑2.4	↑2.6%
Circular	LLaVA-NeXT-34B	93.6 ↑2.2	96.3 ↑2.2	57.8 ↑2.8	↑4.4%
Circular	Qwen2.5-VL-32B*	94.0 ↑1.5	96.7 ↑2.7	60.1 ↑3.2	↑4.1%

整体上六个 7B 底座平均提升 2.4–3.8%；交互最密集、幻觉最集中的 circular 结构提升最大；30B+ 的大模型提升均超 4%（作者认为大模型基础能力强，ViF 解锁了它们在多 agent 场景下的潜力）。在多图 / 视频的 4 个增强视觉 benchmark（MMIU / MuirBench / MVBench / Video-MME）上也有 2.0–4.9% 提升。

为量化滚雪球本身，作者定义了幻觉滚雪球分数 HS（同时刻画幻觉水平与传播程度，越低越好）。加上 ViF 后五个幻觉 benchmark 平均 HS 至少降 30%，circular 结构降近 40%（17.0 vs 基线 29.1 的 POPE-HS 等）。

方法 (circular, LLaVA-NeXT-7B)	POPE 原指标↑	POPE-HS↓	AMBER-HS↓	平均 HS 变化
Baseline	91.0	29.1	31.1	—
MemVR	90.5	31.2	34.4	↑18.4%
VISTA	91.2	27.8	28.3	↑3.1%
FarSight	91.9	22.7	26.6	↓5.4%
TAME	91.4	22.8	22.7	↓3.7%
ViF (Ours)	93.3	17.0	17.7	↓39.8%

值得注意的是，五个为单模型幻觉设计的 SOTA 方法（MemVR / VISTA / FarSight / DeCo / TAME）搬到 MAS 后反而常常不如基线——因为它们改了解码或注意力，却仍保留文本流转述视觉，放大了"重文本轻视觉"的偏好。ViF 凭借视觉流，把 HS 几乎砍半。

消融实验¶

在 LLaVA-NeXT-7B + circular 上逐项消融（数值为相对完整模型的变化）：

配置	POPE↑	AMBER↑	HallBench↑	说明
Ours (Full)	93.3	92.7	55.7	完整模型
w/o Relay Token (50%)	92.0 (-1.3)	91.6 (-1.1)	54.8 (-0.9)	去掉一半中继 token
w/o Relay Token (75%)	91.7 (-1.6)	91.1 (-1.6)	54.1 (-1.6)	去掉更多中继 token
w/o Reallocation (Middle)	92.1 (-1.2)	91.4 (-1.3)	54.4 (-1.3)	去掉中间层重分配
w/o Reallocation	91.9 (-1.4)	91.5 (-1.2)	54.2 (-1.5)	去掉全部重分配

视觉中继 token 贡献最显著——即使砍掉一半，结果仍优于多数对比方法，鲁棒性强；注意力重分配进一步优化分布并激活中继 token，中间层重分配比深层重分配更关键。

关键发现¶

轮次越多，差距越大：基线和其他方法在轮次增到 5 时就开始退化，到第 20 轮性能甚至低于单 agent；ViF 随轮次增加仍保持上升趋势。但单 agent（轮次=1）时 ViF 仅略优于基线，甚至不如某些单模型方法——其价值专属于多 agent 协作。
滚雪球是注意力退化的外显：视觉注意力平均降 62%、中间层单峰 token 占比从 1.22% 跌到 0.10%，与幻觉率上升（+224%）高度负相关，验证了"用视觉流补回这批 token"的思路。
开销可控：ViF 额外引入 8.1–13.4% 推理延迟、4.8–11.9% FLOPs；模型越大相对开销越小（34B 上延迟 <4%、计算 <3%）。

亮点与洞察¶

把"幻觉滚雪球"归因到一个可观测、可干预的物理量：作者没有停在现象描述，而是用逐轮/逐层/逐 token 注意力分析锁定"中间层单峰视觉 token 的消失"，让缓解方案有了明确的着力点——这种"先诊断再开方"的范式很值得迁移到其他传播型故障。
"视觉流"对"文本流"是一个简洁而正确的对称补充：既有方法都在文本这条线上修修补补，ViF 直接承认"视觉信息就该用视觉 token 传"，绕开了视觉→文本的有损压缩。
Key-Norm 替代方案体现工程诚实：注意力分数在 Flash-Attention 模型上拿不到，作者没有回避，而是给出可落地的近似，让"模型无关"不只是口号。

局限与展望¶

单 agent 场景下 ViF 几乎没有增益、甚至不如专门的单模型幻觉方法，说明它的适用范围严格限定在多 agent 协作。
HS 是作者自定义指标（具体定义见原文 Eq.7，⚠️ 以原文为准），跨结构横向比较 HS 绝对值时需注意各结构初始幻觉程度不同，不宜直接比大小。
中继 token 的选择依赖"中间层单峰"这一经验性结论，主要在 LLaVA / Qwen 系列上验证；对架构差异更大的 VLM 是否仍成立，以及单峰阈值 \(\omega\)、温度 \(\tau\)、系数 \(\alpha\) 的可迁移性，仍需更多验证。
额外 8–13% 的延迟在轮次很多、实时性要求高的部署中可能不可忽略。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次形式化多 agent 视觉幻觉滚雪球，并用"视觉流 + 单峰中继 token"给出对症方案
实验充分度: ⭐⭐⭐⭐⭐ 8 benchmark × 4 结构 × 10 底座 + HS 指标 + 消融/敏感性/效率，覆盖面极广
写作质量: ⭐⭐⭐⭐ 诊断—假设—方法链条清晰，但记号（多个掩码/集合）偏密集
价值: ⭐⭐⭐⭐⭐ 模型无关、即插即用，为 VLM-MAS 的可靠性提供了可直接复用的范式