Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games¶
会议: NeurIPS 2025
arXiv: 2511.10690
代码: 无
领域: 可解释性
关键词: 隐含语言, 电话游戏, 概念连接, 多模态可解释性, 测试时探测
一句话总结¶
通过多轮"电话游戏"(图像→文本→图像循环)利用多模态系统的偏好偏差,量化系统隐含空间中概念间的连接强度(即"隐含语言"),贡献Telescope数据集(10,000+概念对),建立可在测试时扩展的多模态系统"世界地图"。
研究背景与动机¶
近年来闭源多模态系统(如GPT-4o)取得了巨大进步,但由于封闭的特征、数据和架构,我们无法用基于训练的方法来研究这些系统对世界的理解方式。传统的探测方法(注意力图、PCA、线性探针)需要访问模型内部表示,在闭源系统时代已不再可行。
核心矛盾是:多模态系统通过拟合文本和视觉表示来学习概念联系,但训练数据的不平衡导致不同概念对之间的连接强度不同——有些概念组合被充分训练而连接牢固,有些则联系脆弱。这种差异构成了系统的"隐含语言",但我们缺乏有效的测试时方法来揭示它。
本文的关键洞见是:多模态系统在图像→文本压缩时倾向于丢弃弱连接概念,在文本→图像重建时倾向于引入强连接概念。可以策略性地利用这一偏好偏差,通过多轮电话游戏放大这些变化,从而在测试时量化概念连接强度。
方法详解¶
整体框架¶
框架由三部分组成:电话游戏(Telephone Game)、共现频率度量(Co-occurrence Frequency)和Telescope数据集。对于完全整合的多模态系统(如GPT-4o),直接使用该系统执行文本→图像和图像→文本两个过程;对于由分离组件构成的系统,则使用同机构的V-LLM和文本→图像模型组合。
关键设计¶
-
电话游戏机制: 包含两个关键过程——图像→文本压缩时,系统倾向于读取其理解中更强连接的概念(如将牛读作猪);文本→图像重建时,系统倾向于创造更强连接的概念(如用气球替代樱桃)。单次重建的变化可能不明显(如生成的图像可能同时像牛又像猪),但多轮电话游戏会放大这些变化:脆弱的概念组合逐渐退化,揭示其在系统理解中的脆弱连接强度。
-
共现频率度量: 在n轮电话游戏中,概念对"A和B"的共现频率定义为 \(F(A,B) = \frac{\sum_{i=1}^{r}\sum_{j=1}^{n}\mathcal{I}_{i,j}(A,B)}{r \times n}\),其中r是重复次数,\(\mathcal{I}_{i,j}(A,B)\) 表示A和B是否在第i次实验的第j轮中共现(由LLM判断)。更高的共现频率表示更强的概念连接。这一度量同时捕捉训练偏差和泛化能力:更强的泛化对应更均匀的连接强度分布。
-
Telescope数据集: 包含150个常见视觉概念,组成11,175个简单模式概念对(两个概念并排)和450个复杂模式概念对(三种融合策略:在电视上显示、梵高风格、木材材质)。该数据集作为系统性电话游戏探测的基础数据库。
损失函数 / 训练策略¶
本文不涉及模型训练。整个框架是一个纯测试时方法,不需要访问任何模型参数。使用LLM作为"概念验证器"判断概念是否在图像描述中共现,使用推理型LLM(GPT-o1、DeepSeek-R1)分析超越语义和视觉相似性的隐含逻辑。
实验关键数据¶
主实验(度量相关性分析)¶
| 度量对 | Pearson相关系数 | 说明 |
|---|---|---|
| 共现频率 vs 语义相似度 | 0.046 | 几乎无相关 |
| 共现频率 vs 视觉相似度 | -0.178 | 弱负相关 |
| 语义相似度 vs 视觉相似度 | 0.041 | 几乎无相关 |
| OpenAI vs StepFun | 0.506 | 中等正相关 |
| OpenAI vs QWen | 0.475 | 中等正相关 |
| StepFun vs QWen | 0.503 | 中等正相关 |
消融实验(复杂模式崩溃率)¶
| 模式 | 概念崩溃率 | 说明 |
|---|---|---|
| 梵高风格 | 0.767 | 最高崩溃率,泛化最差 |
| 电视屏幕显示 | 0.740 | 高崩溃率 |
| 木材材质 | 0.560 | 相对稳定 |
| 电视(桥接改进后) | 0.427 | 通过引入"卡通风格"中间概念显著改善 |
关键发现¶
- 语义和视觉相似度无法解释隐含语言。在246个崩溃概念对上,共现频率与语义/视觉相似度的相关系数接近零,证明需要新的度量方法。
- 不同系统的隐含语言中等相关(约0.5),支持柏拉图表示假说:随着多模态系统规模扩大,内部表示趋向收敛以建模现实世界事件的联合统计结构。
- 简单模式中,5轮电话游戏后原始概念崩溃率分别为26.4%(单概念)和24.4%(两个相同概念),揭示多模态系统存在显著偏差。
- 复杂模式(梵高风格、电视显示)比简单模式更脆弱,说明系统对这些场景的泛化能力不足。
- 推理型LLM能发现超越语义/视觉相似性的关联,例如"牛和可乐"的稳定连接源于牛常出现在牛奶包装上,而牛奶和可乐常在饮料区共现。
亮点与洞察¶
- 电话游戏的隐喻非常精妙——正如人类传话过程中信息会失真,多模态系统在压缩-重建过程中也会引入偏好偏差。
- 框架具有测试时可扩展性:每次新的电话游戏都倾向于发现新的概念连接,随着计算量增加,可逐步构建越来越完整的概念"世界地图"。
- "概念桥接"的发现极具实用价值——通过引入中间概念(如"卡通风格")可以显著增强脆弱的概念连接,这为提升多模态系统的输出可控性提供了路径。
- 将推理型LLM比作"MLP线性探针"来解读文本演变,用行为分析代替内部检视的范式转换很有启发性。
局限与展望¶
- 电话游戏的轮数有限,共现频率为1.0的概念对需要排除在度量相关性分析之外,因为无法运行无限轮数。
- 大规模系统输出的多样性可能引入随机性干扰。
- 目前仅关注两个概念的组合,更复杂的多概念组合留待未来探索。
- 实验成本高昂(需要调用闭源API),导致只能在Telescope的子集上报告结果。
- 概念的崩溃/存活判断依赖LLM,可能存在判断偏差。
相关工作与启发¶
- 与Chefer等人提出的"扩散模型隐含语言"相关,但本文面向闭源系统且完全在测试时进行。
- 柏拉图表示假说预测不同系统的内部表示趋向收敛,本文的跨系统相关性分析(~0.5)提供了经验支持。
- 与CLIP等开源模型组件的偏好偏差验证实验(附录F)增强了结论的可信度。
- 启发:在无法访问模型内部的情况下,通过精心设计的输入-输出交互循环可以有效探测模型的内部偏好和知识结构。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (电话游戏框架和隐含语言概念极具创新性)
- 实验充分度: ⭐⭐⭐⭐ (多系统对比、桥接实验丰富;受限于API成本,数据规模有限)
- 写作质量: ⭐⭐⭐⭐⭐ (叙事流畅,隐喻恰当,可视化出色)
- 价值: ⭐⭐⭐⭐ (为闭源系统可解释性提供了全新范式)