跳转至

Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games

会议: NeurIPS 2025
arXiv: 2511.10690
代码: 无
领域: 可解释性
关键词: 隐含语言, 电话游戏, 概念连接, 多模态可解释性, 测试时探测

一句话总结

通过多轮"电话游戏"(图像→文本→图像循环)利用多模态系统的偏好偏差,量化系统隐含空间中概念间的连接强度(即"隐含语言"),贡献Telescope数据集(10,000+概念对),建立可在测试时扩展的多模态系统"世界地图"。

研究背景与动机

近年来闭源多模态系统(如GPT-4o)取得了巨大进步,但由于封闭的特征、数据和架构,我们无法用基于训练的方法来研究这些系统对世界的理解方式。传统的探测方法(注意力图、PCA、线性探针)需要访问模型内部表示,在闭源系统时代已不再可行。

核心矛盾是:多模态系统通过拟合文本和视觉表示来学习概念联系,但训练数据的不平衡导致不同概念对之间的连接强度不同——有些概念组合被充分训练而连接牢固,有些则联系脆弱。这种差异构成了系统的"隐含语言",但我们缺乏有效的测试时方法来揭示它。

本文的关键洞见是:多模态系统在图像→文本压缩时倾向于丢弃弱连接概念,在文本→图像重建时倾向于引入强连接概念。可以策略性地利用这一偏好偏差,通过多轮电话游戏放大这些变化,从而在测试时量化概念连接强度。

方法详解

整体框架

框架由三部分组成:电话游戏(Telephone Game)、共现频率度量(Co-occurrence Frequency)和Telescope数据集。对于完全整合的多模态系统(如GPT-4o),直接使用该系统执行文本→图像和图像→文本两个过程;对于由分离组件构成的系统,则使用同机构的V-LLM和文本→图像模型组合。

关键设计

  1. 电话游戏机制: 包含两个关键过程——图像→文本压缩时,系统倾向于读取其理解中更强连接的概念(如将牛读作猪);文本→图像重建时,系统倾向于创造更强连接的概念(如用气球替代樱桃)。单次重建的变化可能不明显(如生成的图像可能同时像牛又像猪),但多轮电话游戏会放大这些变化:脆弱的概念组合逐渐退化,揭示其在系统理解中的脆弱连接强度。

  2. 共现频率度量: 在n轮电话游戏中,概念对"A和B"的共现频率定义为 \(F(A,B) = \frac{\sum_{i=1}^{r}\sum_{j=1}^{n}\mathcal{I}_{i,j}(A,B)}{r \times n}\),其中r是重复次数,\(\mathcal{I}_{i,j}(A,B)\) 表示A和B是否在第i次实验的第j轮中共现(由LLM判断)。更高的共现频率表示更强的概念连接。这一度量同时捕捉训练偏差和泛化能力:更强的泛化对应更均匀的连接强度分布。

  3. Telescope数据集: 包含150个常见视觉概念,组成11,175个简单模式概念对(两个概念并排)和450个复杂模式概念对(三种融合策略:在电视上显示、梵高风格、木材材质)。该数据集作为系统性电话游戏探测的基础数据库。

损失函数 / 训练策略

本文不涉及模型训练。整个框架是一个纯测试时方法,不需要访问任何模型参数。使用LLM作为"概念验证器"判断概念是否在图像描述中共现,使用推理型LLM(GPT-o1、DeepSeek-R1)分析超越语义和视觉相似性的隐含逻辑。

实验关键数据

主实验(度量相关性分析)

度量对 Pearson相关系数 说明
共现频率 vs 语义相似度 0.046 几乎无相关
共现频率 vs 视觉相似度 -0.178 弱负相关
语义相似度 vs 视觉相似度 0.041 几乎无相关
OpenAI vs StepFun 0.506 中等正相关
OpenAI vs QWen 0.475 中等正相关
StepFun vs QWen 0.503 中等正相关

消融实验(复杂模式崩溃率)

模式 概念崩溃率 说明
梵高风格 0.767 最高崩溃率,泛化最差
电视屏幕显示 0.740 高崩溃率
木材材质 0.560 相对稳定
电视(桥接改进后) 0.427 通过引入"卡通风格"中间概念显著改善

关键发现

  • 语义和视觉相似度无法解释隐含语言。在246个崩溃概念对上,共现频率与语义/视觉相似度的相关系数接近零,证明需要新的度量方法。
  • 不同系统的隐含语言中等相关(约0.5),支持柏拉图表示假说:随着多模态系统规模扩大,内部表示趋向收敛以建模现实世界事件的联合统计结构。
  • 简单模式中,5轮电话游戏后原始概念崩溃率分别为26.4%(单概念)和24.4%(两个相同概念),揭示多模态系统存在显著偏差。
  • 复杂模式(梵高风格、电视显示)比简单模式更脆弱,说明系统对这些场景的泛化能力不足。
  • 推理型LLM能发现超越语义/视觉相似性的关联,例如"牛和可乐"的稳定连接源于牛常出现在牛奶包装上,而牛奶和可乐常在饮料区共现。

亮点与洞察

  • 电话游戏的隐喻非常精妙——正如人类传话过程中信息会失真,多模态系统在压缩-重建过程中也会引入偏好偏差。
  • 框架具有测试时可扩展性:每次新的电话游戏都倾向于发现新的概念连接,随着计算量增加,可逐步构建越来越完整的概念"世界地图"。
  • "概念桥接"的发现极具实用价值——通过引入中间概念(如"卡通风格")可以显著增强脆弱的概念连接,这为提升多模态系统的输出可控性提供了路径。
  • 将推理型LLM比作"MLP线性探针"来解读文本演变,用行为分析代替内部检视的范式转换很有启发性。

局限与展望

  • 电话游戏的轮数有限,共现频率为1.0的概念对需要排除在度量相关性分析之外,因为无法运行无限轮数。
  • 大规模系统输出的多样性可能引入随机性干扰。
  • 目前仅关注两个概念的组合,更复杂的多概念组合留待未来探索。
  • 实验成本高昂(需要调用闭源API),导致只能在Telescope的子集上报告结果。
  • 概念的崩溃/存活判断依赖LLM,可能存在判断偏差。

相关工作与启发

  • 与Chefer等人提出的"扩散模型隐含语言"相关,但本文面向闭源系统且完全在测试时进行。
  • 柏拉图表示假说预测不同系统的内部表示趋向收敛,本文的跨系统相关性分析(~0.5)提供了经验支持。
  • 与CLIP等开源模型组件的偏好偏差验证实验(附录F)增强了结论的可信度。
  • 启发:在无法访问模型内部的情况下,通过精心设计的输入-输出交互循环可以有效探测模型的内部偏好和知识结构。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (电话游戏框架和隐含语言概念极具创新性)
  • 实验充分度: ⭐⭐⭐⭐ (多系统对比、桥接实验丰富;受限于API成本,数据规模有限)
  • 写作质量: ⭐⭐⭐⭐⭐ (叙事流畅,隐喻恰当,可视化出色)
  • 价值: ⭐⭐⭐⭐ (为闭源系统可解释性提供了全新范式)