Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey¶
会议: ACL 2025
arXiv: 2506.04461
代码: 无
领域: 认知语言学 / 组合性泛化
关键词: 系统性, 组合性, 行为vs表征, Hadley分类, 机械可解释性
一句话总结¶
这篇观点性综述区分了行为系统性(模型能否正确泛化到新组合)和表征系统性(模型内部表征是否结构化),用 Hadley 的弱/准/强三级分类审视了语言和视觉领域的主流基准,发现大多数现有基准仅测试弱或准系统性,并呼吁通过机械可解释性方法弥补行为与表征评估的鸿沟。
研究背景与动机¶
领域现状:组合性泛化(如理解"章鱼吃了鱼"后应能理解"鱼吃了章鱼")是人类认知的核心能力。ML 社区涌现大量基准(SCAN、COGS、BLiMP 等)和模型来测试/增强系统性泛化能力,许多工作声称在回应 Fodor & Pylyshyn (1988) 的挑战。
现有痛点:一个关键混淆被广泛忽视——F&P 论证的是表征的系统性(内部表征必须有结构化组合操作),而现有基准和评估实际测试的只是行为的系统性(模型对新输入能否给出正确输出)。行为正确不等于表征结构化:模型可能通过记忆、启发式或捷径做对测试但缺乏真正的系统性表征。
核心矛盾:ML 社区常将行为测试的成功等同于解决了 F&P 的表征系统性挑战,导致对模型泛化能力的过高估计和矛盾的研究结论。
本文目标 澄清行为系统性与表征系统性的区别,分析现有基准的实际测试范围,指出通往强系统性评估的路径。
切入角度:引入 Hadley (1994) 的三级系统性分类作为分析工具,结合心理学中操作化和能力-表现区分的理论传统。
核心 idea:不是模型做对了就说明它"理解"了——行为证据需要机械可解释性的表征证据来补充。
方法详解¶
综述内容概述¶
本文作为观点性综述,按三个部分展开论证:
-
从表征到行为的历史演变:
- 梳理 F&P (1988) 的原始论证:系统性是认知能力之间的蕴含关系(能理解 "aRb" 则必然能理解 "bRa"),这要求表征具有结构和结构敏感操作
- 引入 Hadley (1994) 的操作化框架,将系统性分为三个渐进级别:
- 弱系统性:熟悉词在新组合中但仍处于训练中见过的相同句法位置
- 准系统性:弱系统性 + 递归/嵌入子句(训练中见过相同结构的简单句)
- 强系统性:词出现在训练中从未见过的句法位置(最接近人类能力)
- 讨论能力(competence)与表现(performance)的经典区分:行为失败不一定意味着缺乏能力(如儿童的物体永恒性实验),成功也不一定证明能力(如动物可能用熵检测而非关系推理解决匹配任务)
-
语言和视觉基准的系统性级别分析:
- SCAN: Split 1 可能仅测试弱系统性(训练集已覆盖所有命令在所有位置),Split 2 测试生产性(需至少准系统性),Split 3 目标强系统性但 Bastings et al. (2018) 证明简单建模技巧即可做对
- PCFG SET: Systematicity split 测试弱系统性,Productivity split 测试至少准系统性
- COGS/ReCOGS/SLOG: 目标强系统性,但 ReCOGS 仅通过去除无关输出 token 和缓解虚假相关就大幅提升了同一模型的表现,说明 COGS 的行为测试结果不可靠。SLOG 是目前最严格的语言基准
- 视觉基准: 解耦生成变量方法(如 dSprites)仅能测试弱系统性;抽象推理(如 ARC)可能测试强系统性但缺乏系统构建过程;视觉-语言模型测试因预训练数据未知而无法判断泛化级别
-
表征系统性的证据与反证据:
- 支持证据: 线性探针发现语言概念、OthelloGPT 的"世界模型"、功能向量的可重组性、大型 LLM 中的绑定向量
- 反对证据: 探针解码的属性不一定被模型因果使用;Transformer 的世界模型可能远不如表面看起来连贯(如出租车路径实验);即使检测到弱系统性表征也不一定被用于 OOD 泛化
- 压缩效率和完全组合性之间存在张力:模型可能为追求数据编码效率而牺牲完全系统性表征
核心论证框架¶
作者提出三个分析案例来理清行为/表征/操作化之间的关系:
- Case 1: 无有效操作化下的系统行为 → 无法得出任何结论
- Case 2: 有效操作化下的系统行为 → 如果接受 F&P 立场则构成表征系统性的证据,但需要机械可解释性来确认
- Case 3: 有效操作化下无系统行为 → 可能缺乏表征,也可能有表征但流水线中某非系统性模块阻断了表现
实验关键数据¶
语言基准系统性级别分析¶
| 基准 | 目标级别 | 实际测试级别 | 问题 |
|---|---|---|---|
| SCAN Split 1 | 弱 | 弱 | 简单技巧可做对 |
| SCAN Split 3 | 强 | 强(目标) | 不需要结构化表征即可通过 |
| PCFG SET Systematicity | 弱 | 弱 | 语法参数训练/测试一致 |
| COGS | 强 | 不确定 | ReCOGS 证明虚假因素影响大 |
| SLOG | 强 | 强 | 目前最严格的语言基准 |
视觉基准系统性级别分析¶
| 方法类别 | 代表基准 | 系统性级别 | 限制 |
|---|---|---|---|
| 生成变量解耦 | dSprites 变体 | 弱 | 无层次结构,无新语境 |
| 抽象推理 | ARC, RAVEN | 可能强 | 缺乏系统构建描述 |
| 视觉-语言 | Winoground | 不可评判 | 预训练数据未知 |
关键发现¶
- 大多数"测试系统性"的基准实际上只测试弱或准系统性
- 同一模型在 COGS 和 ReCOGS 上表现截然不同,说明行为测试结果受数据构建的虚假因素严重影响
- 不同组合性泛化数据集对同一组模型的排名可能不一致
- 学习曲线分析表明非系统性学习者所需数据随概念数指数增长
亮点与洞察¶
- 行为 vs 表征的概念澄清——戳破了 ML 社区对"做对了就等于理解了"的常见假设,这一区分对所有 NLP 评估工作都有深远意义。
- Hadley 三级分类的现代化应用——将 1994 年的理论框架应用于 2020 年代的基准评估,建立了系统性测试等级的标准化分析工具。
- 跨学科视角的引入——将心理学中的操作化理论、能力-表现区分引入 ML 评估,为评估方法论提供了更深层的理论基础。
局限与展望¶
- 纯综述无新实验,论证依赖于对现有工作的重新解读
- 聚焦短语结构语法框架,未覆盖树邻接语法、构造语法等替代理论视角
- 机械可解释性方法仍处于早期,文中未给出操作性的评估方案
- 仅关注英语基准,多语言模型可能有不同泛化能力
- 未讨论规模效应:随模型变大,行为/表征的关系是否改变
相关工作与启发¶
- vs Russin et al. (2024): 也综述组合性但核心问题是"能否复现行为特征",仍在行为层面;本文显式增加表征维度
- vs McCurdy et al. (2024): 定义了"组合行为"但将其与学习过程解耦,导致无法判断系统性;本文指出必须控制训练分布
- vs Pavlick (2023): 认为 LLM 已能编码符号和进行符号加工;本文提醒即使表征看似结构化,也不保证被系统使用
评分¶
- 新颖性: ⭐⭐⭐⭐ 行为/表征区分和 Hadley 分类的 ML 应用是有价值的概念贡献
- 实验充分度: ⭐⭐ 纯综述无实验,但分析覆盖面广
- 写作质量: ⭐⭐⭐⭐⭐ 论点清晰有力,逻辑链严密,概念界定精确
- 价值: ⭐⭐⭐⭐ 对组合性泛化研究和 LLM 评估方法论有重要理论启示