Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey¶

会议: ACL 2025
arXiv: 2506.04461
代码: 无
领域: 认知语言学 / 组合性泛化
关键词: 系统性, 组合性, 行为vs表征, Hadley分类, 机械可解释性

一句话总结¶

这篇观点性综述区分了行为系统性（模型能否正确泛化到新组合）和表征系统性（模型内部表征是否结构化），用 Hadley 的弱/准/强三级分类审视了语言和视觉领域的主流基准，发现大多数现有基准仅测试弱或准系统性，并呼吁通过机械可解释性方法弥补行为与表征评估的鸿沟。

研究背景与动机¶

领域现状：组合性泛化（如理解"章鱼吃了鱼"后应能理解"鱼吃了章鱼"）是人类认知的核心能力。ML 社区涌现大量基准（SCAN、COGS、BLiMP 等）和模型来测试/增强系统性泛化能力，许多工作声称在回应 Fodor & Pylyshyn (1988) 的挑战。

现有痛点：一个关键混淆被广泛忽视——F&P 论证的是表征的系统性（内部表征必须有结构化组合操作），而现有基准和评估实际测试的只是行为的系统性（模型对新输入能否给出正确输出）。行为正确不等于表征结构化：模型可能通过记忆、启发式或捷径做对测试但缺乏真正的系统性表征。

核心矛盾：ML 社区常将行为测试的成功等同于解决了 F&P 的表征系统性挑战，导致对模型泛化能力的过高估计和矛盾的研究结论。

本文目标 澄清行为系统性与表征系统性的区别，分析现有基准的实际测试范围，指出通往强系统性评估的路径。

切入角度：引入 Hadley (1994) 的三级系统性分类作为分析工具，结合心理学中操作化和能力-表现区分的理论传统。

核心 idea：不是模型做对了就说明它"理解"了——行为证据需要机械可解释性的表征证据来补充。

方法详解¶

综述内容概述¶

本文作为观点性综述，按三个部分展开论证：

从表征到行为的历史演变:
- 梳理 F&P (1988) 的原始论证：系统性是认知能力之间的蕴含关系（能理解 "aRb" 则必然能理解 "bRa"），这要求表征具有结构和结构敏感操作
- 引入 Hadley (1994) 的操作化框架，将系统性分为三个渐进级别：
  - 弱系统性：熟悉词在新组合中但仍处于训练中见过的相同句法位置
  - 准系统性：弱系统性 + 递归/嵌入子句（训练中见过相同结构的简单句）
  - 强系统性：词出现在训练中从未见过的句法位置（最接近人类能力）
- 讨论能力（competence）与表现（performance）的经典区分：行为失败不一定意味着缺乏能力（如儿童的物体永恒性实验），成功也不一定证明能力（如动物可能用熵检测而非关系推理解决匹配任务）
语言和视觉基准的系统性级别分析:
- SCAN: Split 1 可能仅测试弱系统性（训练集已覆盖所有命令在所有位置），Split 2 测试生产性（需至少准系统性），Split 3 目标强系统性但 Bastings et al. (2018) 证明简单建模技巧即可做对
- PCFG SET: Systematicity split 测试弱系统性，Productivity split 测试至少准系统性
- COGS/ReCOGS/SLOG: 目标强系统性，但 ReCOGS 仅通过去除无关输出 token 和缓解虚假相关就大幅提升了同一模型的表现，说明 COGS 的行为测试结果不可靠。SLOG 是目前最严格的语言基准
- 视觉基准: 解耦生成变量方法（如 dSprites）仅能测试弱系统性；抽象推理（如 ARC）可能测试强系统性但缺乏系统构建过程；视觉-语言模型测试因预训练数据未知而无法判断泛化级别
表征系统性的证据与反证据:
- 支持证据: 线性探针发现语言概念、OthelloGPT 的"世界模型"、功能向量的可重组性、大型 LLM 中的绑定向量
- 反对证据: 探针解码的属性不一定被模型因果使用；Transformer 的世界模型可能远不如表面看起来连贯（如出租车路径实验）；即使检测到弱系统性表征也不一定被用于 OOD 泛化
- 压缩效率和完全组合性之间存在张力：模型可能为追求数据编码效率而牺牲完全系统性表征

核心论证框架¶

作者提出三个分析案例来理清行为/表征/操作化之间的关系：

Case 1: 无有效操作化下的系统行为 → 无法得出任何结论
Case 2: 有效操作化下的系统行为 → 如果接受 F&P 立场则构成表征系统性的证据，但需要机械可解释性来确认
Case 3: 有效操作化下无系统行为 → 可能缺乏表征，也可能有表征但流水线中某非系统性模块阻断了表现

实验关键数据¶

语言基准系统性级别分析¶

基准	目标级别	实际测试级别	问题
SCAN Split 1	弱	弱	简单技巧可做对
SCAN Split 3	强	强(目标)	不需要结构化表征即可通过
PCFG SET Systematicity	弱	弱	语法参数训练/测试一致
COGS	强	不确定	ReCOGS 证明虚假因素影响大
SLOG	强	强	目前最严格的语言基准

视觉基准系统性级别分析¶

方法类别	代表基准	系统性级别	限制
生成变量解耦	dSprites 变体	弱	无层次结构，无新语境
抽象推理	ARC, RAVEN	可能强	缺乏系统构建描述
视觉-语言	Winoground	不可评判	预训练数据未知

关键发现¶

大多数"测试系统性"的基准实际上只测试弱或准系统性
同一模型在 COGS 和 ReCOGS 上表现截然不同，说明行为测试结果受数据构建的虚假因素严重影响
不同组合性泛化数据集对同一组模型的排名可能不一致
学习曲线分析表明非系统性学习者所需数据随概念数指数增长

亮点与洞察¶

行为 vs 表征的概念澄清——戳破了 ML 社区对"做对了就等于理解了"的常见假设，这一区分对所有 NLP 评估工作都有深远意义。
Hadley 三级分类的现代化应用——将 1994 年的理论框架应用于 2020 年代的基准评估，建立了系统性测试等级的标准化分析工具。
跨学科视角的引入——将心理学中的操作化理论、能力-表现区分引入 ML 评估，为评估方法论提供了更深层的理论基础。

局限与展望¶

纯综述无新实验，论证依赖于对现有工作的重新解读
聚焦短语结构语法框架，未覆盖树邻接语法、构造语法等替代理论视角
机械可解释性方法仍处于早期，文中未给出操作性的评估方案
仅关注英语基准，多语言模型可能有不同泛化能力
未讨论规模效应：随模型变大，行为/表征的关系是否改变

评分¶

新颖性: ⭐⭐⭐⭐ 行为/表征区分和 Hadley 分类的 ML 应用是有价值的概念贡献
实验充分度: ⭐⭐ 纯综述无实验，但分析覆盖面广
写作质量: ⭐⭐⭐⭐⭐ 论点清晰有力，逻辑链严密，概念界定精确
价值: ⭐⭐⭐⭐ 对组合性泛化研究和 LLM 评估方法论有重要理论启示