跳转至

Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey

会议: ACL 2025
arXiv: 2506.04461
代码: 无
领域: 认知语言学 / 组合性泛化
关键词: 系统性, 组合性, 行为vs表征, Hadley分类, 机械可解释性

一句话总结

这篇观点性综述区分了行为系统性(模型能否正确泛化到新组合)和表征系统性(模型内部表征是否结构化),用 Hadley 的弱/准/强三级分类审视了语言和视觉领域的主流基准,发现大多数现有基准仅测试弱或准系统性,并呼吁通过机械可解释性方法弥补行为与表征评估的鸿沟。

研究背景与动机

领域现状:组合性泛化(如理解"章鱼吃了鱼"后应能理解"鱼吃了章鱼")是人类认知的核心能力。ML 社区涌现大量基准(SCAN、COGS、BLiMP 等)和模型来测试/增强系统性泛化能力,许多工作声称在回应 Fodor & Pylyshyn (1988) 的挑战。

现有痛点:一个关键混淆被广泛忽视——F&P 论证的是表征的系统性(内部表征必须有结构化组合操作),而现有基准和评估实际测试的只是行为的系统性(模型对新输入能否给出正确输出)。行为正确不等于表征结构化:模型可能通过记忆、启发式或捷径做对测试但缺乏真正的系统性表征。

核心矛盾:ML 社区常将行为测试的成功等同于解决了 F&P 的表征系统性挑战,导致对模型泛化能力的过高估计和矛盾的研究结论。

本文目标 澄清行为系统性与表征系统性的区别,分析现有基准的实际测试范围,指出通往强系统性评估的路径。

切入角度:引入 Hadley (1994) 的三级系统性分类作为分析工具,结合心理学中操作化和能力-表现区分的理论传统。

核心 idea:不是模型做对了就说明它"理解"了——行为证据需要机械可解释性的表征证据来补充。

方法详解

综述内容概述

本文作为观点性综述,按三个部分展开论证:

  1. 从表征到行为的历史演变:

    • 梳理 F&P (1988) 的原始论证:系统性是认知能力之间的蕴含关系(能理解 "aRb" 则必然能理解 "bRa"),这要求表征具有结构和结构敏感操作
    • 引入 Hadley (1994) 的操作化框架,将系统性分为三个渐进级别:
      • 弱系统性:熟悉词在新组合中但仍处于训练中见过的相同句法位置
      • 准系统性:弱系统性 + 递归/嵌入子句(训练中见过相同结构的简单句)
      • 强系统性:词出现在训练中从未见过的句法位置(最接近人类能力)
    • 讨论能力(competence)与表现(performance)的经典区分:行为失败不一定意味着缺乏能力(如儿童的物体永恒性实验),成功也不一定证明能力(如动物可能用熵检测而非关系推理解决匹配任务)
  2. 语言和视觉基准的系统性级别分析:

    • SCAN: Split 1 可能仅测试弱系统性(训练集已覆盖所有命令在所有位置),Split 2 测试生产性(需至少准系统性),Split 3 目标强系统性但 Bastings et al. (2018) 证明简单建模技巧即可做对
    • PCFG SET: Systematicity split 测试弱系统性,Productivity split 测试至少准系统性
    • COGS/ReCOGS/SLOG: 目标强系统性,但 ReCOGS 仅通过去除无关输出 token 和缓解虚假相关就大幅提升了同一模型的表现,说明 COGS 的行为测试结果不可靠。SLOG 是目前最严格的语言基准
    • 视觉基准: 解耦生成变量方法(如 dSprites)仅能测试弱系统性;抽象推理(如 ARC)可能测试强系统性但缺乏系统构建过程;视觉-语言模型测试因预训练数据未知而无法判断泛化级别
  3. 表征系统性的证据与反证据:

    • 支持证据: 线性探针发现语言概念、OthelloGPT 的"世界模型"、功能向量的可重组性、大型 LLM 中的绑定向量
    • 反对证据: 探针解码的属性不一定被模型因果使用;Transformer 的世界模型可能远不如表面看起来连贯(如出租车路径实验);即使检测到弱系统性表征也不一定被用于 OOD 泛化
    • 压缩效率和完全组合性之间存在张力:模型可能为追求数据编码效率而牺牲完全系统性表征

核心论证框架

作者提出三个分析案例来理清行为/表征/操作化之间的关系:

  1. Case 1: 无有效操作化下的系统行为 → 无法得出任何结论
  2. Case 2: 有效操作化下的系统行为 → 如果接受 F&P 立场则构成表征系统性的证据,但需要机械可解释性来确认
  3. Case 3: 有效操作化下无系统行为 → 可能缺乏表征,也可能有表征但流水线中某非系统性模块阻断了表现

实验关键数据

语言基准系统性级别分析

基准 目标级别 实际测试级别 问题
SCAN Split 1 简单技巧可做对
SCAN Split 3 强(目标) 不需要结构化表征即可通过
PCFG SET Systematicity 语法参数训练/测试一致
COGS 不确定 ReCOGS 证明虚假因素影响大
SLOG 目前最严格的语言基准

视觉基准系统性级别分析

方法类别 代表基准 系统性级别 限制
生成变量解耦 dSprites 变体 无层次结构,无新语境
抽象推理 ARC, RAVEN 可能强 缺乏系统构建描述
视觉-语言 Winoground 不可评判 预训练数据未知

关键发现

  • 大多数"测试系统性"的基准实际上只测试弱或准系统性
  • 同一模型在 COGS 和 ReCOGS 上表现截然不同,说明行为测试结果受数据构建的虚假因素严重影响
  • 不同组合性泛化数据集对同一组模型的排名可能不一致
  • 学习曲线分析表明非系统性学习者所需数据随概念数指数增长

亮点与洞察

  • 行为 vs 表征的概念澄清——戳破了 ML 社区对"做对了就等于理解了"的常见假设,这一区分对所有 NLP 评估工作都有深远意义。
  • Hadley 三级分类的现代化应用——将 1994 年的理论框架应用于 2020 年代的基准评估,建立了系统性测试等级的标准化分析工具。
  • 跨学科视角的引入——将心理学中的操作化理论、能力-表现区分引入 ML 评估,为评估方法论提供了更深层的理论基础。

局限与展望

  • 纯综述无新实验,论证依赖于对现有工作的重新解读
  • 聚焦短语结构语法框架,未覆盖树邻接语法、构造语法等替代理论视角
  • 机械可解释性方法仍处于早期,文中未给出操作性的评估方案
  • 仅关注英语基准,多语言模型可能有不同泛化能力
  • 未讨论规模效应:随模型变大,行为/表征的关系是否改变

相关工作与启发

  • vs Russin et al. (2024): 也综述组合性但核心问题是"能否复现行为特征",仍在行为层面;本文显式增加表征维度
  • vs McCurdy et al. (2024): 定义了"组合行为"但将其与学习过程解耦,导致无法判断系统性;本文指出必须控制训练分布
  • vs Pavlick (2023): 认为 LLM 已能编码符号和进行符号加工;本文提醒即使表征看似结构化,也不保证被系统使用

评分

  • 新颖性: ⭐⭐⭐⭐ 行为/表征区分和 Hadley 分类的 ML 应用是有价值的概念贡献
  • 实验充分度: ⭐⭐ 纯综述无实验,但分析覆盖面广
  • 写作质量: ⭐⭐⭐⭐⭐ 论点清晰有力,逻辑链严密,概念界定精确
  • 价值: ⭐⭐⭐⭐ 对组合性泛化研究和 LLM 评估方法论有重要理论启示