Model Internal Sleuthing: Finding Lexical Identity and Inflectional Features in Modern Language Models¶

会议: ACL 2026
arXiv: 2506.02132
代码: https://github.com/ml5885/model_internal_sleuthing
领域: 模型压缩 / NLP理解
关键词: 语言探针, 词汇同一性, 屈折特征, 表示几何, 跨语言分析

一句话总结¶

本文系统地对 25 个 Transformer 语言模型（从 BERT Base 到 Qwen2.5-7B）进行探针分析，发现词汇同一性（lexeme）在早期层线性可解码但随深度衰减，而屈折特征（inflection）在所有层中保持稳定可读，且占据紧凑可控的子空间。

研究背景与动机¶

领域现状：探针研究（probing）是理解 Transformer 内部语言表示的核心方法，早期工作已在 BERT 和 GPT-2 上建立了"不同层编码不同语言层级"的层次化理解——底层编码表面特征，中层编码句法，高层编码语义。

现有痛点：此前的探针研究几乎全部聚焦于第一代模型（BERT、GPT-2），而现代 LLM 在架构（编码器/解码器）、训练数据规模（数十亿 vs 万亿 token）、后训练适配等方面已发生巨大变化，早期结论是否仍成立缺乏验证。

核心矛盾：我们对现代大型语言模型如何编码基础语言信息（词汇身份 vs 语法屈折）的理解，仍建立在过时的小模型实验基础上，存在严重的知识断层。

本文目标：(1) 在 25 个现代模型上系统探测词汇同一性和屈折特征的编码模式；(2) 分析表示几何、注意力 vs 残差流、激活引导、预训练动态等多个维度。

切入角度：选择词汇同一性（lexeme，如 walk/walked 共享词元）和屈折特征（如复数、过去式）两个属性——前者关联语义，后者关联语法——用来解耦模型如何权衡"意义"与"形式"。

核心 idea：用线性/非线性探针+选择性指标+表示几何分析+激活引导实验，全面刻画现代 LLM 中词汇与屈折信息的编码轨迹。

方法详解¶

整体框架¶

对 25 个预训练模型（3 类架构、6 种语言），从每层提取残差流激活，训练线性回归探针和 MLP 探针分别预测词元和屈折特征，并通过选择性（selectivity）、线性可分性差距（linear separability gap）、有效维度（effective dimensionality）、激活引导（steering）等多角度分析。

关键设计¶

双探针+选择性指标体系:
- 功能：区分模型是否真正编码了语言信息，还是探针只是在记忆
- 核心思路：训练线性回归和 MLP 两种探针，同时用随机标签构建控制任务。选择性 \(\text{Sel}_\ell = \text{Acc}^\text{real}_\ell - \text{Acc}^\text{control}_\ell\) 衡量真正的语言信号；线性可分性差距 \(\text{Gap}_\ell = \text{Sel}^\text{nonlin}_\ell - \text{Sel}^\text{linear}_\ell\) 衡量非线性探针是否带来真正的信息增益还是仅捕获虚假关联
- 设计动机：高准确率不一定意味着语言信息真正被编码——可能只是探针容量过大导致记忆；选择性指标能有效过滤这一伪信号
表示几何分析（Representation Geometry）:
- 功能：揭示模型中层表示空间的压缩/膨胀模式
- 核心思路：计算每层激活的线性有效维度——即需要多少 PCA 分量才能解释固定比例的方差。发现 GPT-2、Qwen2.5、Pythia 存在急剧的中层维度坍缩（绝对激活值飙升至 ~8000），而 Llama、OLMo 则保持平滑压缩
- 设计动机：有效维度的变化与探针性能和引导效果直接相关——维度坍缩层的引导效果显著降低
屈折特征激活引导 (Inflection Steering):
- 功能：因果验证屈折特征是否占据可控的低维子空间
- 核心思路：对每对屈折类别（如单数vs复数）计算均值差异向量，以不同强度 \(\lambda\) 添加到隐藏状态中，用线性探针测量干预后类别翻转率。结果表明即使中等干预强度（\(\lambda=5\)）也能产生大幅概率偏移
- 设计动机：从关联到因果——探针结果只证明信息"存在"，引导实验证明该信息是"可操控的"，这对表示工程具有实际意义

损失函数 / 训练策略¶

线性探针使用岭正则化回归（闭式解），MLP 探针为两层 ReLU 网络（隐层 64 维），均使用标准交叉熵损失训练。

实验关键数据¶

主实验¶

属性	模型类型	早期层准确率	深层准确率	选择性趋势
词元(Lexeme)	编码器	0.8-1.0	大幅下降	接近零
词元(Lexeme)	小型解码器	0.8-1.0	缓慢下降	接近零
词元(Lexeme)	大型解码器	0.8-1.0	保持较高	接近零
屈折(Inflection)	所有	0.9-1.0	0.9-1.0	0.4-0.6 (正)

消融实验¶

分析维度	关键发现	说明
线性vs非线性	Gap < 0（全局）	MLP额外容量多捕获虚假关联而非真正语言结构
残差流vs注意力	残差流显著优于注意力	中层词元：残差0.6-0.9 vs 注意力0.2-0.4
跨语言	土耳其语衰减最快	词元准确率从0.95降至0.25，因形态复杂性
预训练动态	屈折早期稳定，词元持续演变	屈折几个checkpoint就收敛，词元后期仍在重塑

关键发现¶

词元信息的高早期准确率伴随接近零的选择性，意味着主要由表面相关性（如子词重叠）驱动而非真正的词汇结构
屈折信息在整个模型深度上保持正选择性（0.4-0.6），表明这是被"真正编码"的语言属性
频率与探针准确率强相关——罕见词元和罕见屈折形式是主要错误来源
DeBERTa-v3 在约 75% 深度处出现引导效果骤降，暗示特殊的架构性表示约束

亮点与洞察¶

选择性指标的系统性运用是本文方法论的最大亮点：不仅报告准确率还报告控制对比，有效解决了探针研究中长期存在的"记忆伪信号"问题。这一范式可直接迁移到任何探针实验
从"关联"到"因果"的激活引导验证思路很完整：先探针发现信息存在，再用引导证明信息可操控，最后用预训练动态追踪信息何时形成
25 个模型 × 6 种语言的覆盖规模前所未有，使结论具有很强的普适性

局限与展望¶

解码器模型使用最后一个子词token作为词表示，可能不是所有架构的最优选择
探针只能检测关联而非因果机制；引导实验也仅测量分类器变化而非下游生成效果
未处理同形异义的歧义情况（如英语中不定式和非过去式动词形式相同）
可扩展到更大规模模型（70B+）和更多语言特征（句法依存、语义角色等）

评分¶

新颖性: ⭐⭐⭐⭐ 非全新范式但规模和深度前所未有
实验充分度: ⭐⭐⭐⭐⭐ 25模型×6语言×多维度分析极其全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，叙事流畅，图表丰富