🔬 可解释性¶
💬 ACL2026 · 63 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (34) · 🔬 ICLR2026 (195) · 🧪 ICML2026 (91) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (80) · 📹 ICCV2025 (10)
🔥 高频主题: LLM ×16 · 推理 ×5 · 对齐/RLHF ×4 · 布局/合成 ×3 · 多模态 ×2
- A Structured Clustering Approach for Inducing Media Narratives
-
提出一个从大规模新闻语料中自动归纳媒体叙事模式的框架,通过联合建模事件因果链和角色(英雄/威胁/受害者)信息,使用角色约束的聚类算法将叙事链组织成语义连贯的叙事模式,在移民和枪支控制两个领域生成了可解释且与框架理论一致的叙事模式。
- A Systematic Comparison between Extractive Self-Explanations and Human Rationales in Text Classification
-
这篇论文系统比较了 4 个开源指令调优 LLM 在 3 类文本分类任务上生成的抽取式自解释与人类 rationale、后验归因方法之间的差异,发现自解释与人类标注的一致性强烈受文本长度和任务复杂度影响,但在扰动式 faithfulness 评测中,自解释往往能选出对模型预测更关键的 token 子集。
- AdaptiveK: Complexity-Driven Sparse Autoencoders for Interpretable Language Model Representations
-
AdaptiveK 提出一种由输入语义复杂度驱动的 Sparse Autoencoder,让简单文本激活更少特征、复杂文本激活更多特征,在 8 个自回归 LLM 和附加架构实验上改善重构质量、概念解耦与训练效率,并减少固定 TopK 需要反复调参的问题。
- Aligning What LLMs Do and Say: Towards Self-Consistent Explanations
-
构建大规模Post-hoc Self-Consistency Bank(PSCB,85K决策×428K解释),量化LLM答案与其解释之间的特征归因差距,并通过DPO优化在不损害准确率的前提下提升解释的归因一致性。
- Compositional Steering of Large Language Models with Steering Tokens
-
本文提出组合引导 token,通过自蒸馏将行为指令压缩为输入空间的嵌入向量,并训练专用组合 token
来捕获"组合"的通用概念,在未见过的行为组合、未见过的行为以及未见过的组合数量上均展现强泛化能力。 - Constructing Interpretable Features from Compositional Neuron Groups
-
作者用半非负矩阵分解(SNMF)直接把 MLP 激活拆成"稀疏神经元组 × 非负系数",得到既能映射回激活上下文又能跨层组合的可解释特征,在 Llama-3.1-8B / Gemma-2-2B / GPT-2 上的因果引导(concept steering)评估全面超过最新 SAE(Llamascope / Gemmascope)和强监督基线 DiffMeans。
- Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining
-
用 sparse crosscoder 在同一 LLM 的多个 pretraining checkpoint 间训练一个共享特征字典,并提出 Relative Indirect Effect (RelIE) 度量逐特征的因果重要性如何在 token 数量推移中"涌现/维持/消失",从而首次在 Pythia/OLMo/BLOOM 上观察到 LLM 从"特定子词检测器"逐步内化为"抽象句法/跨语言检测器"的概念级演化轨迹。
- Curing "Miracle Steps" in LLM Mathematical Reasoning with Rubric Rewards
-
本文发现当前 LLM 数学推理中存在大量"Miracle Steps"——推理链中凭空跳跃到正确答案的现象,并提出 Rubric Reward Model (RRM),一种基于问题特定评分标准的过程奖励函数,在 RL 训练中显著减少 Miracle Steps 71% 并将 AIME2024 的 Verified Pass@1024 从 26.7% 提升至 62.6%。
- Diffusion-CAM: Faithful Visual Explanations for dMLLMs
-
提出 Diffusion-CAM,首个专为扩散式多模态大语言模型(dMLLM)设计的可解释性方法,通过在去噪轨迹中提取结构有效的中间表征并配合四个后处理模块(自适应核去噪、分布感知置信门控、上下文背景衰减、单实例因果去偏),在 COCO Caption 和 GranDf 上显著超越自回归 CAM 基线。
- Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives
-
作者用「this/that」与「这/那」这类指示词(demonstrative)作为探针,构建中英双语对照数据集(80 题/语 × 4 cue × 4 perspective × 5 场景),用 320 名母语者的 6,400 条响应建立人类基线,发现英语者擅长 proximal–distal 区分但弱于他者视角,中文者反之;而 5 个 SOTA LLM 既无法稳定区分近–远,也无跨文化差异,普遍退回到 English-centric 推理或"All of the above"安全 fallback。
- Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations
-
发现并形式化了 LLM 工具调用中的"结构对齐偏差"——当查询属性可以有效映射到工具参数时(即使工具功能与用户目标无关),LLM 仍倾向调用该工具。构建 SABEval 数据集解耦结构对齐和语义相关性,用对比注意力归因揭示内部存在语义检查和结构匹配两条竞争路径,提出再平衡策略实现 80% 的相对错误减少。
- DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
-
这篇论文提出 DPN-LE,通过对比高/低人格特质样本的 MLP 激活来定位互斥的人格相关神经元,只干预约 0.5% 神经元即可实现人格控制,并比既有大规模神经元编辑更好地保留通用能力。
- Dual Alignment Between Language Model Layers and Human Sentence Processing
-
作者用 logit-lens 把 GPT-2/Pythia/OPT 共 19 个 LM 的每一层都解出"内部 surprisal",发现一个反直觉的"双重对齐":在自然阅读语料上浅层的 surprisal 最像人;但在 garden-path / NPS / NPZ / RC / Attachment 等句法挑战句上反而深层才像人,对应人类"shallow 默认 + 困难时切换到 deep 重分析"的双机制阅读模型——并由此提出用浅深层 surprisal 差(KL/JS)作为"层间预测更新量"来当 reading-time 的补充特征。
- Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models
-
本文把 LLM 中常被视为异常值的 massive activations 重新解释为可解释的领域关键维度,用无需训练的激活幅值准则识别这些维度,并只在这些维度上做 activation steering,从而在领域适配和 jailbreak 场景中比全维度 steering 更有效。
- Evian: Towards Explainable Visual Instruction-tuning Data Auditing
-
提出"分解-再评估"(Decomposition-then-Evaluation)范式和 EVIAN 框架,将视觉指令微调数据的回答分解为视觉描述、主观推理和事实声明三个组件,沿图文一致性、逻辑连贯性和事实准确性三个正交维度评估,发现用其筛选的少量高质量数据训练的模型优于大规模数据集训练的模型。
- Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
-
构建控制知识框架系统研究LLM在科学可行性评估中如何利用实验描述和结果证据,发现提供结果证据比实验描述更可靠,部分实验信息常导致性能低于仅用参数知识的基线,揭示了LLM推理的脆弱性。
- Fine-Grained Analysis of Shared Syntactic Mechanisms in Language Models
-
论文用 activation patching 在 attention head 粒度上证明:Pythia/Gemma 处理英文 filler-gap 依赖(FGD)时七大构式共享同一套早-中层 3 个 attention head 的机制,把这几个 head 的激活×1.5 还能在 BLiMP 上多对一批题;而负极性项(NPI)授权没有这种统一机制,且训练阶段更易学到的"DAS 方向"在 OOD 上完全失效,说明无监督的 patching 比有监督的 DAS 更可信。
- FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models
-
FineSteer 将推理时转向分解为两个互补阶段:子空间引导的条件转向(SCS)决定"何时转向"——用 IR 查询子空间的能量比做门控;混合转向专家(MoSE)决定"如何转向"——通过注意力门控网络动态聚合原型专家+残差精炼生成查询特异性转向向量,在安全和真实性 benchmark 上超越 SOTA。
- Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs
-
作者构建了首个 Video-LLM 谄媚基准 ViSE (367 视频 / 6,367 多选题 / 7 类谄媚场景),在 9 个 SOTA Video-LLM 上系统揭示"模型为了迎合用户而抛弃视觉证据"的普遍现象,并提出两种 training-free 缓解方法:(i) 关键帧选择降谄媚最高 22.01% (并通过注意力分析证明它消除"首帧偏置"和"中间层不稳定");(ii) representation steering 在最难场景下平均降 35.69%,在 LLaVA-OneVision 上 5 个类别 MSS 降到接近 0。
- Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
-
本文通过因果干预框架系统研究了文本到图像模型中文本编码器输出的 token 级信息分布,发现词汇项的语义通常集中在 1-2 个代表性 token 上,且跨项信息流在 11% 的情况下会导致语义泄漏和图像错误解读,并提出了简单有效的 token 级干预方法来改善对齐。
- From Documents to Segments: A Contextual Reformulation for Topic Assignment
-
本文把主题分配的基本单位从 document 改成 segment,提出 SBTA 和 SemEval-STM 数据集,证明在多主题短文本中按语义片段分配主题能显著提升主题纯度、可解释性和下游检索可用性。
- From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models
-
RetMask 把"机制可解释性 (mechanistic interpretability)"找到的 retrieval heads 当成对比信号源 — 用屏蔽 retrieval head 后的 ablated 模型输出作为 rejected 样本、原模型输出作为 chosen 样本,跑 DPO 训练,无需 LLM judge 或人工标注,在 Llama-3.1 / Qwen3 / Olmo-3 三个模型族 128K 长度上一致提升,特别是 generation-with-citation +70% / re-rank +32%。
- From Weights to Activations: Is Steering the Next Frontier of Adaptation?
-
本文系统性地论证 steering(推理时激活空间干预)应被视为一种独立的模型适配范式,提出八项功能性评估标准对比 steering 与微调、PEFT、提示工程等传统方法,将 steering 定位为基于激活空间的局部可逆行为修改方法,具有计算高效、数据高效和可逆性等独特优势。
- HistLens: Mapping Idea Change across Concepts and Corpora
-
提出 HistLens 框架,基于稀疏自编码器(SAE)将概念表示分解为可解释的语义基向量,在共享坐标系中追踪多概念、多语料的历时演化轨迹,支持隐式概念计算,为数字人文和概念史研究提供可量化、可比较的分析工具。
- How Context Shapes Truth: Geometric Transformations of Statement-level Truth Representations in LLMs
-
论文首次刻画"加上下文后 LLM 内部真值表示的几何怎么变"——用真值向量在加/不加上下文两种条件下的方向夹角 θ 和相对幅度 两个量,在 4 个模型 × 多个数据集上发现:真值方向呈"早层近正交→中层急剧收敛→后层稳定或继续增大"的三阶段模式,加上下文普遍放大真假分离度,且与参数知识冲突的上下文比对齐的上下文引起更大的几何变化。
- How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects
-
通过表示分析揭示 LLM 中"逻辑有效性"和"合理性"两个概念在隐层空间中高度对齐,导致模型将合理性与有效性混淆(内容效应),并构造去偏转向向量有效解耦这两个概念,减少内容效应同时提升推理准确率。
- IDEA: An Interpretable and Editable Decision-Making Framework for LLMs via Verbal-to-Numeric Calibration
-
提出 IDEA 框架,将 LLM 的决策知识提取为语义因子上的可解释参数化模型,通过 EM 算法联合学习语言概率表达到数值的映射和决策参数,实现了可校准、可编辑、可解释的 LLM 决策,在五个数据集上以 Qwen-3-32B (78.6%) 超越 DeepSeek R1 (68.1%) 和 GPT-5.2 (77.9%)。
- Interpretability from the Ground Up
-
本文从教育评估利益相关者需求出发提出 FGTI 四原则(忠实、扎根、可追溯、可互换),开发 AnalyticScore 三阶段框架实现可解释自动评分,在 ASAP-SAS 上平均 QWK 仅比不可解释 SOTA 低 0.06。
- Interpretable Coreference Resolution Evaluation Using Explicit Semantics
-
本文用 Concept and Named Entity Recognition (CNER) 把 29 类细粒度语义标签按"提及 + 簇级多数投票"覆盖到共指消解的输出上,得到按语义类别分层的 Mention F1 和 Link F1 诊断指标,从而看清"模型在哪个类别上系统性失败",再用这些诊断指导仅 3 篇合成文档的定向数据增强,把 LitBank 训练的模型在 OntoNotes/PreCo 上 CoNLL-F1 提了 +2.5/+2.8,Mention F1 提了约 +9.5。
- Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse
-
本文给 Supervised Semantic Differential (SSD) 这种"用个体差异变量估计文本嵌入语义梯度"的方法提了一个 PCA sweep 程序——用可解释性 + 稳定性两个诊断(而非预测精度)联合挑选 PCA 维度 \(K\),并在 349 条 AI 主题短文 + 自恋问卷上演示:sweep 选出的 \(K=15\) 给出 Admiration 相关的"乐观协作 vs 不信任嘲讽"稳定语义梯度,而高 \(K=120\) 的反事实方案得到混乱难解释的簇。
- Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation
-
通过规则化问题分解方法构建可验证的中间推理链数据集,揭示 CoT 推理链的语义正确性与最终答案准确率不可靠地相关(正确链仅 28% 导致正确答案),且最可解释的推理链并非最提升性能的——冗长的 R1 链性能最优但用户评为最不可解释。
- Interpreting Style Representations via Style-Eliciting Prompts
-
这篇论文把难解释的文本风格向量解码成可直接驱动 LLM 写作的 style-eliciting prompts,用“可控制性”作为解释标准,在风格恢复、合成文本风格控制和人类文本风格模仿上都优于直接让 LLM 描述目标文本风格的基线。
- Interpreto: An Explainability Library for Transformers
-
Interpreto 是一个面向 HuggingFace 语言模型的开源 Python 可解释性库,把 token/word/sentence attribution 与 activation-level concept explanations 统一到一个 API 中,并提供 demo、教程、指标和端到端概念解释流水线。
- Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective
-
论文跳出"造测试集做组合泛化测试"的传统范式,让 LLM 直接为整个数据集生成一段 Python 程序作为映射规则,再用基于 Kolmogorov 复杂度上界的 \(\mathcal{C}(\text{P})\) 把"程序的压缩度 + 正确率"折成 0–100 的组合性分数;从而把"看输出对不对"换成"看规则压得多紧",既绕开了大模型预训练时已经"见过组合"的污染,又给出了可解释的内省式评估。
- Jacobian Scopes: Token-Level Causal Attributions in LLMs
-
作者提出 Jacobian Scopes——一套用"输入 token 嵌入到末层 hidden state 的 Jacobian 在某个 vector 上的投影"作为 token 归因强度的统一框架,配套三种 scope(Semantic / Fisher / Temperature)分别解释"某个目标 logit / 整个预测分布 / 模型置信度"如何被各输入 token 驱动,只需 1 次反向传播,AOPC 指标上与 Input×Gradient 持平、显著优于 Integrated Gradients。
- Knowledge Vector of Logical Reasoning in Large Language Models
-
作者证明 LLM 内部的演绎、归纳、溯因三类逻辑推理能力可以被线性表示为三条几乎正交的"知识向量",并提出一个基于 SAE 子空间约束的互补精炼框架,让这三条向量在保留各自独特特征的同时互相借鉴,从而在 steering 设置下稳定提升三类推理性能。
- Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling
-
VL-MDR 把"单标量黑盒"的判别式视觉语言奖励模型升级成"动态选维度 + 各维度打分 + 自适应加权"的三头架构,配合 321k 条带 21 维细粒度偏好标注的数据集,在 VL-RewardBench 上击败现有开源 RM,并能产出更高质量的 DPO 偏好对来缓解 VLM 幻觉。
- Letting Tutor Personas Speak Up for LLMs: Learning Steering Vectors from Dialogue via Preference Optimization
-
本文从真实师生对话中学习共享 steering direction 和导师专属缩放系数,让 LLM 在不显式写 persona prompt 的情况下生成更接近特定真人导师风格的辅导话语。
- Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States
-
这篇论文用 Qwen3-14B 上的探针、残差去混淆、trace-anchor 和 causal steering 实验证明:线性探针看似能 100% 区分演绎、归纳、溯因推理,但实际检测到的是数据源和题目格式,而不是隐藏状态中的推理模式。
- Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan
-
针对中世纪奥克语这种低资源历史语言,作者搭了一套 mBERT + 混合分词 + 域适应 MLM 的可解释框架,把"原拉丁中性名词在奥克语里到底是男性还是女性"这个问题拆成词形线索 vs. 句法上下文两路证据来量化,发现后缀形态贡献最大单一信号、上下文(尤其冠词与形容词)能把宏 F1 从 0.665 推到 0.929。
- Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing
-
这是一篇 position paper,主张机制可解释性研究需要补上“可审计性”这一层,通过连续协作评审平台、社区精炼指南和源证据追踪系统,把零散复现、负结果和方法学批评沉淀成可用于安全关键场景的审计协议。
- Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
-
针对 LLM 大数量计数失败(单 forward 因为 layer 深度有限只能数到 ~10–30),用一个简单的 test-time "用
|把列表切片 + 让模型先逐段计数再求和"策略让 Qwen2.5/Llama3/Gemma3/GPT-4o/Gemini-2.5-Pro 在 50–100 物体场景下从 0–20% 准确率跃升到 50–95%,并通过 attention 分析 + 4 类因果中介实验把"分段计数→中间步骤聚合→最终求和"三阶段电路定位到 Qwen2.5-7B 的 Layer 22 (head 13 负责分段, head 1 负责聚合)。 - METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models
-
METER 是首个在统一上下文下系统评测 LLM 三层因果推理(discovery / intervention / counterfactual)的 benchmark(4145 条人审 + LLM 协同构造样本),通过显著性信息流分析发现 LLM 在因果阶梯上升时性能从 93% 跌到 73%——根因是 discovery 阶段被无关事实干扰、higher-level 阶段对上下文 faithfulness 显著下降。
- MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
-
作者提出 MINED——首个多模态时间敏感知识评测基准,包含 2104 条 (subject, hypernym, property, attribute-list) 四元组、6 个维度(Cognition / Awareness / Trustworthiness / Understanding / Reasoning / Robustness)共 11 个子任务,4208 道题,在 15 个 LMM 上跑下来 Gemini-2.5-Pro 拿到最高平均 CEM=63.07 但仍漏掉 ~15% 知识;进一步用 FT-LLM / IKE 等知识编辑方法在 single editing 下能把 LLaVA-v1.5 和 Qwen-VL 的过时知识有效更新,但 lifelong editing 下大幅退化(FT-LLM 平均掉 43.2%)。
- Model Internal Sleuthing: Finding Lexical Identity and Inflectional Features in Modern Language Models
-
本文系统地对 25 个 Transformer 语言模型(从 BERT Base 到 Qwen2.5-7B)进行探针分析,发现词汇同一性(lexeme)在早期层线性可解码但随深度衰减,而屈折特征(inflection)在所有层中保持稳定可读,且占据紧凑可控的子空间。
- NOSE: Neural Olfactory-Semantic Embedding with Tri-Modal Orthogonal Contrastive Learning
-
提出 NOSE 三模态嗅觉表示学习框架,以分子为枢纽通过正交注入机制对齐分子结构、受体序列和自然语言描述三个模态,配合 LLM 驱动的弱正样本策略缓解描述稀疏问题,在 11 个下游任务上达到 SOTA 并展现优秀的零样本泛化能力。
- On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models
-
这篇论文用大规模行为评测和受认知神经科学启发的功能定位/消融实验,给出语言模型的 Theory of Mind 与语用推理可能共享内部计算机制的证据,因此把“社会世界模型”从单纯能力得分推进到可检验的功能整合假说。
- Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization
-
这篇论文提出 Preference Heads 与 Differential Preference Steering,用因果消融找出少量承载用户偏好的注意力头,再在解码时放大这些头带来的偏好信号,从而在不改模型参数的情况下提升个性化生成与预测效果。
- Probing for Reading Times
-
本文探测语言模型各层表示预测阅读时间的能力,发现早期层表示在预测早期注视指标上优于surprisal,而surprisal在晚期指标上更优,最佳预测器因语言和指标而异。
- Probing Semantic Alignment, Lexical Invariance, and Syntactic Influence in LLM Metaphor Processing
-
这是一篇诊断性分析论文:作者不比拼性能,而是从语义属性对齐、词法不变性、句法影响三个互补维度探针 LLM 的隐喻处理,发现"在隐喻 benchmark 上的高分"可能来自异质的浅层信号(语义漂移 + 稳定词法锚 + 对句法不规则的启发式敏感)而非稳健的整合式语义理解。
- Retrieval Heads are Dynamic
-
本文证明 LLM 中负责从上下文取信息的 retrieval heads 并不是固定集合,而会随生成步动态变化、不可被静态 heads 替代,并可由 hidden states 预测,从而能提升动态 RAG 的检索效果。
- Revitalizing Black-Box Interpretability: Actionable Interpretability for LLMs via Proxy Models
-
本文提出一种基于代理模型的黑盒可解释性框架,利用廉价小模型近似昂贵大模型的局部决策边界来生成 LIME/SHAP 解释,通过统计筛选-应用(screen-and-apply)机制确保可靠性,代理解释在保持超过 90% 保真度的同时将成本降低 88.2%,并成功用于 Prompt 压缩和中毒样本移除等下游优化任务。
- Rhetorical Questions in LLM Representations: A Linear Probing Study
-
通过线性探针分析 LLM 内部如何表征反问句,发现反问句在表征空间中是线性可分的且可跨数据集迁移,但不同数据集学到的探针方向并不一致——反问句由多个异构的线性方向编码,而非单一统一维度。
- Similarity-Distance-Magnitude Activations
-
本文提出 SDM(Similarity-Distance-Magnitude)激活函数作为 softmax 的更鲁棒替代,通过将正确预测的深度匹配(Similarity)、到训练分布的距离(Distance)和决策边界距离(Magnitude)三个认知维度解耦并整合为新的激活 \(\text{sdm}(\mathbf{z}')_i = (2+q)^{d \cdot z'_i} / \sum_c (2+q)^{d \cdot z'_c}\),并在此基础上构建 SDM 估计器进行选择性分类,在协变量偏移和分布外输入下比现有校准方法更鲁棒。
- SITE: Soft Head Selection for Injecting ICL-Derived Task Embeddings
-
SITE 提出了一种基于梯度优化的软注意力头选择方法,通过识别任务相关的注意力头来有效注入 ICL 衍生的任务嵌入,在 12 个 LLM(4B-70B)上显著超越 ICL 和现有嵌入方法,同时用远少于 PEFT 的可训练参数达到可比性能。
- Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models
-
论文用少量 prompt 中 SAE 特征的跨层共激活图自动发现 LLM 中表示概念和关系的语义模块,并证明对这些模块进行消融和放大能在最高 98% 的单概念/关系场景、最高 90% 的组合场景中可预测地操控 Gemma 2 2B 的关系推理输出。
- SSA: Improving Performance With a Better Scoring Function
-
这篇论文指出 Softmax attention 在分布偏移下会因大幅值 token 产生近似 hardmax 的注意力塌缩,并提出 Scaled Signed Averaging 作为可训练的替代评分函数,在合成 ICL 任务、114M decoder-only 语言模型和 BabyBERTa encoder 探针上都比 Softmax 有更好的泛化表现。
- Style over Story: Measuring LLM Narrative Preferences via Structured Selection
-
本文设计了一种基于约束选择的实验范式来测量 LLM 的叙事偏好,使用叙事学理论构建的 200 个约束库让 6 个 LLM 在不同指令类型下进行选择,发现模型系统性地优先选择"风格"(Style)而非"事件"(Event)、"角色"(Character)和"场景"(Setting)等内容元素。
- The Impact of Off-Policy Training Data on Probe Generalisation
-
这篇论文系统比较 on-policy natural、on-policy incentivised、on-policy prompted 和 off-policy 四类训练数据对 LLM 激活探针泛化的影响,发现文本表面可见行为较稳健,而欺骗、迎合、sandbagging 等“意图型”行为极易受领域偏移影响,并提出用 on-policy incentivised 测试集预判真实监控中的泛化失败。
- Through a Compressed Lens: Investigating The Impact of Quantization on Factual Knowledge Recall
-
这篇论文系统评估 GPTQ、AWQ、BitsAndBytes 等权重量化对 LLM 事实知识回忆的影响,发现量化通常会造成信息损失并削弱知识调用,尤其伤害较小模型和未饱和关系,但 8-bit / BitsAndBytes 往往能较好保留能力,个别量化甚至会提升多跳事实回忆。
- Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures
-
系统综述了 LLM 内在可解释性的最新进展,将现有方法分为五大设计范式(功能透明性、概念对齐、表征可分解性、显式模块化、潜在稀疏归纳),并讨论了开放挑战和未来方向。
- Tracing Relational Knowledge Recall in Large Language Models
-
本文系统研究LLM在文本生成过程中回忆关系知识的内部机制,发现注意力头对残差流的逐头贡献(\(\Delta_{att,h}\))是线性关系分类的最强特征(准确率达91%),并提出HeadScore和TokenScore两种探针归因方法来分解预测到注意力头和源token级别,揭示了探针精度与关系特异性、实体连通度及探针信号集中度之间的明确相关性。
- Understanding or Memorizing? A Case Study of German Definite Articles in Language Models
-
本文利用 Gradiend 梯度可解释性方法研究语言模型预测德语定冠词(der/die/das/den/dem/des)时是基于抽象语法规则还是表层记忆,发现模型至少部分依赖记忆化关联而非严格的规则编码。