ICML2026 可解释性论文解读论文笔记 LLM 推理对齐/RLHF 多模态对抗鲁棒布局/合成

🔬 可解释性¶

🧪 ICML2026 · 91 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (34) · 🔬 ICLR2026 (195) · 💬 ACL2026 (63) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (80) · 📹 ICCV2025 (10)

🔥 高频主题： LLM ×9 · 推理 ×4 · 对齐/RLHF ×3 · 多模态 ×3 · 对抗鲁棒 ×3

A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents: 这篇论文提出一种把行为评估和内部表示探针结合起来的 LLM Agent 目标导向性评估框架，并在 GPT-OSS-20B 的网格导航任务中发现：行为上它大体按目标行动，内部也编码了粗粒度空间地图和短期计划，但会被无功能的目标状物体诱导。
A Deep Learning Model of Mental Rotation Informed by Interactive VR Experiments: 这篇论文用 VR 交互实验约束模型设计，提出一个由 3D 等变空间编码器、神经符号对象编码器和动作决策 MLP 组成的心理旋转模型，在准确率、动作次数和部分反应时趋势上复现了人类 mental rotation 行为。
Accurate Evaluation of Quickest Changepoint Detectors via Non-parametric Survival Analysis: 本文把在线最快变点检测中的 ARL/ADD 评估改写成右删失生存分析问题，用 Kaplan-Meier 曲线估计有限且不规则长度序列下的检测时间和检测延迟，从而比传统只统计已触发样本的估计器更稳健、更少偏。
Adaptive Querying with AI Persona Priors: 作者把"LLM 在 persona 条件下产生的回答分布"打包成一个有限混合的贝叶斯先验，让用户在仅被问几道题的情况下，通过对 persona 后验做闭式更新来高效预测其他回答，性能上压过经典 CAT/IRT 基线。
AI Engram: In Search of Memory Traces in Artificial Intelligence: 把神经科学里"engram（记忆痕迹）"的四条经典判据（特异性、再激活、充分性、必要性）翻译成参数空间上的代数约束，从而推出一个只需输入统计量、一次前向就能算出的闭式估计器，把某个概念在网络权重里对应的因果子成分单独"抠"出来，使得任意知识可以通过简单的线性加减被注入或抹除——并证明这个生物学动机的解恰好等价于 Fisher 度量下的自然梯度投影。
All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs: 这篇论文用 Overlap-Aware Sheaf Repulsion (OASR) 算法系统性地证伪了机理可解释性领域的隐含假设——"一个 LLM 能力对应一个独特的电路"——发现同一任务可被多个几乎不重叠 (IoU ~4–11%) 但都满足 faithful/sparse/complete 的电路或 sheaf 支撑，并给出"分布式稠密电路假设"作为理论解释。
Analytic Bijections for Smooth and Interpretable Normalizing Flows: 本文构造了三族"全局光滑（$C^\infty$）、定义在整个 $\mathbb{R}$ 上、且有闭式解析逆"的标量双射，既能当 coupling flow 里 spline/affine 的即插替换，又催生出一种直接参数化、变换半径而保角方向的径向流（radial flow）——后者训练极稳、几何可解释，在有径向结构的目标上能用比 coupling flow 少三个数量级的参数达到相当质量。
Beyond Additive Decompositions: Interpretability Through Separability: 提出张量分离学习（TSL），一种将条件均值建模为正秩-1可分离乘积之差的逐阶段贪心回归方法，通过可分离结构避免加性分解在强交互下的信号抵消与交互遮蔽问题，同时其偏依赖函数可精确恢复拟合因子形状。
BLOCK-EM: Preventing Emergent Misalignment via Latent Blocking: BLOCK-EM 用 SAE 找到一小撮"因果地控制 emergent misalignment"的内部 latent，然后在窄域 SFT 时加一个 one-sided 正则，禁止模型把这些 latent 朝"失对齐方向"放大——在 6 个 fine-tuning 域上把 emergent misalignment 平均砍掉 93%，同时几乎不损伤 in-domain 任务表现。
Breaking the Simplification Bottleneck in Amortized Neural Symbolic Regression: 提出 SimpliPy（基于规则的化简引擎，比 SymPy 快 100 倍）和 Flash-ANSR（基于 Transformer 的摊销符号回归框架），在 FastSRB 基准上以 ~58% 的恢复率匹敌甚至超越遗传编程方法 PySR，同时随推理预算增加生成更简洁的表达式。
Bridging the Knowledge-Prediction Gap in LLMs on Multiple-Choice Questions: 本文揭示 LLM 在多选题上普遍存在"知识-预测差距"——隐藏层已线性编码正确答案但最终预测却偏离，通过几何分析将该差距归因于知识子空间与预测子空间的错位，并提出 KAPPA 方法在推理时用闭式仿射变换对齐两个子空间，跨模型跨基准一致缩小差距并提升准确率。
CB-SLICE: Concept-Based Interpretable Error Slice Discovery: CB-SLICE 利用概念瓶颈模型（CBM）的概念预测空间来发现和解释深度学习模型的系统性错误切片，通过三步流程——错误倾向概念筛选、GMM 聚类形成切片、关键词概念解释——在多个基准上一致性超越现有方法，同时提供直接扎根于模型内部决策逻辑的忠实解释。
Certified Circuits: Stability Guarantees for Mechanistic Circuits: 提出 Certified Circuits 框架，通过基于删除的随机平滑为机械可解释性中的电路发现提供可证明的数据集级稳定性保证，使得发现的电路在概念数据集的有界编辑距离扰动下保持不变，从而产生更紧凑、更准确且 OOD 泛化更好的电路。
Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path: 本文提出 Circuit Fingerprint 假说——单独把答案 token 喂进 Transformer，它在隐空间留下的方向恰好就是产生该答案所要走的电路路径——并据此用纯几何对齐（无需梯度/干预）完成 circuit discovery，同时同一组方向反过来可以做 activation steering，证明"读"和"写"是同一个几何对象的两面。
CLARITree: Cholesky and Lookahead Accelerations for Regression with Interpretable Piecewise Linear Trees: 针对"贪心回归树快但不准、最优回归树准但慢得跑不动"的两难，CLARITree 把一步 lookahead 搜索和岭回归 Gram 矩阵的秩一 Cholesky 更新结合起来，学出近优、稀疏、叶子带线性模型的回归树，在精度逼近最优解的同时把可扩展性拉到比现有最优方法高一个量级。
Closing the Loop: PID Feedback Control for Interpretable Activation Steering in Symbolic Music Generation: 这篇论文把控制论里的 PID 反馈控制搬进「基于稀疏自编码器（SAE）的激活引导」，用积分项累积误差去突破 SAE 的 Top-K 稀疏阈值——静态引导在做渐变时分数级强度根本进不了 Top-K 导致干预被清零，而 Temporal PID 在每个自回归步动态调 $\lambda(t)$，让符号音乐的音高/时值引导能平滑过渡，干预强度少 62–67%、FMD 退化降 5%。
Cognitive Fatigue in Autoregressive Transformers: Formalization and Measurement: 本文将自回归语言模型在长序列生成中的退化现象形式化为"认知疲劳"，提出 Fatigue Index (FI) 这一轻量级、模型无关的在线诊断指标，聚合 prompt 注意力衰减、表示漂移和熵失调三个信号，在 9 个模型上验证了 FI 对退化的预测能力（AUROC=0.976）并揭示了非单调的规模缩放行为。
CorrSteer: Generation-Time LLM Steering via Correlated Sparse Autoencoder Features: 通过把生成时 token 上的 SAE 激活与任务正确性做 Pearson 相关来挑选可解释的引导特征, 用正样本均值激活直接当系数, 不需对比数据集也不需反向传播, 就能在 Gemma-2 2B / LLaMA-3.1 8B 上把 MMLU 提 +3.3%、HarmBench 提 +27.1%, 且副作用率比微调更低。
Courtroom Analogy: New Perspective on Uncertainty-Aware Classification: 本文提出"法庭辩论 (courtroom analogy)"视角，将分类的二阶不确定性建模为 $K$ 个类别辩护人 Dirichlet 意见在输入相关权重下的结构化混合，并实例化为 MoDEX 网络（共享证据 $\bm{\alpha}$ + 类专属辩护强度 $\tau_k$ + 可信度 $\bm{\omega}$ 三个轻量头），单次前向即可在 CIFAR/SVHN/TIN/CIFAR-10-C/CIFAR-10-LT 等基准上稳定刷过 EDL / $\mathcal{F}$-EDL 等一系列 baseline，并给出语义明确的不确定性分解。
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory: 本文把心理测量学里的 Item Response Theory (IRT) 中的 Graded Response Model (GRM) 搬到 LLM-as-a-Judge 上，把"评判分数"分解成评判者属性 $(\alpha, \beta)$ 与样本潜在质量 $\theta$，再用 4 个可解释指标分两阶段（内在一致性 + 人类对齐）系统诊断 7 个主流 LLM 在 11 类评判准则上"是不是一台稳定的测量仪器"。
Dimensionality Controls When Modularity Helps in Continual Learning: 这篇论文用一个 A→B→A 的序列学习范式系统比较"任务分块模块化循环网络"与"单网络"，发现模块化并非总有用——只有当初始化尺度 $\gamma$ 把表示压进低维"rich"区时，模块化才会带来更低的干扰，并自发组织出"相似任务子空间重叠、相异任务子空间正交"的渐变几何；在高维"lazy"区两种架构几乎没差别。
Discovering Differences in Strategic Behavior Between Humans and LLMs: 本文用 AlphaEvolve（基于 LLM 的程序合成框架）直接从行为数据里"进化"出可解释的 Python 行为模型，并在迭代石头剪刀布（IRPS）上对比人类与前沿 LLM，发现 Gemini 2.5 Pro/Flash 与 GPT 5.1 在胜率和"对手模型"维度上都明显超过人类，而 GPT OSS 120B 反而越打越差。
Discovering Implicit Large Language Model Alignment Objectives: Obj-Disco 把 RLHF/GRPO 的不透明奖励信号沿"模型检查点轨迹"反向工程成稀疏的自然语言目标线性组合（DIR），通过 Matching Pursuit 式贪心 + LLM-as-Judge 双重校验，在多任务多模型上稳定恢复 >90% 的奖励行为，并能挖出"放松对违法行为讨论限制"这类隐藏的失配诱因。
Discovering Interpretable Algorithms by Decompiling Transformers to RASP: 本文提出一套「反编译」流水线，先把训练好的 GPT-2 风格 Transformer 忠实地改写成一个等价的 RASP 程序（D-RASP），再用因果干预把它剪枝成一段短小可读的符号算法；实验表明能从「会长度泛化」的小模型里自动恢复出诸如直方图取众数、归纳头复制、括号计数这类已知算法，给出了「Transformer 内部确实实现了简单 RASP 程序」迄今最直接的证据。
Disentangling Direction and Magnitude in Transformer Representations: A Double Dissociation Through L2-Matched Perturbation Analysis: 本文用 L2 匹配扰动协议，证明 Pythia 系列里方向（角度）扰动对语言建模 loss 的破坏力是同等位移幅值扰动的 42.9 倍，而幅值扰动对句法（主谓一致）的破坏远高于角度——这是一对认知神经科学意义上的 "双重分离"，对应方向走 attention 路径、幅值走 LayerNorm 路径。
Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers: 作者用可控的两层 Transformer + 合成 GMM 数据系统拆解了多模态 in-context learning 的训练数据条件与注意力电路，发现一个"主-次模态非对称"现象：在高多样性主模态上预训练后，次模态只需极低数据复杂度就能解锁多模态 ICL，并通过 head knockout 在 Qwen2.5-VL-3B 上验证了"induction head 主导多模态 ICL、多模态训练只是 refine 而非重建"的电路图景。
DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models: 在掩码扩散语言模型 (masked diffusion LM) 的微调阶段加上 JEPA 表示对齐目标：把同一句话用不同掩码比例切成"低掩码上下文视图"和"高掩码目标视图"，仅对上下文视图做一次带梯度前向同时算扩散 loss 和 JEPA embedding、对目标视图用 EMA 副本无梯度前向，相比 LLM-JEPA 节省 33% 训练 FLOPs，并在 4 个任务 × 2 个 backbone 上稳定涨点（GSM8K 最高 +18.7 pp）。
Do Activation Verbalization Methods Convey Privileged Information?: 本文系统证明：当前流行的激活语言化方法（Patchscopes / LIT / SelfIE）在被用作 LLM 可解释性工具时，其性能完全可以由 "verbalizer 模型自己的知识" 解释，不需要任何 target 模型的内部激活——意味着这些工具在现有 benchmark 上看起来 work 是因为基准本身设计有缺陷，且当 verbalizer 知识超过 target 时会编造出 target 根本不具备的 "解释"。
Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models: 本文用 difference-in-means 在残差流里抽出 LLM 表达 10 个 Schwartz 价值时的 "intrinsic"（无系统提示）与 "prompted"（带价值系统提示）两类方向，再用 SVD 把两者拆成共享轴与各自独有轴，在向量层与 MLP 神经元层同时给出因果证据：共享分量承载真正的价值语义并能跨语言泛化、复现 Schwartz 圆环结构；intrinsic 独有分量带来词汇/语义多样性；prompted 独有分量编码的是与价值无关的"通用指令服从"通道，能直接把越狱攻击成功率从 13%–27% 推到 83%–97%。
Ensembling Sparse Autoencoders: 单个稀疏自编码器（SAE）只能捕获激活空间里有限的一部分特征，这篇论文把监督学习里的 bagging 和 boosting 搬到 SAE 上，证明「集成多个 SAE 的重建」在数学上等价于「拼接它们的特征字典」，并用 naive bagging 和 boosting 两种实现同时改善了重建质量、特征稳定性与下游任务表现。
Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning: 本文把"通过迭代更新潜变量做推理"的模型重新解释为一个学到的吸引子动力系统，提出 Equilibrium Reasoners (EqR)：用随机初始化 + 路径噪声两条轻量训练干预塑造吸引子地形，配合"深度（迭代步数 $D$）+ 广度（多次随机重启 $B$）"两轴测试时扩展和基于残差收敛的选轨规则，在训练时最多 16 步迭代的前提下，把 Sudoku-Extreme 的精确准确率从 feedforward 的 2.6% 推到 99.8%（等效展开 40,000 层）。
Expand Neurons, Not Parameters: 在保持非零参数总数不变的前提下，把每个神经元"切"成 $\alpha$ 个稀疏子神经元、让它们瓜分原来的输入边，就能显著降低神经元之间的特征干扰（多义性），从而在 Boolean 任务和 CLIP/CNN/ImageNet 等真实视觉任务上一致提升精度。
ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior: ExPLAIND 把"模型组件归因、数据归因、训练轨迹归因"这三条平时各做各的可解释性路线统一进一个理论框架：它把用 AdamW 训练的模型严格重写成核机器（精确路径核 EPK 的扩展），由此导出可加的、按参数/样本/训练步索引的影响分数，再沿任意维度累加就能在任意粒度上解释模型行为，并用它重新刻画了 Grokking 的学习阶段和 EuroLLM 预训练的两阶段动态。
Formalizing the Binding Problem: 本文把"神经网络的绑定问题"形式化为表示 $Z$ 中关于对象码 $O$ 的互信息 $I(O;Z)$，并设计自回归概率探针在 DINOv2 / CLIP 等 ViT 上度量绑定信息，发现 [CLS] 只编码 <50% 的绑定信息且结构近似二次型，而对全套空间 token 加注意力探针能恢复 ~92% 的绑定信息。
From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets: PRAXIS 用一个"快但近似"的代理算法（改良版 LicketySPLIT）来估计每个子问题的最优目标值，从而对稀疏决策树的 Rashomon 集做"按需展开"式剪枝搜索，把原本与树空间指数相关的运行时和内存压成"每棵输出树只花多项式时间"，在 11M 样本/472 特征级别仍能跑完且 recall ≥ 0.98。
GEM: Geometric Entropy Mixing for Optimal LLM Data Curation: GEM 把 LLM 预训练数据划分问题重写成超球面上的 vMF 混合 + 平衡正则的变分目标，用可证明单调上升的 MM 算法求解，再通过 Teacher-Student 蒸馏到 FastText 上线，在 1.1B 模型上叠加 DoReMi/Perf/RegMix 三种 mixing 框架平均提升约 1.2%。
Global Plane Waves from Local Gaussians: Periodic Charge Densities in a Blink: ELECTRAFI 在实空间预测一组各向异性高斯的参数，再利用高斯的解析傅里叶变换 + 泊松求和公式，在倒易空间一次性算出周期晶体的电荷密度的平面波系数，做一次逆 FFT 就拿到全场密度；在 NMAE 与 ChargE3Net 持平甚至更优的同时，推理快 $463\times \sim 633\times$，把端到端 DFT 总时间真正降下来 $\sim 20\%$。
Grokking: From Abstraction to Intelligence: 本文从结构简化（奥卡姆剃刀）的视角统一解释 grokking 现象：训练过程中模型经历因果中介度退化、流形坍缩到 $\mathbb{Z}_{97}$ 圆环、谱能量向稀疏 Fourier 模集中、BDM 算法复杂度急剧下降这四种同步发生的"内部凝聚"，并用一个可解析的奇异特征机（SFM）证明这等价于自由能驱动的相变。
How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning: 本文从 prompt 粒度因果分析 n-shot prompt 的 function vector（FV）形成机制，证明 FV 可线性叠加为各 example 子 FV 的加权和，且权重由 FV-head attention 决定；并通过 2×2 QK/V 因果干预表明，contextualization 主要通过 QK 路径（而非 V）让模型把注意力集中到无歧义的 demonstration 上，从而提升 FV 质量。
How Language Models Process Negation: 本文用机制可解释性方法剖析 Llama-3.1-8B / Mistral-7B 处理"X that is not Y is __"类否定句的内部电路，发现模型其实"会"做否定（中层注意力在最后位置直接构造出 $\bar Y$ 表示，例如 "not gas" → solid），但被晚层"捷径"注意力头压住——把这些头按"注意力下沉"方式消融，否定题准确率最高可绝对提升 17%。
IdEst: Assessing Self-Supervised Learning Representations via Intrinsic Dimension: 本文提出 IdEst：用最小生成树维度估计器 $\mathrm{dim}_{\mathrm{MST}}$ 去测自监督表示的内在维度（ID），把这个无标签的几何量当作下游线性 probe 精度的代理，在 33 个 SSL 模型上 Spearman $\rho \approx -0.8$，并可用于无标签超参选择。
In Defense of Information Leakage in Concept-based Models: 这是一篇 position 论文：作者为概念模型里人人喊打的"信息泄漏"辩护，指出在真实场景概念注释天然不完整时，适度的"良性泄漏"反而是构建准确且可干预模型的必要条件，并给出一个只需多做一次前向的损失 $\mathcal{L}_{\text{int}}$ 来诱导这种良性泄漏。
Interpretability Can Be Actionable: 这是一篇立场论文，主张「可解释性研究缺的不是新方法、而是评估准则」：研究该以 actionability（insight 能否驱动可解释性领域之外的具体决策/干预）为核心评估维度，作者沿 concreteness + validation 两个维度定义 actionability、分析阻碍、列出 5 个有杠杆的应用域、给出研究者 6 步 checklist。
Interpretable Self-Supervised Learning via Representer Landmarks and Nyström Approximation: KREPES 用 eNTK 把任意 SSL 模型近似成核模型，再借 Representer 定理把表征写成"地标样本"的核加权组合，用 Nyström + 单步 GGN-Newton 把 SimCLR/BYOL/VICReg/Barlow Twins 等非凸目标的影响系数解析地解出来，从而无监督地审计 SSL 隐空间并扩展到 1M+ 数据集。
IQA-Spider: Unifying Multi-Granularity Image Quality Assessment with Reasoning, Grounding and Referring: 本文提出 IQA-Spider，一个把"全局质量描述 + 局部质量描述 + 像素级 grounding + 区域级 referring"四类任务统一到一个 LMM 框架里的多粒度图像质量评估方法，配套构建了 33K 规模的多任务数据集，并用一种 training-free 的 text-to-point 范式把语言模型的位置词 logits 直接映射成 SAM 的点 prompt，在多粒度 IQA 基准上全面超越现有 Q-Instruct / Q-Ground 等专用模型。
Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation Models: 作者对 6 个主流表格基础模型 (TFM) 做了首个大规模分层机理分析，发现中后层主要在做"迭代精化"且存在大量冗余，并据此设计了一个只用 20% 参数的单层循环 TFM，性能几乎追平六层原版。
MAAT: 基于知识引导核回归的异构部分观测状态重建: MAAT 把"从稀疏 + 异构 + 含噪观测里恢复一条物理一致的潜在状态轨迹"重新表述成一个 RKHS 上的带约束核岭回归问题，把观测算子、平滑性和物理先验（非负、守恒、单调）一起塞进同一个目标函数，给下游符号回归（SINDy / PySR）提供具有解析时间导数的高质量轨迹，在 9 个合成基准 + COVID-19 真实数据上把重建 MSE 降低 1–3 个数量级。
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs: 本文提出 LatentLens——一种无需训练的可解释性方法，用大语料库的上下文化文本 token 表示作为参照、对 VLM 中每层视觉 token 做最近邻检索并返回句子级描述，证明此前常用的 LogitLens/EmbeddingLens 严重低估了视觉 token 的可解释性（平均 68% vs 24%/32% 可解释），并揭示出"中层跃迁"现象。
Learn from A Rationalist: Distilling Intermediate Interpretable Rationales: 本文提出 REKD —— 把知识蒸馏引入"选-预测"式 rationale extraction 框架，让小模型学生同时模仿教师的特征选择分布和最终预测分布，并把蒸馏温度与 Gumbel-Softmax 退火调度绑死，从而隐式形成"先学软分布、后学硬选择"的课程，使 ViT-Tiny 在 CIFAR-10 的 RE 准确率从 0.797 拉到 0.936。
Learning Coherent Representations: A Topological Approach to Interpretability: 本文提出 coherence（相干性）这一受脑神经编码启发的几何性质，要求样本-特征矩阵的行列在 Vietoris-Rips 滤过下拓扑互相 interleave，并给出可微的 Coh 损失，在自编码器与 BERT token embedding 上得到拓扑对齐、语义可读的 features，效果远超 L1 稀疏。
LLMs Lean on Priors, Not Programming Language Semantics: 作者构建 PLSemanticsBench——把一个 featherweight C 语言 $\text{C}^{\star}$ 配上 small-step 操作语义 $\mathbb{S}$ 与 K 语义 $\mathbb{K}$ 两套形式系统，并通过 KeywordSwap（互换 +/- 等运算符语义）与 KeywordObf（替换为 Caucasian-Albanian 罕用符号）系统性扰动语义，测了 11 个前沿 LLM 后发现：标准语义下最高 90% 的最终状态预测准确率，在语义扰动下骤降 40–60 个百分点，长程规则保持准确率最高只有 35%，说明当代 LLM 主要靠预训练词法先验、而不是真的在按显式形式规则做推理。
Manifold-Aligned Guided Integrated Gradients for Reliable Feature Attribution: 本文提出 MA-GIG：把 Guided IG 的“按低梯度幅值选特征再走一步”策略从像素空间搬到预训练 VAE 的潜在空间，借助 decoder Jacobian 把潜空间内的轴对齐更新映射成数据流形切空间上的更新，从而既避开高梯度噪声区域，又让积分路径上的样本始终贴近真实数据流形，归因更可靠。
Memorization Dynamics of Fill-in-the-Middle Pretraining: 作者用相同架构、相同数据、相同算力训练了一对 Llama 3.2 3B（一个走标准 LTR，一个走 FIM），在 Gutenberg 重复语料上系统对比两种目标的逐字记忆行为，发现 FIM 把概率质量摊到更多"部分重建"上（短跨度/重叠召回更强且随重复次数近似线性增长），而 LTR 在长跨度高置信度续写上更强；FIM 的记忆仍然强烈依赖前缀，后缀只是辅助信号。
MiniMax Learning of Interpretable Factored Stochastic Policies from Conjoint Data, with Uncertainty Quantification: 本文把传统社会科学里的联合实验 (conjoint analysis) 从"估计 AMCE 边际效应"重新表述为"在指数级因子动作空间上学习可解释的乘积型 Categorical 随机策略"，给出二阶交互模型下带 $L_2$ 信赖域的闭式解、可微分通解、以及含政党初选制度的两人 minimax 扩展，并通过 Delta 方法把结果模型的不确定性传播到策略概率和价值上，在 2016 美国总统联合实验上首次让对抗均衡的"票房份额"落回历史区间。
MUSE: Resolving Manifold Misalignment in Visual Tokenization via Topological Orthogonality: MUSE 把统一视觉 tokenizer 的"理解-生成"零和困境归因于流形错配，提出梯度正交假设——把语义注入 $W_V$ 而结构梯度走 $W_{Q,K}$——并通过 Synergistic Block + DINOv3 拓扑对齐 + NCE 语义锚定彻底解耦，最终 gFID 3.08 与 linear probing 85.2%（甚至超过 InternViT-300M 老师 82.5%）共存，首次实现真正的"互相强化"而非折中。
Neural Collapse by Design: Learning Class Prototypes on the Hypersphere: 把"分类器学习 (CE) "和"监督对比学习 (SCL) "统一成超球面上的原型对比，并通过两个新损失 NTCE/NONL（修 CE 侧）和固定原型分类器 FP（修 SCL 侧）让神经坍缩 NC 真正"按设计达成"，同时在精度、迁移、长尾、鲁棒性上全面占优。
OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization: 针对社会行为数据天然异构（10 个任务跨情感/认知/病理/社交，模态横跨语音/视觉/文本）导致 GRPO 类推理 RL 学习信号被少数任务主导的问题，本文提出 HARPO，通过用优势幅值近似各 sample 与各 task 对策略更新的贡献，再以"几何均值参照 + 倒数比"得到结构化调制因子并加上惯性平滑，在 Qwen 2.5-Omni-7B 上训出 OmniSapiens-7B 2.0，多任务平均排名第 1，零样本 5 任务全胜，推理一致性从 66.5% 提到 87.7%，token 数压到 19.86。
On the Relationship Between Activation Outliers and Feature Death in Sparse Autoencoders: 本文指出 SAE 中"死特征"问题的真正根源不是训练动力学而是激活分布的几何性质——用 $\gamma=\|\bm{\mu}\|/\|\bm{\sigma}\|$ 量化"维度级离群"严重程度，从初始化就解析地预测死率（454 个模型-层组合上 Spearman $\rho=0.82\sim0.89$），并证明仅用 mean-centering 就能把 AlphaFold3/ESM3 等高 $\gamma$ 模型的死率从 70%+ 降到接近零。
Optimal Attention Temperature Improves the Robustness of In-Context Learning under Distribution Shift in High Dimensions: 本文在高维线性回归 ICL 框架下，用一种保留 softmax 归一化与温度选择性、又解析可解的"近似 softmax 注意力"，给出 ICL 泛化误差的闭式解和最优 attention temperature 的显式表达式 $\tau_{\text{opt}}$，证明只要调对推理时温度就能恢复近 Bayes 最优表现；在 GPT-2、Llama2-7B 的真实 QA 中也验证了这把"轻量旋钮"的有效性。
Physics from Video: Identifiability of Time-Invariant Second-Order ODEs under Minimal Trajectory Conditions: 本文给出了"只用 encoder（无 decoder/无像素重建）从原始视频识别二阶线性 ODE 参数 $(\gamma_1,\gamma_0)$"的首个结构可识别性定理：用一个几何条件 level-set slope coverage 刻画"单条轨迹够 vs. 必须三条轨迹"的临界，证明欠阻尼可单视频识别、其它阻尼区必须三条不同轨迹，并配套提出"方差下限正则 + 中心差分"的有限样本估计器。
PINE: Pruning Boosted Tree Ensembles with Conformal In-Distribution Prediction Equivalence: PINE 把"忠实剪枝"对 boosted 树集成的等价约束从全输入空间收缩到一个由 Chow-Liu 树似然 + 分裂共形校准定义的"分布内区域" $\mathcal{X}_{\text{ID}}(\alpha)$，用单一参数 $\alpha$ 平滑控制压缩-保真折中，在 12 个公开 tabular 数据集上把压缩率相对 FIPE 最高提升 30%，同时把"剪枝前后预测一致"的概率以 $\geq 1-\alpha$ 的形式给出可证明保证。
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding: PolySAE 在标准稀疏自编码器（SAE）线性解码器之外，新增基于共享低秩投影的二阶/三阶多项式项，用极小参数代价（GPT-2 small 上 ~3%）显式建模稀疏特征之间的乘法交互，在 4 个 LLM × 3 种 SAE 变体上把探针 F1 平均提升约 8%、类条件分布的 Wasserstein 距离扩大 2–10 倍，并能用学到的交互方向因果引导模型输出对应的组合语义。
Position: Ideas Should be the Center of Machine Learning Research: 作者提出"Ideas First"立场：把"想法 → 可观察信号 → 定制化实验"作为机器学习研究的核心评价单位，反对把刷榜数字或理想化定理本身当作目的，从而既弥合理论—实践鸿沟，又降低小算力研究者的参与门槛。
Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance: 作者主张：与其继续用大规模真实语料反复试错，不如设计一类"数据探针"——从完全已知的随机过程采样出的合成序列，用它们去训练/微调 LLM 并把模型生成结果送回已知分布做似然分析，从而把"哪种数据让模型学会什么"这个问题从经验启发式上升为可证伪的科学命题。
Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!: 这是 Kambhampati 团队的立场文（position paper），核心主张：把推理模型（如 DeepSeek-R1）在给出答案前吐出的「中间 token」称作 "reasoning trace / thinking trace"（推理痕迹/思考痕迹）是一种危险的拟人化——它（1）是一厢情愿、（2）几乎没有实证支持、（3）制造对模型的虚假信任、（4）把社区推向无意义的研究方向；作者用一系列实验证据（A 迷宫 trace 互换、trace 长度与问题复杂度脱钩、人类信任实验）论证 trace 的语义与最终解答正确性根本脱钩*，呼吁社区停止赋予中间 token "面向用户的可解释性"，信任应来自对解答本身的验证。
Position: Zeroth-Order Optimization in Deep Learning Is Underexplored, Not Underpowered: 这是一篇 position paper，作者主张深度学习中的零阶（ZO）优化并非"无能"而是"未被充分探索"——他们沿算法/系统/评估三条主线给出 6 个论断（P1–P6），核心立场是：跳出"全空间逐元素估计器"的窠臼，转向子空间/谱域估计、前向单向流的系统级红利以及去混淆的评测协议，ZO 才能从内存高效微调的小众工具走向可扩展的训练范式。
Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems: 本文用 18,000 次网格评估和 144 次优化运行实证检验了 compound AI 系统中端到端 prompt 优化的两个隐含假设——agent 之间存在耦合、单 agent prompt 值得优化——发现两者在主流 mid-tier 模型上几乎都不成立（49% 的优化运行表现差于 zero-shot，A×B 交互项 $p>0.52$），并据此提出一个两阶段诊断框架（$80 的 ANOVA 耦合预测 + $5 的 10 分钟 headroom 测试），把"是否做 prompt 优化"从抛硬币变成可量化的决策。
Prototype Transformer: Towards Language Model Architectures Interpretable by Design: ProtoT 把 Transformer 里 $O(N^2)$ 的自注意力替换成 $R$ 个可学习"原型向量"驱动的线性通信通道（write/read gate + 带时间折扣的 prefix mean），让每个原型在训练中自动绑定一个可命名的概念（如"woman""COVID""New Zealand"），从而支持对模型行为做"手术式"的概念级编辑，且文本生成 Elo 超过同规模 LLaMA。
Query Circuits: Explaining How Language Models Answer User Prompts: 本文提出 查询电路 (query circuit) 发现 任务——直接在原 LLM 内部追踪解释"模型为何对某个具体输入产生该输出"的稀疏子网络，并配套提出更稳健的忠实度指标 NDF 和 Best-of-N 采样算法，使得 MMLU 上仅占模型 1.3% 边的电路即可恢复约 60% 的单题行为。
Query Lens: Interpreting Sparse Key-Value Features with Indirect Effects: 针对 Logit Lens 只看"直接效应"、对大量 SAE 特征解释失败的问题，本文提出 Query Lens：同时利用编码器侧的 key 特征和解码器侧的 value 特征，并把特征经下游模块产生的间接效应（残差流雅可比乘积）纳入投影，从而对此前"不可解释"的特征也能给出连贯的输入/输出 token 解释。
Rational Sparse Autoencoder: 把稀疏自编码器（SAE）里写死的 ReLU/JumpReLU/TopK 编码门换成一个逐元素可训练的有理函数 $r(t)=P(t)/Q(t)$，再配上"复制 teacher 权重 + Remez 拟合系数 → 解冻微调"的两步升级流程，让任意预训练 SAE 在不牺牲稀疏度与可解释性的前提下、只多几个标量参数就把重建保真度严格提升一档。
Riemannian Generative Decoder: 本文针对 Riemannian VAE 必须为每种流形手工设计复杂概率密度的痛点，提出 Riemannian Generative Decoder (RGD)——彻底丢掉 encoder，把每个样本的 latent 当作自由参数用黎曼优化器 (RiemannianAdam) 直接训，同时引入"按局部度量逆缩放的输入噪声"作为几何正则，在合成分支扩散树、人类线粒体 DNA、细胞周期 scRNA-seq 三个真实生物数据上恢复出更忠实的几何，且在高维下数值稳定胜过 VAE 基线。
Scalable Circuit Learning for Interpreting Large Language Models: CircuitLasso 把"机制可解释性里发现电路"这件事，从昂贵的干预式（intervention-based）方法换成一个稀疏线性回归（Lasso）代理：只用观测数据、靠 $\ell_1$ 惩罚 + 块上三角约束在组件间找稀疏依赖骨架，从而第一次能直接在高维 SAE 特征空间上跑通电路发现，在 InterpBench 上以约 SOTA 的结构准确度换来 2–3 倍提速，并把学到的电路用于下游域泛化去偏。
ShaplEIG: Bayesian Experimental Design for Shapley Value Estimation: 在评估预算极度受限（如需要重训模型）的代价昂贵游戏上，用带 Hamming 核的 GP 作为价值函数代理、按"对 Shapley 值的期望信息增益（EIG）"自适应挑下一个 coalition，并把 EIG 计算从 $O(4^p t)$ 压到 $O(p^4 + t^3)$。
Singular Vectors of Attention Heads Align with Features: 本文从理论与玩具模型两侧，论证了"为什么以及何时"注意力头 QK 矩阵 $\Omega = W_Q^\top W_K$ 的奇异向量会与模型实际使用的特征方向对齐，并提出"稀疏注意力分解"作为该对齐在真实模型（GPT-2 / Pythia）中可被验证的可观测信号。
Sparse Autoencoders are Topic Models: 本文证明稀疏自编码器（SAE）的 $L_1$ 目标恰好是一个 LDA 风格的"连续主题模型"（CTM）在高活动度、小贡献极限下的 MAP 估计，并据此提出 SAE-TM 框架：预训练 SAE 得到可复用的主题原子，事后学习词分布并通过聚类合并到任意主题数，在文本和图像数据集上的主题连贯性显著超过当前主流神经主题模型。
Steer Like the LLM: Activation Steering that Mimics Prompting: 本文把 "prompt steering"重新解释为 LLM 自己实现的一种 activation steering, 然后用一个逐 token 的 ReLU 探针来蒸馏 prompt 注入的激活差, 训练出 PSR (Prompt Steering Replacement) 模块, 既能在三个 steering 基准上超过现有激活引导方法 (CAA, ReFT-R1, Stolfo 等), 又在 AxBench 与人格引导上和 prompting 打成平甚至反超。
Textual Supervision Enhances Geospatial Representations in Vision-Language Models: 作者用层级线性探针去问一个问题——视觉/多模态模型在没有任何地理监督的情况下，隐藏层里到底有没有"这张图拍在地球哪儿"的信息；结论是带文本监督的 VLM（CLIP、LLaVA、Qwen、Gemma）远比纯视觉模型（ViT、DINOv2）更会编码经纬度，而且这种地理信息集中在很少的几个维度里、甚至可以被"换维度"操控来改写模型生成的地名。
The Discrete-Log Clock: How a Transformer Learns Modular Multiplication: 之前的工作发现 Transformer 学会模乘法 $a\cdot b\bmod p$ 后，嵌入的 Fourier 谱是"稠密"的（要用上所有频率），看起来比模加法复杂得多、不可解释；本文指出这只是分析基选错了——模乘法的天然 Fourier 基不是加性 DFT 而是乘性特征变换（即乘法群 $(\mathbb{Z}/p\mathbb{Z})^*$ 上的 Fourier 变换），换到这个基下谱立刻变稀疏（Gini 从 0.07 升到 0.58、只剩 4 个关键频率，96.9% 的 MLP 神经元干净地调谐到单一频率），从而证明 Transformer 是先用离散对数把乘法化成加法，再套用和模加法一模一样的"Clock"三角恒等式机制，作者称之为"离散对数时钟"。
The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level: 本文用 $k$-sparse probing 系统比较了 MoE 专家神经元与 dense FFN 神经元的多义性，发现 MoE 在稀疏路由压力下天然更接近单义，进而把分析单元从"神经元"升到"整个专家"，用 LLM 自动给数百个专家打自然语言标签并通过因果触发实验验证，最终得出"专家既不是宽域领域专家、也不是 token 级处理器，而是细粒度任务专家"的结论。
The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions: 作者把"解释操纵攻击"从视觉迁移到音频深伪检测，提出一个用心理声学掩蔽阈值约束的优化框架，能在完全听不见、且不改变模型最终判定的前提下系统性地篡改 Grad-CAM / LRP 的归因热力图，证明音频模型的"解释"在安全意义上是脆弱的。
Towards Atoms of Large Language Models: 论文为大语言模型的"基本表征单元"给出第一个形式定义——原子（atoms），用一种非欧几里得的"原子内积"刻画 LLM 隐藏表征的内蕴几何，证明阈值激活 SAE 在适当条件下可以精确恢复原子集合，并在 Gemma2 / Llama3.1 上实测出 $R^2\approx 99.9\%$、稳定性 $q^\*\approx 99.85\%$ 的近理想原子。
Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs: 针对推理 LLM 长思维链场景下逐 token 归因 $\mathcal{O}(M\cdot N)$ 慢且归因质量被中间推理 token 吸光的问题，本文提出 FlashTrace：用 span-wise 聚合一次过算完整段目标 token 的归因，再用递归归因把重要性从输出经推理链回溯到原始输入，5k 目标 span 上比最强基线 IFR 快 130 倍以上，同时在 RULER / MATH / MoreHopQA 上 faithfulness 全面占优。
Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection: 本文用 Causal Tracing 在 LLM 内部发现"拒绝"不是终端 token 的静态向量、而是横跨上游中间层与 token 的"拒绝轨迹"(Refusal Trajectory)，并据此设计 SALO——一个只在常规对齐数据上训练、却能利用 Transformer 因果掩码不可逆性识别 GCG / AutoDAN / Prefilling 等对抗攻击的 <20M 参数检测器，把 GCG/Prefilling 上 0% 的检测率拉到 >85%。
学习尖峰分布中的通用 1/3 时间缩放: 通过分析 softmax 与交叉熵在学习峰值概率分布时的数学性质，论文揭示了 LLM 训练损失呈现通用 1/3 幂律衰减的根本原因——这是一个与数据结构无关的架构层面的优化瓶颈。
Verified SHAP: 神经网络精确 Shapley 值的可证明界: VERISHAP 通过组合分支定界与神经网络验证技术，首次为神经网络 SHAP 值计算提供可证明的界限——并能扩展到比现有精确方法大几个数量级的特征搜索空间。
Vision-Language Asymmetry in Bistable Image Captioning: 这篇论文用维特根斯坦"鸭兔图"式的多稳态图像当探针，先用 3320 次生成刻画出 LLaVA 的三种行为 regime，再在它实际消费的 CLIP 层训一个 TopK 稀疏自编码器，发现 72% 的多稳态刺激在视觉端会同时激活两种解读的特征池（superposition），但因果 steering 只能翻转"默认主导"类刺激、翻不动"强制平衡"的少女/老妇——证明"承诺看作哪一面"的瓶颈不在视觉塔，而在下游的语言解码器。
What Linear Probes Miss: Multi-View Probing for Weight-Space Learning: 这篇论文指出单视角一阶 probe 会漏掉权重矩阵的行列交互与二阶相关结构，并提出 MVProbe 用行/列一阶投影加行/列 Gram 分支的多视角表示，在 Model Jungle 和 Stable Diffusion LoRA 识别上显著超过 ProbeX。
Where Computation Lives Inside TabPFN: Causal Localisation of Attention Head Function: 本文用激活补丁、消融和注意力熵，第一次对表格基础模型 TabPFN-2.5 做因果级机制分析，发现它三个特征注意力头中有一个头（Head 2）的因果必要性在峰值层比其余头大 2–5×，且峰值层会随任务复杂度迁移，而另两个头则呈对称的晚层模式；同时对比激活转向无法跨样本迁移，揭示纯上下文学习架构里"没有可注入的稳定任务方向"。
Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions: 本文用"押韵对联补全"作为前瞻性约束的干净测试，只靠线性探针和激活补丁这两个轻量工具，在 Qwen3 / Gemma-3 / Llama-3 三大模型族十余个尺度上研究"规划点形成"：探针发现关于未来韵脚的信息在换行符处线性可解码且随规模增强，但激活补丁显示只有 Gemma-3-27B 才真正因果依赖这个编码——它在约第 30 层出现因果驱动从韵词向换行符迁移的"交接"，其余模型全程只依赖韵词；最终把这个交接定位到 5 个注意力头，恢复了换行符处约 90% 的韵脚路由能力。
Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints: 本文给出"为什么 transformer 的内部表征可以被简单线性方法（probe、SAE、activation steering）反复成功解码"的架构级解释：只要语义特征是通过 OV 电路或 unembedding 这类线性接口被读出的，它就必须落在一个跨上下文不变的线性子空间里（Invariant Subspace Necessity 定理）；并推出一个零样本应用——Self-Reference Property，即 token 本身的嵌入方向就是其概念方向，从而可以无监督地用 class token 的几何位置直接做分类。