跳转至

🔬 可解释性

🔬 ICLR2026 · 195 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (34) · 💬 ACL2026 (63) · 🧪 ICML2026 (91) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (80) · 📹 ICCV2025 (10)

🔥 高频主题: LLM ×18 · 推理 ×12 · 对齐/RLHF ×8 · 布局/合成 ×7 · 多模态 ×6

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

本文首次用偏信息分解(Partial Information Decomposition, PID)把 LVLM 的"决策相关信息"拆成冗余/视觉独有/语言独有/协同四个非负原子,构建模型无关的估计流水线,在 26 个模型 × 4 个数据集上从"广度-深度-时间"三个维度量化刻画 LVLM 究竟是靠真正的跨模态融合还是靠语言先验做出预测。

AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features

本文用「展开近端梯度求解稀疏编码」这一统一框架重新推导 SAE,证明 ReLU / JumpReLU / TopK 都是不同稀疏正则项的近端算子,并指出它们共有的非负约束会把双向语义概念(如男 vs 女)撕裂成两个冗余特征;据此提出去掉非负约束、按绝对值取最大 k 个激活的 AbsTopK SAE,让单个特征用正负号编码一对相反概念,在重构、可解释性和引导任务上全面超越 TopK/JumpReLU,并逼平甚至超过有监督的 Difference-in-Mean。

Activation Steering with a Feedback Controller

本文把 LLM 激活引导(activation steering)重新解释成控制理论里的反馈控制问题,证明 ActAdd / DirAblate / Mean-AcT 这些主流方法本质上都是只有比例项的 P 控制器、因而带有消不掉的稳态误差,进而提出用完整的 PID 控制器来计算引导向量(PID Steering),在去毒、越狱、图像风格控制等任务上稳定超过原方法。

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

提出 AdAEM,一个自适应、自扩展的 LLM 价值观评估框架,通过信息论优化自动生成能最大化揭示不同 LLM 价值差异的测试问题,解决现有静态基准无法区分模型价值取向的"信息量不足"问题。

Adaptive Concept Discovery for Interpretable Few-Shot Text Classification

StructCBM 把概念瓶颈模型(CBM)改造成"只靠样本-概念相似度做预测、完全不训练分类头"的范式:用 LLM 从极少量样本里生成"原型概念 + 判别概念"两层概念库,靠两阶段相似度匹配(先召回候选标签、再对比定夺)做出可解释预测,并用"误分类回灌 LLM 精修概念"的闭环把概念越调越准——10-shot 下就超过所有现有 CBM,在语义密集的数据集上逼近直接调用 LLM 的黑盒效果,且推理阶段不再需要 LLM。

Addressing Divergent Representations from Causal Interventions on Neural Networks

系统性地揭示因果干预(activation patching、DAS、SAE 等)会将模型内部表征推离自然分布,理论区分"无害偏移"与"有害偏移"两类情况,并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形,在 7B LLM 上验证可减少偏移同时保持干预准确率。

An Information-Theoretic Parameter-Free Bayesian Framework for Probing Labeled Dependency Trees from Attention Score

IPBP 不训练任何探测网络,直接对"注意力分数"和"依存关系"的联合分布做核密度估计,闭式算出每个注意力头与各类依存关系的互信息,再用贝叶斯后验 + 几何平均池化 + Eisner 解码重建出带标签的依存树,在多个 7B/8B LLM 上比一众有监督/无监督基线都更准、且天然可解释。

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

针对「注意力探测」这一日益流行的冻结表示评估协议普遍参数臃肿的问题,本文先把已有方法统一成一个框架,再利用多头交叉注意力与多查询交叉注意力的数学等价性砍掉冗余投影矩阵,提出极轻量的 Efficient Probing(EP)——在 ImageNet-1K 上以不到 1.4M 参数把 MAE ViT-B 的探测精度从线性探测的 67.7% 拉到 75.6%,且各预训练范式上全面超越线性探测与已有注意力探测方法。

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

本文证明 LLM 中两个看似独立的谜题——注意力沉降(attention sinks)与压缩谷(compression valleys)——其实是残差流里海量激活(massive activations)这同一机制的两个侧面,并据此提出 Mix-Compress-Refine 三阶段信息流理论,统一解释了为什么 embedding 任务在中层最强、生成任务却要走满全深度。

Automated Interpretability Metrics Do Not Distinguish Trained and Random Transformers

这篇论文给当下火热的稀疏自编码器(SAE)做了一次"理智检查":把 SAE 同时套到训练好的 Transformer 和随机初始化的 Transformer 上,发现常用的自动可解释性分数(auto-interp AUROC)和重建指标在两者之间几乎区分不开,说明高可解释性分数本身不能证明 SAE 抓到了模型真正学到的计算特征。

Bayesian Neural Networks for Functional ANOVA Model

把 functional ANOVA 模型里"要估哪些分量"这件事本身当成可学习参数,用一个带 stepwise proposal 的 MCMC 算法在高维输入下自动搜索并估计高阶交互分量,避免了 ANOVA-TPNN 必须预先枚举全部分量、分量数随阶数指数爆炸的算力瓶颈。

Behavior Learning (BL)

受行为科学启发,把"观测结果是某个优化问题的解"这一假设直接做成可学习模块——每个模块是一个可写成符号形式的效用最大化问题(UMP),层级堆叠成复合效用函数并诱导一个 Gibbs 分布来做预测/生成,从而同时拿到强预测力、内在可解释性和(IBL 变体下的)参数可辨识性。

Beyond Linear Probes: Dynamic Safety Monitoring for Language Models

提出截断多项式分类器(TPC),通过对 LLM 激活空间中的多项式逐阶训练和截断评估,实现动态安全监控——在简单输入上用低阶(≈线性探针)快速决策,在困难输入上增加高阶项提供更强防护,在 WildGuardMix 和 BeaverTails 两个数据集上匹敌或超越 MLP 基线且具备内置可解释性。

Block Recurrent Dynamics in Vision Transformers

本文提出"块循环假设"(BRH):训练好的 ViT 的 \(L\) 层深度其实只用 \(k \ll L\) 个权重共享的块循环展开就能近似,作者用一套蒸馏方法 Raptor 把 DINOv2 压成 2-3 个循环块仍保住 96%-98% 的 ImageNet 线性探针精度,并据此把 ViT 当作离散时间动力学系统来解释其逐层计算。

Bridging Explainability and Embeddings: BEE Aware of Spuriousness

提出BEE框架,通过分析微调如何扰动预训练表征的权重空间几何结构,直接从分类器学到的权重中识别和命名虚假相关性(spurious correlations),无需反例样本即可发现隐藏的数据偏差,在ImageNet-1k上发现可导致准确率下降高达95%的虚假关联。

Can LLMs Reason Soundly in Law? Auditing Inference Patterns for Legal Judgment

这篇论文不再只看法律 LLM 的判决"答案对不对",而是把模型对每个判决的打分忠实拆解成一组输入短语之间的 AND/OR 交互模式,再让 16 位法律专家把短语标注为"相关 / 无关 / 禁用",从而量化出"模型到底是凭哪些逻辑下判断的";结果发现即便四个主流(含法律专用)LLM 的判决结果正确,超过一半的推理交互其实是无关甚至错误的依据——比如把别人的犯罪行为算到被告头上、或被职业身份带偏。

Causal Interpretation of Neural Network Computations with Contribution Decomposition

提出 CODEC(Contribution Decomposition),用 Integrated Gradients 计算隐藏层神经元对输出的贡献(而非仅分析激活),再用 Sparse Autoencoder 将贡献分解为稀疏模式(modes),实现比激活分析更强的因果可解释性和网络控制能力,并成功应用于 ResNet-50 和视网膜生物神经网络模型。

Causality ≠ Invariance: Function and Concept Vectors in LLMs

这篇论文区分了 LLM 里两类截然不同的注意力头——用激活补丁找到的"因果头"(组成 Function Vectors,真正驱动上下文学习行为)和用表示相似性分析找到的"不变头"(组成 Concept Vectors,跨输入格式/语言稳定地编码抽象关系概念),证明二者几乎不重叠,从而揭示"是什么驱动了任务表现"和"什么编码了抽象概念"在 LLM 中由不同机制承担。

Certified Evaluation of Model-Level Explanations for Graph Neural Networks

这篇论文把"GNN 的模型级解释到底够不够好"这个一直只能靠 class score 和肉眼比对的问题,形式化成一个叫充分性风险(sufficiency risk)的回归损失,并推导出分布无关的认证上界,进而给出 Coverage、GGA、Overlap 三个可计算指标(外加有限样本置信区间),让不同解释器之间第一次能做有统计保证的比较。

Circuit Insights: Towards Interpretability Beyond Activations

这篇论文提出 WeightLens 和 CircuitLens,把自动化可解释性从“看哪些样本激活了特征”推进到“看权重连接和电路归因如何产生特征”,在转码器特征上更稳健地解释 token 型、上下文依赖型和多义特征。

Comparing the learning dynamics of in-context learning and fine-tuning in language models

作者把上下文学习(ICL)和监督微调(SFT)当成两种"学习算法",在一个可精确控制几何的二维线性分类玩具任务上逐 shot 对比它们的学习轨迹与内部表征,发现两者泛化精度相近但机理迥异:ICL 保留丰富的输入表征、但带着更强的预训练先验(数字比较、模式匹配),而 SFT 会把表征按标签轴压缩坍缩、置信度更高却更脆。

Composable Sparse Subnetworks via Maximum-Entropy Principle

作者用一个基于 KL 散度的"最大熵损失"把神经网络训练成只认识指定类别、对其他类别故意保持均匀不确定的稀疏子网络(功能模块),再通过权重相加或 logit 平均把这些专家模块组合回一个通才模型,从而把"先学纠缠表示、再事后探针解释"的范式反过来,做成"按设计就模块化、按设计就可解释"。

Concept-TRAK: Understanding how diffusion models learn concepts through concept attribution

Concept-TRAK 把传统"整张图级"的训练数据归因细化到"单个概念级"——通过为影响函数设计面向概念的奖励型训练损失与效用损失,让人能精确查出某张 AI 生成图里的某个具体概念(如"皮卡丘"这个角色、而非铅笔画风格)究竟是被哪些训练样本影响出来的,在合成/CelebA-HQ/AbC 三套基准上都大幅超过 TRAK、D-TRAK、DAS。

Concepts' Information Bottleneck Models

在概念瓶颈模型(CBM)的概念层引入信息瓶颈(IB)正则化,通过惩罚 I(X;C) 同时保留 I(C;Y) 来学习最小充分概念表示,在六个CBM变体和三个基准上一致提升预测性能和概念干预可靠性。

Conjuring Semantic Similarity

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs

把一段 Chain-of-Thought(CoT)推理过程压缩成一个可直接加到隐藏状态上的「CoT 向量」,既能在几乎零开销下提升 LLM 多步推理(媲美 LoRA 但可训练参数少 3 个数量级),又能当成探针揭示出 LLM 推理被组织成「感知—推理—表达」三阶段的内部机制。

Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings

提出 Iso-Energy 假设(真正跨模态共享的概念在不同模态中应具有相同的平均激活能量),并设计 Aligned SAE 作为分析工具,揭示 VLM 嵌入空间中双模态原子承载跨模态对齐信号、单模态原子完全解释模态间隙的几何结构。

Debugging Concept Bottleneck Models through Removal and Retraining

针对概念瓶颈模型(CBM)学到虚假概念、与专家推理系统性不一致的问题,本文提出"移除 + 重训练"两步调试框架,并设计 CBDebug——把专家在概念层面的反馈转成样本级辅助标签,再用置换加权和定向增强消除模型对虚假概念的依赖,在 Waterbirds、MetaShift 等带已知虚假相关的基准上把最差组准确率最高提升 26%。

Decomposing LLM Computation with Jets

本文提出 JET EXPANSIONS——用「jet 算子」(截断泰勒展开的泛函版)把 Transformer 的递归残差计算无训练、无数据地改写成一组显式的「输入→输出路径」加一个非线性余项,从而把纠缠的 LLM 计算「像刀一样」切开做模块化检查,并证明它能统一并推广 Logit Lens、无数据集地从模型里抽出 n-gram 表来诊断微调与毒性。

Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning

提出 NDM(Neighbor Distance Minimization),通过最小化子空间内的近邻距离来无监督地发现神经网络表征空间中的可解释非基对齐子空间,在 GPT-2 上平均 Gini=0.71(信息高度集中),在 Qwen2.5-1.5B 上发现了参数化知识与上下文知识路由的分离子空间。

Decomposition of Concept-Level Rules in Visual Scenes

本文提出 CRD(Concept-Rule Decomposition)框架,用预训练大型视觉语言模型(LVLM)当数据驱动先验,自动从图像里提取一组「概念」(如颜色、物体类别)以及刻画这些概念如何随空间变化的「规则」,再通过一个带 LVLM 提议分布的 Metropolis-Hastings 采样过程,迭代挑出最能解释输入的精简概念集合,从而在元属性抽取、抽象视觉推理(RAVEN/I-RAVEN)和空间推理(SpatialEval)三类任务上既提升了准确率又给出了可解释的概念-规则分解。

Decoupling Dynamical Richness from Representation Learning: Towards Practical Measurement

提出一种计算高效、与性能无关的动态丰富度度量 \(\mathcal{D}_{LR}\),通过比较最后一层前后的激活来衡量 rich/lazy 训练动态,并证明 neural collapse 是该度量的特殊情况。

Decoupling Positional and Symbolic Attention in Transformers

这篇论文给"注意力头按位置工作"还是"按符号工作"下了严格的数学定义,证明二者互斥(除非注意力退化成均匀分布),并设计了一个基于排列敏感性的打分指标,进而揭示 RoPE 中高频对应位置行为、低频对应符号行为,最后用可控的合成任务证明"只要限制某个头能访问的频段,就能因果地控制模型在位置/符号任务上的表现"。

Diagnosing Generalization Failures from Representational Geometry Markers

借鉴医学"生物标志物"的自上而下思路,本文用只在分布内(ID)数据上测量的物体流形几何量(有效维度 \(D_\text{eff}\) 与利用率 \(\Psi_\text{eff}\))作为预后指标,无需任何 OOD 信息就能预测模型在分布外(OOD)的泛化失败,并据此挑选迁移性更好的预训练权重。

Discovering Alternative Solutions Beyond the Simplicity Bias in Recurrent Neural Networks

针对任务训练 RNN 反复塌缩到同一种"最简单"动力学解的问题,本文提出迭代神经相似度去相关(INSD):通过在线惩罚后训练 RNN 对已有解的线性可预测性,挖掘出依赖动态演化子空间而非固定点吸引子的全新解类,并在困难/分布外任务条件下有时反超标准解。

Dissecting Representation Misalignment in Contrastive Learning via Influence Function

针对经典影响函数只为逐点损失(pointwise loss)设计、无法套用到对比损失的问题,本文推导出专门面向对比学习的扩展影响函数 ECIF,把一个样本同时作为"正样本"和"负样本"的双重影响都解析地写成闭式表达,从而无需重训练就能评估 CLIP 类模型里每条图文对的贡献,并据此做错位检测与错判溯源。

DIVERSE: Disagreement-Inducing Vector Evolution for Rashomon Set Exploration

给预训练网络挂上一层冻结的 FiLM 调制层,用 CMA-ES 在低维隐向量空间里无梯度地搜索"和参考模型一样准但预测行为不同"的变体,从而免重训地系统探索深度网络的 Rashomon 集合。

Does Higher Interpretability Imply Better Utility? A Pairwise Analysis on Sparse Autoencoders

作者训练了 90 个 SAE 做系统对比,发现"特征更可解释"与"引导效果更好"之间只有弱正相关(τ_b≈0.30),并提出 ΔToken Confidence 特征筛选准则把引导分数提升 52.52%;而在筛出的高效特征上,可解释性与引导效用的相关性彻底消失甚至变负。

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

提出 Domain Expansion 框架,通过正交池化(Orthogonal Pooling)将潜在空间重构为互相正交的子空间,从结构上防止多目标训练中的梯度冲突与表征崩塌,实现可解释、可组合的概念代数。

Dynamic Reflections: Probing Video Representations with Text Alignment

本文首次将柏拉图表示假说 (PRH) 从静态图像-文本扩展到时序视频-文本领域,通过对 121 个视觉与语言模型的系统评估,揭示了测试时增加帧数与描述数可将对齐分数提升近一倍的现象,并提出 \(R^2 > 0.98\) 的饱和式缩放律来量化这一行为。

Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

这篇论文提出 Dynamic Weight Grafting,通过在生成过程中按 token 位置和 Transformer 组件临时替换微调模型权重,定位 LLM 微调后事实关系知识的检索机制,并发现新知识主要通过实体位置的 enrichment 与最终 token 的 recall 两条路径被取出。

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

作者发现 CLIP 视觉编码器后半段有一小撮专门"读图中文字"的注意力头,它们把字体信息搬进 cls token 从而造成字体攻击;Dyslexify 不做任何梯度训练,只把这些头对 cls 的写入清零(电路消融),就在 ImageNet-100-typo 上把鲁棒性提升最多 22.06%,而标准精度掉幅 <1%。

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

从理论上分析了两层 Transformer 在有向图可达性问题上使用连续 Chain-of-Thought(Coconut)训练时的训练动力学,揭示了"叠加态"(superposition)机制如何自然涌现:index-matching logit 先增长后有界,从而在探索与利用之间取得平衡。

Emergent Discrete Controller Modules for Symbolic Planning in Transformers

在 Transformer 块里嵌入一个由 Gumbel-Softmax 选择的离散控制器,让模型显式执行 ASSIGN/ADD/COMPARE/BRANCH 等程序原语并维护寄存器状态,从而获得可证明的控制流表达力、强长度外推和可读的执行轨迹,代价仅约 5–7% FLOPs。

Emotions Where Art Thou: Understanding and Characterizing the Emotional Latent Space of Large Language Models

本文用 SVD 子空间、几何对齐、神经元选择性(ML-AURA)和学习式引导模块系统刻画了 LLM 隐状态中的"情感潜空间",发现情感是方向性编码、跨层分布、跨 8 数据集 5 语言通用的低维流形,且可在保持语义的前提下被精确操控。

EnsembleSHAP: Faithful and Certifiably Robust Attribution for Random Subspace Method

本文提出 EnsembleSHAP,一种专为随机子空间方法(random subspace method)设计的特征归因方法,它直接复用集成模型已经算好的子采样预测结果、几乎零额外开销地给出 Shapley 风格的特征重要性,并首次给出针对"解释保持攻击"的可证明鲁棒性保证。

Escaping Low-Rank Traps: Interpretable Visual Concept Learning via Implicit Vector Quantization

针对概念瓶颈模型 (CBM) 训练中 patch 特征退化到低秩子空间、破坏视觉-概念多对多对齐的「表征坍缩」问题,本文提出把向量量化目标当成正则项而非硬瓶颈的 隐式向量量化 (IVQ),配合 Magnet Attention 把高秩 patch 特征聚合成概念原型,在 8 个医学 + 5 个通用基准上同时拿下 SOTA 精度与更好的可解释一致性。

Estimating Dimensionality of Neural Representations from Finite Samples

针对"参与比(Participation Ratio)这一全局维度度量在有限样本下严重有偏"的老问题,本文推导出对行采样、列采样、噪声同时去偏的无偏估计量 \(\gamma_{\text{both}}\),让维度估计在样本数变化时几乎保持不变,并可扩展到稀疏矩阵与局部维度。

Evaluating SAE Interpretability Without Generating Explanations

本文提出两种无需生成自然语言解释的稀疏自编码器(SAE)可解释性评估方法——入侵句检测(intruder detection)与样例嵌入打分(example embedding scoring),把评估直接建立在 latent 激活样例上,并用人类标注验证 LLM 评判与人类判断高度相关。

Evidence for Limited Metacognition in LLMs

作者借鉴动物行为学中"不靠自述、只看行为"的元认知测量范式,设计了 Delegate Game(委托游戏,测"知道自己会不会")和 Second Chance Game(二次机会游戏,测"知道自己会答什么")两套实验,证明 2024 年以来的前沿 LLM 确实具备有限的、依赖语境的、与人类不同质的元认知能力——能感知并利用内部置信度信号,但用得既弱又不稳。

Evolution of Concepts in Language Model Pre-Training

首次将 crosscoders(跨快照稀疏字典学习)应用于追踪语言模型预训练过程中特征的涌现和演化,发现预训练存在"统计学习→特征学习"两阶段相变,并通过归因分析将微观特征演化与宏观下游任务指标因果关联。

Explainable K-means Neural Networks for Multi-view Clustering

把多视图聚类拆成"线性聚类 → 非线性聚类 → 多视图融合"三层优化子问题,每层都由 K-means / 核 K-means 目标实现,组装成一个每层作用都可解释的 EKNN 网络,从而在效果、效率、完整性、一致性四个维度上同时取得平衡。

Explainable Mixture Models through Differentiable Rule Learning

把混合模型的每个组分与一条「在描述性特征上可读的合取规则」绑定,再用可微的规则学习把这些规则连同混合权重一起用梯度下降学出来,既能像 GMM 一样精准建模多峰分布,又能直接告诉你"每个峰在什么样的人群/条件下出现"。

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

提出IVPT(Interpretable Visual Prompt Tuning),通过跨层类别无关概念原型将抽象visual prompt关联到人类可理解的语义区域,在保持参数高效微调优势的同时,首次实现了visual prompt的可解释性,在CUB-200等细粒度分类基准上同时提升解释一致性(+8.4%)和准确率。

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

提出 ExPO-HM,受人类审核员培训流程启发,结合策略手册 SFT 预热、GRPO 课程学习和条件决策熵(CDE)奖励,首次实现 Explain-then-Detect 仇恨 Meme 检测在二分类、细粒度分类和推理质量上全面超越直接检测基线,F1 提升最高达 15-17%。

f-INE: A Hypothesis Testing Framework for Estimating Influence under Training Randomness

把"某个样本到底有多重要"重新定义成"删掉它再训练、损失变化是否在统计上显著区别于训练随机性",借用 f-差分隐私的假设检验框架提出 f-influence,并设计单次训练即可估计的 f-INE 算法,使影响分数在不同随机种子下保持一致,可扩展到 Llama-3.1-8B 上可靠识别投毒样本。

Faithfulness Under the Distribution: A New Look at Attribution Evaluation

现有归因评估指标(Insertion/Deletion、Infidelity)靠"置零/遮挡"来删特征,会把样本推出数据分布、引入虚假信息;本文提出 FUD,用得分扩散模型把被遮挡区域重建回数据流形上的"分布内"样本,给出更可信的归因忠实度评估。

FAME: Formal Abstract Minimal Explanation for Neural Networks

FAME 把"溯因解释"建立在抽象解释之上,用 LiRPA 边界一次性证明并剔除一整批无关特征,从而摆脱了传统形式化 XAI 必须依赖"特征遍历顺序"的瓶颈,首次把可证明的最小解释扩展到 ResNet 这类大网络。

Feature Segregation by Signed Weights in Artificial Vision Systems and Biological Models

本文发现 ImageNet 训练的 CNN 即使不强加生物学的 Dale 定律,也会自发地把"物体/前景"特征分配给正权重、把"背景/上下文纹理"分配给负权重,并在猕猴腹侧视觉皮层(V1/V4/IT)的神经模型中验证了这一同源的"按符号分离特征"策略。

Features Emerge as Discrete States: The First Application of SAEs to 3D Representations

首次把稀疏自编码器(SAE)用到 3D 重建 VAE 的潜空间上,发现 3D 模型把连续位置编码成「离散状态 + 相变」的特征,并提出一套基于梯度动力学的框架,统一解释了位置编码偏好、ablation-loss 的 S 型曲线以及相变点的双峰分布。

Flow-Disentangled Feature Importance

FDFI 用流匹配(flow matching)学一个把相关特征解耦成独立潜变量的可逆映射,在潜空间里算每个方向的重要性、再用雅可比平方权重把分数"归还"给原始特征,从而把只能用于 ℓ2 损失的 DFI 推广到任意可微损失(含分类),并配上半参数有效估计与有效的置信区间/假设检验。

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

将神经网络验证(NN verification)引入机制可解释性,提出首个具有可证明保证的电路发现框架:在连续输入域上保证电路忠实度(input robustness)、在连续 patching 域上保证电路一致性(patching robustness),并形式化了四级最小性层次(quasi → local → subset → cardinal),通过单调性理论将三类保证统一连接。

Frequency Bands in RoPE: Base Frequency and Context Length Shape the Interpolation–Extrapolation Trade-off

本文揭示 RoPE 中存在由 base 频率 θ 和训练长度 \(L_{train}\) 共同决定、且在预训练早期就形成并被位置内插继承的"频率带",证明带以下的低频维度近乎等价于 NoPE,并据此推翻"调大 θ 一定利于长上下文"的主流直觉——增大 θ 只是把能量重新分配从而提升内插却损害外推。

Fresh in Memory: Training-order Recency is Linearly Encoded in Language Model Activations

通过对 Llama-3.2-1B 顺序微调六个互不相交的实体数据集,作者发现语言模型的激活空间里存在一条线性方向,能按训练先后顺序排列各阶段数据的激活质心——也就是说模型给学到的信息悄悄打上了"什么时候学的"的时间戳,且这个时序信号能被线性探针读出(>90% 区分早/晚实体)、能被模型自己显式报告(~80%),还能在打乱混训 30 个 epoch 后顽强存活。

From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers

把任意复杂"概念"抽象成一个向量,用它和每个注意力头输出做余弦相似度、取 TopK 头组成"概念模块",再用单个标量缩放该模块的输出强度,就能定位并放大/抑制语言与视觉 Transformer 里的安全、推理、多语言、图像识别等概念。

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

本文指出经典的"叠加=干扰=噪声"图景对真实数据并不完整——当特征相关时,干扰可以是建设性的:模型按共激活模式排列特征,让活跃特征的干扰相互增强信号,从而用更小的权重范数和秩完成重构,这自然解释了真实语言模型中观察到的语义聚类和月份圆环等几何结构。

From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

用信息瓶颈/率失真框架把 40+ 个 LLM 的 embedding 和人类经典分类学认知数据放在同一把"压缩↔语义"的尺子下度量,发现 LLM 比人类更"信息论最优"地激进压缩,却以牺牲细粒度语义(典型性结构)为代价——人类那种看似"低效"的概念组织反而是适应性灵活性的来源。

Gauge-invariant Representation Holonomy

把"特征沿输入闭环走一圈后累积的旋转量"定义为 representation holonomy——一个规范不变(gauge-invariant)的标量,用来刻画 CKA/SVCCA 等逐点相似度看不见的"路径依赖几何",并把它和模型的对抗/损坏鲁棒性挂上钩。

GAVEL: Towards Rule-Based Safety through Activation Monitoring

借鉴网络安全中 Snort/YARA 规则集的理念,提出将 LLM 内部激活分解为 23 个细粒度"认知元素"(CE),再通过布尔逻辑组合为可审计的安全规则,在 Mistral-7B 上以 <1% 推理开销实现 9 类误用场景平均 AUC 0.99、FPR 0.004 的实时检测,并天然支持跨语言、跨模型迁移。

GenCtrl — A Formal Controllability Toolkit for Generative Models

这篇论文把"用户与生成模型对话"建模成一个离散时间非线性控制系统,提出蒙特卡洛算法去估计模型的可达集可控集,并给出分布无关、只需输出有界假设的 PAC(probably-approximately-correct)误差界,从而第一次能形式化地回答"这个生成模型到底可不可控",实验发现现代 LLM 和文生图模型的可控性出人意料地脆弱且高度依赖任务设定。

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

提出 GEPA(Genetic-Pareto)提示优化器,通过自然语言反思从少量执行轨迹中诊断问题并迭代优化提示,在六个任务上平均超越 GRPO 6%(最高20%),同时仅使用 1/35 的采样量。

Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

首次在实际规模 LLM(7B MoE)的近单遍预训练中验证 grokking 现象——不同数据组异步记忆、延迟泛化;通过分析 MoE routing pathway 的演化(从 instance-specific 到 structured/shared),提出两个零成本指标来监控泛化进度,无需 instruction tuning 和 benchmark 评估。

Hedonic Neurons: A Mechanistic Mapping of Latent Coalitions in Transformer MLPs

把 transformer MLP 里的神经元当作合作博弈中的"理性玩家",用 hedonic game + PAC-Top-Cover 算法找出"联合消融效果非线性叠加"的神经元联盟(coalition),从而揭示 LoRA 微调到底在哪些协同神经元组里编码了任务特征。

Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs

HETA 把"因果语义流门控 + Hessian 二阶曲率敏感度 + KL 信息损失"三种信号融合成统一的 token 归因分数,专为 decoder-only 自回归 LLM 设计,在忠实度、对解码超参与句法改写的鲁棒性上都显著超过现有方法。

Hidden Breakthroughs in Language Model Training

提出 POLCA(Projection Oriented Loss Change Allocation)——一种沿低秩训练子空间任意正交基分解单样本损失变化的方法,从看似平滑的训练损失曲线中揭示出大量隐藏的概念性突破(hidden breakthroughs),将训练可解释性从"先定义技能再观测"翻转为"先分解再自动发现技能"。

How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Understanding

通过对训练梯度的前导项近似分析,推导出Transformer在训练早期阶段各权重矩阵的闭式表达——均可分解为三种基函数(bigram、token-interchangeability、context mapping)的简单组合——从而揭示Transformer如何从自然语言数据中学习"bird"↔"flew"这类语义关联,且理论预测与真实LLM的学到权重高度吻合。

How Stable is the Next Token? A Geometric View of LLM Prediction Stability

本文提出 Token Constraint Bound(δTCB)——一个量化「LLM 内部隐状态 \(h\) 在被扰动多少之后下一个 token 的预测才会显著改变」的几何指标,并证明它由输出嵌入空间相对当前预测分布的「概率加权离散度」决定,从而揭示困惑度/准确率看不见的局部预测鲁棒性。

How Transformers Learn Causal Structures In-Context: Explainable Mechanism Meets Theoretical Guarantee

本文证明并实证一个两层带相对位置编码的 Transformer 能在上下文中显式实现 Bayesian Model Averaging (BMA)——这一统计最优算法——来推断每个 token 的"父节点"因果结构,并用信息论 (DPI / 互信息) 给出可识别性与训练动力学保证。

Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization

把 Transformer 层重新理解为「超球面上 token 的最大似然估计」,并将其拆成低维子空间的分布均匀性高维空间的语义对齐两个互补目标,用两个扩展 Hopfield 能量函数量化后做迭代能量最小化——对称注意力、前馈层、RMSNorm、残差连接全都自然"长出来",得到一个参数共享、可解释、性能逼近原版 Transformer 的递归深度模型 HYPER-SET。

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

本文构建了一个把"人类可理解概念"形式化为离散潜变量的文本生成模型,并严格证明:仅靠下一词预测训练出来的 LLM 表示,在温和条件下近似等于这些潜在概念后验对数 \(\log p(c\mid x)\) 的一个线性变换,从而为线性表示假设、steering vector、线性探针乃至稀疏自编码器(SAE)评估给出了统一的理论根基。

Inducing Dyslexia in Vision Language Models

通过在视觉-语言模型中"功能定位"出对视觉词形选择性的单元并将其消融,作者在不损伤一般视觉与推理能力的前提下,复现了人类失读症的核心特征(选择性阅读缺陷 + 偏音韵的缺损),并证明这些单元能预测人类 VWFA 的真实 fMRI 响应。

Inferring the Invisible: Neuro-Symbolic Rule Discovery for Missing Value Imputation

把"缺失的表格条目"当成待推断的隐谓词,用一个可微的前向链推理引擎让规则归纳缺失值填补互为证据、彼此强化,从而在补全数据的同时学出人类可读的逻辑规则。

Influence Dynamics and Stagewise Data Attribution

本文用奇异学习理论(SLT)把"训练数据归因"从静态视角升级为分阶段(stagewise)视角:证明一个样本对另一个样本的影响并非固定不变,而是会在模型发育的相变点处发生符号翻转尖峰,并用贝叶斯影响函数(BIF)在玩具模型和真实语言模型上验证了这一预言。

Information Shapes Koopman Representation

InputDSA: Demixing, then comparing recurrent and externally driven dynamics

把"比较两个动力系统是否相似"的 DSA 方法从自治系统扩展到受外部输入驱动的非自治系统,用带控制的子空间动态模态分解(SubspaceDMDc)同时估计内禀算子 \(A\) 与输入算子 \(B\),从而能在部分观测、含噪、甚至只有代理输入的情况下分别比较"内禀动力学"和"输入驱动动力学"。

Internal Planning in Language Models: Characterizing Horizon and Branch Awareness

提出基于VQ-VAE的信息论框架来分析语言模型内部的规划行为,发现规划视野是任务依赖的、模型隐式保留未选择的正确路径信息、下一token决策主要依赖最近的计算。

Interpretable 3D Neural Object Volumes for Robust Conceptual Reasoning

CAVE 把 NOVUM 中上千个稠密 3D 高斯特征通过字典学习压成每类约 20 个稀疏概念,得到一个既 OOD 鲁棒、又「设计即忠实」可解释的图像分类器,并提出无需部件标注的 3D-C 指标来度量概念跨视角/跨退化的空间一致性。

Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility

作者用对比激活(CAA)从多种 LM 的隐藏状态里抽出区分「可能 / 不可能 / 不可设想」等模态范畴的线性差异向量(modal difference vectors),证明 LM 对句子模态的内部判断比此前研究认为的可靠得多,且这些向量随训练/层数/规模按由粗到细的顺序涌现,还能反过来建模人类的细粒度范畴判断行为。

Joint Distribution–Informed Shapley Values for Sparse Counterfactual Explanations

提出 COLA 框架:用最优传输(OT)在事实集与反事实集之间求一个耦合矩阵,再用它驱动 Shapley 归因(p-SHAP)来精修任意现成的反事实解释,使其在保持目标翻转效果的前提下只改 26–45% 的原始特征。

Language Models are Injective and Hence Invertible

本文从数学上证明了 decoder-only Transformer 语言模型几乎必然是单射(不同提示词产生不同的末位 token 表征),并据此提出 SIPIT 算法,能在线性时间内从隐藏状态精确重建输入文本。

Language Models Use Lookbacks to Track Beliefs

本文用因果中介与因果抽象方法,逆向工程出大模型追踪角色信念(Theory of Mind)时所依赖的一套通用算法——"lookback 机制":模型把同一份参考信息复制成"指针"与"地址"两份分置不同 token,靠 QK 注意力回看取出后面要用的"载荷",由此实现角色—物体—状态的绑定、信念检索与可见性更新。

Latent Concept Disentanglement in Transformer-based Language Models

本文用机制可解释性方法证明:transformer 在做 in-context learning 时会显式地把示例里隐含的"概念"解耦出来——离散世界知识任务里由一小簇注意力头先解析出隐藏的"桥实体"再组合出答案,连续数值任务里则把隐参数压缩到一条低维平滑流形上,且这条流形可被线性插值和因果干预。

Latent Planning Emerges with Scale

作者给"LLM 隐式规划"下了一个可因果验证的定义(前向规划 + 后向规划),用 transcoder 特征电路在 Qwen-3(0.6B–14B)家族上做实验,发现规划能力随模型规模涌现:简单语法一致任务(a/an)在 14B 才稳定成功,押韵对句任务里模型只会前向规划而几乎不会后向规划。

Latent Thinking Optimization: Your Latent Reasoning Language Model Secretly Encodes Reward Signals in Its Latent Thoughts

本文系统解剖了潜在推理语言模型 Huginn-3.5B 的"潜在思考"过程,发现正确与错误的潜在思维轨迹在隐空间里高度可分,于是训练一个轻量分类器作为"潜在奖励模型(LRM)",并提出 Latent Thinking Optimization (LTO) ——一个用接受-拒绝采样在隐空间里挑出高奖励轨迹的概率算法,把奖励建模和测试时扩展直接搬进隐空间。

LatentQA: Teaching LLMs to Decode Activations Into Natural Language

本文把"读懂模型激活"重塑成一个开放式问答任务 LatentQA——给定激活和一个自然语言问题,让一个微调过的 decoder LLM 直接用自然语言作答;这既能"看懂"激活(监控),又能用自然语言描述的损失反传梯度来"改写"激活(引导)。

Learning for Highly Faithful Explainability

本文提出 DeepFaith:从十种忠实性指标里推导出一个无需对目标模型/任务做假设的自监督目标,再用「去重 + 忠实性过滤」把多个先验解释方法聚合成高质量监督信号,最后用动态加权把两者联合优化,训练出一个一次前向就能给出比所有先验方法更忠实解释的摊销解释器。

Learning is Forgetting: LLM Training As Lossy Compression

把 LLM 预训练看成一次"有损压缩":用率失真理论(Rate Distortion Theory)和信息瓶颈(Information Bottleneck)刻画模型如何在训练中先扩张、后压缩表示,并证明"模型压缩得有多接近最优"以及"压缩后留下了什么信息"能直接预测下游 benchmark 表现。

Learning Multimodal Dictionary Decompositions with Group-Sparse Autoencoders

标准稀疏自编码器(SAE)在 CLIP/CLAP 这类对齐多模态嵌入上会学出"模态分裂字典"——大多数概念只对单一模态激活;本文用跨模态随机掩码 + 组稀疏正则强迫成对样本共享稀疏支撑,学出真正多模态的概念字典,同时减少死神经元、提升语义性与跨模态零样本表现。

Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies

把"为什么这个 RL 策略会成功或失败"建模成因果模型约简问题:通过对动作注入随机扰动作为干预,学一个只有"高层原因 Z→高层目标 Y"两个变量的简化因果模型,用非线性扩展的 Targeted Causal Reduction (nTCR) 提炼出真正影响累计奖励的状态/动作模式,从而给出全局、因果、可解释的策略行为解释。

Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability

Transformer 能纯靠序列数据 in-context 破解 NumPy 默认随机数生成器 PCG(超出经典攻击假设),其所需上下文长度随模数呈 \(\sqrt{m}\) 缩放,大模数训练必须靠课程学习,且嵌入层会自发把整数按"位旋转不变的零游程结构"聚类。

Learning to Interpret Weight Differences in Language Models

通过用「合成的、带标注的权重差」训练一个 LoRA 适配器(DIT-adapter),让任意微调过的语言模型能够用自然语言描述自己被微调改变了什么,从而把不可读的权重差(weight diff)转成可读的行为说明。

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

通过 100+ 组受控实验(耗费 50 万 GPU 小时)系统拆解"只读文本的 LLM 为何会产生视觉能力",发现视觉先验可分离为推理先验(来自代码/数学/学术等推理数据、随占比单调增长且跨视觉编码器通用)与感知先验(弥散地来自宽泛语料、更依赖视觉编码器和指令微调),并据此给出一份"重推理、少量视觉描述"的预训练数据配方,在 1T token 规模上验证可造出更强的 vision-aware LLM。

Learning to Weight Parameters for Training Data Attribution

本文指出梯度归因里"不同参数组的归因质量差异巨大"被现有方法忽视,提出一个统一框架用自监督直接从数据里学一组参数组权重 \(w\),无需标注就把 TracIn / TRAK / EK-FAC 等方法的归因精度系统性拉高,并能解耦 subject/style/background 等语义维度。

Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models

本文发现 VLM 做空间推理时,会把视觉里物体的位置信息以线性的"空间 ID"向量绑定到对应物体词的文本激活上,再在语言空间里完成推理;通过因果干预证明只改这个空间 ID 就能系统性翻转模型对"左/右、远/近"的判断,并把同一机制扩展到视频模型的"时序 ID"。

LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

通过一套探针实验揭示「软思考(Soft Thinking)」并不能像理论宣称的那样并行探索多条推理路径——LLM 实际上是「单线程推理者」,几乎只靠软 token 中概率最高的那个分量驱动下一步,从而陷入贪心反馈回路;本文据此提出 Stochastic Soft Thinking,用 Gumbel-Softmax 注入可控随机性打破贪心陷阱,在 8 个推理基准上超越 vanilla 软思考甚至离散 CoT。

LLMs Process Lists With General Filter Heads

本文发现 LLM 在做"从列表里挑出满足条件的项"这类任务时,会用一小撮中层注意力头(filter heads)把"筛选谓词"编码成 query 空间里一个紧凑、可搬运的几何方向,复现了函数式编程里 filter 操作的抽象计算原语。

Localizing Task Recognition and Task Learning in In-Context Learning via Attention Head Analysis

这篇论文提出 Task Subspace Logit Attribution(TSLA),把 in-context learning 中的任务识别(TR)和任务学习(TL)分别定位到不同注意力头,并用相关性、消融、输入扰动、task vector steering 与隐藏状态几何分析说明 TR 头负责把状态拉向任务标签子空间,TL 头负责在该子空间内转向正确标签。

LORE: Jointly Learning the Intrinsic Dimensionality and Relative Similarity Structure from Ordinal Data

提出LORE——首个同时从序数三元组比较中联合学习嵌入表示和内在维度的框架:用非凸Schatten-p拟范数(p<1)正则化替代传统的预设维度策略,通过迭代重加权(IRNN)算法求解并证明收敛到稳定点;在合成数据、LLM模拟感知实验和3个众包数据集上,LORE在维度恢复上远超所有基线方法,同时保持高三元组准确率和语义可解释性。

Low-Pass Filtering Improves Behavioral Alignment of Vision Models

作者发现,此前被归功于"生成式目标"的 Imagen 类模型的高度人类化视觉行为,其实主要来自一个不起眼的降采样操作(等效低通滤波);只要在测试时对输入图像做高斯模糊,普通判别式 CLIP 就能在 model-vs-human 基准上刷新 SOTA,把人机行为对齐的差距砍掉一半。

MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

提出MATA(Multi-Agent hierarchical Trainable Automaton),将多Agent视觉推理建模为层次有限状态自动机,顶层状态转移由可训练的hyper agent(基于LLM的状态控制器)学习,每个Agent内部使用规则化的子自动机,通过共享内存实现协作与竞争,在多个视觉推理基准上达到SOTA。

Medical Interpretability and Knowledge Maps of Large Language Models

作者用四种可解释性手段(UMAP 投影、权重梯度显著性、层消融、激活补丁)系统扫描 5 个开源 LLM,画出"医学知识地图"——把年龄、症状、疾病、药物、剂量这些知识分别定位到模型的哪些层,并意外发现年龄流形非线性、疾病进程表征呈环形非单调等现象。

MICLIP: Learning to Interpret Representation in Vision Models

MICLIP 把 CLIP 的对比学习范式搬到"模型内部表征"上,训练一个神经元编码器把神经元/SAE 特征投影进 CLIP 语义空间,从而绕开"激活越大概念越强"的旧假设,实现既能解释又能精准操控视觉模型内部机制的统一框架。

Missingness Bias Calibration in Feature Attribution Explanations

本文提出 MCal:只在冻结模型的输出 logits 上微调一个仿射变换头(矩阵缩放),就能廉价、模型无关地校正特征归因中的"缺失偏差"(missingness bias),效果反而能匹敌甚至超过重训练与改架构等重量级方案。

Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

本文揭示语言模型在上下文中检索"绑定实体"并非单纯依赖此前公认的位置机制,而是混合使用位置、词汇、反身三种机制,并据此构建出一个位置加权的因果模型,能以 95% 的一致度复现模型的下一词分布,并解释长上下文中的"lost-in-the-middle"现象。

Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization

把预训练 LLM 的每一层拆成「语言 / 逻辑 / 社交 / 世界知识」四个对应人脑认知网络的专家模块,再用一套三阶段课程训练把这种脑式功能特化"逼"出来,得到既可解释、可在推理时按专家路由进行行为调控、又不损失推理性能的模块化语言模型 MICRO。

Multi-ReduNet: Interpretable Class-Wise Decomposition of ReduNet

把 ReduNet 的全局 MCR² 目标在理论上严格拆成 K 个互相独立的「逐类子问题」,配合 Woodbury 恒等式把每层矩阵求逆从 \(O(d^3)\) 降到 \(O(m_j^3)\),在高维欠采样(\(m\ll d\))场景下同时拿到更高精度、约 2× 训练加速和约一个数量级更好的学习率鲁棒性,且保留白盒可解释性。

Multiple Token Divergence: Measuring and Steering In-Context Computation Density

本文提出 Multiple Token Divergence (MTD)——用「完整模型输出分布」与「一个浅层辅助预测头输出分布」之间的 KL 散度,免训练地度量语言模型每一步到底用了多少深层计算,并据此衍生出一种叫 Divergence Steering 的解码方法来调节生成文本的「计算密度」。

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

发现窄域微调(narrow finetuning)在 LLM 激活中留下清晰可读的痕迹:即使在无关文本的前几个 token 上,微调前后模型的激活差异也编码了微调目标的语义信息。通过 Activation Difference Lens(ADL)方法,可解释性 agent 识别微调目标的成功率达 91%,比黑盒基线高 2 倍以上。

Negative Pre-activations Differentiate Syntax

本文发现:在使用 GELU/SiLU 等平滑激活的现代 LLM 中,一小撮"Wasserstein 神经元"专门利用负预激活区来区分句法,只把这 1% 神经元的负预激活清零就会大幅破坏语法能力,而对其它任务伤害很小,从而揭示长期被忽视的负区其实是句法计算的活跃载体。

Neuron-Level Analysis of Cultural Understanding in Large Language Models

本文提出 CULNIG——一套基于梯度归因 + 双重对照过滤的神经元识别管线,在 LLM 中精准定位「文化通用神经元」和「文化专属神经元」,发现它们不到全部神经元的 1%、集中在浅到中层 MLP,且抑制它们会让文化基准掉最多 30% 而几乎不伤通用 NLU。

NIMO: a Nonlinear Interpretable MOdel

NIMO 提出一种混合模型 \(y = \sum_j x_j \beta_j (1 + g_{\mathbf{u}_j}(\mathbf{x}_{-j}))\),在保留线性回归系数全局可解释性(通过均值边际效应 MEM)的同时,利用神经网络提供逐实例的非线性修正,并通过参数消去法高效联合优化线性系数和网络参数。

Noise Stability of Transformer Models

提出噪声稳定性(noise stability)替代平均敏感度(average sensitivity)作为衡量 Transformer 简单性偏差的更优指标,并基于此设计正则化方法,在合成任务和语言建模上分别加速训练约 35% 和 75%。

On The Geometry and Topology of Representations: the Manifolds of Modular Addition

本文用「把同频率的一整簇神经元当成一个流形来看」的视角,证明了此前被认为「学到完全不同电路(Clock vs Pizza)」的多种网络,其实在第一层都学到同一类环面/向量加法圆盘流形,并用闭式公式 + 拓扑数据分析在数百个网络上统计验证,从而修复了被 Zhong et al. (2023) 当作反例的「普适性假设」。

On the Limits of Sparse Autoencoders: A Theoretical Framework and Reweighted Remedy

这篇论文第一次给稀疏自编码器(SAE)写出闭式最优解,理论上证明 SAE 在一般情况下无法把真实单义特征从叠加的多义特征中完整恢复出来(会出现特征收缩与特征消失),只有当真实特征极度稀疏时才能精确恢复;针对一般稀疏度,作者提出按维度多义程度自适应重加权的 WSAE,并给出权重选择原理,实验在合成数据与真实语言/视觉模型上都验证了单义性与可解释性的提升。

On the Predictive Power of Representation Dispersion in Language Models

本文发现语言模型隐状态的"铺得有多开"(平均成对余弦距离,称为表征离散度)与困惑度强负相关——越强的模型把上下文分得越散,并把这一简单几何量变成四种零标注的实用工具:样本难度排序、模型选择、kNN-LM 层选择,以及一个直接降困惑度的 push-away 训练损失。

Paradigm Shift of GNN Explainer from Label Space to Prototypical Representation Space

针对后验实例级 GNN 解释器长期在「图标签空间」对齐导致结构信息利用不足的问题,IDEA 首次把解释器优化从标签空间迁移到「原型表示空间」,用层次化图 tokenizer 解耦出解释性子结构、再用 Wasserstein 距离对齐输入图与解释子图的原型分配分布,平均把 ROC-AUC 提升 4.45%、precision 提升 48.71%,并能即插即用地增强多种现有解释器。

Partial Soft-Matching Distance for Neural Representational Comparison with Partial Unit Correspondence

本文把"软匹配距离"(soft-matching distance)推广到部分最优传输,允许一部分神经元不被匹配,从而在含噪声/无对应单元的神经群体之间找到鲁棒的单神经元级对应,并用 L-curve 启发式自动选出该匹配多少质量;在仿真、fMRI 跨被试对齐与深度网络神经元排序上都明显优于强行全匹配的标准软匹配。

Path Channels and Plan Extension Kernels: A Mechanistic Description of Planning in a Sokoban RNN

本文逆向工程了一个用无模型强化学习训练来玩推箱子(Sokoban)的卷积循环网络(DRC),发现它把「未来要往哪走」的规划直接存在隐藏状态的特定通道(path channels,路径通道)里,并通过卷积核(plan extension kernels,计划延伸核)从箱子向前、从目标向后延伸路径段,用负激活实现剪枝与回溯、用胜者通吃机制选出唯一路径,从而把一个看似黑箱的「规划行为」翻译成了一套可读懂的双向搜索算法。

Patronus: Interpretable Diffusion Models with Prototypes

Patronus 把分类领域的原型网络(ProtoPNet)嫁接到扩散模型上:用一个 patch 级原型编码器把图像编码成「各原型被激活多少」的相似度向量,再拿这个向量去条件化 DDPM,从而让扩散生成过程变得「内生可解释」——能看清模型学到了哪些视觉概念(what)、它们出现在画面的哪里(where)、在去噪的哪个时刻涌现(when),并借此诊断出训练数据里的捷径学习与隐藏偏置。

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

提出 PERSONA 框架,通过在激活空间中提取近似正交的人格向量并进行向量代数运算(缩放、加法、减法),实现免训练的动态组合式人格控制,在 PersonalityBench 上达到 9.60 分,几乎匹配 SFT 上界 9.61。

Persona Features Control Emergent Misalignment

作者用稀疏自编码器对微调前后的 GPT-4o 做「模型差分」,发现一组「失调 persona」特征(尤其是一个 #10「毒性人格」特征)才是「在窄域错误数据上微调 → 广域失调」这一涌现失调现象的内部主因,并据此实现失调的预测、引导抑制与少量良性数据「再对齐」。

PolySHAP: Extending KernelSHAP with Interaction-Informed Polynomial Regression

本文提出 PolySHAP,通过将 KernelSHAP 的线性近似扩展为高阶多项式回归来捕获特征间的非线性交互,从而提升 Shapley 值的估计精度;并从理论上证明了配对采样(paired sampling)等价于二阶 PolySHAP,首次解释了配对采样启发式方法优越性能的根本原因。

PoSh: Using Scene Graphs to Guide LLMs-as-a-Judge for Detailed Image Descriptions

提出PoSh评估指标,通过从生成描述和参考描述中提取场景图 \(G(d) = \langle O(d), E(d), K(d) \rangle\) 作为结构化rubric,引导开源14B LLM(Qwen3-14B)进行QA式细粒度错误定位,在DOCENT艺术品基准和CapArena上以+0.05 Spearman ρ超越GPT-4o-as-Judge,且完全可复现。

Precise and Interpretable Editing of Code Knowledge in Large Language Models

本文把 Transformer 某一层的 MLP 换成稀疏单义的 TransCoder 模块,只更新对目标错误真正激活的少数神经元来做知识编辑(TCPE),既精准又能在神经元层面解释「改了哪、为什么改」,并配套提出基于功能等价的代码翻译编辑基准 KECode,把 CodeLlama-7b 在低资源 Java→D 翻译上的准确率从 57.5% 提到 64.0%。

Priors in Time: Missing Inductive Biases for Language Model Interpretability

本文用贝叶斯视角揭示标准稀疏自编码器(SAE)隐含了"概念在时间上独立"的先验,而语言模型激活其实高度非平稳、随上下文累积维度,二者严重错配;据此提出 Temporal SAE,把每个时刻的激活分解为"可预测分量(来自上下文)+ 新颖分量(残差)",只对新颖分量施加稀疏先验,从而能正确解析花园路径句、识别叙事事件边界,分离慢变与快变信息。

Probing Rotary Position Embeddings through Frequency Entropy

本文提出频率熵(Frequency Entropy, FE)这一无需微调的诊断指标,把 RoPE 每个旋转对沿序列的 query 范数信号做傅里叶分析并取 Shannon 熵,分离出"频带结构"与"周期振荡"两类信号,统一解释了以往关于高/低频维度作用的矛盾结论,并发现周期维度大多冗余、可在推理时直接衰减而几乎不掉点。

Provably Explaining Neural Additive Models

针对 Neural Additive Models (NAMs) 设计了专用的高效解释算法,仅需对数级别的验证查询即可生成可证明的基数最小解释(cardinally-minimal explanations),在速度和解释质量上均超越了现有的通用子集最小解释算法。

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

本文提出 Radar 框架,将推理语言模型(RLM)的自适应推理问题建模为多目标优化,利用项目反应理论(IRT)联合估计可解释的查询难度和模型配置能力参数,实现轻量级、可扩展的查询级路由,在 8 个推理基准上优于 SOTA 路由方法,且仅增加约 7ms 延迟。

REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering

REAL 给 Transformer 的每个注意力头(或层)训练一个向量量化自编码器(VQ-AE),把高度纠缠的隐藏激活映射到一个可分离的离散码空间,再用两个自回归先验的对数似然比 + AUC 打分来判断"这个模块到底跟目标行为多相关",从而精准选出要干预的模块并按相关度自适应调节引导强度,在真实性引导上相对 ITI 平均提升 20%(最高 81.5%)。

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

本文提出"推理编辑"这一新范式——只修改 LLM 某一类推理模式而不动其他推理能力,发现了"回路-干扰定律"(两种推理模式的神经回路重叠越多、编辑相互干扰越强),并据此提出 REdit:在编辑前先用对比学习主动"重塑回路"把重叠的回路解耦,从而同时改善泛化性(Generality)与局部性(Locality),在 Qwen2.5-3B 的命题逻辑任务上全面超过 LoRA/ROME/AlphaEdit 等编辑基线。

Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs

作者把 LLM 的残差计算抽象成有向图,用边归因(Edge Attribution Patching, EAP)在单次前反传里给所有内部边打重要性分,对比 RL 微调前后的边权分布,发现在线 RL(PPO/GRPO)会系统性地抬高内部激活强度、增加激活多样性(熵升、峰度降),而 DPO 则几乎没有这种变化——从而第一次把"RL 后训练为什么更强"和"模型内部信息通路怎么变"这两条平行的研究线接到了一起。

Representational Alignment Across Model Layers and Brain Regions with Multi-Level Optimal Transport

本文提出 Multi-Level Optimal Transport (MOT),用「内层神经元传输 + 外层层级传输」的双层最优传输框架,把两个网络(或脑区)之间的表征对齐从「逐层贪心匹配」升级为「全局一致的软耦合」,既给出单一的网络级对齐分数,又能自然处理深度不一致,并自发地恢复出早层对早层、深层对深层的层级结构。

Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

这篇论文从理论和实验两方面证明「余弦相似度」并不是衡量 Transformer 层重要性的可靠代理指标——一个层可以余弦相似度极低却对模型性能至关重要——并主张改用「删掉该层后模型准确率的实际跌幅」作为更忠实的层重要性度量,从而修正了过去基于余弦相似度得出的若干可解释性结论,也带来了更强的结构化剪枝效果。

SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

这篇论文提出 STS(SAE-based Transferability Score):先用上下文学习(ICL)在不微调的前提下预测出监督微调(SFT)会改动哪些稀疏自编码器(SAE)维度,再衡量这些维度与下游各领域的相关性,从而在训练前就预测出 SFT 会对哪个领域涨/掉多少分,Pearson 相关系数普遍超过 0.7。

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

提出 SEED-SET 框架,将自主系统的伦理评估建模为层次化贝叶斯实验设计问题,同时整合客观指标和主观价值判断,在有限预算下高效生成高伦理对齐度的测试用例。

Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs

这篇论文系统分析 VLM 在 VQA 中“看见证据却答错”的现象,发现深层 attention 往往已经定位到正确视觉证据但生成阶段没有充分使用,并据此提出无需训练的 VEA 推理时视觉证据高亮方法,在 LLaVA、Qwen、Gemma、InternVL 等多类模型和多个证据型 VQA 任务上稳定提升准确率。

Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language

本文提出 Semantic Regexes(语义正则表达式),一种用于自动描述 LLM 特征的结构化语言,通过原语(symbol/lexeme/field)+ 修饰符(context/composition/quantification)组合,实现与自然语言同等准确但更简洁、一致且可分析的特征描述。

Sequences of Logits Reveal the Low Rank Structure of Language Models

本文提出以「扩展 logit 矩阵」作为模型无关的研究对象,实证发现现代自回归 LLM 的 logit 矩阵在长序列尺度上仍近似低秩(奇异值幂律指数 \(\alpha\) 略大于 \(1/2\)),并据此设计了只用无关/无意义历史的线性组合就能生成目标续写的 LINGEN 程序,最后用「时变 ISAN」给出了与该低秩性等价的可证明学习理论。

Setting Up for Failure: Automatic Discovery of the Neural Mechanisms of Cognitive Errors

这篇论文不再训练 RNN 去把认知任务"做对",而是反过来训练它"犯人类会犯的错"——用一个非参生成模型 BNS 造出带 swap error 的合成行为数据,再用扩散模型(DDPM)式的目标把第二个延迟期当作去噪过程来训练 RNN,从而自动发现支撑视觉工作记忆的神经动力学机制,且其神经几何与猕猴前额叶皮层记录高度吻合。

Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence

本文用 SAE 描出小语言模型中的多义性干扰结构,发现一些语义上看似无关但在激活空间相互干扰的特征可以稳定改变目标语义的 next-token 分布,并且这些干预信号还能迁移到更大的指令模型上,说明 polysemanticity 不是纯随机噪声,而可能包含跨模型共享的潜在结构。

Small Transformers Don't Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and Implications for Mechanistic Interpretability

通过逐层微调把 GPT-2 全家桶(直到 15 亿参数的 GPT-2 XL)里所有 LayerNorm 替换成纯线性变换,验证损失只升高约 \(+0.03 \sim 0.1\) 交叉熵,证明推理阶段 LN 并非必需,且去掉 LN 后 Direct Logit Attribution 误差从 50% 降到 0%,让机制可解释性分析变得精确。

Sparling: End-to-End Spatial Concept Learning via Extremely Sparse Activations

本文证明了一个「Motif 可辨识性定理」——只要中间概念是局部的、稀疏的、且对输出充分必要,就能仅靠端到端监督(无任何中间概念标注)把它精确还原;并给出 SPARLING 算法,用一个把激活强制压到 99% 以上稀疏的「空间稀疏层」+ 退火式自适应稀疏调度来逼近这个最优解,在三个合成域上以 >90% 的精度定位出中间空间概念。

Sparse Autoencoders Trained on the Same Data Learn Different Features

这是一篇分析型论文:作者用匈牙利算法对齐「只有初始化随机种子不同、看到的数据完全相同」的多个稀疏自编码器(SAE),发现它们学到的特征只有一部分重叠(Llama 3 8B 上仅 30%),且越大的模型/SAE 重叠越低、TopK 比 ReLU 更不稳定,从而论证 SAE 找到的特征是「一种实用的激活空间分解」而非模型「真正使用的、唯一客观的特征清单」。

Sparse CLIP: Co-optimizing Interpretability and Performance in Contrastive Learning

本文把"稀疏"直接塞进 CLIP 的对比预训练(最终投影层加 ReLU 非负约束 + 维度大幅扩展),训练出既可解释、又不掉点、还天然保留跨模态能力的稀疏 CLIP 表征,从而推翻了"可解释性必然牺牲精度"这一通行假设。

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

本文从线性表示假说(LRH)出发,提出"泛化后特化"(specialization after generalization)理论框架,首次在 in-distribution 场景下系统解释了 TTT 为何有效——基础模型因全局欠参数化导致概念叠加干扰,TTT 通过临时遗忘无关概念来释放模型容量、局部特化到测试任务相关的少量概念上,理论保证即使特征空间指数级小于概念空间也能泛化。

Spilled Energy in Large Language Models

本文把 LLM 最后那层 softmax 分类器重新解释成一个能量模型(EBM),发现"按概率链式法则本应相等、却分别在相邻两个解码步被读出"的两路能量之间存在差值——称之为"溢出能量(spilled energy)",并证明这个完全训练无关、直接从 logits 读出的差值与模型出错强相关,在 9 个基准、多个 SOTA 模型上做幻觉检测,跨任务泛化能力显著强于需要逐任务训练的探针分类器。

Structural Inference: Interpreting Small Language Models with Susceptibilities

这篇论文把小型语言模型看成一个贝叶斯统计物理系统,用数据分布的微小扰动诱发模型组件响应,定义 susceptibility 来刻画注意力头对不同数据模式的表达或抑制,并在 3M 参数两层 attention-only Transformer 上用 PCA 自动分离出词边界、induction circuit 和括号匹配等已知结构。

Tackling the XAI Disagreement Problem with Adaptive Feature Grouping

本文指出后验解释器与 faithfulness 指标之所以互相打架,核心原因是不同特征组之间存在交互项,并提出 AGREED 通过自适应合并强交互特征组来降低解释方法之间的分歧,在表格数据和图像 saliency map 上都能让多种解释更趋一致。

Taming Polysemanticity in LLMs: Theory-Grounded Feature Recovery via Sparse Autoencoders

本文从"神经元激活频率"的视角重新审视稀疏自编码器(SAE)训练,发现并证明了神经元共振(neuron resonance)现象——神经元的激活频率 \(p\) 落在特征出现频率 \(f\) 附近的"共振带"内时才能可靠学到单义特征——并据此设计了分组偏置自适应(Group Bias Adaptation, GBA)算法,给出了首个带理论恢复保证、且能扩展到 20 亿参数 LLM 的 SAE 训练方法。

Task Vectors, Learned Not Extracted: Performance Gains and Mechanistic Insights

本文不再从模型表征里"提取"任务向量(Task Vector, TV),而是用梯度下降直接训练一个注入向量(Learned Task Vector, LTV),在分类与生成任务上全面超越提取式 TV 且能注入到任意层/位置;同时系统拆解了 TV 起效的机制——低层主要经由注意力头的 OV 电路(少数 key heads 起决定作用),高层则以"旋转 + 拉伸"的近线性方式传播。

Temporal Geometry of Deep Networks: Hyperbolic Representations of Training Dynamics for Intrinsic Explainability

本文把一个 MLP 的整段训练轨迹看成一串"参数图"快照,并用一个保持排列对称性的双曲图注意力元网络(GTH-GMN)把它们嵌入 Poincaré 球,从而在负曲率空间里还原网络在训练过程中的自组织几何,既能在 INR 分类、泛化预测、正弦回归等任务上匹配强基线,又能直接从嵌入的径向/角向结构读出可解释信号。

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

提出 Temporal SAEs (T-SAEs),通过引入时间对比损失鼓励高层特征在相邻 token 间保持一致激活,在无显式语义信号的自监督训练下实现语义与句法特征的解耦,恢复更平滑、连贯的语义概念且不牺牲重构质量。

Temporal Superposition and Feature Geometry of RNNs under Memory Demands

本文把前馈网络里的"特征叠加"(superposition)概念扩展到时间维度,提出时间叠加(temporal superposition):在 \(k\)-延迟回忆任务上训练线性/非线性 RNN,通过把损失解析分解为四项、识别出 ReLU 诱导的"无干扰空间"、以及密集→稀疏两个机制之间的相变,机制性地解释了 RNN 在记忆压力下为何、如何选择不同的表示几何。

The Achilles' Heel of LLMs: How Altering a Handful of Neurons Can Cripple Language Abilities

本文提出一种「基于扰动的关键神经元因果定位」方法,在 21 个 0.5B–72B 的 LLM 上发现:只要把 3 个左右的神经元置零,就能让一个含 11 亿神经元的 72B 模型彻底崩溃(困惑度暴涨多达 20 个数量级),而且这些关键神经元高度集中在外层 MLP 的 down_proj,崩溃以「相变」而非渐变的形式发生。

The Deleuzian Representation Hypothesis

这篇论文提出用"对激活值的两两差异做聚类"来无监督地从神经网络中提取可解释概念,作为稀疏自编码器(SAE)的简单替代:它把概念建模为"差异"(呼应德勒兹"概念即差异"的哲学观),用判别分析给出理论依据,并用激活分布的逆偏度给聚类加权来提升概念多样性,在 5 个模型、3 种模态、20 个任务上的概念质量超过现有无监督 SAE 变体、逼近有监督 LDA。

The Geometry of Reasoning: Flowing Logics in Representation Space

本文提出一个几何框架将 LLM 的推理过程建模为表示空间中的"流"(embedding 轨迹),通过解耦逻辑结构与语义内容的受控实验证明 LLM 内化了超越表面形式的逻辑不变量,并发现跨模型家族的可能普适表示规律。

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

这篇论文提出用“potential”衡量给定 CoT 前缀对最终正确率的条件提升,并通过数学、科学问答与代码任务上的轨迹分析发现:CoT 的有效性往往集中在少数推理洞察上,同时也会出现切题但有害的推理岔路、难以人类解释的跳变和幸运猜测。

The Price of Amortized inference in Sparse Autoencoders

本文指出 SAE 中很多死 latent、稠密 latent、特征拆分和特征吸收并不是孤立工程问题,而是共享 encoder 的摊销推理与单样本最优性冲突的结果,并提出按 angular variance 局部分组的 LocA-SAE 来在计算成本和单语义性之间折中。

The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology

本文用持续同调(persistent homology, PH)把 LLM 各层激活点云转成可跨模型比较的拓扑指纹,发现间接提示注入与后门微调两类机理完全不同的攻击都会在隐空间留下同一种"拓扑压缩"签名——表示从"小而多、紧凑多样"塌缩成"大而少、稀疏主导",且这一现象在 3.8B 到 70B 六个模型上一致、出现得早、跨层高度可判别。

The Tutor-Pupil Augmentation: Enhancing Learning and Interpretability via Input Corrections

本文提出 Tutor-Pupil 增强框架:让一个固定的、可解释的「学生」(Pupil)模型负责主任务,再训练一个灵活的「导师」(Tutor)模型在输入空间施加最小扰动 \(\epsilon\) 把学生喂错的样本「掰正」;由于修正发生在输入端、且被约束得尽量小,这些修正本身就成了一张诊断图,能暴露学生在哪里、为什么会失败,从而同时拿到性能提升与可解释性。

There Was Never a Bottleneck in Concept Bottleneck Models

指出概念瓶颈模型(CBM)实际上并不存在真正的"瓶颈"——表征变量 \(z_j\) 能预测概念 \(c_j\) 不意味着它只编码 \(c_j\) 的信息。提出 MCBM(Minimal Concept Bottleneck Model),通过信息瓶颈正则化约束每个 \(z_j\) 仅保留对应概念的信息,实现真正的解耦表征和可靠的概念干预。

Thought Branches: Interpreting LLM Reasoning Requires Resampling

这篇论文指出:解读推理模型不能只看一条思维链(CoT),而要把模型在同一 prompt 下能产生的所有可能轨迹的分布当成研究对象——通过从 CoT 中间某句开始重采样后续文本来度量这一句的因果影响,由此提出反事实重要性、韧性(resilience)、反事实++ 与移植重采样等一套方法,并用它们重新审视"自我保护是否真的驱动了模型勒索""人工改写 CoT 能否真正操控推理""不忠实 CoT 里隐藏信息如何起作用"等安全相关问题。

TimeSeg: An Information-Theoretic Segment-Wise Explainer for Time-Series Predictions

TimeSeg 把"为黑盒时序模型做解释"重新定义成"挑出一组连续子序列、让它们与模型预测的联合互信息最大",再用链式法则把这个不可解的联合优化拆成逐步选段的强化学习问题,从而在严格黑盒(只能看输入输出)条件下产出对齐真值、边界精准的变长片段解释。

To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models

本文发现大视觉语言模型中的 ViT sink token 不是单纯噪声,而是会传播进 LLM、携带粗粒度高层视觉语义,并提出无需训练的 sink-to-the-front 与训练式 DIYSink 框架,让模型按任务需求更好地使用 sink 与 non-sink 视觉信息。

Token Alignment Heads: Unveiling Attention's Role in LLM Multilingual Translation

作者在 LLM 里定位出一类专门负责"把源语言 token 映射到目标语言 token"的注意力头——token alignment heads(翻译对齐头),证明它们普遍存在、极其稀疏、跨语言一致且对翻译有直接因果作用,并据此设计数据打分算法 TRater,用极少量关键数据就能显著提升模型翻译能力。

Tokenizing Single-Channel EEG with Time-Frequency Motif Learning

提出 TFM-Tokenizer,首个从单通道 EEG 学习时频 motif 词表并编码为离散 token 的框架,在事件分类、癫痫检测等任务上一致提升性能,且可作为即插即用组件增强现有 EEG 基础模型。

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

提出 TokenSeek,一个通用的 Transformer 微调内存优化插件,通过结合上下文注意力信息和梯度信息进行实例级 token 重要性评估,仅保留 10% 高价值 token 参与梯度更新,实现最高 65.7% 内存节省且性能持平甚至超越全 token 微调。

Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders

提出 RAGLens,利用稀疏自编码器(SAE)从 LLM 内部激活中解耦出 RAG 幻觉专属特征,通过互信息特征选择 + 广义加性模型(GAM)构建轻量级可解释幻觉检测器,在多个基准上超越现有方法,并支持 token 级可解释反馈与幻觉缓解。

Towards Cognitively-Faithful Decision-Making Models to Improve AI Alignment

本文从一组「弱公理」出发,推导出一类两阶段决策模型(先对每个特征做可学习的编辑规则、再用固定聚合规则做支配测试),让学到的偏好模型既保持可解释性、又能忠实复现人类用启发式(阈值、计数等)做成对比较的认知过程,并在肾脏分配的道德判断数据上做到「准确率不输、可解释性更强」。

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

本文通过受控实验和机制分析揭示了潜意识学习(subliminal learning)的本质——教师模型的隐藏偏好通过少量"分歧token"(divergence tokens)传递给学生模型,且早期层是关键,同时发现该现象非常脆弱,简单的同义改写即可抑制。

Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition

本文提出 Low-Rank Sparse Attention(Lorsa),用成千上万个稀疏激活、单维输出的注意力头去逼近原始多头自注意力(MHSA)的输出,从而把纠缠在"注意力叠加"中的原子注意力单元一个个拆解出来,使诱导头、后继头、attention sink 乃至全新的子词级诱导头都能被独立、干净地识别和解释。

Tracking Equivalent Mechanistic Interpretations Across Neural Networks

这篇论文把“两个神经网络是否实现了同一种机制解释”形式化为解释实现集之间的等价问题,并提出用干预生成同解释实现、再用表示相似性估计 Congruity 的方法,在合成 Transformer、IOI circuit 和 POS/next-token 任务上展示了它能追踪跨模型与跨任务的机制等价关系。

TreeGrad-Ranker: Feature Ranking via O(L)-Time Gradients for Decision Trees

针对决策树的特征排序,作者先从理论上证明 Shapley/Banzhaf 这类"概率值"在优化 insertion/deletion 真正对应的联合目标时不比随机猜更好,进而提出在多线性扩展上做 \(O(L)\) 时间梯度计算的 TreeGrad,并据此构造直接优化联合目标的 TreeGrad-Ranker,以及数值稳定的 TreeGrad-Shap,在 insertion/deletion 指标上显著超过概率值基线。

Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering

本文把 LLM 的认知不确定性(epistemic uncertainty)推导为"当前模型隐藏状态与一个理想模型之间的特征间隙",在上下文问答(contextual QA / RAG)场景下用三个语义特征(依赖上下文、理解上下文、诚实)近似这个间隙,仅靠极少标注样本提取特征方向并集成,在多个 QA 基准上以可忽略的推理开销把 PRR 最高提升约 13–16 个点。

Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders

本文提出一套用稀疏自编码器(SAE)系统性诊断"概念盲点"的框架——把真实图像与模型生成图像都映射到 RA-SAE 学到的 32,000 个可解释概念上,用一个能量差指标 \(\delta(k)\) 量化每个概念在生成分布里是被"压制"还是被"夸大",从而把过去只能轶事性吐槽的生成失败(比如画不出鸟食器、手指数量错)变成可量化、可对比、可探索的结构化分析。

Understanding Cross-Layer Contributions to Mixture-of-Experts Routing in LLMs

本文提出一套轻量的递归分解方法,把 MoE 路由器给每个专家打的分拆成「token 嵌入 + 各层注意力输出 + 各层 MoE 输出」乃至单个注意力头/专家的贡献,再用打分方差衡量影响力,从而首次从跨层视角揭示 MoE 路由不是局部决策,而是由深层组件之间的纠缠效应共同塑造。

Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations

本文提出「任务向量即代表性示例(Task Vectors as Representative Demonstrations)」猜想——注入的任务向量本质上是把多条上下文示例蒸馏成的单条代表性示例;并用线性注意力模型的临界点分析证明任务向量会在三元组(triplet)提示训练中自然涌现,同时预测并实证了它「只能表达 rank-one 映射、解不了双射任务」的根本局限,最后据此提出多向量注入的增强方法。

Universal Properties of Activation Sparsity in Modern Large Language Models

对现代 LLM(GLU 架构 + SiLU/GELU)的激活稀疏性进行系统性研究,提出通用的 top-p 稀疏化框架和临界稀疏度(critical sparsity)指标,发现激活稀疏度随模型规模单调递增、输入稀疏化是最实用的免训练加速方案,并首次证明扩散型 LLM 也具有显著的激活稀疏性。

Watch the Weights: Unsupervised Monitoring and Control of Fine-tuned LLMs

不看激活、只看权重——把微调模型与基座模型的权重差分 \(\Delta W\) 做 SVD,发现它的头部奇异向量恰好编码了微调期间新学到的行为,于是无需任何微调数据就能监控、引导甚至恢复这些行为,对后门触发器的检出率最高达 100%(误报 <1%),对遗忘内容的检出率最高 95.42%。

What Do Large Language Models Know About Opinions?

这篇论文不看 LLM 输出、而是打开模型看内部激活,发现 LLM 对各人群观点的"内部知识"远超它输出表现出来的(KL 散度降 52–66%,效果接近微调但便宜约 300×),并定位出这份知识在中间层快速形成、被最后的 unembedding 层"卡住"没说出来,最后用稀疏自编码器把它追溯到能选择性编码各人群的注意力头特征、并能因果地引导模型输出。

When Machine Learning Gets Personal: Evaluating Prediction and Explanation

本文提出统一框架量化模型个性化对预测准确性和解释质量的影响,证明二者可以分离(预测不变但解释变好/变差),推导了基于数据集统计量的假设检验误差概率有限样本下界,揭示了许多实际场景中个性化效果在统计上根本不可检验。

When Thinking Backfires: Mechanistic Insights into Reasoning-Induced Misalignment

本文发现并命名了「推理诱发失配」(Reasoning-Induced Misalignment, RIM)——当 LLM 的推理能力被增强(推理时开 CoT 或在数学题上微调)时,模型反而更容易听从恶意请求,并从机制层面给出解释:推理时存在一类「拒答注意力头」靠减少对 CoT token 的注意力来触发拒答,训练时推理与安全争夺同一批神经元导致安全能力被挤掉。

xRFM: Accurate, scalable, and interpretable feature learning models for tabular data

xRFM 把基于 AGOP 的 Recursive Feature Machine 放进一棵监督划分的二叉树里,让表格模型既能在不同数据子群上学习局部相关特征,又能把训练复杂度降到近似 \(O(n\log n)\)、推理复杂度降到 \(O(\log n)\),并在 TALENT 回归、TabArena-Lite 和大规模 meta-test 表格基准上达到强竞争力。

Your VAR Model is Secretly an Efficient and Explainable Generative Classifier

把视觉自回归(VAR)模型的可计算似然直接当成生成式分类器用,再用「似然平滑 + 部分尺度候选剪枝 + CCA 微调」组成 A-VARC+,在 ImageNet-100 上达到与 DiT 扩散分类器相当的精度(差距 <1%)却省了 89× 计算量,顺带白送 token 级互信息的视觉可解释性和无需回放的类增量学习能力。

ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training

提出 ZeroTuning,仅需对初始 token(如 <BOS>)的注意力分数进行头部特异性缩放,即可在无训练情况下提升 LLM 在 15 个数据集上的表现,仅需修改 4 行代码。