🔬 可解释性¶

📷 CVPR2026 · 34 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (195) · 💬 ACL2026 (63) · 🧪 ICML2026 (91) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (80) · 📹 ICCV2025 (10)

🔥 高频主题： 推理 ×4 · 对齐/RLHF ×2 · 多模态 ×2

Align Once to Explain: Feature Alignment for Scalable B-cosification of Foundational Vision Transformers: ALOE 用一次性、无标签的"师生特征对齐"把冻结的 ViT 基础模型（监督 / DINOv3 / SigLIP2）转成内在可解释的 B-cos 版本，对齐一次即可作为骨干 drop-in 复用到分类、零样本、稠密预测等任务，比原始 B-cosification 在 ViT 上提升 >4.9 个百分点的精度，同时给出忠实且定位准确的解释，数据效率高 100–1000×。
Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations: 本文提出 BTTF，一个用 Image-to-Video 扩散模型为视频分类器生成反事实解释（CFE）的纯优化框架：仅靠目标分类器的梯度，反向优化初始噪声潜变量，先用"反演"把搜索锚在原视频附近、再优化到目标类别，从而生成与原视频最接近、却被分类器判成另一类的"平行视频"，让人看清模型到底依赖哪些时空特征做决策。
Beyond Top Activations: Efficient and Reliable Crowdsourced Evaluation of Automated Interpretability: 针对「自动神经元解释好不好」这个评测问题，本文用模型引导的重要性采样（MG-IS）挑出最有信息量的输入交给众包标注、用贝叶斯评分聚合（BRAgg）去除标注噪声，把一次可靠的全分布相关性评测成本从约 $90k 砍到 $2.16k（约 40×），并据此在多个视觉模型上系统比较了主流解释方法，发现 Linear Explanations 总体最好、反而胜过近期的 LLM-based 方法。
CIGMA: Causal Information-Gain Mechanistic Attribution of Attention Heads in Vision Transformers: CIGMA 用「遮前景 / 遮背景」两次反事实编辑量化每个注意力头对背景捷径的贡献，再按因果信息增益排序、外科式地把 top-K 个"虚假头"清零，免训练地让 ViT/VLM 把注意力从背景拉回前景物体，分类准确率提升 7.6–24.8 个百分点、背景依赖度降低约 83%。
CREward: A Type-Specific Creativity Reward Model: 本文把"视觉创造力"沿图像形成管线拆成 几何 / 材质 / 纹理 三个可解释的轴，先用专家两两比较建一个人类基准 CreBench、确认大型视觉语言模型（LVLM）的创造力判断与人类高度一致，再用 LVLM 生成的偏好标签蒸馏出一个轻量级类型化奖励模型 CREward（冻结视觉骨干 + MLP 头），并把它用于创造力评估、创意样本筛选 / LoRA slider 引导生成、以及 Grad-CAM 可解释三大应用。
Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events: 提出 CoE，一个免训练的多模态摘要框架，通过构建层次事件图（HEG）引导链式事件推理，在8个数据集上超越SOTA视频CoT基线，平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
Draft and Refine with Visual Experts: 提出 DnR（Draft and Refine），一个基于问题条件视觉利用度（Visual Utilization）指标的 Agent 框架，量化 LVLM 对视觉证据的实际依赖程度，并通过外部视觉专家（检测/分割/OCR等）的渲染反馈迭代改善视觉定位，减少幻觉。
Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing: 将开放词汇的3D室内场景编辑重新定义为目标回归规划问题，设计PDDL风格的EditLang符号语言，通过LLM驱动的Planner-Validator循环从目标状态逆向推导最小编辑序列，在63个编辑任务上同时实现指令忠实度（69.1%）、语义一致性（86.6%）和物理合理性（91.7%）三个指标的最佳平衡。
ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization: ERMoE 提出在正交特征基（eigenbasis）中重参数化MoE专家权重，并用特征基分数（cosine similarity）替代传统路由logits，无需辅助负载均衡损失即可实现稳定路由和可解释的专家特化。
H-Sets: Hessian-Guided Discovery of Set-Level Feature Interactions in Image Classifiers: H-Sets 用输入 Hessian 检测像素间的二阶（非可加）交互、递归合并成语义连贯的特征集合，再用集合级的 IDG-Vis（方向梯度积分 + Harsanyi 红利）给每个集合打分，最终产出比现有方法更稀疏、更忠实的显著图。
Hidden Monotonicity: Explaining Deep Neural Networks via their DC Decomposition: 本文把任意训练好的 ReLU 网络无损拆成两个"单调且凸"的子网络之差 $f=g-h$，并解决该分解固有的数值爆炸问题，从而在这对子网络上设计出 SplitCAM / SplitLRP / SplitGrad 三种归因方法，在 ImageNet-S 的 VGG16 与 ResNet18 上跨忠实度、定位、鲁棒性全面刷新显著图 SOTA。
Hierarchical Concept Embedding & Pursuit for Interpretable Image Classification: HCEP 把"概念有层级结构（hypernym→hyponym）"这一先验显式编码进 CLIP 嵌入空间的几何条件，再用带 beam search 的层级化正交匹配追踪（HB-OMP）沿"根到叶"路径恢复概念，从而在保持分类精度的同时显著提升概念恢复的 precision/recall，尤其在 few-shot 下优势明显。
HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation: HUMORCHAIN 把不和谐-消解、良性冒犯、优越论、宣泄论四大幽默理论显式编码成一条"视觉解析→按图类型选幽默策略→生成→判别器闭环反馈"的多阶段 LLM 推理链，并训练一个 Qwen3-VL-4B 幽默判别器做"生成-评估-改写"闭环，在三个幽默图像描述数据集上的人类偏好、Elo/BT 分和语义多样性全面超过现有方法。
Improving Sparse Autoencoder with Dynamic Attention: 这篇论文把稀疏自编码器（SAE）重写成一个共享概念向量的交叉注意力结构，并用 sparsemax 取代 softmax，让每个样本按自身复杂度自动决定激活几个概念，从而摆脱 TopK 里"K 该设多少"的老问题，在图像和文本上都拿到更低重构误差和更清晰的概念。
Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings: 提出基于模型内部电路（circuits）的泛化性能预测指标，包括部署前模型选择的Dependency Depth Bias（DDB）和部署后性能监控的Circuit Shift Score（CSS），分别比现有代理指标的相关性平均提升13.4%和34.1%。
Language Models Can Explain Visual Features via Steering: 提出通过对VLM视觉编码器进行SAE特征因果干预（steering），在输入空白图像后让语言模型描述其"看到"的视觉概念，从而实现无需评估图像集的可扩展视觉特征自动解释，并提出混合方法Steering-informed Top-k达到SOTA。
Make it SING: Analyzing Semantic Invariants in Classifiers: SING 把分类器线性头零空间里那些「改了输入却不改 logits」的不变方向，通过一个线性翻译器投到 CLIP 视觉-语言空间，再用两个角度指标（AS/IS）量化这些不变量到底携带了什么语义，从而能在模型、类别、单图三个层级上诊断「语义信息是否泄漏进不变子空间」，并发现 DinoViT 比 ResNet50 等更不容易把类相关语义泄漏到零空间。
Making the Classification Explanation Faithful to the Confidence Score: 本文提出黑盒解释方法 MHE（Metropolis-Hastings Explainer），用 MH 采样去搜索那些"遮掉一部分后置信度仍贴近原图"的掩码，使得解释区域的置信度严格逼近模型原始置信度——即同时找出正贡献和负贡献区域——从而把解释从"忠实于类别"升级到"忠实于置信度"。
Measuring the (Un)Faithfulness of Concept-Based Explanations: 本文揭示了现有无监督概念解释方法 (U-CBEMs) 的忠实度被高估——原因是使用了过于复杂的代理模型和有缺陷的删除式评估。作者提出 SURF（Surrogate Faithfulness），一个简单的线性代理 + 双空间度量框架，通过"随机概念应该更不忠实"的 sanity check 验证了其正确性，并首次系统地揭示了多个 SOTA U-CBEMs 实际上并不忠实。
MedLIME: A Distribution-Aligned and Evidence-Supported Framework for Medical Saliency Explanations: MedLIME 在经典黑盒解释方法 LIME 之上加三件套——用 MAE 生成式掩码保证扰动样本在分布内、用监督测试时适应把输入对齐到模型分布、用 kNN+核估计引入历史病例证据——把医学影像异常定位的显著图质量（AUPRC）相比各类基线提升最多约 30%。
Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared: 提出首个在系数域（而非像素域）进行红外缺失条件下跨模态融合的框架：通过共享卷积字典建立 IR-VIS 统一原子空间，在系数域完成 VIS→IR 推理和自适应融合，配合冻结 LLM 提供弱语义先验进行热信息补全，在仅输入可见光图像的条件下达到接近双模态融合方法的性能。
Neurodynamics-Driven Coupled Neural P Systems for Multi-Focus Image Fusion: 提出 ND-CNPFuse，通过对耦合神经 P (CNP) 系统进行神经动力学分析，建立网络参数与输入信号的约束关系以避免神经元异常持续放电，从而在多焦点图像融合 (MFIF) 任务上无需训练即可生成高质量、可解释的决策图。
PhaseWin: 让目标级归因从二次复杂度降到近线性的相位窗口搜索: PhaseWin 把目标级归因里贪心子区域选择的二次次数（每步都要重新打分所有剩余区域）改造成"相位剪枝 + 窗口精选 + 动态监督"的由粗到精搜索，在保留贪心近似保证的前提下，用约 20% 的前向预算实现 95%+ 的贪心归因忠实度。
Pixel2Phys: Distilling Governing Laws from Visual Dynamics: 提出 Pixel2Phys，一个基于 MLLM 的多智能体协作框架，通过 Plan-Variable-Equation-Experiment 四个 Agent 的迭代假设-验证-精化循环，从原始视频中自动发现可解释的物理控制方程，外推精度比基线提升 45.35%。
PRISM: Prototype-based Reasoning with Inter-modal Semantic Mining for Interpretable Image Recognition: PRISM 给传统纯视觉的原型网络（ProtoPNet 系列）补上一路语言监督：用 CLIP + 信息瓶颈做一张「文本条件下的归因图」当软标签，把视觉原型隐式锚到语义有意义的图像区域上，再加一个基于熵的空间紧凑约束让不同原型各管一块互不重叠，在 CUB / Stanford Dogs 细粒度分类上同时提升了精度和原型可解释性。
Rethinking Concept Bottleneck Models: From Pitfalls to Solutions: 提出 CBM-Suite 框架，系统性解决概念瓶颈模型的四大缺陷——缺乏概念相关性预评估指标、线性问题导致概念瓶颈被绕过、与黑盒模型的精度差距、以及不同视觉骨干/VLM 影响的研究空白——通过熵度量、非线性层和蒸馏损失显著提升 CBM 的精度与可解释性。
RiskProp: Collision-Anchored Self-Supervised Risk Propagation for Early Accident Anticipation: 提出 RiskProp，一种以碰撞帧为锚点的自监督风险传播范式，通过未来帧正则化损失和自适应单调约束损失，仅依赖碰撞帧标注即可学习时序连贯的风险演化曲线，在 CAP 和 Nexar 数据集上达到 SOTA。
Rounded or Streamlined Head? Bridging Concept Bottleneck Models and Attribute-Described Object Parts: 针对 VLM 驱动的概念瓶颈模型（CBM）"把概念定位错地方"和"把概念定位到无关物体上"两类不一致问题，本文提出 OA-CBM：用 LLM 把概念重写成"部件-属性"对并据此构建两个分割数据集、用层次聚类模块产出类无关的前景物体掩码压制背景、用代价聚合模块稳定视觉-概念对应，使概念定位 h-IoU 在最难的 Pred-All 设置下从 9.8 提到 35.7，分类精度同步提升约 2.9%。
SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World: 提出 SafeDrive 端到端规划框架，通过轨迹条件化的稀疏世界模型（SWNet）模拟关键实体的未来行为，再由细粒度推理网络（FRNet）进行逐实例碰撞评估和逐时刻可行驶区域合规评估，在 NAVSIM 上 PDMS 达 91.6、仅 0.5% 碰撞率，Bench2Drive 驾驶分 66.8%。
Selection-as-Nonlinearity: Bridging Attention and Activation via a Joint Game-Decision Lens for Interpretable, Discriminative Visual Representations: 这篇论文提出 SaN（Selection-as-Nonlinearity）视角，把注意力重新理解成"在单位预算约束下、由上下文打分驱动的合作式选择博弈"，用它诊断出"去掉 FFN 后纯注意力栈大幅掉点"的弱独立性现象源于两个结构张力，并据此设计了几乎零开销的补偿模块 CSaN（分层预算校准 + 公私协作读出），让 Swin / ViT / Hiera 的小模型在 ImageNet 上追平甚至超过约 2 倍大的同族大模型。
TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment: 提出TDATR框架，通过"先感知后融合"策略和结构引导的单元格定位模块，在有限标注数据下实现端到端表格识别，在7个基准上无需数据集特定微调即达到SOTA。
VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension: VIRO在神经符号REC管道中嵌入轻量算子级验证机制（CLIP不确定性验证+空间逻辑验证），使每个推理步骤能自我验证并在无目标时提前终止，在零样本设置下以61.1%平衡准确率大幅超越组合推理baselines，同时保持0.3%以下的程序失败率和高效推理速度。
When Do Models Actually Decide? Mapping the Layer-Wise Decision Timeline in Pretrained Neural Networks: 作者在 ResNet-18/50/101（外加 ViT-B/16、ConvNeXt-Tiny）的每个锚点层训练线性探针，追踪每张 ImageNet 图像的预测在第几层"定下来"，发现网络存在强烈的双峰决策分布和集中在最后残差阶段的"语义相变"，并据此泼了一盆冷水：基于稳定性的早退出几乎换不到真实的加速—精度收益。
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation: 作者发现多语言文生图模型在"只给名词"的提示下会产出文化中立或偏英语的图，并通过注意力 + 稀疏自编码器探针证明这是"激活不足"而非"知识缺失"——文化信号其实只集中在文本编码器的少数几层、少数几个神经元里；据此提出免训练放大这些神经元和只微调文化层两种轻量方案，在自建的 15 国基准 CultureBench 上把文化识别准确率（CultureVQA）从 ~22 提到 36.6。