🔬 可解释性¶
📷 CVPR2026 · 34 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (195) · 💬 ACL2026 (63) · 🧪 ICML2026 (91) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (80) · 📹 ICCV2025 (10)
🔥 高频主题: 推理 ×4 · 对齐/RLHF ×2 · 多模态 ×2
- Align Once to Explain: Feature Alignment for Scalable B-cosification of Foundational Vision Transformers
-
ALOE 用一次性、无标签的"师生特征对齐"把冻结的 ViT 基础模型(监督 / DINOv3 / SigLIP2)转成内在可解释的 B-cos 版本,对齐一次即可作为骨干 drop-in 复用到分类、零样本、稠密预测等任务,比原始 B-cosification 在 ViT 上提升 >4.9 个百分点的精度,同时给出忠实且定位准确的解释,数据效率高 100–1000×。
- Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations
-
本文提出 BTTF,一个用 Image-to-Video 扩散模型为视频分类器生成反事实解释(CFE)的纯优化框架:仅靠目标分类器的梯度,反向优化初始噪声潜变量,先用"反演"把搜索锚在原视频附近、再优化到目标类别,从而生成与原视频最接近、却被分类器判成另一类的"平行视频",让人看清模型到底依赖哪些时空特征做决策。
- Beyond Top Activations: Efficient and Reliable Crowdsourced Evaluation of Automated Interpretability
-
针对「自动神经元解释好不好」这个评测问题,本文用模型引导的重要性采样(MG-IS)挑出最有信息量的输入交给众包标注、用贝叶斯评分聚合(BRAgg)去除标注噪声,把一次可靠的全分布相关性评测成本从约 $90k 砍到 $2.16k(约 40×),并据此在多个视觉模型上系统比较了主流解释方法,发现 Linear Explanations 总体最好、反而胜过近期的 LLM-based 方法。
- CIGMA: Causal Information-Gain Mechanistic Attribution of Attention Heads in Vision Transformers
-
CIGMA 用「遮前景 / 遮背景」两次反事实编辑量化每个注意力头对背景捷径的贡献,再按因果信息增益排序、外科式地把 top-K 个"虚假头"清零,免训练地让 ViT/VLM 把注意力从背景拉回前景物体,分类准确率提升 7.6–24.8 个百分点、背景依赖度降低约 83%。
- CREward: A Type-Specific Creativity Reward Model
-
本文把"视觉创造力"沿图像形成管线拆成 几何 / 材质 / 纹理 三个可解释的轴,先用专家两两比较建一个人类基准 CreBench、确认大型视觉语言模型(LVLM)的创造力判断与人类高度一致,再用 LVLM 生成的偏好标签蒸馏出一个轻量级类型化奖励模型 CREward(冻结视觉骨干 + MLP 头),并把它用于创造力评估、创意样本筛选 / LoRA slider 引导生成、以及 Grad-CAM 可解释三大应用。
- Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events
-
提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
- Draft and Refine with Visual Experts
-
提出 DnR(Draft and Refine),一个基于问题条件视觉利用度(Visual Utilization)指标的 Agent 框架,量化 LVLM 对视觉证据的实际依赖程度,并通过外部视觉专家(检测/分割/OCR等)的渲染反馈迭代改善视觉定位,减少幻觉。
- Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing
-
将开放词汇的3D室内场景编辑重新定义为目标回归规划问题,设计PDDL风格的EditLang符号语言,通过LLM驱动的Planner-Validator循环从目标状态逆向推导最小编辑序列,在63个编辑任务上同时实现指令忠实度(69.1%)、语义一致性(86.6%)和物理合理性(91.7%)三个指标的最佳平衡。
- ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization
-
ERMoE 提出在正交特征基(eigenbasis)中重参数化MoE专家权重,并用特征基分数(cosine similarity)替代传统路由logits,无需辅助负载均衡损失即可实现稳定路由和可解释的专家特化。
- H-Sets: Hessian-Guided Discovery of Set-Level Feature Interactions in Image Classifiers
-
H-Sets 用输入 Hessian 检测像素间的二阶(非可加)交互、递归合并成语义连贯的特征集合,再用集合级的 IDG-Vis(方向梯度积分 + Harsanyi 红利)给每个集合打分,最终产出比现有方法更稀疏、更忠实的显著图。
- Hidden Monotonicity: Explaining Deep Neural Networks via their DC Decomposition
-
本文把任意训练好的 ReLU 网络无损拆成两个"单调且凸"的子网络之差 \(f=g-h\),并解决该分解固有的数值爆炸问题,从而在这对子网络上设计出 SplitCAM / SplitLRP / SplitGrad 三种归因方法,在 ImageNet-S 的 VGG16 与 ResNet18 上跨忠实度、定位、鲁棒性全面刷新显著图 SOTA。
- Hierarchical Concept Embedding & Pursuit for Interpretable Image Classification
-
HCEP 把"概念有层级结构(hypernym→hyponym)"这一先验显式编码进 CLIP 嵌入空间的几何条件,再用带 beam search 的层级化正交匹配追踪(HB-OMP)沿"根到叶"路径恢复概念,从而在保持分类精度的同时显著提升概念恢复的 precision/recall,尤其在 few-shot 下优势明显。
- HUMORCHAIN: Theory-Guided Multi-Stage Reasoning for Interpretable Multimodal Humor Generation
-
HUMORCHAIN 把不和谐-消解、良性冒犯、优越论、宣泄论四大幽默理论显式编码成一条"视觉解析→按图类型选幽默策略→生成→判别器闭环反馈"的多阶段 LLM 推理链,并训练一个 Qwen3-VL-4B 幽默判别器做"生成-评估-改写"闭环,在三个幽默图像描述数据集上的人类偏好、Elo/BT 分和语义多样性全面超过现有方法。
- Improving Sparse Autoencoder with Dynamic Attention
-
这篇论文把稀疏自编码器(SAE)重写成一个共享概念向量的交叉注意力结构,并用 sparsemax 取代 softmax,让每个样本按自身复杂度自动决定激活几个概念,从而摆脱 TopK 里"K 该设多少"的老问题,在图像和文本上都拿到更低重构误差和更清晰的概念。
- Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings
-
提出基于模型内部电路(circuits)的泛化性能预测指标,包括部署前模型选择的Dependency Depth Bias(DDB)和部署后性能监控的Circuit Shift Score(CSS),分别比现有代理指标的相关性平均提升13.4%和34.1%。
- Language Models Can Explain Visual Features via Steering
-
提出通过对VLM视觉编码器进行SAE特征因果干预(steering),在输入空白图像后让语言模型描述其"看到"的视觉概念,从而实现无需评估图像集的可扩展视觉特征自动解释,并提出混合方法Steering-informed Top-k达到SOTA。
- Make it SING: Analyzing Semantic Invariants in Classifiers
-
SING 把分类器线性头零空间里那些「改了输入却不改 logits」的不变方向,通过一个线性翻译器投到 CLIP 视觉-语言空间,再用两个角度指标(AS/IS)量化这些不变量到底携带了什么语义,从而能在模型、类别、单图三个层级上诊断「语义信息是否泄漏进不变子空间」,并发现 DinoViT 比 ResNet50 等更不容易把类相关语义泄漏到零空间。
- Making the Classification Explanation Faithful to the Confidence Score
-
本文提出黑盒解释方法 MHE(Metropolis-Hastings Explainer),用 MH 采样去搜索那些"遮掉一部分后置信度仍贴近原图"的掩码,使得解释区域的置信度严格逼近模型原始置信度——即同时找出正贡献和负贡献区域——从而把解释从"忠实于类别"升级到"忠实于置信度"。
- Measuring the (Un)Faithfulness of Concept-Based Explanations
-
本文揭示了现有无监督概念解释方法 (U-CBEMs) 的忠实度被高估——原因是使用了过于复杂的代理模型和有缺陷的删除式评估。作者提出 SURF(Surrogate Faithfulness),一个简单的线性代理 + 双空间度量框架,通过"随机概念应该更不忠实"的 sanity check 验证了其正确性,并首次系统地揭示了多个 SOTA U-CBEMs 实际上并不忠实。
- MedLIME: A Distribution-Aligned and Evidence-Supported Framework for Medical Saliency Explanations
-
MedLIME 在经典黑盒解释方法 LIME 之上加三件套——用 MAE 生成式掩码保证扰动样本在分布内、用监督测试时适应把输入对齐到模型分布、用 kNN+核估计引入历史病例证据——把医学影像异常定位的显著图质量(AUPRC)相比各类基线提升最多约 30%。
- Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared
-
提出首个在系数域(而非像素域)进行红外缺失条件下跨模态融合的框架:通过共享卷积字典建立 IR-VIS 统一原子空间,在系数域完成 VIS→IR 推理和自适应融合,配合冻结 LLM 提供弱语义先验进行热信息补全,在仅输入可见光图像的条件下达到接近双模态融合方法的性能。
- Neurodynamics-Driven Coupled Neural P Systems for Multi-Focus Image Fusion
-
提出 ND-CNPFuse,通过对耦合神经 P (CNP) 系统进行神经动力学分析,建立网络参数与输入信号的约束关系以避免神经元异常持续放电,从而在多焦点图像融合 (MFIF) 任务上无需训练即可生成高质量、可解释的决策图。
- PhaseWin: 让目标级归因从二次复杂度降到近线性的相位窗口搜索
-
PhaseWin 把目标级归因里贪心子区域选择的二次次数(每步都要重新打分所有剩余区域)改造成"相位剪枝 + 窗口精选 + 动态监督"的由粗到精搜索,在保留贪心近似保证的前提下,用约 20% 的前向预算实现 95%+ 的贪心归因忠实度。
- Pixel2Phys: Distilling Governing Laws from Visual Dynamics
-
提出 Pixel2Phys,一个基于 MLLM 的多智能体协作框架,通过 Plan-Variable-Equation-Experiment 四个 Agent 的迭代假设-验证-精化循环,从原始视频中自动发现可解释的物理控制方程,外推精度比基线提升 45.35%。
- PRISM: Prototype-based Reasoning with Inter-modal Semantic Mining for Interpretable Image Recognition
-
PRISM 给传统纯视觉的原型网络(ProtoPNet 系列)补上一路语言监督:用 CLIP + 信息瓶颈做一张「文本条件下的归因图」当软标签,把视觉原型隐式锚到语义有意义的图像区域上,再加一个基于熵的空间紧凑约束让不同原型各管一块互不重叠,在 CUB / Stanford Dogs 细粒度分类上同时提升了精度和原型可解释性。
- Rethinking Concept Bottleneck Models: From Pitfalls to Solutions
-
提出 CBM-Suite 框架,系统性解决概念瓶颈模型的四大缺陷——缺乏概念相关性预评估指标、线性问题导致概念瓶颈被绕过、与黑盒模型的精度差距、以及不同视觉骨干/VLM 影响的研究空白——通过熵度量、非线性层和蒸馏损失显著提升 CBM 的精度与可解释性。
- RiskProp: Collision-Anchored Self-Supervised Risk Propagation for Early Accident Anticipation
-
提出 RiskProp,一种以碰撞帧为锚点的自监督风险传播范式,通过未来帧正则化损失和自适应单调约束损失,仅依赖碰撞帧标注即可学习时序连贯的风险演化曲线,在 CAP 和 Nexar 数据集上达到 SOTA。
- Rounded or Streamlined Head? Bridging Concept Bottleneck Models and Attribute-Described Object Parts
-
针对 VLM 驱动的概念瓶颈模型(CBM)"把概念定位错地方"和"把概念定位到无关物体上"两类不一致问题,本文提出 OA-CBM:用 LLM 把概念重写成"部件-属性"对并据此构建两个分割数据集、用层次聚类模块产出类无关的前景物体掩码压制背景、用代价聚合模块稳定视觉-概念对应,使概念定位 h-IoU 在最难的 Pred-All 设置下从 9.8 提到 35.7,分类精度同步提升约 2.9%。
- SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World
-
提出 SafeDrive 端到端规划框架,通过轨迹条件化的稀疏世界模型(SWNet)模拟关键实体的未来行为,再由细粒度推理网络(FRNet)进行逐实例碰撞评估和逐时刻可行驶区域合规评估,在 NAVSIM 上 PDMS 达 91.6、仅 0.5% 碰撞率,Bench2Drive 驾驶分 66.8%。
- Selection-as-Nonlinearity: Bridging Attention and Activation via a Joint Game-Decision Lens for Interpretable, Discriminative Visual Representations
-
这篇论文提出 SaN(Selection-as-Nonlinearity)视角,把注意力重新理解成"在单位预算约束下、由上下文打分驱动的合作式选择博弈",用它诊断出"去掉 FFN 后纯注意力栈大幅掉点"的弱独立性现象源于两个结构张力,并据此设计了几乎零开销的补偿模块 CSaN(分层预算校准 + 公私协作读出),让 Swin / ViT / Hiera 的小模型在 ImageNet 上追平甚至超过约 2 倍大的同族大模型。
- TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment
-
提出TDATR框架,通过"先感知后融合"策略和结构引导的单元格定位模块,在有限标注数据下实现端到端表格识别,在7个基准上无需数据集特定微调即达到SOTA。
- VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension
-
VIRO在神经符号REC管道中嵌入轻量算子级验证机制(CLIP不确定性验证+空间逻辑验证),使每个推理步骤能自我验证并在无目标时提前终止,在零样本设置下以61.1%平衡准确率大幅超越组合推理baselines,同时保持0.3%以下的程序失败率和高效推理速度。
- When Do Models Actually Decide? Mapping the Layer-Wise Decision Timeline in Pretrained Neural Networks
-
作者在 ResNet-18/50/101(外加 ViT-B/16、ConvNeXt-Tiny)的每个锚点层训练线性探针,追踪每张 ImageNet 图像的预测在第几层"定下来",发现网络存在强烈的双峰决策分布和集中在最后残差阶段的"语义相变",并据此泼了一盆冷水:基于稳定性的早退出几乎换不到真实的加速—精度收益。
- Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
-
作者发现多语言文生图模型在"只给名词"的提示下会产出文化中立或偏英语的图,并通过注意力 + 稀疏自编码器探针证明这是"激活不足"而非"知识缺失"——文化信号其实只集中在文本编码器的少数几层、少数几个神经元里;据此提出免训练放大这些神经元和只微调文化层两种轻量方案,在自建的 15 国基准 CultureBench 上把文化识别准确率(CultureVQA)从 ~22 提到 36.6。