🔗 因果推理¶

🔬 ICLR2026 · 63 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (4) · 💬 ACL2026 (7) · 🧪 ICML2026 (19) · 🤖 AAAI2026 (7) · 🧠 NeurIPS2025 (20) · 📹 ICCV2025 (2)

🔥 高频主题： 对抗鲁棒 ×4 · LLM ×3 · 时序预测 ×2 · 推理 ×2

A Relative Error-Based Evaluation Framework of Heterogeneous Treatment Effect Estimators: 本文提出一套基于相对误差的 HTE 估计器评估框架：通过精心设计的加权最小二乘损失 + 平衡正则项 + Dragonnet 式神经网络，使相对误差估计在结果回归模型设定错误时仍保持 \(\sqrt{n}\) 一致、渐近正态、置信区间有效（只需倾向得分模型正确），从而可靠地比较不同 HTE 估计器；并顺带衍生出一个聚合式 HTE 学习算法。
Action-Guided Attention for Video Action Anticipation: 提出动作引导注意力 (AGA) 机制，用模型自身的动作预测序列作为注意力的 Query 和 Key（而非像素特征），结合自适应门控融合历史上下文和当前帧特征，在 EPIC-Kitchens-100 上实现从验证集到测试集的良好泛化，同时支持训练后的可解释性分析。
ActiveCQ: Active Estimation of Causal Quantities: ActiveCQ 把"用尽量少的标注样本估准某个因果量（CATE/ATE/ATT/分布漂移下的 ATE）"这件事统一成一个主动学习问题：发现绝大多数因果量都可以写成"回归函数对某个分布求积分"的形式，于是用高斯过程（GP）建模回归函数、用 RKHS 里的条件均值嵌入（CME）建模那个积分用的分布，再从因果量后验不确定性里解析地推出采集函数（信息增益 / 全方差缩减），在多个模拟与半合成数据集上以更少标注显著超过随机、BALD、Coreset 等基线。
Adjusting Prediction Model Through Wasserstein Geodesic for Causal Inference: 针对因果推断里"实验组和对照组分布失衡导致预测模型无法跨组泛化"的问题，本文提出 G-learner：不再像主流方法那样去对齐协变量（会丢掉预测信息、产生 over-balancing），而是沿着两组分布之间的 Wasserstein 测地线生成一串中间群，再用渐进自训练把预测模型从一组逐步搬到另一组，在 News/Twins/Jobs 和仿真数据上把 PEHE/ATE 误差压到 SOTA 或与之持平。
ALM-MTA: Front-Door Causal Multi-Touch Attribution Method for Creator-Ecosystem Optimization: 针对短视频平台「消费驱动创作」场景中无真值标签、又存在系统级隐混淆的归因难题，本文用前门准则 + 对抗式学习的代理中介把每个消费触点对「用户是否上传」的因果 uplift 识别出来，并用对比学习保证大动作空间下的 overlap，在快手 4 亿 DAU 真实系统上把上传 AUC 提到 0.907（相对 SOTA +40%）、单位曝光效率提升 670%。
An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes: 将因果推断中的半参数效率理论系统引入MDP的Q函数估计，证明经典的Q-regression和FQE本质上是有plug-in偏差的朴素学习器，并提出DRQQ-learner——一个同时具备双重鲁棒性、Neyman正交性和准oracle效率的元学习器，通过推导有效影响函数(EIF)构造去偏二阶段损失，在Taxi和Frozen Lake环境中全面超越基线方法。
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning: 本文指出大规模多模态数据并不服从单一有向无环图（DAG）的生成假设，提出一个用"无向边连接两组潜在耦合变量"的潜在偏因果模型，并在球面和凸体两种潜在空间上证明：CLIP 这类多模态对比学习（MMCL）学到的表示与真实潜变量分别相差一个线性正交变换 / 置换变换，从而第一次给出 MMCL 的"逐分量解耦"理论保证，并把它落到 FastICA / PCA+FastICA 这种即插即用的解耦流程上，在少样本学习和域泛化上拿到提升。
CARL: Preserving Causal Structure in Representation Learning: CARL 研究跨模态表征学习中的因果结构漂移问题，通过条件独立保持、Markov 边界保留和单调对齐一致性三类约束，把多模态数据映射到共享表征空间时尽量保住原始因果图中的独立关系、媒介变量信息和因果效应可识别条件。
CaTs and DAGs: Integrating Directed Acyclic Graphs with Transformers for Causally Constrained Predictions: 本文提出 Causal Transformer (CaT)，把一张预先给定的因果有向无环图（DAG）的邻接矩阵作为掩码注入到 transformer 的交叉注意力中，让网络在保留强函数逼近能力的同时严格遵守因果结构，从而对协变量漂移更鲁棒、更可解释，并能直接估计干预效应。
Causal Discovery in the Wild: A Voting-Theoretic Ensemble Approach: 把若干个因果发现算法当成"会犯错的投票专家"，用投票理论给结构集成建立一套有理论保证的加权贝叶斯投票框架——通过把图拆成边级子结构、再用最优传输估计每个专家的"能力矩阵"，最终在合成与真实数据上比现有启发式集成方法更稳更准，并给出了集成规模/能力/多样性该怎么选的明确指导。
Causal Discovery via Quantile Partial Effect: 这篇论文把条件分位数回归里的 Quantile Partial Effect（QPE）作为观测分布的形状统计量，用有限基函数张成假设给出双变量因果方向可识别性，并进一步把 QPE 与 score function / Fisher 信息联系起来，得到一个用于多变量因果排序的高效非参数算法 FICO。
Causal Imitation Learning under Expert-Observable and Expert-Unobservable Confounding: 本文提出一个统一的因果模仿学习框架，把"专家能看到但模仿者看不到"和"专家与模仿者都看不到"两类隐混杂同时建模，用 \(k\) 步轨迹历史当工具变量把问题改写成条件矩约束（CMR）问题，并给出带模仿差距上界保证的 DML-IL 算法，在含混杂的 MuJoCo 等连续控制任务上超过现有因果 IL 基线。
Causal Score Conditioning for Multi-Resolution Latent Systems: 本文提出 SVGDM，把基于分数的扩散嵌进因果有向图，用「因果分数分解」让信息沿因果边在不同分辨率、不同噪声水平的观测之间传播，从而在异质、不完整观测下联合反演多个相互依赖的隐变量（如地震→滑坡→建筑损毁）。
Characterization and Learning of Causal Graphs with Latent Confounders and Post-treatment Selection from Interventional Data: 本文指出干预因果发现中一个长期被忽视的难题——后处理选择（intervention 后才按质控标准筛样本，如单细胞实验只保留高活性细胞），它会伪装成因果响应使现有方法把"有无直接因果边"误判为同一等价类；作者用增广 DAG 显式建模选择变量，提出比传统等价类更细的 FI-Markov 等价与新图表示 F-PAG，并给出可证明 sound & complete 的 F-FCI 算法，能从观测+干预数据中同时辨认因果关系、潜在混杂与后处理选择。
Coarse-to-Fine Learning of Dynamic Causal Structures: 本文提出 DyCausal，用滑动卷积窗口先捕捉时间序列在「粗粒度」若干时间步上的因果结构，再用一阶 Taylor 线性插值把因果矩阵细化到每个时间步，并配上一个基于矩阵 1-范数缩放的「永远可微」无环约束 \(h_\text{norm}\)，从而第一次稳定高效地恢复出全动态（瞬时与滞后因果都随时间变化）的时变因果图，在合成与真实数据上全面超过现有方法。
Conditional Independent Component Analysis for Estimating Causal Structure with Latent Variables: 本文提出条件独立成分分析（CICA）这一新原则——在给定若干隐变量的条件下分离出互相条件独立的成分——并证明只要取它最稀疏的解再做一次行置换，就能在含隐混淆的线性非高斯无环模型中识别出隐变量位置与全部因果边，从而突破了 GIN/TIN 等方法对"纯净结构"假设的依赖。
Conformalized Survival Counterfactuals Prediction for General Right-Censored Data: 在「一般右删失 + 不同治疗方案」的临床场景下，本文用势结果框架 + 加权 conformal prediction 为反事实生存时间构造下预测界 (LPB)，把先前方法只能给出的 PAC 近似覆盖升级为精确边际覆盖，且对模型设定误差具有双重稳健性。
Counterfactual Explanations on Robust Perceptual Geodesics: 提出 PCG（Perceptual Counterfactual Geodesic）方法，在鲁棒感知流形上通过测地线优化生成语义忠实的反事实解释，两阶段优化确保路径既感知自然又达到目标类别，在 AFHQ 上 FID=8.3 远优于 RSGD 的 12.9。
Counterfactual LLM-based Framework for Measuring Rhetorical Style: 这篇论文提出一个反事实 LLM 测量框架：在固定论文方法、实验和结果等实质内容 \(X\) 的前提下，让不同修辞 persona 生成同一论文的反事实摘要，再用 LLM Judge 的成对比较和 Bradley-Terry 模型把抽象的“修辞强度” \(Z\) 标定成连续分数；在 8,485 篇 ICLR 投稿上的实证分析显示，更强的愿景式修辞显著预测引用和媒体关注，并且 2023 年后的修辞增强与 LLM 写作辅助采用高度相关。
Counterfactual Structural Causal Bandits: 本文把结构因果 bandit（SCB）从 Pearl 因果层级的 L1/L2（观测+干预）层提升到 L3（反事实）层，提出 CTF-SCB 框架，把"如果某下游变量当初听到的是 \(x'\) 而非 \(x\) 会怎样"这类可实现的反事实动作纳入臂空间，并用一套图论刻画（CTF-MIS / CTF-POMIS / 反事实 regime 图）把指数级的臂空间剪到只剩"可能最优"的代表性子集，配标准 bandit 求解器即可拿到更低的累积 regret。
Debiased Front-Door Learners for Heterogeneous Effects: 本文把 back-door 设定下成熟的 DR-Learner 与 R-Learner 移植到前门(front-door)识别场景，提出 FD-DR-Learner 和 FD-R-Learner 两个去偏估计器，即使 nuisance 函数只以 \(n^{-1/4}\) 的慢速率收敛，条件前门效应 \(\tau(C)\) 仍能达到 quasi-oracle 速率。
Designing Time Series Experiments in A/B Testing with Transformer Reinforcement Learning: 针对"在时序实验里如何分配处理（新策略 vs 旧策略）才能让 ATE 估计的 MSE 最小"这个 A/B 测试设计问题，本文先用一个不可能性定理证明"不看全历史的分配策略必然次优"，再用 Transformer 把全历史编码成状态、用 double deep Q-network 直接以 MSE 作为（负）奖励来学最优分配策略，在合成数据、派单模拟器和真实网约车数据上 MSE 一致低于各类 switchback / MDP 设计。
Direct Doubly Robust Estimation of Conditional Quantile Contrasts: 提出首个对条件分位数比较器 (CQC) 的直接估计方法，通过显式参数化 CQC 并结合双重鲁棒梯度下降，在理论上保持双重鲁棒性的同时，实验中在估计精度、可解释性和计算效率上全面优于现有的间接反演方法。
Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: 首次在线性非高斯设定下、不依赖任何结构假设，给出了含潜变量和环的因果图之间分布等价性的完整图准则，核心工具是新提出的边秩约束（edge rank constraints），据此开发了遍历等价类和从数据恢复因果模型的算法——这是参数化因果模型中首个无结构假设的等价性刻画和发现方法。
Efficient and Sharp Off-Policy Learning under Unobserved Confounding: 本文为"存在未观测混淆"的个性化离线策略学习推导了价值函数锐界的闭式表达 + 半参数有效估计量，把原本不稳定的 minimax 优化化简为一次普通最小化，并证明最小化该估计量即可得到最优的混淆鲁棒策略。
Efficient Ensemble Conditional Independence Test Framework for Causal Discovery: 提出 E-CIT（集成条件独立性检验）框架，通过将数据分割为子集后独立执行检验并基于稳定分布的 p 值聚合方法合并结果，将任意条件独立性检验的计算复杂度降至关于样本量线性，同时在重尾噪声和真实数据等复杂场景下保持甚至提升检验功效。
Exploratory Causal Inference in SAEnce: 本文提出"探索性因果推断"范式：不再让科学家事先假设要测什么效应，而是用基础模型+稀疏自编码器把高维原始观测（如蚂蚁行为视频）映射成可解释的神经通道，再用一个名为 Neural Effect Search 的递归分层检验算法，从数据里自动发现随机对照试验中被处理（treatment）真正影响的未知结果变量。
Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models: 系统研究偏好模型对五种表面特征（冗长、结构化、术语、谄媚、模糊）的过度依赖——通过因果反事实对量化偏差来源于训练数据的分布不平衡，并提出基于反事实数据增强 (CDA) 的后训练方法，将模型与人类判断的平均失校准率从 39.4% 降至 32.5%。
Foundation Models for Causal Inference via Prior-Data Fitted Networks: CausalFM 把"表格基础模型"PFN 搬到因果推断：用结构因果模型（SCM）造合成先验、在合成数据上预训练一个 Transformer，使其能在不重训的情况下，通过 in-context learning 对后门 / 前门 / 工具变量三类设定直接给出贝叶斯式的 CATE 估计。
Frequency-Domain Better than Time-Domain for Causal Structure Recovery in Dynamical Systems on Networks: 针对网络化动态系统的因果图恢复，本文从理论上证明频域 Wiener 滤波比时域更快（FFT 带来 \(O(L^2/\log N)\) 加速），并发现频域复数估计独有的相位信息可在一大类网络上直接读出骨架与共同子节点（colliders），由此提出无需组合式 CI 测试的 "Wiener-Phase" 算法。
Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition: 通过 off-by-one addition（如 1+1=3, 2+2=5）这一反事实任务，利用 path patching 发现大语言模型内部存在 function induction 机制——一种超越 token 级别 pattern matching、在函数级别进行归纳推理的注意力头电路，并证明该机制可跨任务复用。
GDR-learners: Orthogonal Learning of Generative Models for Potential Outcomes: 提出一套通用的 Neyman-正交（双重稳健）生成式学习器 GDR-learners，能把任意 SOTA 条件生成模型（归一化流 / GAN / VAE / 扩散）套进一个两阶段、对 nuisance 估计误差一阶不敏感的目标损失，从而以"准 oracle 效率 + 速率双重稳健"的姿态估计潜在结果的整条条件分布（而非仅期望）。
Good Allocations from Bad Estimates: 本文证明了一个反直觉的结论：给少数群体分配有限干预名额（treatment allocation）所需的样本量，比精确估计每个群体的处理效应（CATE）少一个 1/ϵ 的因子——只需 \(O(M/\epsilon)\) 而非 \(O(M/\epsilon^2)\) 个样本，因为「粗糙的估计足以做出近最优的分配决策」。
Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference: 提出 CausalPitfalls 基准，用 6 大类、15 项挑战、75 道题和 75 个由结构因果模型生成的数据集，系统检验 LLM 是否会掉进辛普森悖论、选择偏差等经典统计陷阱，并发现即便最强模型的"因果可靠性"也不足 45%。
IGC-Net for Conditional Average Potential Outcome Estimation Over Time: 提出 IGC-Net：第一个用纯回归式迭代 G-computation 端到端估计时序条件平均潜在结果(CAPO)的神经网络，既正确校正时变混杂、又绕开逆倾向权重的除零不稳定和 G-Net 对全分布的高维估计。
Independence Test for Linear Non-Gaussian Data and Applications in Causal Discovery: 本文证明在线性非高斯混合模型中，只要条件均值和条件方差都为常数就足以推出独立性，并据此提出对一阶、二阶条件矩同时敏感的核独立性检验 LiNGIC，在合成数据和 Direct-LiNGAM 因果发现中比通用 HSIC 等检验有更高统计功效。
Influence without Confounding: Causal Discovery from Temporal Data with Long-term Carry-over Effects: 针对时序数据中"远古历史值直接影响当下"导致的虚假因果（长程 carry-over 混淆），本文先用证明把"OLS 打分→QR 分解的 R 矩阵对角线"与真实拓扑序绑定，再用有限步历史回归残差消除长程混淆，最后用 DQN 以 R 矩阵为状态高效搜索最优变量序，提出 LEVER 方法。
Journey to the Centre of Cluster: Harnessing Interior Nodes for A/B Testing under Network Interference: 针对网络干扰下 A/B 测试中 GATE 估计的高方差问题，提出 Mean-in-Interior (MII) 估计器——仅对 cluster 内部节点取均值，大幅降低方差；再通过反事实预测器进行协变量偏移校正，得到增广版 AMII 估计器，同时实现低偏差和低方差。
Learning Dynamic Causal Graphs Under Parametric Uncertainty via Polynomial Chaos Expansions: 把每条因果边的强度从"静态权重"升级成"操作参数 \(\xi\) 的函数"，用多项式混沌展开 (PCE) 把这个函数学出来，从而发现随运行工况动态变化的因果结构，并给出可证明的可识别性与收敛保证。
Learning Exposure Mapping Functions for Inferring Heterogeneous Peer Effects: 本文提出 EGONETGNN，用图神经网络自动学习网络同伴效应中的"暴露映射函数"（exposure mapping function），无需人工指定"被多少治疗过的邻居影响"，从而在影响机制未知、依赖局部结构（三角、聚类系数、属性相似度）时仍能稳健估计异质同伴效应。
Learning Robust Intervention Representations with Delta Embeddings: 提出因果 Delta 嵌入（CDE）框架，将干预/动作表示为预干预和后干预状态在潜空间中的向量差，通过独立性、稀疏性和不变性三种约束学习鲁棒的干预表示，在 Causal Triplet 挑战中显著超越基线的 OOD 泛化性能，且能自动发现反义动作的反平行语义结构。
LLMs Struggle to Balance Reasoning and World Knowledge in Causal Narrative Understanding: 通过在「世界知识冲突」和「图推理复杂度」两个轴上可控生成因果叙事，作者发现 SOTA LLM 在因果叙事理解中依赖两条捷径（事件出场顺序 = 因果顺序、套用参数化常识），而 CoT/ICL 都救不了，唯有「先让模型抽出整张因果图、再用图遍历回答」能绕开捷径。
Matching without Group Barrier for Heterogeneous Treatment Effect Estimation: MOGA 打破匹配方法"只能在目标处理组里找邻居"的组别壁垒，把全体样本都纳入候选池，用一个自最优传输（self optimal transport）模型学匹配权重、用随机游走在流形上传播事实结果来预测反事实结果，从而在样本稀疏、组间分布偏移大的情况下也能找到足够近的邻居，显著提升异质处理效应估计精度。
Meta-Router: Bridging Gold-standard and Preference-based Evaluations in LLM Routing: 把"金标准评测 vs 偏好评测"两种数据源的差异重新诠释为因果推断里的处理分配（treatment assignment），从而证明偏好数据的偏差恰好等于条件平均处理效应（CATE），并用 R-/DR-learner 元学习器把这个偏差估计出来、纠正掉，训练出一个又准又省样本的 LLM 路由器。
Modeling Interference for Treatment Effect Estimation in Network Dynamic Environment: 本文针对"动态网络 + 邻居干扰"双重挑战，定义了新的可识别估计量 CATE-ID，并提出 DSPNET 框架，用 GCN+RNN 捕获时变隐藏混杂、用数据驱动的干扰表征建模溢出效应、再用梯度反转层平衡混杂表征，从观测性动态网络数据中无偏估计个体处理效应。
Multiverse Mechanica: A Testbed for Learning Game Mechanics via Counterfactual Worlds: 把"游戏世界模型是否真学会了游戏规则（机制）"这个原本只能事后肉眼判断的模糊问题，重新形式化为一个因果反事实推断任务，并发布了一个能原生吐出"平行世界对比数据 + 每条机制对应因果图"的可玩游戏测试床 Multiverse Mechanica，让"学机制"而非"学像素"第一次变得可定义、可监督、可复现地评测。
NextQuill: Causal Preference Modeling for Enhancing LLM Personalization: NextQuill 把 LLM 个性化重新看作一个因果问题——模型预测和用户真实回复都是「用户历史/特征 × 上下文」共同作用的结果，用因果效应（do-calculus）把其中真正由偏好驱动的部分分离出来，并设计两个对齐损失只学这部分，从而做出比无差别对齐更深的个性化。
On Measuring Influence in Avoiding Undesired Future: 本文为「避免坏未来」(AUF) 问题提出一个新的影响力度量 influence power (InP)——衡量「主动改动某个可操作变量」相比「让它自然发生」能把目标成功概率提高多少，并通过理论证明影响力与因果效应并不等价（弱因果甚至非因果变量也可能高度有用），最后用蒙特卡洛树搜索给出可从观测数据估计该量的实用算法。
On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study: 提出基于结构因果模型（SCM）的分解式评估框架，将 LLM 的反事实推理拆分为四个阶段（因果变量识别→因果图构建→干预识别→结果推理），在 11 个多模态数据集上系统诊断 LLM 在各阶段的能力瓶颈，并提出工具增强和高级 elicitation 策略来改善性能。
On the Identifiability of Causal Graphs with the Invariance Principle: 本文证明在机制不变、噪声分布跨环境发生足够方差缩放的条件下，任意非线性可逆结构因果模型的完整因果图可由基础环境加两个辅助环境唯一识别，并用跟随证明思路的合成实验验证了这一可识别性现象。
Overlap-Adaptive Regularization for Conditional Average Treatment Effect Estimation: 针对条件平均处理效应（CATE）估计中"低重叠区域"难学的老大难问题，本文提出 Overlap-Adaptive Regularization（OAR）：让两阶段元学习器第二阶段模型的正则化强度随重叠权重 \(\nu(x)\) 反比变化（重叠越低、正则越强），并给出可保持 Neyman 正交性的去偏版本 dOAR，在多组（半）合成数据上稳定优于"常数正则化"。
Overlap-Weighted Orthogonal Meta-Learner for Treatment Effect Estimation over Time: 本文提出 WO-learner（overlap-weighted orthogonal meta-learner），通过在训练样本上加一个"重叠权重"把估计聚焦到那些真正有可能接受目标干预序列的样本，并配套一个 Neyman 正交的加权总体风险函数，从而在时序处理效应估计中"重叠概率随预测步长指数衰减"的低重叠场景下保持稳定，在合成、半合成与真实数据上全面超越现有元学习器。
Privacy-Protected Causal Survival Analysis Under Distribution Shift: 针对"多中心生存数据不能直接汇集（隐私约束）、各站点分布又不一致"这一难题，本文用影响函数理论为每个外部源站点构造一个锚定到目标站点的局部估计量，再用带 \(\ell_1\) 惩罚的凸优化自适应地给各源站点加权（对齐的源加权、有偏的源权重压到 0），全程只传摘要统计量，得到一个双重稳健、且只要有一个源一致就严格更高效的目标人群生存函数估计。
Query-Specific Causal Graph Pruning under Tiered Knowledge: 本文提出一种利用「分层知识」(tiered knowledge) 从因果图中删边的方法，在保持 (条件) 因果效应可识别性不变的前提下，把识别问题约简到一张更小的子图上，并据此设计了一个 query-specific 因果发现算法，相比已有方法可获得指数级加速。
Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement: 提出 Knowledgeable-R1，一个基于强化学习的框架，通过联合采样参数知识（PK）和上下文知识（CK）的轨迹，结合局部/全局优势计算和自适应不对称优势变换，使 LLM 在 RAG 场景中能够抵抗误导性检索上下文的干扰，同时保留对可靠上下文的利用能力。
Score-based Greedy Search for Structure Identification of Partially Observed Causal Models: 本文提出第一个带可识别性保证的、面向含隐变量因果模型的分数贪婪搜索方法 LGES：先用似然分数 + 最小维度建立"代数等价"判据，再用 Generalized N Factor Model（GNFM）这一弱图结构假设把代数等价收紧到马尔可夫等价类，最后用两个删边算子驱动的两阶段贪婪搜索高效恢复包含隐变量在内的整张结构，在小样本和真实心理学数据上都优于现有约束类方法。
Self-Supervised Learning from Structural Invariance: 提出 AdaSSL，通过引入潜变量建模正样本对之间的条件不确定性，推导出互信息的变分下界，使 SSL 能够处理自然配对数据中的复杂（多模态、异方差）条件分布，在因果表征学习、细粒度图像理解和视频世界模型上均优于基线。
SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?: 提出SelfReflect度量指标——一个衡量LLM自述不确定性摘要与其真实内部答案分布之间差异的信息论距离，发现现代LLM普遍无法自主反映内部不确定性，但通过采样多个输出并反馈到上下文中可以生成忠实的不确定性摘要。
Stochastic Neural Networks for Causal Inference with Missing Confounders: 本文提出 CI-StoNet：用一个随机神经网络（StoNet）把因果 DAG 的马尔可夫分解直接编码进网络结构，再用自适应随机梯度哈密顿蒙特卡洛（SGHMC）一边插补缺失的隐混杂因子、一边估计稀疏网络参数，从而在「没观测到全部混杂因子」的观测数据上给出有模型级可识别性保证、且非线性建模能力强的因果效应估计。
Synthesising Counterfactual Explanations via Label-Conditional Gaussian Mixture Variational Autoencoders: 提出 L-GMVAE（标签条件高斯混合 VAE）和 LAPACE 算法，通过在潜空间中学习每个类别的多个高斯聚类中心，然后从输入潜表征到目标类别中心进行线性插值，生成路径式反事实解释，同时保证有效性、似合性、多样性和对输入扰动的完美鲁棒性。
TCD-Arena: Assessing Robustness of Time Series Causal Discovery Methods Against Assumption Violations: TCD-Arena 提出一个可扩展的时间序列因果发现鲁棒性测试套件，用 33 类逐步加剧的现实假设违反和约 3600 万次因果发现尝试系统评估 10 类方法，并发现不同算法的鲁棒性画像差异很大，简单集成在滞后图和摘要图上能进一步提升稳定性。
Theoretical Guarantees for Causal Discovery on Large Random Graphs: 这篇论文给"用随机单变量干预做因果定向"这件事，第一次推出了有限维度的偏差集中界（不是渐近一致性、也不是最坏情况界）：在稀疏 Erdős–Rényi 与广义 Barabási–Albert 随机图上，定向错误的假阴率（FNR）会随维度 \(d\) 增大而越来越集中、甚至消失，从而证明"高维 + 度数重尾异质"这两个常被当作障碍的性质，反而能内在地正则化因果发现。
Topological Causal Effects: 本文把因果处理效应定义在结局的拓扑结构上——用持续同调（persistence diagram）的幂加权 silhouette 函数刻画"处理引起的拓扑变化"，提出一个完全非参数、\(\sqrt{n}\) 速率的双稳健 AIPW 估计量，并基于函数型弱收敛和 silhouette 稳定性界构造了"是否存在拓扑效应"的形式化假设检验。