Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies¶

会议: ICLR 2026
代码: https://github.com/akekic/targeted-causal-reduction.git
领域: 可解释性 / 因果推理 / 强化学习
关键词: 可解释强化学习, 策略级解释, 因果模型约简, 干预一致性, 非线性 TCR

一句话总结¶

把"为什么这个 RL 策略会成功或失败"建模成因果模型约简问题：通过对动作注入随机扰动作为干预，学一个只有"高层原因 Z→高层目标 Y"两个变量的简化因果模型，用非线性扩展的 Targeted Causal Reduction (nTCR) 提炼出真正影响累计奖励的状态/动作模式，从而给出全局、因果、可解释的策略行为解释。

研究背景与动机¶

领域现状：随着 RL 被部署到自动驾驶、推荐、机器人等高风险场景，理解"训练好的策略到底学到了什么行为"成为安全与可信的刚需。在 XRL（可解释强化学习）的分类里，Milani 等人把方法分成特征重要性、学习过程分析、以及策略级解释（PLE）三类，其中 PLE 关注整体行为是否符合人类预期——当策略在仿真里训练再迁移到真实世界时，操作者必须先认同它的"整体打法"，而这正是单步解释做不到的。

现有痛点：策略级解释极难获得。RL 用参数庞大的神经网络把高维观测映射到逐步动作，单步动作对最终结果的影响是间接的、反直觉的；更糟的是信用分配问题——状态和动作之间的动态依赖会制造与结果的虚假相关，让某些特征"能预测结果却并不导致结果"。直接对轨迹做相关性分析会被这些 spurious correlation 误导。

核心矛盾：要解释全局行为就需要因果而非相关；但已有因果抽象（causal abstraction）理论大多只给出"什么是合法抽象"的形式化条件，很少回答"如何从复杂低层系统学出这个抽象"。前作线性 TCR 给了可学习的目标函数，却把 τ、ω 映射限制成线性，无法刻画 RL 中普遍存在的非线性关系。

本文目标：在保持可解释性与因果一致性的前提下，把 TCR 推广到非线性，并给出理论保证，使学到的解释"反映真实因果模式"而非过拟合产物。

核心 idea：【因果视角】 把一整段 RL 轨迹（状态/动作/奖励）当作低层因果模型的变量，【主动干预】 在执行时对动作注入随机扰动 \(\delta A_t\) 作为 shift 干预，【模型约简】 学一个映射 \(\tau\) 把低层模型压成"高层原因 \(Z\) → 目标 \(Y\)（累计奖励）"的两变量模型，让它在干预下的响应与原系统近似一致（interventional consistency），最终用可解释的 \(\tau,\omega\) 回答"是哪些状态/动作模式、在哪些时刻最影响成败"。

方法详解¶

整体框架¶

nTCR 把"解释策略"形式化为 Causal Model Reduction：低层是完整的"动作-环境-奖励"因果链，高层只保留待学的标量原因 \(Z=\tau_1(X_{\pi(1)})\) 和预设的目标 \(Y=\tau_0(X_{\pi(0)})=\sum_t R_t\)。训练信号是让"先在低层干预再映射到高层"与"先映射到高层再干预"两条路径得到的分布近似相等（图 1b 的近似交换图），从而把"什么导致奖励变化"的解释强制流经高层原因 \(Z\)。

flowchart LR
    subgraph LOW[低层因果模型 L]
        A["动作 A_t + 扰动 δA_t"] --> S["状态 S_t"]
        S --> R["奖励 R_t"]
    end
    A -. "干预 I=δA" .-> OMG["ω: 干预映射"]
    LOW -- "τ: 约简映射" --> HIGH
    subgraph HIGH[高层因果模型 H]
        Z["高层原因 Z"] -->|"线性系数 α"| Y["目标 Y = ΣR_t"]
    end
    OMG --> Z
    HIGH -. "干预一致性损失 + 正态正则" .-> LOSS["L_total = L_cons + η·L_norm"]

关键设计¶

1. 把 RL 轨迹翻译成可干预的因果约简问题：用动作扰动当 shift 干预。 RL episode 天然是因果链：观测→动作→环境变化→新状态与奖励。要识别"某个动作对全局表现的因果影响"，就得观察反事实——"如果当时动作不同会怎样"。nTCR 的做法是在策略选出的每个动作 \(A_t\) 上加一个小随机偏移 \(\delta A_t\sim\mathcal N(0,\sigma_t)\) 再送入环境，生成轨迹 \((S_0, A_0+\delta A_0, R_1,\dots)\)。这些扰动正好对应 SCM 里的 shift 干预（把结构方程 \(X_l:=f_l(\cdot)\) 改成 \(X_l:=f_l(\cdot)+i_l\)），在连续状态/动作的物理仿真里可解释为"额外施加的力或动量"。于是低层变量被划成两组：状态与动作 \(X_{\pi(1)}\)、奖励 \(X_{\pi(0)}=R\)，干预只作用在动作上 \(I_{\pi(1)}=(\delta A_0,\dots,\delta A_{T-1},0,\dots)\)，目标变量是累计奖励 \(Y=\sum_{t=1}^T R_t\)，这样就能直接套 TCR 学出"哪些状态/动作最影响表现"。

2. 干预一致性 + 正态正则：让非线性约简既忠实又不退化。 一致性损失要求高层模型在干预下的分布与低层 push-forward 分布匹配：\(L_{\text{cons}}=\mathbb E_{i\sim P_I}\big[D(\hat P^{(i)}_\tau(Y,Z)\,\|\,P^{(\omega(i))}_H(Y,Z))\big]\)，其中 \(\hat P^{(i)}_\tau=\tau_\#[P_L^{(i)}]\)。但线性 TCR 用的高斯近似散度并不强制分布完全对齐——一旦映射变非线性，高层原因 \(Z\) 可能被学成高度非高斯、难解释的形状。为此作者加了正态正则：先把 \(\hat P^{(i)}_\tau(Z)\) 标准化到零均值单位方差，再用与标准正态的 1-Wasserstein 距离度量偏离 \(L_{\text{norm}}=\mathbb E_i\big[\int|F_{\hat P^{(i)}_{\tau,\text{std}}(Z)}(x)-\Phi(x)|\,dx\big]\)。总目标 \(L_{\text{total}}=L_{\text{cons}}+\eta_{\text{norm}}L_{\text{norm}}\)，既逼近干预一致，又把高层原因约束成简单的单峰高斯，便于解读；\(\eta_{\text{norm}}\) 控制两者权衡。

3. 非线性的唯一性与存在性保证：让解释"不模棱两可"。 非线性放开了函数空间，带来过拟合与不可辨识（多个约简同时成立）的风险，会直接毁掉可解释性。本文给出两条理论：唯一性（Prop. 4.1）——若低层是加性噪声 SCM、噪声密度的傅里叶变换处处非零、且高层因果效应 \(\alpha\neq0\)，则任何对所有 \(i_{\pi(1)}\) 都精确（exact）的构造性变换，在乘法与加法常数意义下唯一；存在性（Prop. 4.2）——构造了一类满足联合高斯噪声、\(f_0\) 具特定加性结构的低层模型，其精确变换可显式写成 \(\bar\tau_1(X_{\pi(1)})=a^\top B(X_{\pi(1)}-f_1(X_{\pi(1)}))\)、\(\bar\omega_1(i_{\pi(1)})=a^\top B\,i_{\pi(1)}\)。虽然真实仿真未必满足这些条件（故实际仍用近似一致性目标），但这两条结论给了"解释唯一、可被验证"的理论底座，并用于合成实验里校验算法是否收敛到真解。

4. 可解释的非线性函数类：用高斯核基把权重映射回"哪个特征、哪个时刻"。 纯非线性映射很难说清"高层原因到底代表什么"。作者利用 RL 轨迹的时间结构，把状态/动作按特征 × 时间步分解，并把 \(\tau_1\) 写成高斯核基的加权和：\(\tau_1(X)=\sum_{j=1}^d\sum_{t=1}^T w_{j,t}\cdot\exp\big(-(x-\mu_{j,t})^2/2\sigma^2_{j,t}\big)\)，其中 \(\{\mu_{j,t},\sigma_{j,t}\}\) 固定、跨越典型取值范围，只学权重 \(w_{j,t}\)。这相当于对"变量-取值对"做连续 one-hot 编码，核宽与核数控制偏差-方差权衡。最大好处是可读：直接看 \(w_{j,t}\) 就能指出"哪个特征在哪个时刻最显著地贡献了高层因果解释"，\(\omega_1\) 在干预空间上同理定义。

实验关键数据¶

主实验（三个场景）¶

场景	设置	nTCR 揭示的关键模式
合成因果模型	10 个按 Prop. 4.2 采样的低层模型，\(\dim(X_0)=2,\dim(X_1)=9\)	一致性损失收敛到近零，τ/ω 辨识损失收敛到理论真解，验证唯一性定理与实现正确
Pendulum 摆起控制	状态 (cosθ, sinθ, 角速度)，动作为力矩	Policy A 存在方向偏置——顺时针起摆奖励显著高于逆时针（尽管环境关于重力轴镜像对称、初始角均匀采样）；Policy B 的 ω-map 指出末段应施加更负力矩以防失稳
机器人乒乓	4-DoF 气动肌肉机械臂回球，状态含关节角/速/气压+球位速，动作为 8 块肌肉的目标压力变化	关节 0 的 τ-map 区分"先后摆再迎球"(高奖励) vs "过早前摆"(低奖励)；球越靠边/越远/越近网越难打

合成实验（理论验证）¶

指标	nTCR	linear TCR
训练一致性损失	→ 近零	收敛但更高（线性表达力受限）
τ 辨识损失（对真解）	→ 0	—
ω 辨识损失（对真解）	→ 0	—

关键发现¶

能发现人难以察觉的隐性偏置：Pendulum Policy A 的顺/逆时针不对称（Condition 1 vs 2 平均奖励 −30.38 vs −28.01）在对称环境下本不该出现，nTCR 把它显式暴露出来。
解释可被独立验证：乒乓任务中 τ-map 指出"球偏外/偏远更难打"，与 400 个漏接球的实际落点分布（更多偏上、偏左/外侧）一致。
ω-map 给出可执行的改进方向：Policy B 末段"施加更负力矩"的建议被后续轨迹分析证实能避免摆体翻倒。

亮点与洞察¶

从"相关解释"升级到"因果解释"：主动注入动作扰动当干预，绕开了状态-动作动态依赖制造的虚假相关，这是策略级解释最容易踩的坑。
理论与可解释性绑在一起：唯一性/存在性证明不是装饰，而是直接服务于"解释不模棱两可"这个工程诉求，并在合成实验里被当作 ground-truth 校验工具。
高斯核基是点睛之笔：把不可读的非线性映射重新表达成"特征×时刻"的权重图，让解释天然可视化、可定位到具体时间窗口。
正态正则补上了线性 TCR 的理论漏洞：非线性放开后分布会退化，用 1-Wasserstein 到标准正态的距离把高层原因拉回单峰，兼顾忠实度与可读性。

局限与展望¶

依赖动作可扰动的仿真环境：方法建立在"能对动作注入 shift 干预并重采样轨迹"之上，主打连续状态/动作的物理仿真；难以直接用于离散动作、或不能反复干预的真实在线系统。
只有单个高层原因 + 线性 Z→Y：高层模型被约束成两变量、\(Z\to Y\) 线性加性高斯，复杂策略里可能存在多个相互作用的高层因素，单原因解释会有信息损失（论文将多原因一般情形留在附录）。
精确变换条件现实中难满足：唯一性/存在性定理依赖加性噪声、傅里叶非退化等假设，真实仿真未必成立，实际只能退而求"尽量一致"的近似解，解释的因果保真度依赖近似质量。
核基与扰动尺度需调：核宽/核数控制偏差-方差，扰动方差 \(\sigma_t\) 与正则强度 \(\eta_{\text{norm}}\) 都是超参，选取会影响解释的粒度与稳定性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把策略级解释形式化为因果模型约简、并给出非线性 TCR 的唯一性/存在性理论，视角与理论都很新。
实验充分度: ⭐⭐⭐⭐ 合成（验理论）+ Pendulum + 真实风格机器人乒乓三层递进，且解释能被独立分析证实；但缺与其他 XRL/PLE 方法的定量横向对比。
写作质量: ⭐⭐⭐⭐ 图 1 把整条 pipeline 讲得很清楚，理论与直觉穿插；符号较密、部分关键细节下放附录。
价值: ⭐⭐⭐⭐ 为 RL 可信部署提供了一条"因果、全局、可验证"的解释路径，机器人/控制场景实用性强，理论也可迁移到更广的系统解释问题。