Neural+Symbolic Approaches for Interpretable Actor-Critic Reinforcement Learning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0XIsA0PxJM
代码: 待确认
领域: 可解释强化学习 / 神经符号
关键词: Actor-Critic, 规则集成, 可解释性, A2C, 正交梯度提升, 神经符号
一句话总结¶
NSAC 把 A2C 中黑箱的 actor 换成「加性规则集成」(additive rule ensembles),用神经网络 critic 估值、用一组 IF-THEN 规则直接做决策,并通过策略梯度 + 正交梯度提升在线学习规则,做到与 DQN/PPO/A2C 等黑箱方法相当的性能同时具备内生可解释性。
研究背景与动机¶
- 领域现状:基于神经网络的 actor-critic(A2C、PPO)凭借强大的函数逼近能力在高维状态-动作空间中表现出色,但 actor 本质是黑箱,无法揭示"为什么选这个动作"。在医疗、金融、法律等需要透明与合规的场景下,这一缺陷成为落地障碍。
- 现有痛点:符号化 RL 试图提供透明决策,但普遍存在三类问题——(i) 依赖预定义知识(专家规则、预训练教师),换个领域就失效;(ii) 后验解释失真:从黑箱教师蒸馏出决策树/规则,存在 size-fidelity 权衡,且后验解释器(如 SHAP)只标相关而非因果,扰动一下模型就翻盘;(iii) 表达过于复杂:符号回归/程序合成产生含三角函数、对数、程序语法的表达式,人类无法 simulate。
- 核心矛盾:神经网络的可扩展性/适应性 与 符号系统的透明性/可追溯性 难以兼得——纯符号难处理复杂性,纯神经无法解释。
- 本文目标:构造一个 actor-critic 框架,actor 直接由人类可读的规则构成、从环境交互中直接学习(不靠预定义知识、不靠后验蒸馏),同时性能不输黑箱 RL。
- 核心 idea:[神经 critic + 符号 actor] 让神经网络负责值估计这种"计算密集但不需解释"的部分,让加性规则集成承担"需要解释"的决策部分;[加性而非层级] 用扁平的规则集成代替决策树以回避树的可扩展性瓶颈;[正交梯度提升在线挖规则] 用 OGB 自动发现规则条件,仅需基础特征比较。
方法详解¶
整体框架¶
NSAC 保留 A2C 的 actor-critic 反馈环:critic 仍是神经网络 \(V_\phi(s)\),用 TD 误差最小化更新;actor 则被替换为「每个动作一组加性规则集成」。每个动作 \(a\) 对应一个集成 \(f_a(s)=\sum_{j=1}^{k} w_{a,j}q_{a,j}(s)\),直接预测该动作的优势值,再经 softmax 得到策略 \(\pi(a|s)=\frac{\exp(f_a(s))}{\sum_{a'}\exp(f_{a'}(s))}\)。每一步用 critic 算出的优势 \(A_t\) 作为学习信号,对被选中/未被选中的动作分别施加策略梯度,并配合「规则替换 + 正交梯度提升 + 全修正权重重算」迭代刷新规则集,使符号策略既反映真实决策又保持紧凑。
flowchart LR
S[状态 s] --> C[神经 Critic V_phi]
S --> A[符号 Actor: 每动作一组规则集成 f_a]
A -->|softmax| P[策略 pi a|s]
P --> ACT[执行动作 a]
ACT --> ENV[环境]
ENV -->|r, s'| TD[TD 误差 delta = r + gamma V_s' - V_s]
C --> TD
TD -->|更新| C
TD -->|优势 A_t| RU[规则替换 + OGB 挖新规则 + 全修正权重]
RU --> A
关键设计¶
1. 加性规则集成做 actor:用 IF-THEN 规则替换神经策略头,回避决策树的可扩展瓶颈。 不同于决策树的层级结构(树一大就难读),NSAC 为每个动作维护一个扁平的加性规则集成:每条规则是若干布尔命题的合取 \(q_i(x)=\prod_{j=1}^{c_i}p_{i,j}(x)\)(每个 \(p_{i,j}\) 是阈值比较 \(\mathbb{I}[s\cdot x^{(j)}\le s\cdot x_l^{(j)}]\)),整体输出是规则按权重 \(w_i\) 的线性组合。由于每条规则平等贡献、可独立读作"IF 条件 THEN 权重",模型天然满足 Murdoch et al. 提出的 simulatability(可模拟)、modularity(模块化)、low complexity(低复杂度)三条可解释判据,这正是论文给出的可解释性形式化保证。
2. 在 A2C 框架内对规则做策略梯度更新:把 \((w,q)\) 当作可微参数,按动作是否被选中分两支。 actor 的损失是带正则的策略梯度目标 \(\nabla L_\lambda(w,q)=-\mathbb{E}[\nabla_{w,q}\log\pi(a_t|s_t,w,q)A_t]+\lambda\nabla_{w,q}\|w\|_2^2\)。把 \(\theta=(w;q)\) 合并后推导出二阶梯度,并区分两种情形——当集成 \(f_a\) 对应当前实际执行动作(\(a=a_t\))时 \(\nabla L = \mathbb{E}[-\nabla A(s_t,a_t)(1-\pi(a_t|s))]\);当不对应(\(a\ne a_t\))时 \(\nabla L = \mathbb{E}[\nabla A(s_t,a_t)\pi(a_t|s)]\)。这种"选中的动作往优势方向推、其余动作往反方向压"的分支让规则集成的更新与真实采样动作对齐。critic 端则照常用 \(L_V(\phi)=\mathbb{E}[(R_t+\gamma V(s_{t+1})-V_\phi(s_t))^2]\) 最小化 TD 误差。论文同时给出 NSAC 收敛到局部最优的理论证明。
3. 正交梯度提升 (OGB) 在线挖规则 + 全修正权重重算:保证规则一般化且权重最优。 每次迭代不是简单堆规则,而是用 OGB 目标 \(\text{obj}_{\text{ogb}}(q)=|g_\perp^\top q|/(\|q_\perp\|+\epsilon)\) 在候选维度里找新规则,其中 \(g_\perp=g-BB^\top g\) 是把梯度投影到已有规则正交补空间——这逼迫新规则提供"新方向"的信息而非冗余,从而选出更一般、风险-复杂度权衡更好的规则。配套的"规则替换"会删掉权重最小的规则、再用全修正(fully-corrective)优化重算所有权重(解 \(k\times k\) Gram 矩阵 \(Q^\top Q\) 上的凸问题)。代价是每条规则 \(O(d^2nk)\),比标准梯度提升的 \(O(d^2n)\) 多 \(k\) 倍,但在可解释场景常用的小规则集下可控。
实验关键数据¶
主实验(平均回报 ± 标准差,10 个随机种子)¶
在 5 个经典 Gym 环境 + Sinergym HVAC 楼宇控制基准上,对比黑箱 RL(Q-table/DQN/A2C/PPO/SDSAC/SACBBF/Rainbow)与符号方法(SYMPOL/πaffine-D/D-SDT)。
| 环境 | DQN | A2C | PPO | Rainbow | SYMPOL(符号最佳) | NSAC |
|---|---|---|---|---|---|---|
| MountainCar-v0 | -135.07 | -157.51 | -150.40 | -137.76 | -200 | -132.25 |
| Acrobot-v1 | -112.68 | -98.93 | -82.63 | -89.75 | -80.02 | -87.71 |
| CartPole-v1 | 161.00 | 453.51 | 498.73 | 498.53 | 500 | 499.14 |
| Blackjack-v1 | -0.06 | -0.07 | -0.06 | -0.06 | -0.06 | -0.06 |
| Postman | 31.91 | 24.23 | 34.35 | 34.67 | 25.34 | 27.14 |
| HVAC-1Zone | -1445367 | -1334562 | -1865276 | -1465732 | -1478783 | -1251321 |
| HVAC-5Zone | -1876253 | -1984843 | -1676288 | -1602142 | -1586352 | -1463601 |
- NSAC 在 MountainCar、两个 HVAC 任务上取得全场最佳,其余任务与最强黑箱基线持平。
- 符号基线(SYMPOL/πaffine-D/D-SDT)在简单任务可与神经方法掰手腕,但一上规模就崩(如 πaffine-D 在 Acrobot 跌到 -425、CartPole 仅 109),而 NSAC 全环境稳定,且在最难的 HVAC 上明显领先所有符号方法。
消融实验(CartPole-v1,规则数 × warm start)¶
| 配置 | 现象 |
|---|---|
| 每动作规则数 5/10/12/20/30/40/50 | 12 条规则 + warm start 回报最高(≈500);<10 条覆盖不足,过多则过拟合噪声 |
| Warm start vs 无 | 规则数较少时 warm start 更关键,能更快收敛、避开差的局部最优 |
关键发现¶
- 规则数与性能非单调:存在"复杂度-表达力"甜点(12 条/动作),印证可解释模型不是越大越好。
- 学到的规则可直接读出(如 "IF vel<4 and pos>8 → w=0.32"),支持对策略做定性诊断(RQ3)。
亮点与洞察¶
- 分工哲学清晰:把"需要计算"的值估计交给神经网络、"需要解释"的决策交给符号规则,避开了"全符号难处理复杂性 / 全神经无法解释"的两难,是神经符号在 RL 里一个干净的落点。
- 直接从环境学规则:不蒸馏黑箱教师、不要预定义知识,因此规则反映的是真实决策过程而非后验近似——直击 SHAP 等后验解释"只标相关、扰动即翻盘"的软肋。
- 可解释性给了形式化判据:把规则策略对应到 simulatability/modularity/low-complexity 三条标准,而不只是"看起来能读",并配收敛性证明。
- HVAC 真实基准:在高维、强耦合、带舒适约束的多区楼宇控制上拿下最佳,说明加性规则集成不止能玩具任务。
局限与展望¶
- 离散动作 + softmax:框架基于每动作一个规则集成 + softmax,连续动作空间如何扩展未充分展开。
- 计算开销:OGB 比标准梯度提升贵 \(k\) 倍(\(O(d^2nk)\)),全修正权重 \(O(k^2n)\),仅在小规则集下可控,规则数一大成本上升。
- 规则条件形式受限:命题是阈值比较的合取,对需要非线性/关系型条件的任务表达力有限。
- 可解释性的人因验证缺失:论文用形式化判据论证可读性,但没有人类被试实验证明"人确实更信任/更会用"。
- 环境规模:仍偏经典控制 + 单一真实基准,缺大规模/视觉输入域的检验。
相关工作与启发¶
- 树策略 RL(Native tree / 蒸馏树 / 可微树 D-SDT):可解释但有 size-fidelity 与可扩展性问题;NSAC 用"加性扁平规则"换"层级树"。
- 符号策略发现(神经引导 DSP、遗传编程、程序合成 πaffine):摆脱了预定义知识,但产出复杂数学/程序表达;NSAC 坚持"基础阈值比较 + IF-THEN"以保人类可读。
- 加性规则集成 / OGB(Friedman-Popescu, Yang et al. 2024):本文把监督学习里的规则集成首次系统嵌进 actor-critic 的策略梯度环。
- 启发:神经符号不必"端到端可微一刀切",按"是否需要解释"对模块做职责切分,可能是落地可信 RL 更务实的路线。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 把加性规则集成 + OGB 嵌入 A2C 策略梯度、做内生可解释 actor 的组合是新的,且配收敛证明与可解释判据;但各组件(A2C、规则集成、OGB)均为已有,属巧妙集成而非全新机制。
- 实验充分度: ⭐⭐⭐ — 覆盖 5 个经典环境 + 真实 HVAC、对比黑箱与符号两类基线、10 种子、含规则数/warm start 消融;但环境偏小、连续动作与视觉域缺位、无人因可解释性验证。
- 写作质量: ⭐⭐⭐⭐ — 动机与"后验解释失真"的批判到位,公式推导完整,图示对比直观。
- 价值: ⭐⭐⭐⭐ — 为需要透明决策的高风险 RL 场景提供了"性能不掉 + 规则可读 + 直接从环境学"的实用方案,HVAC 上的领先有说服力。