Resolving the Stability-Plasticity Dilemma in Reinforcement Learning via Complementary Continual Critics¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/sunbo5202/CD-CCA
领域: 强化学习
关键词: 视觉强化学习、稳定可塑性困境、持续学习、双critic、跨注意力融合

一句话总结¶

针对视觉 RL 中"既要快速适应又要不遗忘"的稳定—可塑性困境，本文提出 CD-CCA：用持续反向传播（CBP）武装一个"塑性 critic"、用弹性权重巩固（EWC）武装一个"稳定 critic"，再用跨注意力机制按观测自适应融合两者的 Q 值，在 DMControl 与 CARLA 上同时提升样本效率和收敛稳定性。

研究背景与动机¶

领域现状：视觉强化学习让智能体直接从像素学控制策略，主流是把 SAC / TD3 这类算法接上 CNN 编码器，再靠数据增强、自监督辅助任务、环境动力学建模来改善表征质量。

现有痛点：这些方法都默认网络是"单一、整体"的学习过程，试图给整张网络找一个万能平衡点。可视觉 RL 的数据流是非平稳的——智能体边交互边改策略，采样分布一直在漂。作者用诊断指标实测发现两类病灶同时存在：普通 critic 的休眠神经元（dormant neuron）比例随训练持续升高，说明塑性在退化、网络越学越"僵"；同时 CKA 表征相似度和价值一致性指标显示表征剧烈漂移、价值估计不稳，这是灾难性遗忘的表现。

核心矛盾：可塑性（plasticity，持续从新数据学习的能力）与稳定性（stability，巩固旧知识不遗忘的能力）天然冲突——加强一个就会损害另一个。单 critic 的"一刀切"范式被迫在二者间妥协，无法同时拿到两头的好处。

本文目标：在单个任务内部（in-task）就化解稳定—可塑性冲突，而不是像传统持续学习那样只处理"任务序列"切换。具体拆成三个子问题：怎样维持一路的可塑性、怎样保住另一路的稳定性、怎样让两路按情况动态配合。

切入角度：与其逼一个 critic 同时做两件矛盾的事，不如做功能异构的双 critic——一个专司适应、一个专司记忆。诊断实验进一步发现：CBP 能压住休眠神经元（恢复塑性），EWC 能抑制表征漂移（保住稳定），而且 critic 的可靠性是随观测变化的，这正好对应跨注意力 Query–Key–Value 的"按观测加权融合"。

核心 idea：用 CBP 和 EWC 这两种持续学习机制分别打造"塑性 critic"和"稳定 critic"，再用跨注意力按当前观测自适应地融合二者的价值估计——用结构上的功能解耦代替单网络的被动权衡。

方法详解¶

整体框架¶

CD-CCA 在 SAC 的 actor–critic 骨架上改造，是一个可即插即用接入任意双 critic 架构的模块。视觉编码器先把观测 \(o\) 编成潜在特征，经三层全连接产生共享嵌入 \(z\) 和两路 critic 专属特征 \(z_1, z_2\)；两个并行 critic 分别在 CBP 与 EWC 机制下学习，输出 \(Q_1, Q_2\)；跨注意力模块以 \(z\) 为 query、\(z_1/z_2\) 为 key、\(Q_1/Q_2\) 为 value，算出融合后的 \(Q^*\)；\(Q^*\) 既参与 critic 的 Bellman 误差也指导策略更新，最后由策略解码器输出动作与环境交互。整条链路里"可塑—稳定"的平衡不再靠某个固定 critic，而是逐观测动态决定。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["观测 o"] --> B["视觉编码器<br/>z, z1, z2"]
    B -->|"z1"| C["CBP 塑性 critic<br/>休眠单元重置 → Q1"]
    B -->|"z2"| D["EWC 稳定 critic<br/>Fisher 正则 → Q2"]
    C --> E["跨注意力 critic 融合<br/>z 查询，按观测加权 Q*"]
    D --> E
    E --> F["融合 Q 驱动的策略优化<br/>Bellman + EWC 正则"]
    F -->|"action"| G["环境交互"]
    G --> A

关键设计¶

1. 互补双 critic：CBP 管塑性、EWC 管稳定

要同时治"网络越学越僵"和"表征漂移遗忘"两个病，单 critic 顾此失彼，作者干脆把这两个矛盾目标拆到两个并行 critic 上，各用一种持续学习机制专门强化一头。对塑性 critic用持续反向传播（CBP）：核心观察是并非所有隐藏单元都对计算有贡献，有些会随训练变冗余导致表征停滞。CBP 给每个单元算一个贡献效用——用激活值乘以它出边权重的幅度之和，运行效用按指数滑动更新：

\[u_l[i] = \eta \cdot u_l[i] + (1-\eta)\cdot |h_{l,i,t}| \cdot \sum_{k=1}^{n_{l+1}} |W_{l,i,k,t}|\]

其中 \(\eta=0.99\) 是衰减率，\(n_{l+1}\) 是下一层单元数。持续低效用的单元被判为冗余、重新初始化，并在到达成熟阈值 \(m\) 前暂时受保护不被再替换。论文实测这种替换是"功能引导"的：替换频率高的神经元恰恰是当前贡献低的，重置后能腾出容量学新知识，从而压住休眠神经元比例、维持塑性。对稳定 critic用弹性权重巩固（EWC）：它用 Fisher 信息矩阵（FIM）给每个参数打重要性分，对重要参数偏离旧值的行为施加二次惩罚，逼新知识尽量落在不重要参数上：

\[L_{EWC}(\phi) = L_{new} + \sum_i \frac{\gamma}{2} F_i\,(\theta_i - \theta^*_{old,i})^2\]

\(L_{new}\) 是新任务原始损失，\(\gamma\) 控制约束强度（越大越保护关键参数），\(F_i\) 是 FIM（从 replay buffer 采 mini-batch 估计），\(\theta^*_{old,i}\) 是上一阶段训练收敛后的参数最优值。两路合在一起，塑性 critic 负责快速吃进新视觉模式、稳定 critic 负责锁住已学知识，从结构上把"可塑—稳定"这对冤家分了家。本文也是首个用"不同学习规则"（而非以往工作中的不同折扣因子等时间尺度异构）来构造异构 critic 的工作。

2. 跨注意力 critic 融合：按观测自适应配权

有了两个各有所长的 critic，怎么用？取最小值或简单平均（同质 critic 集成的老办法）是静态的，无法随视觉输入变化调整两路的话语权——诊断实验已表明 critic 的可靠性是依赖观测的。作者据此设计跨注意力融合：以共享视觉表征 \(z\in\mathbb{R}^d\) 作 query，以两路 critic 的动态适应特征 \(z_1\)、稳定保持特征 \(z_2\) 作 key，以两个标量价值估计 \(Q_1, Q_2\) 作 value。注意力分数与融合 Q 为：

\[\delta_i = \mathrm{softmax}\!\left(\frac{z\cdot z_i^{T}}{\sqrt{d_k}}\right), \qquad Q^* = \delta_1 Q_1 + \delta_2 Q_2\]

这样当前观测更"考验适应力"时就给塑性 critic 更高权重、更"考验记忆"时偏向稳定 critic，融合权重逐样本变化。消融显示去掉它换成取最小值会明显掉分，说明动态融合是把两路互补价值真正整合起来、并顺带缓解过估计的关键。

3. 融合 Q 驱动的策略优化目标

最后把融合价值接回 SAC 的训练回路。智能体学策略 \(\pi_\theta\)、两个 critic \(Q_{\phi_1}, Q_{\phi_2}\) 以及跨注意力模块 \(Q_\xi\)，critic 与注意力参数 \(\phi, \xi\) 通过最小化 Bellman 误差学习，并叠加 EWC 正则：

\[L_{total} = L(\phi_i, \xi, B) + L_{EWC}(\phi)\]

\[L(\phi_i, \xi, B) = \mathbb{E}_{\tau\sim B}\big[(Q_\xi(o,a) - y)^2 + \beta\,(Q_{\phi_i}(o,a) - y)^2\big],\quad y = r_t + \gamma V(o')\]

这里既监督融合后的 \(Q_\xi\)，也用系数 \(\beta\) 单独监督每个 critic 自身的估计以稳住训练；\(V(o')\) 沿用 SAC 的带熵软价值目标。这套目标让"双 critic 差异化学习 + 跨注意力自补偿"在同一个梯度回路里端到端配合，而非各练各的。

损失函数 / 训练策略¶

训练流程见原文 Algorithm 1：每步先用策略采动作、存进 replay buffer \(B\)；更新时从 \(B\) 采一批转移，算软价值目标 \(V^{tot}\) 与 TD 目标，得到两路 \(Q_1\)（EWC）、\(Q_2\)（CBP），编码出 \(z, z_1, z_2\) 后做跨注意力融合 \(Q^*\)，按式 (9) 更新 \(\phi_{1,2}, \xi\)、按 SAC 策略梯度更新 \(\theta\)，目标 critic 以指数滑动平均同步。关键超参：CBP 效用衰减 \(\eta=0.99\)、成熟阈值 \(m\)、EWC 强度 \(\gamma\)、critic 自监督系数 \(\beta\)。整体仍是 off-policy、可无缝接入现有双 critic RL（如 SAC、DrQ-v2、DeepMDP）。

实验关键数据¶

主实验¶

DMControl 四个 hard 任务（Flare 提出），输入 84×84 图像、三帧堆叠，5 个随机种子。CD-CCA 作为即插即用模块接到 DrQ-v2 上（表中 OURS / DrQv2+OURS），1M 步结果：

任务 (1M)	Flare	TACO	MaDi	ResAct	DrQv2	OURS
Quadruped, Walk	488±221	665±144	621±172	690±128	871±47	907±25
Pendulum, Swingup	809±31	784±42	751±41	817±6	812±23	817±17
Finger, Turn hard	661±315	672±167	695±133	857±80	837±40	957±37
Walker, Run	556±93	582±63	562±68	554±21	734±32	747±24
平均	546.2	584.8	566.0	630.2	813.5	857.0

500K 步时平均 683.0 也优于 DrQv2 的 636.8。CARLA 两个驾驶场景（Highway 周围 20 车、Jaywalk 行人随机横穿），训练 100K 步后接到 DeepMDP 上：

方法	Highway 奖励	Highway 距离(m)	Jaywalk 奖励	Jaywalk 距离(m)
SAC	121±26	74±17	121±49	84±78
DrQ	154±21.5	95±27	157±81	109±33
MLR	256±51	238±75	194±73	177±42
ResAct	283±25	299±24	188±22	133±34
DeepMDP	170±36	132±20	169±52	134±40
DeepMDP+OURS	343±63	287±45	204±43	183±58

CD-CCA 在大多数任务拿到 SOTA，且跨种子标准差明显更小，说明收敛更稳、对初始化更不敏感。

消融实验¶

配置	结论	说明
Full (CBP+EWC+CrossAttn)	最优	可塑—稳定平衡、收敛更稳
w/o EWC（仅 CBP）	优于 baseline 但有波动	适应快但收敛不稳
w/o CBP（仅 EWC）	优于 baseline 但欠响应	稳但对环境变化反应慢
w/o Cross-Attention（取 min）	回报下降	静态平均无法动态调配两路
w/o CBP&EWC（仅融合）	优于 baseline	跨注意力本身能缓解过估计
CBP+CBP（同质）	弱于 full	早期强但过度适应、收敛不稳
EWC+EWC（同质）	弱于 full	过度刚性、改进慢

此外把机制扩展到标准 actor–critic：在 SAC / TD3 上做四 critic（两 CBP 两 EWC，先各组取 min 再取更低者），收敛更快、非平稳下更一致。

关键发现¶

异构 > 同质：CBP+EWC 的互补组合稳稳超过 CBP+CBP（过度适应不稳）和 EWC+EWC（过度刚性慢），印证"功能解耦"才是化解困境的关键，而非单纯堆 critic。
跨注意力不可省：换成取最小值就掉分；它既做动态配权又顺带压过估计（w/o CBP&EWC 仍优于 baseline 即证据）。
CBP 替换是功能引导的：替换频率高的神经元当前贡献恰好低，重置后能恢复学习，说明休眠单元被精准回收而非随机扰动。
CARLA 上优势更明显：更接近真实、更非平稳的环境里，动态融合的收益被进一步放大。

亮点与洞察¶

用"不同学习规则"造异构 critic：以往多 critic 的异构性来自不同折扣因子等时间尺度，本文首次用 CBP / EWC 这两种持续学习规则制造功能异构，把抽象的"稳定—可塑性"冲突落到具体的网络结构上——这个映射很干净，也好迁移。
把"诊断"前置成设计依据：dormant neuron、CKA、value-consistency 三个指标先把病灶量化清楚（塑性退化 + 表征漂移），再对症下药选 CBP / EWC / 跨注意力，方法不是拍脑袋而是被诊断牵引出来的，说服力强。
跨注意力的 QKV 语义对得很自然：critic 可靠性本就依赖观测，正好对上"按 query 加权 value"，比固定 min/avg 更贴合问题本质，这个类比可以迁到任何"多专家按输入动态配权"的场景。
即插即用：能接 DrQ-v2 / DeepMDP / SAC / TD3 等任意双 critic 框架，工程上是个低成本增益模块。

局限与展望¶

作者承认：塑性 critic 不限于 CBP，可换其他塑性机制；未来探索更通用的塑性优化——暗示当前机制选择仍偏经验。
额外开销：双 critic + 跨注意力 + EWC 的 FIM 估计都增加显存与算力，论文未给训练成本/吞吐对比，"plug-and-play 但代价多少"不清楚。
超参敏感性未充分披露：\(\gamma\)（EWC 强度）、\(\beta\)（critic 自监督系数）、CBP 成熟阈值 \(m\) 这些关键超参的敏感性没有系统扫描，跨任务是否需要重调存疑。
多 critic 扩展用的是 min 融合而非跨注意力：四 critic 扩展实验里反而退回取最小值，跨注意力没扩展到 >2 路，融合机制的可扩展性留白。
评测域偏窄：只在 DMControl + CARLA 连续控制上验证，离散动作 / 真实机器人 / 更长 horizon 任务尚未覆盖。

评分¶

新颖性: ⭐⭐⭐⭐ 首次用 CBP/EWC 两种持续学习规则造功能异构 critic，并用跨注意力按观测动态融合，组合角度新颖。
实验充分度: ⭐⭐⭐⭐ DMControl + CARLA 双基准、5 种子、多角度消融较扎实，但缺成本对比与超参敏感性扫描。
写作质量: ⭐⭐⭐⭐ 诊断→动机→方法逻辑清晰、图表支撑到位，公式记号偶有小瑕。
价值: ⭐⭐⭐⭐ 即插即用、稳定性提升明显，为单任务内化解稳定—可塑性困境提供了可复用的架构范式。