跳转至

Active Continual Learning with Metaplastic Binary Bayesian Neural Networks

会议: ICML2026
arXiv: 2605.30198
代码: https://github.com/kellian-cottart/active-continual-learning-bayesianbinn
领域: 模型压缩 / 连续学习 / 主动学习
关键词: 二值贝叶斯网络、连续学习、主动学习、后验不确定性、边缘智能

一句话总结

BiMU 为二值贝叶斯神经网络设计有界记忆和不确定性感知的 metaplastic 更新,防止 Bernoulli 后验在长程非平稳流中饱和,并用 Monte Carlo disagreement 实现无缓存的一次性主动查询,显著减少标签和反向传播更新。

研究背景与动机

领域现状:Always-on 边缘系统需要长期在线推理,并在用户、传感器或环境分布变化时持续学习。二值神经网络用 \(\{-1,+1\}\) 权重和激活降低存储、乘加和数据搬运成本;贝叶斯二值网络进一步提供 epistemic uncertainty,可用于 OOD 检测和可靠性监控。

现有痛点:均值场 Bernoulli 后验在长时间数据流上容易饱和。随着证据累积,natural parameter \(|\lambda|\) 越来越大,权重采样几乎确定,后验不确定性消失,synapse 很难再改变符号。对于连续学习,这意味着模型变得僵硬,难以适应新任务;对于主动学习,这意味着不确定性信号失效。

核心矛盾:边缘设备既需要稳定记住过去,又不能无限累积证据导致冻结;既要在线学习,又不能保存 replay buffer 或频繁反向传播;既要低比特推理,又要保留足够的贝叶斯不确定性来决定何时请求标签。

本文目标:作者希望为 mean-field Bernoulli synapses 推导一个 fully online、buffer-free 的连续学习规则,使二值网络在 1000 个任务级别的非平稳流中仍保持 plasticity 和 OOD uncertainty,并把这种不确定性用于一次性主动查询,减少标签和更新成本。

切入角度:论文从 bounded-memory Bayesian learning and forgetting 出发,把“只保留最近 \(N\) 个更新窗口的信息”写成变分目标。对 Bernoulli posterior 展开后,可以得到数据项、向 prior 放松的遗忘项,以及一个随不确定性和梯度方向变化的 metaplastic step size。

核心 idea:把二值贝叶斯后验的自然参数更新设计成“数据驱动 + 有界遗忘 + 不确定性感知步长”,让二值 synapse 不会因长期证据累积而彻底冻结。

方法详解

BiMU 的对象是二值权重 \(\omega\in\{-1,+1\}^s\),每个 synapse 用 Bernoulli natural parameter \(\lambda^{(i)}\) 参数化。\(\lambda=0\) 表示最大不确定性,\(|\lambda|\) 很大表示权重几乎确定。普通贝叶斯更新会不断把 \(|\lambda|\) 推大,BiMU 则在每次在线 batch 更新时加入受控遗忘和 metaplastic 学习率,维持长期可塑性。

整体框架

每个时间步只看当前 batch,不保存过去样本,也不需要任务边界。给定上一时刻 \(\lambda_{t-1}\),BiMU 先用当前数据损失给出梯度 \(\partial\mathcal L/\partial\lambda\),再加入一个把当前 posterior 拉回 prior 的项。这个 prior relaxation 由 memory window \(N\) 控制,\(N\) 小代表更快忘记,\(N\) 大接近累计学习。更新幅度由 \(\eta(\lambda,g)\) 控制:当梯度支持当前权重符号时快速巩固;当梯度反对当前符号时步长缩小,需要持续证据才会去巩固。

主动学习阶段,BiMU 对每个未标注样本抽取 \(K\) 组二值权重,运行 MC forward 得到多个预测类别。Variation ratio \(VR=1-f_{mode}/K\) 衡量样本预测分歧。若 \(VR\ge\tau\),系统请求标签并执行 BiMU 更新;否则跳过该样本,不请求标签也不反向传播。

关键设计

  1. 有界记忆 Bernoulli 变分目标:

    • 功能:防止二值贝叶斯后验无限累积历史证据。
    • 核心思路:目标函数同时包含当前数据项、到上一时刻 posterior 的 KL 稳定项、以及到 initialization prior 的 KL 遗忘项。遗忘项权重为 \(1/N\),可理解为滑动窗口大小或证据半衰期。推导后得到更新中的 prior relaxation 项 \((\lambda_{t-1}^{(i)}-\lambda_{prior}^{(i)})/(N\cosh^2(\lambda_{t-1}^{(i)}))\)
    • 设计动机:连续学习的长期僵化本质是证据无限积累。显式遗忘让 posterior 不再只会越来越确定,而是在稳定和可塑之间保持可控平衡。
  2. 不确定性感知的 metaplastic 步长:

    • 功能:让 synapse 在巩固和去巩固时表现出不同更新动力学。
    • 核心思路:BiMU 不估计昂贵 Hessian,而使用有界 surrogate learning rate。步长与当前 \(\lambda\) 和梯度 \(g\) 的符号关系有关:若 \(\lambda g<0\),梯度强化当前符号,步长接近上界;若 \(\lambda g>0\),梯度试图反转当前符号,步长缩小,避免单个噪声样本轻易翻转已巩固权重。
    • 设计动机:真实连续流里既有稳定结构,也有短期噪声和类不平衡。非对称步长让模型能快速巩固一致证据,同时要求持续反证才改变已有 synapse。
  3. 基于 MC disagreement 的一次性主动查询:

    • 功能:把保留下来的 epistemic uncertainty 转化为标签和更新预算节省。
    • 核心思路:对 incoming sample 抽取 \(K\) 个二值 posterior 样本,计算预测类别众数比例。Variation ratio 越高,说明 posterior 样本之间越不一致,样本越可能对当前模型有学习价值。阈值规则一次决定是否请求标签和更新。
    • 设计动机:边缘设备不能缓存未标注池再排序,也不能频繁反向传播。VR 只需 MC forward,而二值网络 forward 可用 bit-level 操作,成本远低于反向传播和权重写入。

损失函数 / 训练策略

数据项梯度用 Concrete / Gumbel-softmax 松弛估计,对 relaxed binary weights 反向传播并在 \(K\) 个 MC 样本上平均。主要超参数包括 memory window \(N\)、最大 metaplastic step size \(\alpha_{max}\)、likelihood/KL 缩放系数,以及主动学习阈值 \(\tau\)。实验包括 1000-tasks Permuted-MNIST、OpenLORIS-Object 冻结 VGG19 特征上的在线线性头,以及 Animals/OpenLORIS 类不平衡主动学习。

实验关键数据

主实验

1000-tasks Permuted-MNIST 检验长程连续学习和 OOD uncertainty。BiMU 是二值方法中唯一在 1000 个任务后仍保持高准确率的方法。

方法 Task bounds Last 5 tasks Acc OOD AUC MMRR Single-task Acc 说明
BiMU no 90.30±0.38 0.99±0.00 139.47 94.67±0.11 二值方法中最稳,且无需任务边界
BayesBiNN yes 41.12±1.62 0.57±0.12 2.04 93.22±0.09 后验饱和导致长期僵化
Syn. Meta. yes 10.27±0.01 - 1.64 71.40±1.48 强 metaplasticity 近乎不可逆
STE no 29.35±0.96 0.69±0.04 9.32 77.56±1.35 缺少连续学习机制
MESU no 91.69±0.58 0.95±0.03 261.10 96.10±0.18 实值贝叶斯强 baseline,但状态更大
EWC Online yes 81.78±0.82 0.66±0.11 6.63 96.06±0.11 任务边界辅助下仍不如 BiMU

OpenLORIS-Object 使用冻结 VGG19 特征和在线线性头,评估 nuisance-factor shifts 与特征压缩。

方法 Features Mean Acc Aleatoric AUC Epistemic AUC 说明
BiMU 1,024 73.61±1.53 0.96±0.01 1.00±0.00 强压缩下保持可用
BayesBiNN 1,024 72.01±1.69 0.93±0.01 1.00±0.00 短 horizon 下接近 BiMU
STE 1,024 52.88±3.39 0.73±0.02 - 二值确定性 baseline 明显较差
BiMU 8,192 89.19±0.19 0.99±0.00 1.00±0.00 压缩约 3 倍仍高精度
BiMU 25,088 90.62±0.22 0.93±0.00 0.90±0.00 原始特征下超过实值 baselines

主动学习结果显示,BiMU 能把不确定性转成实际标签/更新节省。

场景 方法 / 设置 标签或更新比例 准确率 结论
Animals imbalanced VR querying 11% labels 84.46% 接近 100% 更新 baseline
Animals imbalanced VR querying 18% labels 87.12% 超过 100% 更新 baseline 86.28%
OpenLORIS imbalanced BiMU VR 3.1% updates 88.70% 相比全流 87.76%,32× 标签/更新节省
OpenLORIS imbalanced BiMU VR 4.0% updates 90.91% 25× 节省且准确率更高

消融实验

Memory window 和 activation ablation 解释了 BiMU 的稳定-可塑机制。

消融 配置 结果 启示
网络容量 2000 hidden units BiMU 95.20±0.26 Acc, OOD AUC 1.00, MMRR 862.09 增大容量时 BiMU 进一步提升,超过实值 baseline
Memory overhead BiMU 0.32 MB 训练态内存等于推理态,不存历史参数/importance
Memory overhead BayesBiNN 0.64 MB 需要额外 posterior 状态
Memory overhead Syn. Meta. 1.84 MB Adam 状态和任务 BN 参数带来额外成本
Activation / 方法 Last 5 tasks Acc OOD AUC MMRR 说明
BiMU + Sign 81.78±0.58 0.76±0.08 22.25 BiMU 机制有效,但 uncertainty 较弱
BiMU + RBG 90.29±0.24 0.99±0.01 215.52 Reverse Binary Gate 明显增强表示和不确定性
BayesBiNN + Sign 66.40±0.97 0.54±0.19 5.85 换激活不能解决 rigidity
BayesBiNN + RBG 67.41±1.03 0.76±0.17 4.99 单任务提升但长期僵化仍在
MESU + ReLU 93.51±0.18 0.91±0.03 500.02 实值模型仍强
MESU + RBG 92.35±0.21 0.80±0.05 943.44 RBG 不适合所有模型

OpenLORIS 主动学习中的 MC 样本数分析说明,小 \(K\) 已经能带来大部分收益。

MC samples Accuracy Data used Threshold 说明
2 89.30±0.88 3.30±0.04% 0.50 极少采样也可高效查询
3 90.61±0.53 3.87±0.05% 0.33 已接近主结果
10 90.91±0.98 3.97±0.03% 0.10 主实验设置之一
25 91.34±0.50 5.63±0.09% 0.04 准确率更高但 forward 成本增加
Full stream baseline 87.76±0.19 100% - 主动查询能超过全量更新

关键发现

  • BiMU 的主要优势来自防止 posterior saturation。BayesBiNN 单任务准确率很高,但长程流上迅速僵化;BiMU 通过有界遗忘和 metaplastic 步长保持长期适应。
  • 不确定性不仅是诊断指标,也是省算力机制。VR 查询把更新集中在分布变化后和低频类别上,避免大量冗余多数类样本。
  • 二值模型的 MC uncertainty 在边缘场景更现实。多次 forward 的开销可用 bit-level 操作降低,而反向传播和写权重才是主要成本。
  • Memory window 是可解释控制旋钮。太小会快速遗忘,太大接近累计学习并重新僵化,中间值实现稳定-可塑平衡。

亮点与洞察

  • 论文把“二值网络省算力”和“贝叶斯不确定性”真正结合起来,而不是只把二值网络当压缩模型。BiMU 让低比特模型还能长期表达 epistemic uncertainty。
  • 从 bounded-memory Bayesian objective 推导二值 synapse 更新,比手工 metaplastic rule 更有原则,也解释了巩固/去巩固非对称性。
  • 主动学习设计很贴近边缘现实:没有池化、没有 replay、没有任务边界,只用一次阈值判断决定是否花标签和反向传播成本。
  • 实验中主动查询超过 100% 更新 baseline 很有意思,说明在类不平衡流里“少更新但更新对的样本”可能比全量在线 SGD 更好。

局限与展望

  • BiMU 仍需要 MC forward 估计 uncertainty。虽然二值 forward 便宜,但在极低功耗设备上 \(K\)、阈值和延迟仍需精细权衡。
  • 主实验大量使用冻结 VGG19 特征和在线线性头,完整端到端二值 CNN/Transformer 连续学习还需要更多验证。
  • VR 对纯 label-function shift 可能失效,论文也指出 unlabeled uncertainty 未必能发现 \(p(y|x)\) 改变但 \(p(x)\) 熟悉的情况。
  • 超参数较多,包括 \(N\)\(\alpha_{max}\)、KL/likelihood scaling 和阈值 \(\tau\),不同硬件和数据流上需要自动调节。
  • 二值后验使用 Concrete relaxation 估计梯度,松弛温度和采样方差可能影响训练稳定性。

相关工作与启发

  • vs BayesBiNN: BayesBiNN 提供 Bernoulli posterior,但长程流中后验饱和;BiMU 加入 bounded forgetting 和 metaplastic step size,保持可塑性。
  • vs MESU: MESU 也是有界记忆贝叶斯学习,但面向实值 Gaussian posterior;BiMU 将类似思想专门推到 Bernoulli 二值 synapse,并显著降低训练态内存。
  • vs EWC / SI: EWC/SI 通过 importance 约束保护旧知识,但需要额外状态和任务边界,且长期可能僵化;BiMU 无任务边界且不存 replay。
  • vs pool-based active learning: 传统主动学习常假设有未标注池可排序;BiMU 是 stream 上一次性阈值查询,更适合 always-on edge 设备。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 把有界记忆贝叶斯、二值 posterior metaplasticity 和在线主动学习结合得很完整。
  • 实验充分度: ⭐⭐⭐⭐☆ 长程 Permuted-MNIST、OpenLORIS、Animals、memory/activation/MC 消融较充分;端到端视觉模型仍可扩展。
  • 写作质量: ⭐⭐⭐⭐☆ 公式推导和实验叙事清楚,但符号密度较高,附录结果很多。
  • 价值: ⭐⭐⭐⭐⭐ 对边缘连续学习、低比特贝叶斯模型和低成本主动标注都有直接参考价值。