跳转至

Dimensionality Controls When Modularity Helps in Continual Learning

会议: ICML2026
arXiv: 2606.17889
代码: 待确认
领域: 可解释性 / 表示几何 / 持续学习
关键词: 持续学习, 灾难性遗忘, 组合性, 表示维度, 模块化, 稳定-可塑性

一句话总结

这篇论文用一个 A→B→A 的序列学习范式系统比较"任务分块模块化循环网络"与"单网络",发现模块化并非总有用——只有当初始化尺度 \(\gamma\) 把表示压进低维"rich"区时,模块化才会带来更低的干扰,并自发组织出"相似任务子空间重叠、相异任务子空间正交"的渐变几何;在高维"lazy"区两种架构几乎没差别。

研究背景与动机

领域现状:持续学习的核心是稳定-可塑性困境(stability–plasticity dilemma):学新任务要复用、改写旧表示(可塑性),保住旧任务又要约束这些表示别被覆盖(稳定性)。组合性(compositionality)被视为鲁棒泛化的标志——理想系统应当对相似任务复用组件、对相异任务保持分离。缓解干扰的手段包括回放、突触巩固(如 EWC),以及用模块化做结构隔离。

现有痛点:模块化到底有没有用,文献里结论并不一致。一方面模块隔离能减少干扰,另一方面完全的结构分离会把迁移和干扰一起消灭,反而损失了组合复用的机会。于是"模块化什么时候帮忙、什么时候帮倒忙"始终没说清。

核心矛盾:作者抓住的关键变量是表示维度。已有工作提示,rich(低维、结构化)与 lazy(高维、接近初始化)两种学习区会诱导出截然不同的表示几何;模块化组织往往只在表示低维、被压紧时才清晰浮现。换句话说,结构性偏置(如模块化)可能只有当表示空间被约束到足够紧、几何成为绑定约束时才真正影响行为——架构本身不够,得看它落在哪个表示区。

本文目标:在一个受控的迁移-干扰范式里,联合考察"模块化架构 × 任务相似度 × 表示维度"三者如何共同塑造组合式持续学习,并把"模块化何时有益"这一问题落到表示维度这个可调旋钮上。

切入角度:借鉴 Holton et al. (2026) 的 A1→B→A2 范式,用初始化尺度 \(\gamma\) 当作改变有效表示维度的控制变量(大 \(\gamma\)=lazy 高维,小 \(\gamma\)=rich 低维),系统扫过任务相似度(same/near/far)与 \(\gamma\),同时测行为指标(准确率、迁移、干扰)和隐状态几何(有效维度、主角、3D PCA 轨迹)。

核心 idea:模块化的收益不是普适的而是有条件的——表示维度是"门控",只有在低维 rich 区,模块化才会显著降低干扰并诱导出相似度依赖的子空间几何。

方法详解

整体框架

这是一篇受控对照的分析研究,不提出新算法,而是用一套实验设计去隔离"维度 × 架构 × 相似度"的交互。整条流程是:在 A1→B→A2 三阶段协议下(A1 学任务 A、B 学任务 B、A2 重测 A),用循环网络拟合从原始人类实验导出的试次序列;任务是把六个植物线索映射到圆盘上的角度,夏/冬两季由一个固定角偏移(task rule)关联,任务 B 用新刺激但同样的形式结构,Same/Near/Far 三档控制 B 的 rule 相对 A 偏移多少。两种架构(单网络 vs 任务分块模块网络)各跑一遍,初始化后把所有可训练权重乘以全局因子 \(\gamma\) 来制造高维/低维区,最后用行为指标和表示几何指标读出结论。由于这是实验范式而非可串联的算法 pipeline,不强塞框架图。

关键设计

1. A1→B→A2 迁移-干扰范式 + same/near/far 三档相似度:把"复用 vs 干扰"做成可控变量

要回答"模块化何时帮忙",先得有个能同时暴露迁移机会和干扰风险的受控任务。作者沿用 Holton et al. (2026) 的序列协议:先在 A1 把任务 A 学到接近天花板,再在 B 阶段用新刺激学任务 B,最后 A2 重测 A 来量化遗忘/干扰。任务 B 与 A 形式结构相同(都是植物→角度、夏冬靠 rule 关联),只在 rule 取值上区分相似度——Same 完全相同、Near 小角偏移、Far 大角偏移,其余设计全部固定。这样相似度就成了一个干净的旋钮:相似时复用应当有益、相异时复用会变成干扰,于是能直接观察架构在不同相似度下的代价。迁移用"B 阶段头六个冬季试次准确率 − A1 末六个冬季试次准确率"衡量,干扰则在 A2 用 von Mises 混合模型拟合冬季响应、取"1 − task-A 成分权重"来量化行为被推向 task-B rule 的程度。

2. 用初始化尺度 \(\gamma\) 调控表示维度:把 lazy/rich 区做成连续可扫的旋钮

这是全文的因果抓手。作者在默认 PyTorch 初始化后,把所有可训练权重乘以全局因子 \(\gamma\in\{0.001,0.01,0.1,1.0,2.0\}\):大 \(\gamma\) 放大初始权重、进入 lazy 高维区(表示停在初始化附近、维度高、专门化弱),小 \(\gamma\) 缩小权重、进入 rich 低维区(学到结构化、低维、专门化的编码)。这一操控与 lazy↔rich 学习区的转变紧密相关,而后者又联系着有效表示维度的差异。作者很诚实地把 \(\gamma\) 称作"rich-vs-lazy 表示区的实用探针"而非纯粹的维度操控——因为它同时还会影响优化动力学与条件数,所以结论被限定为"\(\gamma\) 诱导的学习区(与维度共变)"而非单一维度变量。

3. 任务分块模块网络 vs 单网络基线:在共享读出下隔离"结构分离"的效果

为了把"结构分离"单独拎出来,作者对比两种循环架构。单网络把所有输入过同一个循环群体 \(h_t=\tanh(W_\text{ih}x_t+W_\text{hh}h_{t-1})\),再经共享读出 \(y_t=W_\text{out}h_t\)。模块网络含两个循环模块 \(M_A,M_B\),输入按任务身份路由(用二值掩码 \(x_t^A=m_A\odot x_t\) 切片),各自独立递推、主分析里模块间无循环通信,但两个模块的状态拼接后过同一个共享读出。这里的精妙在于"分离是结构性的、却不彻底":因为共享读出,模型不能简单实现两套独立系统,必须在输出层协调模块活动,形成"受约束的分工"而非严格隔离——这正解释了为何后面观察到的是相似度依赖但仍有重叠的表示,而非完全隔离的编码。为公平比较,单网络用 50 个循环单元,模块网络用两个各 25 单元的隔离模块 + 共享线性读出,参数预算对齐。

4. 表示几何分析:有效维度 + 主角 + 3D PCA 轨迹,把"几何"量化

行为差异要归因到表示区,就得能测几何。作者取每个刺激、每个阶段最后一个时间步的隐状态,堆成矩阵做 PCA:有效维度定义为解释 99% 方差所需的主成分个数;主角(principal angles)用 B 阶段后的隐状态按任务分两组、各拟合一个二维子空间,报告两子空间间最大主角,用来量化任务子空间是重叠、部分对齐还是近正交;再把隐状态投到 A1/B/A2 联合 PCA 的前三主成分上做 3D PCA 轨迹做定性可视化。三者合起来,就能把"低维 rich 区里模块化诱导出相似度依赖几何"这句话用数字坐实。

损失函数 / 训练策略

所有模型用 MSE 损失,目标是角度的 cosine-sine 编码(四维输出 = 夏季 cos/sin + 冬季 cos/sin),每个试次只在当前被探测的特征分量上算损失以匹配序列协议。用 SGD(学习率 0.01)每阶段训 100 epoch,输入展开两个循环时间步、试次间重置隐状态(递推只在单试次内),权重跨协议持续更新。结果汇报跨 305 个由原始实验导出的被试训练日程。

实验关键数据

主实验

核心对照是模块网络 vs 单网络在不同 \(\gamma\)(表示区)和不同任务相似度下的行为表现,重点看 A2 阶段(重测 A)的稳定性:

区域 / 相似度 模块网络 单网络
高维 lazy 区(大 \(\gamma\) A2 准确率高、干扰低 与模块网络几乎无差别
低维 rich 区(小 \(\gamma\))· Same A2 高、干扰低 表现相当
低维 rich 区 · Near / Far A2 始终高、干扰持续低 A2 在 Far 条件最小 \(\gamma\)大幅下降、干扰显著上升

结论:架构分离不带来一致的收益——高维区或任务相同时单网络与模块网络相当;只有在低维区 + 相异任务时,模块化才大幅压低干扰、同时保住两个任务的表现。

消融与几何实验

分析 高维 lazy 区 低维 rich 区
有效维度(99% 方差主成分数) 两架构都高、随相似度变化弱 \(\gamma\) 下降急剧塌缩到低维
主角(same/near/far) 两架构几何接近、条件间差异小、子空间纠缠 模块网络:same 对齐、near 居中、far 强分离的渐变几何;单网络相似度依赖更弱、子空间更纠缠
3D PCA 轨迹 占据大片状态空间、结构弥散、架构差异小 轨迹变紧凑;模块网络按相似度有序排布、单网络更交叠
架构消融(模块宽度 / 输入路由 / 模块间连接 / 初始化范围 / 递推深度) 渐变相似度几何与模块化的选择性收益稳健保留

关键发现

  • 维度是门控:模块化的行为收益和单网络的差距,与有效维度从高到低的转变同时发生,而非单靠架构——高维时两架构都有足够自由度编码 A、B,几何压力小;低维时表示容量成为绑定约束,任务要争抢有限方向,架构偏置才开始决定方向如何分配。
  • 模块化诱导相似度依赖几何:低维区里模块网络让相似任务子空间对齐、中等相似部分分离、相异任务近正交,单网络则缺这种渐变结构。
  • 分离是结构性但不彻底:共享读出迫使模块在输出层协调,因此得到"相似度依赖但仍重叠"的表示,而非完全隔离——这恰恰保住了组合复用。
  • 消融(模块宽度、输入路由、模块间连接、初始化范围、递推深度)都保留了上述模式,排除了纯容量解释

亮点与洞察

  • 把"模块化有没有用"重述成"在哪个表示区有用":最有价值的转向是不再问架构是否模块化,而是问在什么表示区模块化才改变行为与几何——这把一堆相互矛盾的文献结论统一了。
  • 用初始化尺度 \(\gamma\) 当维度旋钮:一个极简的全局缩放就能连续扫过 lazy↔rich 区,且作者诚实标注它同时影响优化动力学、不把它当纯维度变量——方法上克制可信。
  • "持续学习目标不是最大分离,而是相似度依赖几何":作者据此提出把安全/鲁棒看成"表示子空间的自适应分配"问题——相似就重叠、中等就部分重组、相异才强分离,这个视角对设计持续学习机制有启发。
  • 共享读出 + 任务路由这一"受约束分工"的设计,可迁移到需要既复用又隔离的多任务系统。

局限与展望

  • 作者承认用 PCA 有效维度作"表示区"代理只是内在维度的近似;\(\gamma\) 同时改了优化动力学与架构偏置的可表达性,不是纯维度操控;3D PCA 可视化是定性说明非推断性检验。
  • 协议受限于 A1→B→A2 的短序列,没覆盖更长、更异质的任务流;维度依赖的模块化效应能否推广到大规模持续学习基准与更真实的任务分布仍是开放问题。
  • 自己发现的局限:任务本身是低自由度的角度回归玩具任务,循环单元规模很小(25–50),结论外推到大模型/真实数据需谨慎。
  • 改进方向:作者提出三条——用更丰富的课程与更长序列检验几何如何随反复干扰演化;用正则/瓶颈/结构化噪声直接调控维度(而非只靠初始化);以及比较带显式模块间通信的模块设计。

相关工作与启发

  • vs Holton et al. (2026):本文沿用其 A1→B→A2 范式与混合度量,但 Holton 关注人类与网络的迁移-干扰相似性,本文把焦点转到"维度 × 模块化架构"的交互,且明确不把网络当人类行为模型。
  • vs Johnston & Fusi (2024/2026):他们指出模块化表示倾向在输入/隐状态低维时才浮现;本文把这一观察落到持续学习的行为后果上,证明低维才是模块化降低干扰的前提。
  • vs Flesch et al. (2021) / Flesch (2022):他们建立 rich/lazy 区诱导不同几何与迁移-干扰权衡;本文用 \(\gamma\) 复现该转变并桥接到架构选择,说明架构偏置的有效性取决于表示区。
  • vs 经典抗遗忘方法(EWC、回放):那些方法在算法层约束参数或重放数据;本文论证稳定-可塑性权衡部分是架构性的——固定参数预算下不同架构实现不同平衡。

评分

  • 新颖性: ⭐⭐⭐⭐ 把"模块化是否有益"条件化到表示维度这一门控变量上,视角清晰且有统一文献的价值。
  • 实验充分度: ⭐⭐⭐ 受控范式 + 多 \(\gamma\) × 相似度 × 架构扫描 + 五项消融较系统,但任务为小规模玩具、未上真实基准。
  • 写作质量: ⭐⭐⭐⭐ 行为—维度—几何三层证据环环相扣,局限交代非常诚实。
  • 价值: ⭐⭐⭐⭐ 为"何时该用模块化/如何调控维度"提供可操作洞察,对持续学习架构设计有启发。