Beyond Model Base Retrieval: Weaving Knowledge to Master Fine-grained Neural Network Design¶
会议: ICML 2026
arXiv: 2507.15336
代码: https://github.com/jilwang84/M-DESIGN
领域: 图学习 / 自动机器学习
关键词: 神经架构搜索, 模型检索, 知识图谱, 图神经网络, 贝叶斯优化
一句话总结¶
提出 M-DESIGN 框架,将神经网络设计建模为检索增强的迭代修改过程,通过构建修改-增益图编码细粒度架构编辑效果,并利用贝叶斯动态任务相似度在线校准迁移信号,在 33 个 GNN 任务中的 26 个达到设计空间最优。
研究背景与动机¶
领域现状:设计高性能神经网络的主流方法分为两大类——神经架构搜索(NAS)通过穷举试错寻找最优结构,模型检索(Model Retrieval)从预训练模型库中选取起始模型。前者计算昂贵,后者难以达到最优性能。
现有痛点:NAS 方法对每个新任务都从头搜索,不复用历史经验,存在严重的冷启动问题;检索方法虽然效率高,但只关注选择一个合理的起始模型,后续的架构适配仍依赖临时的试错调整。更关键的是,两类方法都忽略了细粒度架构修改(如替换 GNN 的消息传递机制)对性能的具体影响记录。
核心矛盾:现有方法在搜索效率与最优性之间存在根本性的权衡困境。NAS 能找到好的架构但代价高昂,检索效率高但结果次优。根本原因在于:(1)架构修改的迁移效果随着修改轨迹演进而变化,静态的任务相似度会失效;(2)当新任务与知识库中的任务分布差异较大时,直接检索的证据不可靠。
本文目标:将模型设计从一次性检索转变为基于知识驱动的迭代修改过程,在有限评估预算下快速找到接近最优的架构。
切入角度:作者观察到,如果将每次细粒度架构修改(如改变激活函数或聚合方式)对性能的影响显式记录为"编辑-效果证据",就可以将这些证据组织成图结构,支持跨任务的关系推理。
核心 idea:构建修改-增益图(Modification-Gain Graph)编码历史设计经验,通过贝叶斯在线更新的动态任务相似度来编织(weave)跨任务证据,将模型设计转化为自适应的检索增强修改过程。
方法详解¶
整体框架¶
M-DESIGN 的输入是一个新的目标任务 \(D^u\) 和一个包含 \(N\) 个基准任务历史记录的模型知识库(MKB)。输出是在固定评估预算 \(T\) 内找到的最优架构 \(\theta^*\)。流程分为三个阶段:(1)离线构建修改-增益图,将每个基准任务上架构变体之间的性能差异编码为有向加权边;(2)在线迭代修改,每步从知识库检索候选修改,通过跨任务知识编织估计期望增益,执行最优修改并观察真实效果;(3)贝叶斯更新,利用观测到的真实增益在线校正任务相似度信念,使迁移逐步对齐目标任务。
关键设计¶
-
修改-增益图与知识编织:
- 功能:将历史设计经验结构化为可复合的图表示,支持跨任务的细粒度增益估计
- 核心思路:对每个基准任务 \(D^i\) 构建图 \(G_\Delta^i = (V, E^i, \omega^i)\),节点 \(V\) 为架构配置,边 \((θ, θ')\) 的权重为性能增益 \(\omega^i(e) = \mathcal{P}(θ', D^i) - \mathcal{P}(θ, D^i)\)。选择最优修改时,通过加权聚合各任务的增益证据:\(\Delta\theta_t^* = \arg\max_{\Delta\theta} \sum_i \mathcal{S}_t(D^u, D^i) \cdot \widetilde{\Delta P}_t^i(\Delta\theta)\),其中 \(\mathcal{S}_t\) 为动态任务相似度
- 设计动机:与仅存储完整模型性能记录的传统方法不同,边表示的相对增益具有天然的可逆性和可链接性,允许跨任务组合局部编辑模式来逼近最优路径
-
贝叶斯动态任务相似度:
- 功能:在迭代修改过程中在线校正任务相似度,避免静态相似度失效导致的负迁移
- 核心思路:将任务相似度 \(\mathcal{S}_t^{u,i}\) 视为贝叶斯后验,利用每步观测到的真实增益通过贝叶斯规则更新:\(\mathcal{S}_t^{u,i} \propto \mathcal{N}(\Delta P_t^u; \gamma_{i,t} \Delta P_t^i, \sigma^2) \cdot \mathcal{S}_{t-1}^{u,i}\),其中似然函数基于增益一致性的高斯假设,参数通过滑动窗口(窗口大小 30-40)从最近观测中估计
- 设计动机:实验验证表明(Kendall 秩相关 0.34 vs 静态方法 0.08),真实的修改一致性在修改轨迹上剧烈变化,需要动态更新来跟踪演变的迁移景观
-
预测任务规划器(OOD 适配):
- 功能:当知识库中缺少相关证据或目标任务严重偏离分布时,生成合成增益证据以弥补检索空白
- 核心思路:对每个基准任务训练一个基于 EdgeConv GNN 的回归模型 \(f_{\psi_i}\),输入当前架构与候选修改后架构,预测增益 \(\widehat{\Delta P}_t^i(\Delta\theta) = f_{\psi_i}(\theta_t, \theta_t + \Delta\theta)\)。当后验相似度低于阈值 \(\delta\) 时切换到规划器预测,并通过在线 replay buffer 微调使合成证据逐步对齐目标分布
- 设计动机:Cornell 等 OOD 数据集上,直接检索相关性极低(\(R^2=0.03\)),启用规划器后提升至 \(R^2=0.11\),避免了误导性证据导致的错误累积
实验关键数据¶
主实验¶
在 67,760 个 GNN 模型、22 个数据集、33 个任务-数据对上评估,最大评估预算 100 次:
| 数据集 | 设计空间最优 | AutoTransfer | DesiGNN | M-DESIGN | 达到最优? |
|---|---|---|---|---|---|
| Actor | 34.89 | 33.97 | 34.43 | 34.89 | ✓ |
| Computers | 89.59 | 87.72 | 88.40 | 89.22 | — |
| Photo | 94.75 | 94.62 | 94.60 | 94.75 | ✓ |
| CiteSeer | 74.59 | 73.89 | 74.54 | 74.59 | ✓ |
| CS | 95.33 | 95.16 | 95.03 | 95.33 | ✓ |
| Cora | 88.50 | 88.50 | 88.34 | 88.50 | ✓ |
| Cornell | 77.48 | 76.58 | 75.50 | 77.48 | ✓ |
| DBLP | 84.29 | 83.59 | 84.29 | 84.29 | ✓ |
| PubMed | 89.08 | 89.08 | 89.08 | 89.08 | ✓ |
| Texas | 84.68 | 78.38 | 81.80 | 83.79 | — |
| Wisconsin | 91.33 | 88.67 | 90.66 | 91.33 | ✓ |
M-DESIGN 在 33 个任务-数据对中的 26 个达到设计空间最优,全面超越所有基线。
消融实验¶
| 变体 | 平均准确率下降 | Kendall 秩相关 | 说明 |
|---|---|---|---|
| M-DESIGN (完整) | — | 0.34 | 动态相似度 + 滑动窗口 + OOD 适配 |
| w/o 滑动窗口 | 轻微下降 | 0.27 | 早期不可靠证据未被降权 |
| w/o 动态更新 | 最大下降 | 0.08 | 静态相似度完全无法跟踪局部一致性 |
| w/o OOD 适配 | OOD 数据集大幅下降 | 0.31 | Computers/Cornell/Texas 性能显著退化 |
知识库规模消融:仅保留 25% 基准任务时平均准确率为 81.50,保留 100% 时为 82.11,性能降级平缓。
搜索效率对比¶
| 方法 | Cornell 到达目标所需评估数 | Wisconsin 到达目标所需评估数 |
|---|---|---|
| Random | ∞ | 79 |
| RL | 92.7 | 91.2 |
| EA | ∞ | 96.9 |
| DesiGNN | ∞ | 62.6 |
| M-DESIGN | 22 | 5 |
M-DESIGN 每步 MKB 操作开销 <0.31 秒(含 OOD 适配 <0.44 秒),远小于单次模型评估的 ~30 秒。
亮点与洞察¶
- 知识表示的范式转变:从存储完整模型性能记录转向编码细粒度修改增益,使历史经验可复合、可推理,而非仅可查找
- 动态迁移校正:贝叶斯在线更新是性能提升的主要来源(消融显示去除后 Kendall 相关从 0.34 降至 0.08),解决了静态任务相似度在迭代修改过程中失效的根本问题
- 理论假设有实证支撑:增益线性迁移和高斯分布假设在高相似任务对上得到验证(Cora-DBLP 的 \(R^2=0.87\)),为贝叶斯更新提供了可靠的似然模型
- 跨域迁移潜力:在表格数据(Protein/Slice/Naval 等 4 个数据集)上也表现优异,排名进入设计空间前 0.05%-0.47%
局限性 / 可改进方向¶
- 当前实例化仅覆盖 GNN 设计空间(3080 个候选架构),向 CNN/Transformer 等更大设计空间扩展需要解决知识库构建的可扩展性问题
- 离线 MKB 构建需要预训练大量模型(67,760 个),初始成本较高
- OOD 适配在极端分布偏移下(Cornell 的 \(R^2\) 仅从 0.03 提升到 0.11)改善有限,多跳推理能力仍需增强
- 贝叶斯更新假设增益服从高斯分布,在高度非凸的设计空间中可能不成立
相关工作与启发¶
- DesiGNN (Wang et al., 2026):检索增强的 GNN 设计,但使用静态任务相似度,缺乏在线校正能力
- AutoTransfer (Cao et al., 2023):基于嵌入的模型迁移,但同样存在静态相似度问题
- NAS-Bench-Graph (Qin et al., 2022):GNN 架构搜索基准,使用排序相关度量任务相似度
评分¶
- 新颖性: 9/10 — 将模型设计重构为修改-增益图上的检索增强迭代优化,贝叶斯动态任务相似度是独创性设计
- 实验充分度: 9/10 — 33 个任务-数据对 + 10 个基线 + 详细消融 + 理论假设验证 + 跨域实验
- 写作质量: 8/10 — 形式化定义清晰严谨,但符号密度较高
- 价值: 8/10 — 为自动机器学习提供了新范式,但扩展到更大设计空间的可行性待验证