Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces¶
会议: ICML2025
arXiv: 2501.18373
代码: tyler-ingebrand/FEtransfer
领域: 迁移学习
关键词: Transfer Learning, Hilbert Space, Basis Functions, Function Encoder, Least Squares
一句话总结¶
提出基于 Hilbert 空间几何视角的迁移学习分类体系(凸包插值 / 线性张成外推 / 全空间外推),并设计 Function Encoder 方法利用可学习神经网络基函数实现三种迁移,在多项基准上超越 MAML、Transformer 等方法。
研究背景与动机¶
- 核心问题:迁移学习算法何时能有效迁移到新任务?现有方法缺乏对"迁移成功条件"的刻画
- 不足:MAML 等元学习方法需要对新任务微调,当源任务与目标任务仅弱相关时容易失败;大规模预训练依赖海量数据而非结构性洞察;核方法随数据量增长 Gram 矩阵膨胀
- 动机:在 Hilbert 空间框架下,将迁移学习问题转化为几何问题——目标任务相对于源任务集合的几何位置决定了迁移难度
- 作者基于已有 Function Encoder 理论 (Ingebrand et al., 2024b),进一步推广至全 Hilbert 空间的迁移学习场景
方法详解¶
1. 迁移学习的几何分类¶
将归纳迁移(inductive transfer)问题建模在 Hilbert 空间 \(\mathcal{H}\) 中,按目标函数 \(f_T\) 与源函数集 \(\{f_{S_1}, \ldots, f_{S_n}\}\) 的几何关系分为三类:
| 类型 | 名称 | 定义 | 难度 |
|---|---|---|---|
| Type 1 | 凸包插值 | \(f_T \in \text{Conv}(f_{S_1}, \ldots, f_{S_n})\),即 \(f_T = \sum \alpha_i f_{S_i}\),\(\alpha_i \ge 0\),\(\sum \alpha_i = 1\) | 最易 |
| Type 2 | 线性张成外推 | \(f_T \in \text{span}\{f_{S_1}, \ldots, f_{S_n}\}\),系数无约束 | 中等 |
| Type 3 | 全空间外推 | \(f_T \in \mathcal{H}\) 但 \(f_T \notin \text{span}\{f_{S_1}, \ldots, f_{S_n}\}\) | 最难 |
2. Function Encoder 架构¶
学习一组神经网络参数化的基函数 \(\{g_1, \ldots, g_k\}\),将任意函数 \(f \in \mathcal{H}\) 表示为:
系数计算——最小二乘法(LS,本文新提出):
其中内积通过 Monte Carlo 积分近似:\(\langle f, g_j \rangle \approx \frac{1}{m} \sum_{i=1}^{m} y_i \cdot g_j(x_i)\)
相比原始内积法(IP),LS 方法的关键优势: - 不要求基函数正交,仅需线性无关(更弱条件) - 提供理论最优投影(最小二乘意义下) - 训练收敛更快、精度更高
3. 训练损失¶
第二项为正则化项,防止基函数幅值发散。
4. 万能函数空间逼近定理¶
Theorem 1:对任意可分 Hilbert 空间 \(\mathcal{H}\),存在一组神经网络基函数,使得 \(\mathcal{H}\) 中任意函数均可被任意精度逼近。
证明思路:可分 Hilbert 空间拥有可数正交基 → 神经网络万能逼近定理保证每个正交基可被 NN 逼近 → 误差按几何级数衰减 → 整体有限精度逼近。
5. 在线推理¶
给定目标任务的少量数据 \(D_{f_T}\),直接用 LS 公式计算系数即可,无需重训练。Gram 矩阵大小为 \(k \times k\)(超参数),与数据量无关,推理极快。
实验关键数据¶
在 4 个基准任务上对比 FE (LS)、FE (IP)、AutoEncoder、Transformer、TFE、MAML、BF、BFB 等方法:
| 基准任务 | Type 1 (插值) | Type 2 (张成外推) | Type 3 (全空间外推) |
|---|---|---|---|
| 多项式回归 | FE(LS) 最优,其他方法尚可 | FE(LS) 领先数个量级 | FE(LS) 领先数个量级 |
| CIFAR-100 分类 | FE(LS) 略优于 Siamese Network | — | FE(LS) 最优,与 Siamese 接近 |
| 7-Scenes 位姿估计 | FE(LS) 最优 | — | FE(LS) 最优 |
| MuJoCo Ant 动力学 | FE(LS) 最优 | FE(LS) 显著领先 | FE(LS) 最优且稳定 |
关键发现:
- 多项式回归中,FE(LS) 在 Type 2/3 上比其他方法低数个量级的 \(L^2\) 误差
- CIFAR-100 中,FE 尽管是通用方法,性能与专用的 Siamese/Prototypical Network 相当甚至略优
- MuJoCo 动力学任务中,AutoEncoder 在训练早期 Type 3 较好但随训练推进急剧退化,FE(LS) 始终稳定
- 增加基函数数量(如从 3 到 100)可显著提升 Type 3 迁移——多余维度被 LS 最优利用
亮点与洞察¶
- 几何分类体系新颖:首次从 Hilbert 空间几何角度系统分类三种迁移类型,提供直觉理解
- LS 计算系数是核心创新:不依赖正交性假设,使得基函数训练更灵活、收敛更快
- 万能逼近定理:为 Function Encoder 表达能力提供理论保证
- 不需要微调:与 MAML 不同,推理时仅需解最小二乘,无梯度计算
- 冗余维度的利用:当基函数数量 \(k\) 大于源任务数时,LS 能自动利用多余维度适配 Type 3 任务,这是其他方法不具备的
局限与展望¶
- 内积选择:不同问题需手动设计内积(如 \(L^2\)、概率分布内积),通用性受限
- 基函数数量 \(k\) 需调参:\(k\) 太小限制表达能力,太大增加计算和正则化难度
- Monte Carlo 近似误差:数据量少时内积估计不准,影响系数计算质量
- 可扩展性:在超大规模任务空间(如数千个源任务)上的效率未验证
- Type 3 的理论保证有限:万能逼近定理是存在性证明,未给出 \(k\) 与逼近误差的定量关系
- 仅考虑归纳迁移:未涉及领域自适应(domain adaptation)等跨域场景
相关工作与启发¶
- MAML (Finn et al., 2017):学习好初始化以快速微调,但需梯度步骤;FE 无需微调
- Kernel Methods:同样使用基函数思想,但基函数数量随数据增长且需预选核
- Dictionary Learning:在离散点上做原子分解,FE 的基函数可在连续域上求值
- Transformer/TFE:在简单多项式回归中即表现不佳,缺乏结构先验
评分¶
- 新颖性: ⭐⭐⭐⭐ — 几何分类体系 + LS 训练方案 + 万能逼近定理,理论贡献扎实
- 实验充分度: ⭐⭐⭐⭐ — 4 个不同领域基准、消融分析充分,但缺少更大规模实验
- 写作质量: ⭐⭐⭐⭐⭐ — 框架清晰,图表直观,理论与实验结合紧密
- 价值: ⭐⭐⭐⭐ — 为迁移学习提供新的几何理解视角,LS-based FE 实用性强