Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces¶

会议: ICML2025
arXiv: 2501.18373
代码: tyler-ingebrand/FEtransfer
领域: 迁移学习
关键词: Transfer Learning, Hilbert Space, Basis Functions, Function Encoder, Least Squares

一句话总结¶

提出基于 Hilbert 空间几何视角的迁移学习分类体系（凸包插值 / 线性张成外推 / 全空间外推），并设计 Function Encoder 方法利用可学习神经网络基函数实现三种迁移，在多项基准上超越 MAML、Transformer 等方法。

研究背景与动机¶

核心问题：迁移学习算法何时能有效迁移到新任务？现有方法缺乏对"迁移成功条件"的刻画
不足：MAML 等元学习方法需要对新任务微调，当源任务与目标任务仅弱相关时容易失败；大规模预训练依赖海量数据而非结构性洞察；核方法随数据量增长 Gram 矩阵膨胀
动机：在 Hilbert 空间框架下，将迁移学习问题转化为几何问题——目标任务相对于源任务集合的几何位置决定了迁移难度
作者基于已有 Function Encoder 理论 (Ingebrand et al., 2024b)，进一步推广至全 Hilbert 空间的迁移学习场景

方法详解¶

1. 迁移学习的几何分类¶

将归纳迁移（inductive transfer）问题建模在 Hilbert 空间 \(\mathcal{H}\) 中，按目标函数 \(f_T\) 与源函数集 \(\{f_{S_1}, \ldots, f_{S_n}\}\) 的几何关系分为三类：

类型	名称	定义	难度
Type 1	凸包插值	\(f_T \in \text{Conv}(f_{S_1}, \ldots, f_{S_n})\)，即 \(f_T = \sum \alpha_i f_{S_i}\)，\(\alpha_i \ge 0\)，\(\sum \alpha_i = 1\)	最易
Type 2	线性张成外推	\(f_T \in \text{span}\{f_{S_1}, \ldots, f_{S_n}\}\)，系数无约束	中等
Type 3	全空间外推	\(f_T \in \mathcal{H}\) 但 \(f_T \notin \text{span}\{f_{S_1}, \ldots, f_{S_n}\}\)	最难

2. Function Encoder 架构¶

学习一组神经网络参数化的基函数 \(\{g_1, \ldots, g_k\}\)，将任意函数 \(f \in \mathcal{H}\) 表示为：

\[f(x) = \sum_{j=1}^{k} c_j g_j(x \mid \theta_j)\]

系数计算——最小二乘法（LS，本文新提出）：

\[c = G^{-1} b, \quad G_{ij} = \langle g_i, g_j \rangle_{\mathcal{H}}, \quad b_j = \langle f, g_j \rangle_{\mathcal{H}}\]

其中内积通过 Monte Carlo 积分近似：\(\langle f, g_j \rangle \approx \frac{1}{m} \sum_{i=1}^{m} y_i \cdot g_j(x_i)\)

相比原始内积法（IP），LS 方法的关键优势： - 不要求基函数正交，仅需线性无关（更弱条件） - 提供理论最优投影（最小二乘意义下） - 训练收敛更快、精度更高

3. 训练损失¶

\[L = \frac{1}{n} \sum_{\ell=1}^{n} \|f_{S_\ell} - \sum_{j=1}^{k} c_j^\ell g_j\|_{\mathcal{H}}^2 + \sum_{i=1}^{k} (\|g_i\|_{\mathcal{H}}^2 - 1)^2\]

第二项为正则化项，防止基函数幅值发散。

4. 万能函数空间逼近定理¶

Theorem 1：对任意可分 Hilbert 空间 \(\mathcal{H}\)，存在一组神经网络基函数，使得 \(\mathcal{H}\) 中任意函数均可被任意精度逼近。

证明思路：可分 Hilbert 空间拥有可数正交基 → 神经网络万能逼近定理保证每个正交基可被 NN 逼近 → 误差按几何级数衰减 → 整体有限精度逼近。

5. 在线推理¶

给定目标任务的少量数据 \(D_{f_T}\)，直接用 LS 公式计算系数即可，无需重训练。Gram 矩阵大小为 \(k \times k\)（超参数），与数据量无关，推理极快。

实验关键数据¶

在 4 个基准任务上对比 FE (LS)、FE (IP)、AutoEncoder、Transformer、TFE、MAML、BF、BFB 等方法：

基准任务	Type 1 (插值)	Type 2 (张成外推)	Type 3 (全空间外推)
多项式回归	FE(LS) 最优，其他方法尚可	FE(LS) 领先数个量级	FE(LS) 领先数个量级
CIFAR-100 分类	FE(LS) 略优于 Siamese Network	—	FE(LS) 最优，与 Siamese 接近
7-Scenes 位姿估计	FE(LS) 最优	—	FE(LS) 最优
MuJoCo Ant 动力学	FE(LS) 最优	FE(LS) 显著领先	FE(LS) 最优且稳定

关键发现：

多项式回归中，FE(LS) 在 Type 2/3 上比其他方法低数个量级的 \(L^2\) 误差
CIFAR-100 中，FE 尽管是通用方法，性能与专用的 Siamese/Prototypical Network 相当甚至略优
MuJoCo 动力学任务中，AutoEncoder 在训练早期 Type 3 较好但随训练推进急剧退化，FE(LS) 始终稳定
增加基函数数量（如从 3 到 100）可显著提升 Type 3 迁移——多余维度被 LS 最优利用

亮点与洞察¶

几何分类体系新颖：首次从 Hilbert 空间几何角度系统分类三种迁移类型，提供直觉理解
LS 计算系数是核心创新：不依赖正交性假设，使得基函数训练更灵活、收敛更快
万能逼近定理：为 Function Encoder 表达能力提供理论保证
不需要微调：与 MAML 不同，推理时仅需解最小二乘，无梯度计算
冗余维度的利用：当基函数数量 \(k\) 大于源任务数时，LS 能自动利用多余维度适配 Type 3 任务，这是其他方法不具备的

局限与展望¶

内积选择：不同问题需手动设计内积（如 \(L^2\)、概率分布内积），通用性受限
基函数数量 \(k\) 需调参：\(k\) 太小限制表达能力，太大增加计算和正则化难度
Monte Carlo 近似误差：数据量少时内积估计不准，影响系数计算质量
可扩展性：在超大规模任务空间（如数千个源任务）上的效率未验证
Type 3 的理论保证有限：万能逼近定理是存在性证明，未给出 \(k\) 与逼近误差的定量关系
仅考虑归纳迁移：未涉及领域自适应（domain adaptation）等跨域场景

评分¶

新颖性: ⭐⭐⭐⭐ — 几何分类体系 + LS 训练方案 + 万能逼近定理，理论贡献扎实
实验充分度: ⭐⭐⭐⭐ — 4 个不同领域基准、消融分析充分，但缺少更大规模实验
写作质量: ⭐⭐⭐⭐⭐ — 框架清晰，图表直观，理论与实验结合紧密
价值: ⭐⭐⭐⭐ — 为迁移学习提供新的几何理解视角，LS-based FE 实用性强