Weight Space Representation Learning via Neural Field Adaptation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 自监督 / 表示学习（权重空间表示、神经场）
关键词: 权重空间表示, 神经场 INR, 乘性 LoRA, 排列对称性, 权重扩散生成

一句话总结¶

本文提出用「预训练神经场基模型 + 乘性 LoRA（mLoRA）+ 非对称掩码」把每个样本独立拟合出来的网络权重约束成有结构的表示，让 INR 的权重本身既能高质量重建、又能在权重上跑扩散模型生成，还带语义可分性，在 FFHQ / ShapeNet 上全面超过此前的权重空间方法 HyperDiffusion。

研究背景与动机¶

领域现状：把神经网络的权重当成「可学习、可操作、可解释的对象」是近年新兴方向——已经有人把权重做合并（model merging）、用扩散模型生成权重、或把权重当作另一个网络的输入来处理。而隐式神经表示（INR / 神经场）天然把一个信号（图像、3D 形状）编码成「坐标 → 数值」的小网络的权重 \(f(p\,|\,\omega)\)，于是「能不能直接把这些权重当作数据的表示」就成了一个很自然的问题。

现有痛点：网络权重出了名地「模糊」。神经元的排列置换、通道缩放都不改变网络实现的函数——也就是说功能完全相同的两个网络，在权重空间里可以离得任意远。不同随机初始化拟合同一个样本，得到的参数配置天差地别。这让权重的分布是高度多模态、难以学习的，直接拿去做表示或喂给扩散模型几乎学不动。

核心矛盾：想用权重当表示，就要权重空间「平滑、有结构、同一语义聚到一起」；但 INR 的独立优化恰恰把每个样本扔进权重空间里一个随机的、被对称性打散的位置，结构无从谈起。

本文目标：给独立优化出来的权重注入恰当的归纳偏置，把混沌的参数空间塑造成有组织、有语义的表示空间，并验证它能同时支撑重建、生成、判别三类任务。

切入角度：作者观察到 LoRA 有两个对「造结构」恰好有利的性质——其一，LoRA 把更新限制在基模型定义的低维子空间内（不同 rank 的 LoRA 共享奇异向量方向，说明存在一个有意义的低秩适配子空间）；其二，低秩天然降维，缓解高维权重空间的维度灾难。于是不去做「能处理任意权重的外部编码器」，而是直接在权重空间本身上施加结构。

核心 idea：用「冻结的预训练神经场基模型 + 乘性 LoRA（element-wise 相乘而非相加）+ 非对称掩码打破排列对称」，让每个样本的 LoRA 权重直接成为它的结构化表示。

方法详解¶

整体框架¶

方法围绕一句话：不要让每个样本从零拟合一个 MLP，而是让它们共享同一个冻结的预训练神经场，只用各自的低秩适配权重去微调；这些适配权重就是样本的表示。输入是一批样本 \(\{x_i\}_{i=1}^{N}\)（2D 图像或 3D 形状），输出是每个样本对应的一组 LoRA 权重 \(\varepsilon_i\)，它们组成结构化的权重空间，可直接用于重建、扩散生成、分类聚类。

整条流水线是：先用变分自解码器范式训练一个带乘性调制的神经场基模型（捕捉跨样本的可迁移特征）→ 冻结基模型，对每个样本只优化它的乘性 LoRA 参数来重建该样本 → 给所有 LoRA 的 \(A\) 矩阵套同一套非对称掩码消除内部排列对称 → 把得到的权重表示拉平，喂进一个分层 LoRA 扩散 Transformer 学其分布、采样生成新权重再实例化成新的神经场。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["样本 x_i<br/>(2D 图像 / 3D 形状)"] --> B["预训练神经场基模型<br/>变分自解码器 + 乘性调制"]
    B -->|冻结基模型| C["乘性 LoRA (mLoRA)<br/>W⊙BA 逐样本拟合"]
    C --> D["非对称掩码<br/>冻结 A 部分元素破排列对称"]
    D --> E["结构化权重表示 ε_i"]
    E --> F["分层 LoRA 扩散 Transformer<br/>权重上跑扩散生成"]
    E --> G["重建 / 分类 / 聚类"]

关键设计¶

1. 乘性 LoRA（mLoRA）：用「相乘」而非「相加」来适配，避免神经场特征纠缠

标准 LoRA 是加性的：把预训练权重矩阵 \(W \in \mathbb{R}^{d_{out}\times d_{in}}\) 更新成 \(W' = W + BA\)，其中 \(A,B\) 是低秩矩阵。但作者发现加性 LoRA 在神经场权重学习里根本不够用。原因在于 INR 本身是「加性合成」信号的：线性层把基函数线性组合、激活函数生成谐波，这天然就让表示高度纠缠；加性 LoRA 又往这锅已经纠缠的混合物里注入新的信号分量，使权重空间更难结构化。

本文改成逐元素相乘：

\[W' = W \odot BA\]

其中 \(\odot\) 是 element-wise 乘法。乘性更新是去缩放已有特征而不是注入新特征，因此保留了通道结构、不引入额外纠缠——这也和生成式神经场里广泛使用的「乘性调制」机制一脉相承（特征通过乘性交互组合）。作者进一步指出（Corollary 2.2），一旦排列对称被消除，mLoRA 权重会和基网络的通道轴完全对齐，这正是它结构好的根源。实验里这一项被证明对重建、生成、判别都是决定性的。

2. 非对称掩码：冻结一部分 LoRA 元素，消除低秩因子内部的排列/GL 对称

排列对称是权重空间多模态、难学的元凶。本文里对称有两个来源：外部对称来自基网络神经元的置换——通过「所有样本共享同一个固定基模型」就被彻底消掉；内部对称藏在 LoRA 因子自己里——\(r\) 个秩维度可以任意置换而不改变函数，且任意可逆矩阵 \(G\in GL(r)\) 满足 \((AG)(G^{-1}B)=AB\)，意味着每个函数对应一整个 \(GL(r)\) 等价类。

为打破内部对称，作者对所有层所有 LoRA 的 \(A\) 矩阵施加非对称掩码：每一行随机冻结 \(\sim d_{out}\) 个元素，冻结位置在所有样本、所有训练运行间共享固定。关键差异在「怎么冻」——对 standalone MLP 和加性 LoRA，要破对称必须把冻结项初始化成大方差 \(\mathcal{N}(0,\sigma I)\)（论文取 \(\sigma=6\)），但这对神经场是灾难：大幅值固定权重逼迫其它权重去抵消它，制造纠缠、优化地形变差（实验里 LoRA-Asym 在 FFHQ 上 PSNR 直接崩到 24.63）。而 mLoRA 直接把冻结项置零 \(A_{ij}\leftarrow 0\)，相当于干净地「门控掉」对应的秩分量，不需要任何补偿，天然契合乘性结构。这就是「掩码 + 乘性」必须配套的原因。

3. 乘性调制基模型 + 变分自解码器训练：提供可迁移特征与解纠缠的底座

LoRA 表示的质量取决于基模型够不够强、特征够不够通用。作者采用坐标式神经场，主干是 MLP，样本间的差异通过乘性权重调制注入——这一架构本身就和 mLoRA 的乘性形式对齐。基模型用变分自解码器范式训练：不需要设计编码器（契合 INR 的数据无关性），联合优化网络参数 \(\omega\) 和每样本隐码 \(\{z_i\}\)：

\[\min_{\omega,\{z_i\}} \sum_{i=1}^{N} L_{recon}(f_\omega(p, z_i), x_i(p)) + \lambda_r \lVert z_i \rVert_2^2\]

之所以要在「生成式/可泛化」范式下训基模型，是因为单实例过拟合的神经场通道高度纠缠，而在多实例上学到的可迁移特征更解纠缠——这为后续乘性 LoRA「只缩放不注入」提供了干净的通道基底。

4. 分层 LoRA 扩散 Transformer：尊重低秩权重的成对/分层结构来做权重生成

要在权重上做生成，就在拉平的权重表示上跑 DDPM 扩散：前向加噪 \(q(\varepsilon_t|\varepsilon_{t-1})=\mathcal{N}(\varepsilon_t;\sqrt{1-\beta_t}\varepsilon_{t-1},\beta_t I)\)，\(\beta_t\) 走 \(10^{-4}\to 2\times10^{-2}\) 线性表，反向用 DiT 预测噪声，目标即标准简化扩散损失 \(L=\mathbb{E}\lVert \epsilon - \epsilon_\theta(\varepsilon_t,t)\rVert^2\)。

但直接把 LoRA 权重当无结构向量喂进 DiT 浪费了它的结构。作者设计分层 LoRA 层编码器：对第 \(l\) 层，把每个秩分量的向量对 \((a_l^{(i)}, b_l^{(i)})\)（\(A^{(l)}\) 的第 \(i\) 列、\(B^{(l)}\) 的第 \(i\) 行）当作一个 token；先用「向量级位置编码」标出秩维度索引，再用 \(r\) 头注意力建模层内 \(r\) 个秩分量之间的依赖；最后加「层级位置编码」聚合后送入主干 Transformer 建模跨层关系。这一分层设计直接对应 LoRA 的组合结构——层内秩分量相互依赖、不同层处在神经场的不同语义层级——从而同时学到局部（层内）和全局（层间）的权重空间结构。推理时用 DDIM 采样生成新权重、再实例化成新神经场。

损失函数 / 训练策略¶

两类损失：基模型用重建损失 + 隐码 \(L_2\) 正则（公式 4）联合训练；每样本 LoRA 在冻结基模型上用重建损失 \(L_{recon}[f(p|\text{LoRA}(W,\varepsilon)), x_i(p)]\) 拟合（公式 2）；扩散模型用标准简化噪声预测损失（公式 6）。所有 standalone MLP / LoRA 共享同一初始化以促进一致性。

实验关键数据¶

数据集：2D 用 FFHQ 人脸（128×128，比此前权重空间方法用的分辨率高得多、更难）；3D 用 ShapeNet（单类飞机 + 10 类多类别）。对比六种表示以隔离三个变量——参数化（MLP vs LoRA）、操作（加性 vs 乘性）、对称破除（有/无非对称掩码）。

主实验：重建 + 生成¶

重建质量（FFHQ 看 PSNR↑，ShapeNet 看 Chamfer Distance↓）：

表示	FFHQ PSNR↑	ShapeNet CD-A↓	ShapeNet CD-M↓
MLP	35.11	2.57	3.78
MLP-Asym	33.28	2.64	4.00
LoRA	35.69	2.44	3.39
LoRA-Asym	24.63	2.46	3.44
mLoRA	35.65	2.45	3.49
mLoRA-Asym	36.91	2.41	3.35

权重空间生成（FFHQ，越低越好）：

方法	FD↓	MMD-G↓	MMD-P↓
HyperDiffusion	0.241	0.158	1.887
LoRA-Asym	0.269	0.157	1.877
mLoRA	0.100	0.056	0.674
mLoRA-Asym	0.073	0.039	0.467

3D ShapeNet 生成上 mLoRA-Asym 同样在几乎所有指标领先（如 Airplane FD 0.011 vs HyperDiffusion 0.027，Multi FD 0.026 vs 0.117）。值得注意：纯加性 LoRA / LoRA-Asym 在生成上全面崩盘（Airplane FD 高达 116~270，1-NNA 接近 100%），印证了加性纠缠会毁掉权重空间结构。

消融 / 判别任务（ShapeNet 10 类）¶

表示	聚类 ARI↑	1-NN 分类↑	Logistic 分类↑
MLP	39.3%	50.0%	78.1%
LoRA	56.3%	75.2%	86.1%
mLoRA	67.1%	85.1%	90.0%
mLoRA-Asym	56.5%	80.8%	84.5%

关键发现¶

乘性是结构好坏的总开关：无论重建、生成、判别，乘性都明显优于加性；加性 LoRA 在生成上直接崩，因为它往已纠缠的神经场里注入新分量、毁掉权重空间结构。
非对称掩码必须配乘性：对加性版本掩码需要大方差冻结项，反而制造纠缠（LoRA-Asym 在 FFHQ 崩到 24.63）；mLoRA 用置零冻结，掩码反而进一步降纠缠、提升重建到 36.91。
结构与生成强相关：mLoRA-Asym 的权重会收敛到一个「线性模式」（不同初始化下权重相似度高、线性插值势垒低），这种良好几何直接对应最好的扩散生成质量。这也是首次在高分辨率自然图像上成功做权重空间生成（此前只能玩 MNIST/CIFAR）。
一个有趣的不一致：判别任务上最好的是 mLoRA（非 Asym），Logistic 拿到 90%，而生成/重建最好的是 mLoRA-Asym。说明判别力并不直接绑定线性模式连通性或排列对称——掩码改善了几何却未必改善语义可分性。

亮点与洞察¶

把「权重当表示」从加性翻成乘性，是这篇最关键的一拳：一个看似小的运算改动（\(+\) 改 \(\odot\)），背后是对「神经场用加性合成信号、所以再加东西会加剧纠缠」的精准诊断，乘性「只缩放不注入」从机制上保住了通道结构。
对称破除的工程细节很巧：同样是非对称掩码，加性要大方差、乘性要置零，作者把「为什么乘性能简单置零」讲到了通道对齐（Corollary 2.2），是机制级而非调参级的解释。
分层 LoRA 扩散 Transformer 可迁移：把 \((a^{(i)},b^{(i)})\) 当 token、用秩内注意力 + 层级位置编码尊重低秩结构的思路，对任何「在 LoRA/低秩权重上建模分布」的任务（如生成微调权重、权重检索）都能借鉴。
首次高分辨率自然图像权重空间生成，把这条线从玩具数据集推到了 FFHQ-128，是实打实的能力跃迁。

局限与展望¶

分辨率仍受限：FFHQ 只到 128×128，作者自己承认相对当前图像生成 SOTA 还是「modest」，权重空间方法离像素空间生成的质量差距明显。
判别 vs 生成的最优配置不统一：mLoRA 最利判别、mLoRA-Asym 最利生成，缺一个能同时拿满两端的统一表示，实际用时要按任务选版本。
依赖强基模型 + 变分自解码器：整套结构建立在「先训好一个可迁移、解纠缠的生成式基神经场」之上，基模型质量是上限；对没有现成基模型的新模态、跨域数据，冷启动成本未知。
可改进方向：能否设计同时优化「线性模式连通性」与「语义可分性」的对称破除策略，弥合判别/生成版本的割裂；以及把分层 LoRA 扩散扩到更高分辨率、更大 rank。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把「乘性 LoRA + 非对称掩码」作为给权重空间造结构的归纳偏置，并给出通道对齐的机制解释，角度新且自洽。
实验充分度: ⭐⭐⭐⭐ 2D/3D、重建/生成/判别三类任务 + 六种表示消融 + 结构几何分析，相当扎实；分辨率与模态覆盖仍偏窄。
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，从「权重为何难学」一路推到乘性/掩码，机制解释到位。
价值: ⭐⭐⭐⭐ 首次高分辨率自然图像权重空间生成 + 可迁移的分层 LoRA 扩散设计，对「权重即表示」方向是实质推进。