Deep Latent Variable Model based Vertical Federated Learning with Flexible Alignment and Labeling Scenarios¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=qCM2vo896B
代码: 待确认
领域: 联邦学习 / 概率方法 / 变分推断
关键词: 纵向联邦学习, 深度潜变量模型, 缺失数据机制, 半监督, 变分推断

一句话总结¶

把纵向联邦学习中"用户对不齐"的问题重新解释成经典的"块状缺失数据"问题，用一个深度潜变量模型 + 两阶段（无监督预训练 / 有监督微调）训练，第一次在多方场景下同时吃下不对齐、无标签、任意缺失机制（MCAR/MAR/MNAR）的数据，在 168 个配置里有 160 个超过最强基线，平均领先 9.6 个百分点。

研究背景与动机¶

领域现状：纵向联邦学习（Vertical Federated Learning, VFL）针对的是"特征被切开"的场景——多家机构（银行 + 电商、医院 + 药企、保险 + 车厂）持有同一批用户的互补特征，想在不交换原始数据的前提下联合训练一个模型。要做联合训练，传统 VFL 要求样本先"对齐"：同一个用户的各方特征要能拼到一起。

现有痛点：现实里用户集合几乎不可能完全重合，一篇 VFL 综述指出只有 0.2% 的潜在 VFL 配对是可以完全对齐的。于是大量数据要么是各方用户不重合的"不对齐"样本，要么因隐私法规根本拿不到标签。现有方法几乎都靠苛刻假设硬撑：要么只支持两方（VFed-SSD、FedCVT），要么不充分利用部分对齐的数据（VFLFS、VFedTrans），要么推理时只能在完全对齐的数据上做（FedHSSL、PlugVFL），还有的（MAGS）只在推理期处理不对齐却不在训练期用它。最接近的 LASER-VFL 能同时吃对齐 / 不对齐样本，却忽略了无标签数据，且它假设一个 batch 共享同一种缺失模式。

核心矛盾：VFL 里"对齐"这件事，本质上和经典缺失数据里的块状缺失（blockwise missingness）是同一回事——某个用户在某一方根本没有记录，就等价于这一整块特征"缺失"。但过去的 VFL 工作没有把它当缺失数据来系统处理，导致每加一个能力（多方 / 无标签 / 任意缺失）就要打一个新补丁，无法统一。

本文目标：造一个统一框架，让 VFL 在训练和推理两端都能处理任意对齐程度 + 任意标签可得性 + 任意缺失机制，且天然支持多方。

切入角度：作者借用缺失数据文献的三类机制——MCAR（完全随机缺失）、MAR（缺失只依赖已观测值）、MNAR（缺失依赖未观测值）——把"对不齐"翻译成缺失，再用对缺失数据天然友好的深度潜变量模型（DLVM）来建模。

核心 idea：把对齐缺口重写成缺失数据，用一个深度潜变量模型 \(p_{\Theta,\psi}(y\mid x^{obs},m)\) 在 MAR 假设下退化为 \(p_\Theta(y\mid x^{obs})\)，再用"先无监督预训练边际似然、再有监督微调条件似然"的两阶段训练，把海量无标签 / 不对齐数据全部利用起来。方法取名 FALSE-VFL（Flexible Alignment and Labeling Scenarios Enabled VFL）。

方法详解¶

整体框架¶

FALSE-VFL 的设定是：一个主动方（active party，持有标签）+ \(K-1\) 个被动方（passive party，只有特征）。每个样本 \(i\) 的完整观测 \(x_i=[x_i^1,\dots,x_i^K]\) 被切到各方，用掩码 \(m_i^k\in\{0,1\}\) 标记第 \(k\) 方是否缺这块（\(m_i^k=1\) 表示缺失），用 \(u_i\in\{0,1\}\) 标记标签是否缺失。这样"完全对齐 / 部分对齐 / 完全不对齐 / 有标签 / 无标签"全部被统一成 \((m_i,u_i)\) 的取值，整张数据表就是一张带块状缺失的表。

整条流水线是：各方先用本地编码器把自己那块特征编码成局部潜变量分布，主动方把这些局部分布按精度加权聚合成全局潜变量 \(h\)，再往上编码出顶层潜变量 \(z\)，形成一条潜变量链 \(z\to h\to x\)；训练分两阶段——先用所有样本（含无标签、不对齐）最大化观测特征的边际似然 \(p_{\Theta_g}(x^{obs})\) 做预训练，冻结生成参数 \(\Theta_g\) 后，再用有标签样本最大化条件似然训练判别器 \(\phi\)；推理时对新来的（残缺）观测做自归一化重要性采样得到 \(p_\Theta(y\mid x^{obs})\)。整个过程中各方只交换潜变量的分布参数和标量概率，不交换原始特征。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["各方特征(块状缺失)<br/>+ 少量标签"] --> B["对齐缺口即缺失数据<br/>MCAR/MAR/MNAR 统一建模"]
    B --> C["双侧潜变量架构<br/>精度加权融合 h、顶层 z"]
    C --> D["隐变量级跨方通信<br/>主动方聚合全局后验"]
    D --> E["两阶段训练<br/>边际似然预训练→冻结→条件似然"]
    E -->|新残缺观测| F["预测：自归一化重要性采样 → ŷ"]

关键设计¶

1. 对齐缺口即缺失数据：用统一缺失机制把 VFL 的所有变体收进一个框架

这是全文的概念基石。过去 VFL 把"用户对不齐"当成一个工程对齐难题，每种对齐 / 标签情形都要单独设计方法。本文指出：第 \(k\) 方对某用户没有记录，等价于这块特征 \(x_i^k\) 缺失（\(m_i^k=1\)）。于是把样本拆成 \(x_i=[x_i^{obs},x_i^{mis}]\)，只用得到 \(x_i^{obs}\)；完全对齐就是 \(\sum_k m_i^k=0\)，完全不对齐是 \(\sum_k m_i^k=K-1\)，介于中间的是部分对齐；标签缺失记作 \(u_i=1\)。这一步把"多方 / 部分对齐 / 无标签"全部翻译成缺失数据语言后，作者进一步区分两类不对齐：(a) 因标识符不完美而暂时没连上的、可以靠隐私保护的记录链接技术补齐的；(b) 本质上没有对应记录、无法对齐的。本文聚焦后者，正好对应缺失数据里的块状缺失，从而可以借用 MCAR / MAR / MNAR 三类机制。关键的理论便利是：在 MAR 假设下 \(p_{\Theta,\psi}(y\mid x^{obs},m)=p_\Theta(y\mid x^{obs})\)（附录 A.1），即缺失模式 \(m\) 不必显式建模就能正确预测——这让 FALSE-VFL-I（MAR 版）省去对掩码分布的建模；附录 A.2 的 FALSE-VFL-II 把假设放宽到 MNAR。

2. 双侧深度潜变量架构与精度加权后验融合：把多方残缺特征拼成一个可推断的全局潜变量

模型分特征侧和标签侧两组模块。每个方 \(k\) 有自己的编码器 \(\gamma_c^k\) 和解码器 \(\theta_c^k\)（特征侧）；持标签的主动方额外有全局编码器 \(\gamma_s\)、全局解码器 \(\theta_s\) 和判别器 \(\phi\)（标签侧）。生成方向是一条随机隐藏层链 \(p_{\Theta_g}(x)=\int p_{\Theta_g}(h_L)p_{\Theta_g}(h_{L-1}\mid h_L)\cdots p_{\Theta_g}(x\mid h_1)\,dh\)（论文取 \(L=2\)，记 \(h:=h_1,z:=h_L\)）。推断用摊销变分推断，难点在于只有部分方有观测时怎么把局部后验融合成全局后验——本文给出精度加权的高斯融合：

\[q_{\gamma_c}(h\mid x^{obs})=\mathcal{N}\!\left(\frac{1}{|obs|}\sum_{k\in obs}\mu_{\gamma_c^k}(x^k),\ \Big(\sum_{k\in obs}\Sigma_{\gamma_c^k}^{-1}(x^k)\Big)^{-1}\right).\]

直觉是：每个在场的方贡献一个高斯局部后验 \(\mathcal{N}(\mu_{\gamma_c^k},\Sigma_{\gamma_c^k})\)，按精度（协方差的逆）加权求和——越确定的方权重越大；缺席的方直接不进求和，所以任意子集的方在场都能算出全局 \(h\)，这正是它能容忍任意对齐模式的关键。顶层 \(q_{\gamma_s}(z\mid h)\) 同样取高斯。判别器 \(p_\phi(y\mid h)\) 对回归取高斯、对分类取类别分布。整套设计的好处是模块化、与方数无关，加一个方只是多一对编解码器。

3. 隐变量级跨方通信：在不泄露原始特征的前提下完成多方协作

由于原始 \(x^{obs}\) 不能跨方共享，所有信息流都走潜变量。预训练 / 训练时：每个方算出自己局部后验的均值和方差，发给主动方；主动方把这些局部表示聚合成全局潜分布、采样 \(h\) 再广播回各方；各方用本地解码器算 \(p_{\theta_c}(x^{obs}\mid h)\) 并把标量概率回传；主动方据此算损失、再把各方本地参数的梯度发回去。相比标准 VFL（被动方发表示、主动方回梯度），FALSE-VFL 只多了两步：主动方把采样的全局潜变量发给各方、各方把标量概率回传。推理时走同样的前向通信、不交换梯度。这套协议让"用潜变量做隐私聚合"和"任意方子集在场即可推断"自洽地落地。

4. 两阶段训练：先用全部数据预训练边际似然，再冻结后微调条件似然

最终目标是最大化条件似然 \(\sum_{u_i=0}\log p_\Theta(y_i\mid x_i^{obs})\)，但它即便用变分近似也不可解。作者绕道去最大化联合似然，因为有恒等式

\[\log p_\Theta(y,x^{obs})=\log p_\Theta(y\mid x^{obs})+\log p_{\Theta_g}(x^{obs}).\]

问题是 \(x^{obs}\) 维度极高（\(d_{obs}\gg 1\)），右边的边际项 \(\log p_{\Theta_g}(x^{obs})\) 会压倒条件项，导致模型只顾拟合特征分布、忽略预测（即 implicit modeling bias）。两阶段训练正是为此：阶段 1（预训练）先单独最大化占主导的边际似然——由于积分不可解，用 \(\kappa\) 样本的重要性加权（IWAE）下界 \(L_\kappa(\Theta_g)\) 来优化，且这一阶段不需要标签，于是海量无标签 / 不对齐样本全部被用上；阶段 2（训练）冻结 \(\Theta_g\)，只用有标签样本最大化联合似然 \(L'_\kappa(\phi)\) 训练判别器 \(\phi\)。冻住 \(\Theta_g\) 后，最大化联合似然就等价于最大化条件似然，从而既消除了建模偏置、又把目标对准了真正想要的预测。Theorem 3.1 保证 \(L_\kappa,L'_\kappa\) 随 \(\kappa\) 增大而单调上升并收敛到真对数似然。预测则用自归一化重要性采样：\(p_\Theta(y\mid x^{obs})\approx\sum_l w_l\,p_\phi(y\mid h_l)\)，权重 \(w_l=r_l/\sum_j r_j\) 由各采样点的重要性比 \(r_l\) 决定。

损失函数 / 训练策略¶

阶段 1（无监督，含无标签 / 不对齐）：最大化边际似然的 IWAE 下界 \(L_\kappa(\Theta_g)=\sum_i \mathbb{E}[\log R_\kappa(x_i^{obs})]\)，其中 \(R_\kappa\) 是 \(\kappa\) 个采样点的重要性加权平均。
阶段 2（有监督，冻结 \(\Theta_g\)）：最大化 \(L'_\kappa(\phi)=\sum_{u_i=0}\mathbb{E}[\log R'_\kappa(y_i,x_i^{obs})]\)，只更新判别器 \(\phi\)。
关键超参是重要性采样数 \(\kappa\)（越大下界越紧），以及潜变量层数 \(L\ge 2\)（实现取 \(L=2\)）。

实验关键数据¶

主实验¶

在四个数据集（Isolet、HAPT 两个表格数据 + FashionMNIST、ModelNet10 两个图像数据）上，对 6 种训练期缺失 × 7 种测试期缺失 = 168 个配置做评测，与 Vanilla VFL、LASER-VFL、PlugVFL、FedHSSL 比较。表格数据切成 8 方、ModelNet10 切成 6 方；表格给 500 个标签、图像给 1000 个，其余全当无标签。

维度	设置	FALSE-VFL 相对最强基线的平均准确率领先（百分点）
整体	168 配置（其中 160 个领先）	9.6（按 160 例算；按全部 168 例算为 9.1）
按数据集	Isolet	15.7
按数据集	HAPT	7.3
按数据集	FashionMNIST	4.5
按数据集	ModelNet10	9.1
按测试缺失率	MCAR 0 → MCAR 5 → MAR 2	1.8 → 9.6 → 12.3（缺失越重领先越大）

消融 / 鲁棒性实验¶

配置	关键发现	说明
MCAR 5 vs MCAR 2 训练	28 例中 23 例掉点最小，多数测试集反而涨	对更严重缺失最鲁棒
方数 \(K\) 从 4 到 12	各 \(K\) 下全面领先；LASER-VFL 随 \(K\) 增大退化	\(K\) 大时单一掩码 batch 难凑，LASER 批利用率崩
数据异质性 \(\alpha\in\{\infty,10,1,0.1\}\)	FALSE-VFL 全程持平且最高	Vanilla/FedHSSL 随异质性增大掉点，LASER 反而升

关键发现¶

缺失越严重，优势越大：测试缺失从 MCAR 0 到 MAR 2，领先从 1.8 拉大到 12.3 个百分点——说明它真正吃到了"在残缺数据上也能推断"的红利，而不是靠对齐样本撑分。
两个 MAR/MNAR 版本几乎打平：FALSE-VFL-I（不显式建模掩码）与 FALSE-VFL-II（建模 MNAR）表现接近，印证了 MAR 假设下不必建模掩码分布的理论结论，工程上可优先用更简单的 I 版。
方数鲁棒性的根因不同：Vanilla VFL / FedHSSL 只能用完全对齐的有标签样本，\(K\) 一大同时被所有方观测到的概率骤降而掉点；FALSE-VFL 能用不对齐的有标签样本，\(K\) 增大反而受益于"所有信息特征同时缺失的概率更低"。

亮点与洞察¶

一句话框架重述带来统一：把"对齐"重写成"缺失"，是那种事后看很自然、之前却没人系统做的视角转换——一旦完成，多方 / 无标签 / 任意缺失三件事就被同一套缺失数据机制收编，不再需要逐个打补丁。这种"换个语言描述问题"的思路可迁移到很多看似工程化的对齐 / 拼接难题。
精度加权的高斯融合是容错的关键：用各方局部后验的精度加权求和来构造全局后验，天然允许任意方子集在场——这是它能"任意对齐都能推断"的机制底座，而不是靠数据补全。
两阶段训练同时解决两个问题：先预训练边际似然既缓解了高维特征压倒预测的建模偏置，又顺手把无标签数据全用上；冻结 \(\Theta_g\) 把联合似然变成条件似然，是个干净的"绕道求解"技巧，值得借鉴到其他"目标不可解但联合可解"的场景。

局限与展望¶

隐私只到"不交换原始特征"层面：方法交换潜变量分布参数和梯度，并未给出针对潜变量泄露 / 重构攻击的形式化隐私保证（如差分隐私），在强对抗设定下的安全性待考。
MAR 假设是默认主力：FALSE-VFL-I 依赖 MAR 才能省去掩码建模；现实中若缺失明显依赖未观测值（强 MNAR），需切到 II 版，其额外开销与适用边界论文展开有限。
规模仍偏小：实验是 8 方 / 500~1000 标签、四个经典 benchmark，没有触及上百方、超高维或工业级隐私约束的场景；通信轮次随重要性采样数 \(\kappa\) 和方数增长的实际开销也值得更系统的评估。
可改进方向：把记录链接（处理"暂时连不上"的那类不对齐）与本框架（处理"本质对不上"的那类）组合起来，端到端联合优化，可能进一步榨干数据。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "对齐即缺失"的视角转换干净有力，第一个同时统一多方 / 无标签 / 任意缺失的 VFL 框架
实验充分度: ⭐⭐⭐⭐ 168 配置 + 方数 / 缺失率 / 异质性三组消融很全面，但 benchmark 偏经典、规模偏小
写作质量: ⭐⭐⭐⭐ 缺失机制与两阶段训练动机讲得清楚，理论与方法衔接顺，部分推导放在附录
价值: ⭐⭐⭐⭐ 直击 VFL "只有 0.2% 可完全对齐"的现实痛点，对标签稀缺、对齐困难的真实联邦场景有实用意义