Stealing Split Learning Bottom Models by Recovering Embedding Geometry¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: AI 安全 / 隐私攻击
关键词: 垂直联邦学习, 分割学习, 模型窃取, 对比学习, 嵌入几何

一句话总结¶

在垂直联邦学习（VFL）的分割学习场景里，作者提出 VENOM——一种"几何感知"的模型窃取攻击：它不再逐点拟合服务器看到的嵌入坐标，而是先用对比学习在这些嵌入上重建一个稳定的邻域几何空间，再让代理模型同时对齐坐标、对齐特征形状、并尊重"近邻该近、远邻该远"的局部结构，从而绕过当前主流的加噪/解耦防御，在 6 个数据集上把窃取准确率（尤其在强防御 Model Rake 下）拉回到可用水平。

研究背景与动机¶

领域现状：垂直联邦学习让多个机构（如不同医院、银行）在不共享原始特征的前提下联合训练模型，工程上普遍用分割学习（split learning）实现：模型被切成客户端的"底部模型（bottom model）"和服务器的"顶部模型（top model）"。每个客户端把本地特征过一遍底部模型，只把中间嵌入 \(h_i^m = f_b^m(x_i^m)\) 发给服务器；服务器拼接所有客户端嵌入喂进顶部模型出预测，再把对嵌入的梯度回传给客户端。原始特征不出本地，但嵌入流持续暴露在服务器侧。

现有痛点：这个暴露的嵌入流就是攻击面。已有工作（PISTE）指出，一个训练时"老实"的服务器，在测试阶段可以扮演 honest-but-curious 的窃贼：它构造和客户端同特征空间的辅助输入，去查询客户端、记录返回的嵌入，然后训一个代理底部模型逐点回归这些嵌入（最小化 \(\|\hat f_b(x_j) - h_j\|_2^2\)）。一旦代理学成，服务器配上自己的顶部模型就能脱离客户端复现整条流水线。为防这一手，出现了两类防御：扰动类（InvL-ENP/DNP 按 Jacobian 谱形状给嵌入或输入注入定向噪声；以及加噪、剪枝、随机投影、DP-SGD）和解耦类（Model Rake 给每个客户端训两个输出空间互相推开、各自又紧凑的底部模型，让单个代理无法同时对齐两套矛盾目标）。

核心矛盾：这些防御看似有效，但作者抓住一个本质张力——逐点拟合很脆，可有个信号防御抹不掉。逐点拟合脆有两个原因：一是防御可以通过加噪、旋转空间、把输出拆到多分支来改变攻击者看到的坐标，坐标本身一抖，对值就不可靠；二是更关键的，分割模型为了对服务器顶部模型仍然有用，必须保留嵌入的局部相似结构——如果两个语义相近的输入被映射到很远，下游分类器精度就崩了。也就是说，为了保住效用，系统不得不保留一致的邻域结构，即便防御扰乱了坐标。这个邻域结构就是一个可恢复的残留信号。

本文目标：设计一种攻击，恢复并利用服务器可见嵌入的邻域几何，使代理模型即便在先进防御下也能忠实模仿客户端底部模型。

切入角度：防御能动坐标，但动不了"谁和谁是邻居"的相对关系（动了效用就掉）。所以与其拟合不稳定的坐标，不如去拟合稳定的关系结构。

核心 idea：先用对比学习把服务器可见的嵌入映射进一个去噪、放大相似/不相似差异的几何空间，在那里挖近邻与远邻，再让代理同时满足"坐标对齐 + 特征形状对齐 + 邻域几何对齐"，把被防御"解耦/扰动"开的嵌入重新"耦合"回来。

方法详解¶

整体框架¶

VENOM 是一条三步的窃取流水线，全程站在 honest-but-curious 服务器视角，只能查询客户端拿 (输入, 嵌入) 对，看不到客户端权重和梯度。第一步对比空间生成：用辅助输入 \(X^{aux}\) 查询客户端拿到嵌入集合 \(H=\{h_i\}\)，在这些嵌入上训一个对比编码器，得到一个比原始坐标更稳定的表示空间 \(H^{con}\)。第二步邻域识别：在对比空间里给每个锚点嵌入算余弦相似度，缓存它的 \(k\) 个最近邻（KNN）和 \(k\) 个最远邻（KFN），形成一张轻量的"几何脚手架"。第三步代理训练：用一个复合目标训练代理底部模型——既逐点对齐坐标（\(L_{pt}\)）、对齐特征质量分布（\(L_{kl}\)），又把代理输出过同一个冻结编码器后，拉向近邻、推开远邻（\(L_{knn}, L_{kfn}\)）。三步走完，代理学到的是每个样本相对其语义邻域的位置，而不只是一堆孤立点。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["辅助查询<br/>(输入→客户端→嵌入)"] --> B["对比空间生成<br/>双视图实例判别<br/>训编码器去噪坐标"]
    B --> C["邻域识别<br/>对比空间里缓存<br/>KNN(近邻)+KFN(远邻)"]
    B --> D["原始嵌入对齐<br/>L2 坐标 + KL 特征形状"]
    C --> E["对比空间几何对齐<br/>拉近邻 推远邻"]
    D --> F["复合目标训练代理<br/>L=Lorigin+αLknn+(1-α)Lkfn"]
    E --> F
    F --> G["代理底部模型<br/>+服务器顶部模型<br/>=脱离客户端复现流水线"]

关键设计¶

1. 对比空间生成：把防御能扰动的坐标，换成防御抹不掉的关系

直接在服务器可见嵌入上逐点拟合，捕捉不到那些挺过防御的结构，因为坐标本身被噪声/旋转/分支搅乱了。VENOM 的做法是：对每个嵌入 \(h_i\) 造两个轻微扰动视图（如加高斯噪声 + 随机 dropout），过一个基编码器 \(e(\cdot)\) 接临时投影头 \(g(\cdot)\)，用标准实例判别（instance discrimination）目标训练——同一个 \(h_i\) 的两个视图互为正样本要拉近，batch 内其他视图全是负样本要推远：

\[\ell_{i,j} = -\log \frac{\exp(\text{sim}(z_i, z_j)/\tau_{con})}{\sum_{k=1}^{2n} \mathbb{1}[k\neq i]\,\exp(\text{sim}(z_i, z_k)/\tau_{con})}\]

其中 \(\text{sim}\) 是余弦相似度，\(\tau_{con}=0.1\) 是温度。训完丢掉投影头、冻结编码器，把原始嵌入映成对比嵌入 \(H^{con}=\{e(h_i)\}\)。这一步为什么有效：实例判别会放大样本间的相似与不相似，让局部邻域更清晰、底层几何比"暴露在分割接口处的原始坐标"更稳定——防御扰的是坐标，扰不了"经对比去噪后谁聚谁分"这件事，于是攻击把战场从脆弱的坐标搬到了稳定的关系空间。

2. 邻域识别：在去噪后的空间里挖出"该近/该远"的几何脚手架

光有稳定空间还不够，得把"利用关系"落成可监督的信号。在对比嵌入 \(H^{con}\) 上，对每个锚点 \(h_i^{con}\) 算它与所有其他点的余弦相似度，记下相似度最高的 \(k\) 个最近邻和最低的 \(k\) 个最远邻：

\[N_k^{near}(i) = \arg\max_{J,|J|=k} \sum_{j\in J}\text{sim}(h_i^{con}, h_j^{con}), \quad N_k^{far}(i) = \arg\min_{J,|J|=k} \sum_{j\in J}\text{sim}(h_i^{con}, h_j^{con})\]

这些邻居集用冻结编码器预计算并缓存，\(k\) 取辅助集的 10%（\(K=0.10\,|X^{aux}|\)）。小数据集用精确搜索，大数据集用近似采样（每锚点只在 \(2K\) 大小的候选池里选 top-\(K\)/bottom-\(K\)，把比较量从 \(O(N)\) 砍到 \(O(2K)\)）。关键在于：这套近邻/远邻是在对比去噪后的空间里挖的，而不是在被防御腐蚀的原始坐标里挖——消融显示后者（w/o CON）虽比完全没几何监督好，但远不如前者，因为腐蚀过的几何会把假邻居当真邻居。

3. 复合对齐目标：坐标 + 特征形状 + 邻域几何三级监督

单纯逐点拟合丢掉了局部几何，所以 VENOM 把逐点对齐和几何感知监督耦合起来。第一级是原始嵌入对齐，\(L_2\) 项直接对坐标，KL 项让代理复现目标嵌入的"特征质量分布"（把嵌入各维过 softmax 当分布算 KL）：

\[L_{pt} = \frac{1}{N_{aux}}\sum_i \|\hat h_i - h_i\|_2^2, \quad L_{kl} = \frac{1}{N_{aux}}\sum_i \sum_d P_{h_i}(d)\log\frac{P_{h_i}(d)}{P_{\hat h_i}(d)}, \quad L_{origin}=L_{pt}+L_{kl}\]

第二级是对比空间几何对齐：把代理输出 \(\hat h_i\) 过同一个冻结编码器得 \(\hat h_i^{con}\)，用预存的近邻拉、远邻推：

\[L_{knn} = -\frac{1}{N_{aux}}\sum_i \frac{1}{k}\sum_{j\in N_k^{near}(i)}\text{sim}(\hat h_i^{con}, h_j^{con}), \quad L_{kfn} = \frac{1}{N_{aux}}\sum_i \frac{1}{k}\sum_{j\in N_k^{far}(i)}\text{sim}(\hat h_i^{con}, h_j^{con})\]

总目标 \(L = L_{origin} + \alpha L_{knn} + (1-\alpha)L_{kfn}\)，\(\alpha=0.5\)。为什么这样有效：KL 项提升逐点保真度，让后续过编码器挖出的几何更准；近邻吸引 + 远邻排斥两个力互补——只吸引会让嵌入塌缩、过拟合局部噪声，只排斥会过度分离、毁掉语义邻域，平衡时恰好保住"局部该近、对不相似样本留间隔"这个防御为了效用必须保留的结构。于是被多分支/加噪防御"解耦"的嵌入被重新"耦合"回来。

损失函数 / 训练策略¶

完整目标即上面的 \(L = L_{origin} + \alpha L_{knn} + (1-\alpha)L_{kfn}\)。训练用 Adam（学习率 \(10^{-3}\)，batch 256），温度 \(\tau_{con}=0.1\)、\(\tau_{soft}=2\)，\(\alpha=0.5\)，邻域 \(K=10\%|X^{aux}|\)。所有底部模型输出 128 维嵌入，对比编码器是 3 层线性映到 256 维 + 训练时才用的 2 层投影头，代理结构与对应底部模型一致。

实验关键数据¶

评测设置为 2 客户端 + 1 服务器的分割学习，数据按模态垂直切分（表格平分、图像沿竖中线切、多模态按文本/图像分）。指标：S-ACC（代理替换客户端底部 + 服务器顶部后的测试准确率）和 AGR（代理与原流水线预测一致的样本比例），均越高代表攻击越强。基线为标准逐点嵌入匹配（Steal）。

主实验¶

下表摘取强防御下的 S-ACC（%），最能说明 VENOM 的优势随防御强度放大：

数据集 / 防御	Steal	VENOM	防御后管线 ACC	说明
MNIST / InvL-ENP	81.61	90.85	95.25	+9.2 pp
CIFAR-10 / InvL-DNP	52.16	61.59	69.57	+9.4 pp
MNIST / Model Rake	17.44	68.52	82.41	+51.1 pp，基线几乎被打崩
CIFAR-10 / Model Rake	12.84	52.58	61.78	+39.7 pp
Bank / Model Rake	45.76	79.35	85.82	+33.6 pp
SUSY / Model Rake	48.37	68.81	75.66	+20.4 pp
NUS-WIDE / Model Rake	46.82	67.51	76.39	+20.7 pp

AGR 趋势同样（CIFAR-10/InvL-DNP 从 50.49→68.84；NUS-WIDE/Model Rake 从 46.79→64.25）。无防御（Vanilla）下提升温和但一致（CIFAR-10 S-ACC 65.14→69.97）。

消融实验（CIFAR-10，强防御）¶

配置	InvL-ENP S-ACC	InvL-DNP S-ACC	Model Rake S-ACC	说明
Full VENOM	60.47	61.59	52.58	完整模型
w/o KL	58.32	59.17	46.43	去特征形状项，强防御下掉得更多
w/o NM	53.74	54.25	24.72	去邻域匹配，退化最严重
w/o CON	55.46	55.85	32.03	邻域匹配改在原始空间做，仍劣于对比空间

关键发现¶

对比邻域匹配是性能主引擎：去掉邻域匹配（w/o NM）退化最大，Model Rake 下 S-ACC 从 52.58 崩到 24.72，攻击退回逐点模仿；说明几何监督才是绕过解耦防御的核心。
对比空间不可省：在原始（被腐蚀）空间挖邻域（w/o CON，32.03）虽好于完全没几何监督（24.72），但远不如对比空间（52.58）——对比编码器先去噪稳定邻域，挖出的 KNN/远邻才可信。
KL 是二级增益：提升逐点保真度，间接改善挖出的几何，单独贡献约 1–2 pp，但 Model Rake 下放大到约 6 pp。
超参规律：邻域 \(k\) 从 1%→10% 收益最大、之后饱和；\(\alpha=0.5\) 最优，偏向吸引会塌缩、偏向排斥会过度分离；辅助数据从 1%→10% 增益最大。
OOD 容忍度：近 OOD 辅助数据（CIFAR-100、Tiny-ImageNet）仅中度退化，远 OOD（拿 MNIST 当 CIFAR-10 的辅助）则崩溃，因嵌入跌出流形、编码器学到与受害任务无关的几何（用 FID 量化分布偏移，FID 越大性能越低）。
效率折中：近似邻域采样把平均攻击时间砍 36.5%，S-ACC/AGR 仅小幅下降，说明攻击对邻居集不完美有鲁棒性。

亮点与洞察¶

攻击哲学的转移：从"拟合脆弱的坐标"转向"拟合防御为效用而被迫保留的关系几何"，这是一个很漂亮的对抗视角——它直接把防御的"效用约束"变成了攻击的"可利用信号"，防御越想保效用、就越得留下这个口子。
对比学习当"去噪透镜"用：把自监督对比学习从"学表示"重新定位成"稳定被防御腐蚀的几何"，并且训完即丢投影头、冻结编码器当固定度量，思路可迁移到任何"坐标不稳但关系稳"的窃取/蒸馏场景。
三元一致性指标做证据：用 triplet consistency（代理是否保住受害者"近邻该近于远点"的相对序）直接验证 VENOM 比 Steal 更好地保住局部邻域，把"恢复几何"这个抽象主张落成可测量证据。
对安全研究的警示：当前 VFL 的加噪/剪枝/解耦防御被系统性地证伪——只要模型还得对服务器有用，邻域结构就抹不掉，单靠扰动坐标的防御路线可能是死路。

局限与展望¶

远 OOD 即失效：辅助数据必须与受害分布足够接近（近 OOD 尚可、远 OOD 崩溃），现实里攻击者若拿不到同域辅助数据，攻击力大打折扣。
威胁模型偏强：假设服务器能在测试阶段持续查询客户端底部模型并拿到嵌入；若部署侧限制查询次数/频率或不开放推理端点，攻击前提就不成立。
未对抗自适应防御：评测的防御都不知道 VENOM 存在；一旦防御方也针对"邻域几何"设计扰动（如主动打乱对比空间可恢复的关系、或像 B4B 那样追踪查询覆盖并惩罚），效果未知。
代理容量需匹配：代理过深会记忆嵌入噪声、过浅表达力不够，需要大致对齐受害者底部模型容量，实战中容量未知时可能要试错。
可改进方向：把邻域几何监督升级为"对抗自适应防御"的鲁棒版本，或探索查询预算受限下的几何恢复，会更贴近真实部署威胁。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"防御为效用必须保留邻域几何"这一张力转成攻击信号，视角新且打击面广，系统性证伪了主流 VFL 防御。
实验充分度: ⭐⭐⭐⭐ 6 数据集 × 8 防御、消融/敏感性/OOD/效率/容量分析齐全，但缺对抗自适应防御的评测。
写作质量: ⭐⭐⭐⭐ 动机链条（坐标脆 vs 关系稳）讲得清楚，图文对照到位，公式完整。
价值: ⭐⭐⭐⭐ 对 VFL 隐私安全社区有明确警示价值，推动防御从"扰动坐标"转向"保护关系结构"。