Stealing Split Learning Bottom Models by Recovering Embedding Geometry¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: AI 安全 / 隐私攻击
关键词: 垂直联邦学习, 分割学习, 模型窃取, 对比学习, 嵌入几何
一句话总结¶
在垂直联邦学习(VFL)的分割学习场景里,作者提出 VENOM——一种"几何感知"的模型窃取攻击:它不再逐点拟合服务器看到的嵌入坐标,而是先用对比学习在这些嵌入上重建一个稳定的邻域几何空间,再让代理模型同时对齐坐标、对齐特征形状、并尊重"近邻该近、远邻该远"的局部结构,从而绕过当前主流的加噪/解耦防御,在 6 个数据集上把窃取准确率(尤其在强防御 Model Rake 下)拉回到可用水平。
研究背景与动机¶
领域现状:垂直联邦学习让多个机构(如不同医院、银行)在不共享原始特征的前提下联合训练模型,工程上普遍用分割学习(split learning)实现:模型被切成客户端的"底部模型(bottom model)"和服务器的"顶部模型(top model)"。每个客户端把本地特征过一遍底部模型,只把中间嵌入 \(h_i^m = f_b^m(x_i^m)\) 发给服务器;服务器拼接所有客户端嵌入喂进顶部模型出预测,再把对嵌入的梯度回传给客户端。原始特征不出本地,但嵌入流持续暴露在服务器侧。
现有痛点:这个暴露的嵌入流就是攻击面。已有工作(PISTE)指出,一个训练时"老实"的服务器,在测试阶段可以扮演 honest-but-curious 的窃贼:它构造和客户端同特征空间的辅助输入,去查询客户端、记录返回的嵌入,然后训一个代理底部模型逐点回归这些嵌入(最小化 \(\|\hat f_b(x_j) - h_j\|_2^2\))。一旦代理学成,服务器配上自己的顶部模型就能脱离客户端复现整条流水线。为防这一手,出现了两类防御:扰动类(InvL-ENP/DNP 按 Jacobian 谱形状给嵌入或输入注入定向噪声;以及加噪、剪枝、随机投影、DP-SGD)和解耦类(Model Rake 给每个客户端训两个输出空间互相推开、各自又紧凑的底部模型,让单个代理无法同时对齐两套矛盾目标)。
核心矛盾:这些防御看似有效,但作者抓住一个本质张力——逐点拟合很脆,可有个信号防御抹不掉。逐点拟合脆有两个原因:一是防御可以通过加噪、旋转空间、把输出拆到多分支来改变攻击者看到的坐标,坐标本身一抖,对值就不可靠;二是更关键的,分割模型为了对服务器顶部模型仍然有用,必须保留嵌入的局部相似结构——如果两个语义相近的输入被映射到很远,下游分类器精度就崩了。也就是说,为了保住效用,系统不得不保留一致的邻域结构,即便防御扰乱了坐标。这个邻域结构就是一个可恢复的残留信号。
本文目标:设计一种攻击,恢复并利用服务器可见嵌入的邻域几何,使代理模型即便在先进防御下也能忠实模仿客户端底部模型。
切入角度:防御能动坐标,但动不了"谁和谁是邻居"的相对关系(动了效用就掉)。所以与其拟合不稳定的坐标,不如去拟合稳定的关系结构。
核心 idea:先用对比学习把服务器可见的嵌入映射进一个去噪、放大相似/不相似差异的几何空间,在那里挖近邻与远邻,再让代理同时满足"坐标对齐 + 特征形状对齐 + 邻域几何对齐",把被防御"解耦/扰动"开的嵌入重新"耦合"回来。
方法详解¶
整体框架¶
VENOM 是一条三步的窃取流水线,全程站在 honest-but-curious 服务器视角,只能查询客户端拿 (输入, 嵌入) 对,看不到客户端权重和梯度。第一步对比空间生成:用辅助输入 \(X^{aux}\) 查询客户端拿到嵌入集合 \(H=\{h_i\}\),在这些嵌入上训一个对比编码器,得到一个比原始坐标更稳定的表示空间 \(H^{con}\)。第二步邻域识别:在对比空间里给每个锚点嵌入算余弦相似度,缓存它的 \(k\) 个最近邻(KNN)和 \(k\) 个最远邻(KFN),形成一张轻量的"几何脚手架"。第三步代理训练:用一个复合目标训练代理底部模型——既逐点对齐坐标(\(L_{pt}\))、对齐特征质量分布(\(L_{kl}\)),又把代理输出过同一个冻结编码器后,拉向近邻、推开远邻(\(L_{knn}, L_{kfn}\))。三步走完,代理学到的是每个样本相对其语义邻域的位置,而不只是一堆孤立点。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["辅助查询<br/>(输入→客户端→嵌入)"] --> B["对比空间生成<br/>双视图实例判别<br/>训编码器去噪坐标"]
B --> C["邻域识别<br/>对比空间里缓存<br/>KNN(近邻)+KFN(远邻)"]
B --> D["原始嵌入对齐<br/>L2 坐标 + KL 特征形状"]
C --> E["对比空间几何对齐<br/>拉近邻 推远邻"]
D --> F["复合目标训练代理<br/>L=Lorigin+αLknn+(1-α)Lkfn"]
E --> F
F --> G["代理底部模型<br/>+服务器顶部模型<br/>=脱离客户端复现流水线"]
关键设计¶
1. 对比空间生成:把防御能扰动的坐标,换成防御抹不掉的关系
直接在服务器可见嵌入上逐点拟合,捕捉不到那些挺过防御的结构,因为坐标本身被噪声/旋转/分支搅乱了。VENOM 的做法是:对每个嵌入 \(h_i\) 造两个轻微扰动视图(如加高斯噪声 + 随机 dropout),过一个基编码器 \(e(\cdot)\) 接临时投影头 \(g(\cdot)\),用标准实例判别(instance discrimination)目标训练——同一个 \(h_i\) 的两个视图互为正样本要拉近,batch 内其他视图全是负样本要推远:
其中 \(\text{sim}\) 是余弦相似度,\(\tau_{con}=0.1\) 是温度。训完丢掉投影头、冻结编码器,把原始嵌入映成对比嵌入 \(H^{con}=\{e(h_i)\}\)。这一步为什么有效:实例判别会放大样本间的相似与不相似,让局部邻域更清晰、底层几何比"暴露在分割接口处的原始坐标"更稳定——防御扰的是坐标,扰不了"经对比去噪后谁聚谁分"这件事,于是攻击把战场从脆弱的坐标搬到了稳定的关系空间。
2. 邻域识别:在去噪后的空间里挖出"该近/该远"的几何脚手架
光有稳定空间还不够,得把"利用关系"落成可监督的信号。在对比嵌入 \(H^{con}\) 上,对每个锚点 \(h_i^{con}\) 算它与所有其他点的余弦相似度,记下相似度最高的 \(k\) 个最近邻和最低的 \(k\) 个最远邻:
这些邻居集用冻结编码器预计算并缓存,\(k\) 取辅助集的 10%(\(K=0.10\,|X^{aux}|\))。小数据集用精确搜索,大数据集用近似采样(每锚点只在 \(2K\) 大小的候选池里选 top-\(K\)/bottom-\(K\),把比较量从 \(O(N)\) 砍到 \(O(2K)\))。关键在于:这套近邻/远邻是在对比去噪后的空间里挖的,而不是在被防御腐蚀的原始坐标里挖——消融显示后者(w/o CON)虽比完全没几何监督好,但远不如前者,因为腐蚀过的几何会把假邻居当真邻居。
3. 复合对齐目标:坐标 + 特征形状 + 邻域几何三级监督
单纯逐点拟合丢掉了局部几何,所以 VENOM 把逐点对齐和几何感知监督耦合起来。第一级是原始嵌入对齐,\(L_2\) 项直接对坐标,KL 项让代理复现目标嵌入的"特征质量分布"(把嵌入各维过 softmax 当分布算 KL):
第二级是对比空间几何对齐:把代理输出 \(\hat h_i\) 过同一个冻结编码器得 \(\hat h_i^{con}\),用预存的近邻拉、远邻推:
总目标 \(L = L_{origin} + \alpha L_{knn} + (1-\alpha)L_{kfn}\),\(\alpha=0.5\)。为什么这样有效:KL 项提升逐点保真度,让后续过编码器挖出的几何更准;近邻吸引 + 远邻排斥两个力互补——只吸引会让嵌入塌缩、过拟合局部噪声,只排斥会过度分离、毁掉语义邻域,平衡时恰好保住"局部该近、对不相似样本留间隔"这个防御为了效用必须保留的结构。于是被多分支/加噪防御"解耦"的嵌入被重新"耦合"回来。
损失函数 / 训练策略¶
完整目标即上面的 \(L = L_{origin} + \alpha L_{knn} + (1-\alpha)L_{kfn}\)。训练用 Adam(学习率 \(10^{-3}\),batch 256),温度 \(\tau_{con}=0.1\)、\(\tau_{soft}=2\),\(\alpha=0.5\),邻域 \(K=10\%|X^{aux}|\)。所有底部模型输出 128 维嵌入,对比编码器是 3 层线性映到 256 维 + 训练时才用的 2 层投影头,代理结构与对应底部模型一致。
实验关键数据¶
评测设置为 2 客户端 + 1 服务器的分割学习,数据按模态垂直切分(表格平分、图像沿竖中线切、多模态按文本/图像分)。指标:S-ACC(代理替换客户端底部 + 服务器顶部后的测试准确率)和 AGR(代理与原流水线预测一致的样本比例),均越高代表攻击越强。基线为标准逐点嵌入匹配(Steal)。
主实验¶
下表摘取强防御下的 S-ACC(%),最能说明 VENOM 的优势随防御强度放大:
| 数据集 / 防御 | Steal | VENOM | 防御后管线 ACC | 说明 |
|---|---|---|---|---|
| MNIST / InvL-ENP | 81.61 | 90.85 | 95.25 | +9.2 pp |
| CIFAR-10 / InvL-DNP | 52.16 | 61.59 | 69.57 | +9.4 pp |
| MNIST / Model Rake | 17.44 | 68.52 | 82.41 | +51.1 pp,基线几乎被打崩 |
| CIFAR-10 / Model Rake | 12.84 | 52.58 | 61.78 | +39.7 pp |
| Bank / Model Rake | 45.76 | 79.35 | 85.82 | +33.6 pp |
| SUSY / Model Rake | 48.37 | 68.81 | 75.66 | +20.4 pp |
| NUS-WIDE / Model Rake | 46.82 | 67.51 | 76.39 | +20.7 pp |
AGR 趋势同样(CIFAR-10/InvL-DNP 从 50.49→68.84;NUS-WIDE/Model Rake 从 46.79→64.25)。无防御(Vanilla)下提升温和但一致(CIFAR-10 S-ACC 65.14→69.97)。
消融实验(CIFAR-10,强防御)¶
| 配置 | InvL-ENP S-ACC | InvL-DNP S-ACC | Model Rake S-ACC | 说明 |
|---|---|---|---|---|
| Full VENOM | 60.47 | 61.59 | 52.58 | 完整模型 |
| w/o KL | 58.32 | 59.17 | 46.43 | 去特征形状项,强防御下掉得更多 |
| w/o NM | 53.74 | 54.25 | 24.72 | 去邻域匹配,退化最严重 |
| w/o CON | 55.46 | 55.85 | 32.03 | 邻域匹配改在原始空间做,仍劣于对比空间 |
关键发现¶
- 对比邻域匹配是性能主引擎:去掉邻域匹配(w/o NM)退化最大,Model Rake 下 S-ACC 从 52.58 崩到 24.72,攻击退回逐点模仿;说明几何监督才是绕过解耦防御的核心。
- 对比空间不可省:在原始(被腐蚀)空间挖邻域(w/o CON,32.03)虽好于完全没几何监督(24.72),但远不如对比空间(52.58)——对比编码器先去噪稳定邻域,挖出的 KNN/远邻才可信。
- KL 是二级增益:提升逐点保真度,间接改善挖出的几何,单独贡献约 1–2 pp,但 Model Rake 下放大到约 6 pp。
- 超参规律:邻域 \(k\) 从 1%→10% 收益最大、之后饱和;\(\alpha=0.5\) 最优,偏向吸引会塌缩、偏向排斥会过度分离;辅助数据从 1%→10% 增益最大。
- OOD 容忍度:近 OOD 辅助数据(CIFAR-100、Tiny-ImageNet)仅中度退化,远 OOD(拿 MNIST 当 CIFAR-10 的辅助)则崩溃,因嵌入跌出流形、编码器学到与受害任务无关的几何(用 FID 量化分布偏移,FID 越大性能越低)。
- 效率折中:近似邻域采样把平均攻击时间砍 36.5%,S-ACC/AGR 仅小幅下降,说明攻击对邻居集不完美有鲁棒性。
亮点与洞察¶
- 攻击哲学的转移:从"拟合脆弱的坐标"转向"拟合防御为效用而被迫保留的关系几何",这是一个很漂亮的对抗视角——它直接把防御的"效用约束"变成了攻击的"可利用信号",防御越想保效用、就越得留下这个口子。
- 对比学习当"去噪透镜"用:把自监督对比学习从"学表示"重新定位成"稳定被防御腐蚀的几何",并且训完即丢投影头、冻结编码器当固定度量,思路可迁移到任何"坐标不稳但关系稳"的窃取/蒸馏场景。
- 三元一致性指标做证据:用 triplet consistency(代理是否保住受害者"近邻该近于远点"的相对序)直接验证 VENOM 比 Steal 更好地保住局部邻域,把"恢复几何"这个抽象主张落成可测量证据。
- 对安全研究的警示:当前 VFL 的加噪/剪枝/解耦防御被系统性地证伪——只要模型还得对服务器有用,邻域结构就抹不掉,单靠扰动坐标的防御路线可能是死路。
局限与展望¶
- 远 OOD 即失效:辅助数据必须与受害分布足够接近(近 OOD 尚可、远 OOD 崩溃),现实里攻击者若拿不到同域辅助数据,攻击力大打折扣。
- 威胁模型偏强:假设服务器能在测试阶段持续查询客户端底部模型并拿到嵌入;若部署侧限制查询次数/频率或不开放推理端点,攻击前提就不成立。
- 未对抗自适应防御:评测的防御都不知道 VENOM 存在;一旦防御方也针对"邻域几何"设计扰动(如主动打乱对比空间可恢复的关系、或像 B4B 那样追踪查询覆盖并惩罚),效果未知。
- 代理容量需匹配:代理过深会记忆嵌入噪声、过浅表达力不够,需要大致对齐受害者底部模型容量,实战中容量未知时可能要试错。
- 可改进方向:把邻域几何监督升级为"对抗自适应防御"的鲁棒版本,或探索查询预算受限下的几何恢复,会更贴近真实部署威胁。
相关工作与启发¶
- vs PISTE(逐点窃取基线): PISTE 用辅助查询收集
(输入, 嵌入)对、逐点回归训代理;本文指出这种逐点拟合在防御下脆弱,改为先重建几何再多级对齐,区别在于攻"关系"而非攻"坐标",强防御下优势巨大(Model Rake 下 +20~51 pp)。 - vs InvL-ENP/DNP、Model Rake(防御方): 这些防御分别用谱形噪声和双分支解耦来打乱坐标,本文证明它们都留下了"效用必需的邻域结构"这个可恢复信号,从而被 recouple。
- vs Cont-Steal(编码器窃取): Cont-Steal 也用对比对齐目标窃取图像编码器、匹配受害嵌入几何;本文差异在于明确针对"分割模型为效用必须保留的局部邻域",并在一个学习到的对比空间里显式恢复这种几何来监督代理,而非在原始空间直接对齐。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把"防御为效用必须保留邻域几何"这一张力转成攻击信号,视角新且打击面广,系统性证伪了主流 VFL 防御。
- 实验充分度: ⭐⭐⭐⭐ 6 数据集 × 8 防御、消融/敏感性/OOD/效率/容量分析齐全,但缺对抗自适应防御的评测。
- 写作质量: ⭐⭐⭐⭐ 动机链条(坐标脆 vs 关系稳)讲得清楚,图文对照到位,公式完整。
- 价值: ⭐⭐⭐⭐ 对 VFL 隐私安全社区有明确警示价值,推动防御从"扰动坐标"转向"保护关系结构"。