联邦学习中水印的鲁棒性与放射性可能相互矛盾¶

会议: ICLR 2026
arXiv: 2510.17033
领域: 视频理解
关键词: 联邦学习, LLM水印, 数据溯源, 鲁棒聚合, 放射性检测

一句话总结¶

首次研究联邦学习中 LLM 水印的数据溯源问题，发现水印在 FL 中具有放射性（可检测），但恶意服务器可通过强鲁棒聚合算法过滤水印更新，揭示了放射性、鲁棒性和模型效用之间的根本性三元矛盾。

研究背景与动机¶

随着 LLM 生成的合成数据在联邦学习（FL）中的广泛使用，数据溯源（data provenance）变得至关重要：

合成数据泛滥：FL 客户端越来越多地使用 LLM 生成的合成数据集进行本地训练

溯源需求：若合成数据被恶意利用进行微调，无溯源机制则无法追责

法规要求：EU AI 法案等法规明确要求 AI 系统的透明性和可追溯性

核心问题：LLM 水印在 FL 环境中是否仍然有效？恶意服务器能否在保持模型效用的同时移除水印信号？

关键发现¶

通过 t-SNE 可视化发现：水印客户端的模型更新在高维空间中呈现为异常值，与干净客户端的更新分布明显分离（图1），这为恶意服务器提供了攻击手柄。

方法详解¶

整体框架¶

研究设置两种 FL 场景：

VanillaFL：良性服务器，简单平均所有客户端更新
ActiveFL：恶意服务器，使用鲁棒聚合器过滤水印更新

关键定义¶

放射性（Radioactivity）：数据集 \(D^w\) 对统计检验 \(T\) 是 \(\alpha\)-放射性的，如果检验 \(T\) 能以 p-value 低于 \(\alpha\) 拒绝零假设 \(H_0\)（模型未在 \(D^w\) 上训练）。

FL 鲁棒性（Robustness）：若存在对抗者 \(\mathcal{A}\) 使得： 1. \(\mathcal{A}(U_\Delta, \theta^{t_\mathcal{A}}) \approx_\mathcal{E} \mathcal{T}(C_\Delta, \theta^{t_\mathcal{A}})\)（保持效用） 2. \(\text{Detect}^{\mathcal{M}_{\theta^{t_\mathcal{A}+1}},\mathcal{A}}_s(D^w_i) \rightarrow \text{False}\)（水印不可检测）

则数据集 \(D^w_i\) 对 \(\mathcal{A}\) 不鲁棒。

攻击机制¶

恶意服务器使用拜占庭鲁棒聚合器（如 RandEigen）替代简单平均。聚合器保证偏差上界：

\[\text{bias} = \|\text{Fil}(U_\Delta) - \mu_C\|_2 \leq \beta \cdot \|\Sigma_C\|_2^{1/2}\]

其中强鲁棒聚合器保证 \(\beta = O(1)\)，与向量维度 \(d\) 无关，适用于 LLM 的高维参数空间。

评估指标¶

逃逸率（ER）：水印客户端在聚合后未被过滤的比例
过度过滤率（OFR）：被过滤客户端中非水印客户端的比例

实验关键数据¶

放射性检测结果（VanillaFL，ε=6.6%）¶

数据集	水印	模型	FT前 p-value	FT后 p-value
C4	KGW+	160M	0.397	\(1.27\times10^{-3}\)
C4	KGW+	410M	0.877	\(2.41\times10^{-8}\)
Alpaca	KGW+	410M	0.302	\(4.96\times10^{-24}\)
C4	KTH+	全部	~0.5	~0.5

鲁棒性检测结果（ActiveFL vs VanillaFL，ε=6.6%）¶

数据集	模型	VanillaFL p-value	ActiveFL p-value
C4	160M	\(1.27\times10^{-3}\)	0.550
C4	410M	\(2.41\times10^{-8}\)	0.613
Alpaca	160M	\(1.59\times10^{-11}\)	0.231
Alpaca	410M	\(4.96\times10^{-24}\)	0.282

关键发现¶

KGW+ 水印在 FL 中具有强放射性：即使仅 6.6% 数据带水印，p-value 可低至 \(10^{-24}\)
KTH+ 水印在 FL 中不具放射性：因其检测器无法跨 prompt 累积统计信号
RandEigen 聚合器有效移除所有水印：所有放射性水印在 ActiveFL 下 p-value 均恢复至 ~0.5
更大 δ 提高放射性但降低鲁棒性：ER 从 60.2%（δ=0）降至 0.7%（δ=5）
三元矛盾：增大 ε 同时提高放射性和鲁棒性，但降低模型效用

亮点与洞察¶

首个联邦数据溯源研究：将水印检测从集中式扩展到分布式 FL 场景
攻击者视角的洞察：水印引入的分布偏移使更新成为异常值，恰好被设计用于防御拜占庭攻击的聚合器过滤
三元权衡的揭示：放射性（可检测性）、鲁棒性（抗攻击性）和效用（模型质量）无法同时满足
实用的威胁模型：服务器仅需更换聚合函数即可移除水印，无需知道水印方案细节

局限性¶

仅评估了 Pythia 系列（70M-410M），未在更大模型上验证
仅考虑两种水印方案（KGW+、KTH+），覆盖面有限
假设恶意服务器不知道水印密钥和方案，实际中信息可能泄露
未提出有效的防御方案来应对鲁棒聚合攻击
水印客户端比例 ε 设置较小（最大 30%），更极端场景未探索

评分 ⭐⭐⭐⭐¶

问题定义新颖，实验设计严谨，揭示了 FL 中水印的根本性矛盾。虽然未提出解决方案，但为后续研究指明了方向。与视频理解领域关联较弱，更偏向安全与联邦学习交叉方向。

联邦学习中水印的鲁棒性与放射性可能相互矛盾¶

一句话总结¶

研究背景与动机¶

关键发现¶

方法详解¶

整体框架¶

关键定义¶

攻击机制¶

评估指标¶

实验关键数据¶

放射性检测结果（VanillaFL，ε=6.6%）¶

鲁棒性检测结果（ActiveFL vs VanillaFL，ε=6.6%）¶

关键发现¶

亮点与洞察¶

局限性¶

评分 ⭐⭐⭐⭐¶

相关论文¶