SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC¶

会议: ICLR 2026
arXiv: 2506.15307
代码: 无
领域: AI安全
关键词: 隐私保护, 安全多方计算, 提示调优, 前向调优, 随机特征注意力

一句话总结¶

提出首个基于安全多方计算（MPC）的隐私保护提示调优框架 SecP-Tuning，通过前向调优消除反向传播开销、通过隐私保护随机特征注意力（RFA）替代 softmax 降低通信复杂度，实现约 12-16 倍加速和 17-20 倍通信量缩减。

背景与动机¶

隐私敏感领域的 LLM 适配需求：医疗、金融、政务等领域迫切需要将 LLM 适配到专业任务，但数据受 GDPR/HIPAA 等法规保护，无法直接访问。
MPC 提供理论级隐私保证：安全多方计算允许多方在不暴露各自输入的情况下共同计算，可同时保护模型参数和训练数据隐私，优于差分隐私的统计保证。
MPC 微调面临严重效率瓶颈：对 RoBERTa_LARGE 做一次 SFT 迭代需约 10 分钟、970GB 通信量——其中反向传播和优化器占 73% 时间，softmax 注意力占 75% 时间。
反向传播包含大量 MPC 不友好操作：Softmax、GELU、LayerNorm 等非线性操作在 MPC 环境中需分解为加减乘比较的近似计算，导致通信轮次和数据量激增。
现有高效微调方法无法解决根本问题：LoRA 和梯度提示调优虽减少更新参数量，但仍需反向传播和 softmax 的隐私保护计算，未能从根本上降低 MPC 通信开销。
HE 方案难以平衡效率和精度：同态加密（HE）依赖单方重计算且对非线性操作需昂贵的近似和再加密，MPC 通过多轮通信直接支持复杂非线性运算，更适合微调场景。

方法详解¶

整体框架¶

SecP-Tuning 把"数据拥有者"和"模型开发者"放进一个两服务器的安全多方计算环境里，让前者在不暴露任何私有数据、后者在不交出模型参数的前提下完成领域适配。一轮迭代的数据流是这样转的：数据拥有者在本地把低维隐变量 \(z\) 经随机投影 \(A\) 映射成提示嵌入 \(p\)、拼上私有数据 \(X\)，再把 \(X\) 秘密共享后发给两台服务器；两台服务器在密文里跑完前向推理（其中注意力用 RFA 而非 softmax），把预测共享 \([Y]\) 回传重建成明文 \(Y\)；数据拥有者拿到 \(Y\) 后在本地明文算损失、用无梯度优化器更新 \(z\)，进入下一轮。它的全部效率红利都来自两处对症下药：一是用前向调优（Forward-only Tuning, FoT）配合 "Server-Client" 架构，把损失与优化器整体搬出密文、彻底绕开反向传播；二是用隐私保护随机特征注意力（Random Feature Attention, RFA）替换 softmax，把注意力的密文复杂度从 \(O(n^2d)\) 压到 \(O(ndr)\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["数据拥有者本地<br/>隐变量 z 经随机投影 A 得提示 p，拼接私有数据 X"] --> B["秘密共享<br/>X 拆成 [X]₀,[X]₁ 发往两台服务器"]
    B --> C
    subgraph SRV["两台服务器·密文前向（FoT 只留前向）"]
        direction TB
        C["MPC 密文前向推理"] --> D["隐私保护随机特征注意力（RFA）<br/>RFA 线性化 softmax，Π_cosine 单轮通信算余弦"]
        D --> E["输出预测共享 [Y]"]
    end
    E --> F["重建为明文 Y 回传数据拥有者"]
    F --> G["前向调优（FoT）<br/>本地明文算损失 L + CMA-ES 更新隐变量 z"]
    G -->|下一轮迭代| A

关键设计¶

1. 隐私保护前向调优（FoT）：把反向传播和优化器从密文里整体搬走

MPC 之所以慢，是因为反向传播要对 Softmax、GELU、LayerNorm 求逆，再叠上 Adam 的除法与开方，这些非线性算子在密文里都得拆成大量加减乘比较来近似——实测占了一次迭代 73% 的时间。SecP-Tuning 干脆只保留前向推理：数据拥有者在本地初始化提示嵌入 \(p\)、拼上私有数据嵌入 \(X\)，把 \(X\) 秘密共享成 \(([X]_0,[X]_1)\) 交给两台服务器；两台服务器跑 MPC 协议完成密文前向、吐出预测共享 \([Y]\) 回传重建为明文 \(Y\)；数据拥有者再在本地明文算损失 \(L\)，并用无梯度优化器 CMA-ES 更新提示。这正是 "Server-Client" 架构的核心——损失值和无梯度优化器（Gradient-Free Optimizer, GFO）这些 MPC 不友好的计算（CMA-ES 里还含排序、向量外积、特征分解等 CrypTen 无法直接支持的操作）全部卸到数据拥有者本地明文执行，既快又精确。更关键的是，整条链路里参数更新只发生在本地，服务器永远拿不到更新后的提示，于是"模型记忆泄露训练数据"这条攻击路径从架构层面被堵死。为了让无梯度优化在高维下仍能收敛，实际更新被放进低维隐空间 \(z\in\mathbb{R}^d\)（\(d\ll D\)），再用一个固定随机投影 \(A\in\mathbb{R}^{D\times d}\) 映射回原始提示空间，优化目标写作 \(z^*=\arg\min_{z\in\mathcal{Z}}\mathcal{L}(f(Az;X),Y)\)。

2. 隐私保护随机特征注意力（RFA）：用一个 MPC 友好的余弦协议救活线性注意力

砍掉反向传播后，前向里的 softmax 注意力又成了新瓶颈——它在密文里有三重麻烦：指数、除法、取最大值都是 MPC 不友好操作，加上 \(O(n^2d)\) 的复杂度随序列长度二次膨胀，单是注意力就吃掉 75% 的时间。RFA 借随机傅里叶特征把核函数线性化，用 \(\exp(\mathbf{x}^\top\mathbf{y}/\sigma^2)\approx\phi(\mathbf{x})^\top\phi(\mathbf{y})\) 近似 softmax，其中 \(\phi(\mathbf{x})=\exp(\|\mathbf{x}\|^2/2\sigma^2)[\varphi(\mathbf{x},\omega_1),\dots,\varphi(\mathbf{x},\omega_M)]^\top\)，复杂度随之降到线性的 \(O(ndr)\)。但 \(\phi\) 里仍藏着余弦函数，这又是个 MPC 不友好操作；论文的关键补刀是设计了余弦协议 \(\Pi_{\text{cosine}}\)：离线阶段预先生成随机数 \(t\) 及 \(\sin(t)\)、\(\cos(t)\) 的秘密共享，在线阶段只需一轮通信重建 \(\delta=(x+t)\bmod\tau\)，再用三角恒等式 \(\cos(x)=\sin(\delta)\sin(t)+\cos(\delta)\cos(t)\) 还原结果，整个余弦只花单轮通信、\(2\ell\)-bit 数据量。没有这个协议，RFA 在短序列（如 \(L=64,128\)）上甚至比原始 softmax 还慢，可见它才是让线性注意力在 MPC 里真正划算的那块拼图。

实验¶

实验设置¶

模型：RoBERTa_LARGE（24 层、1024 维）。
数据集：SST-2、MRPC、RTE、Yelp Polarity、AG's News（每类 16 样本 few-shot）。
MPC 后端：CrypTen 框架，3 台 A100 GPU 服务器；LAN（3Gbps, 0.8ms）和 WAN（100Mbps/80ms、200Mbps/40ms）。
基线：全参数 SFT、梯度提示调优、FoT（明文）。

核心结果¶

方法	前向时间(s)	反向时间(s)	总时间(s)	通信量(GB)
SFT	216.2	554.5	651.6	970.7
梯度 Prompt Tuning	273.3	605.2	882.1	1116.2
SecP-Tuning (FoT)	174.0	0.0	174.1	205.4
SecP-Tuning (FoT+RFA)	54.2	0.0	55.2	56.5

方法	SST-2 Acc	Yelp P. Acc	AG's News Acc	MRPC F1	RTE Acc	平均
SFT	85.39	91.82	86.36	77.35	58.60	79.90
梯度 Prompt Tuning	68.23	61.02	84.81	51.61	54.69	64.07
FoT+预训练提示	89.56	91.50	81.51	75.51	77.62	83.14
SecP-Tuning	88.11	85.23	81.27	75.33	52.95	76.58

关键发现¶

效率提升巨大：SecP-Tuning 在 LAN 环境下比 SFT 快约 12 倍、比梯度提示调优快约 16 倍；通信量分别降低 17 倍和 20 倍。反向传播和优化器开销被完全消除（0 秒、0GB）。
精度可用：在 few-shot 设置下，SecP-Tuning 在 SST-2 和 MRPC 等任务上接近甚至超越梯度提示调优，验证了隐私保护调优的可用性。在简单情感分类任务上（SST-2: 88.11 vs 68.23）显著优于梯度提示调优。
唯一支持 AAS 部署：SecP-Tuning 是唯一支持 "As-A-Service" 模式的方法——数据拥有者可通过 API 完成微调，模型开发者永远无法获取更新后的参数，杜绝了模型记忆攻击风险。
Π_cosine 是 RFA 高效性的关键：不使用高效余弦协议的 RFA 在短序列场景下甚至比原始 softmax 更慢，说明 Π_cosine 的设计至关重要。

亮点¶

首个 MPC 环境下的 LLM 提示调优框架，填补了 MPC-based 隐私保护微调的空白。
"Server-Client"架构将损失和优化器计算卸载到数据拥有者本地明文执行，从架构层面消除反向传播开销。
隐私保护余弦协议 Π_cosine 巧妙利用三角恒等式实现单轮通信，是使 RFA 实际可行的关键贡献。
支持黑盒/API 式隐私调优，部署性优于所有梯度传递方案。

局限¶

仅在 RoBERTa_LARGE 上验证，未扩展到 GPT/LLaMA 级别的真正"大"模型，实际可扩展性存疑。
RFA 对 softmax 的近似会引入精度损失，在某些任务上（Yelp P. 85.23 vs 91.82、RTE 52.95 vs 58.60）与 SFT 有较大差距。
半诚实威胁模型假设较弱，恶意参与者场景需额外的零知识证明等机制，开销更大。
FoT 依赖 CMA-ES 等无梯度优化器，在高维参数空间中收敛性退化，需借助随机投影降维。

评分¶

维度	评分
新颖性	⭐⭐⭐⭐
有效性	⭐⭐⭐⭐
可复现性	⭐⭐⭐
实用性	⭐⭐⭐

方法	核心区别
BlindTuner (Panzade et al., 2025)	基于同态加密（HE）的隐私微调，单方加密计算开销大且非线性操作近似不精确；SecP-Tuning 基于 MPC 直接支持非线性操作
PrivTuner (Li et al., 2024b)	结合 LoRA 与全同态加密，减少参数但仍需反向传播的 HE 计算；SecP-Tuning 通过 FoT 完全消除反向传播
DP-based PFT (Wang et al., 2024; Charles et al., 2024)	差分隐私通过加噪提供统计级隐私保证(ε,δ)；MPC 提供密码学级理论保证，保护对象和保证强度不同