跳转至

⚖️ 对齐 / RLHF

🧠 NeurIPS2025 · 36 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (102) · 💬 ACL2026 (38) · 🧪 ICML2026 (37) · 🤖 AAAI2026 (17) · 📹 ICCV2025 (2)

🔥 高频主题: LLM ×12 · 对齐/RLHF ×7 · 对抗鲁棒 ×5 · 强化学习 ×2

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

提出基于任务并发(Task Concurrency)的LLM越狱攻击框架 JAIL-CON,通过在词级别交错编码有害任务和良性任务,利用LLM处理并发任务的能力绕过安全防护,同时产生的并发回答在guardrail下具有更强的隐蔽性。

Alignment of Large Language Models with Constrained Learning

本文提出 CAID(Constrained Alignment via Iterative Dualization),通过迭代对偶方法交替更新 LLM 策略和对偶变量,在理论上证明了对偶方法可以找到最优约束 LLM 策略(至多存在参数化间隙),并在 PKU-SafeRLHF 数据集上显著改善了约束满足和 helpfulness-safety 权衡。

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

Ask a Strong LLM Judge when Your Reward Model is Uncertain

提出基于不确定性的路由框架,用SNGP对pairwise reward model做不确定性量化,将高认知不确定性的样本路由到强LLM judge(DeepSeek-R1),在仅调用9.2%~42.5% judge的成本下显著超越随机路由的准确率,且有效改善下游在线RLHF对齐效果。

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

提出两阶段微调攻击:第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解(尖锐loss landscape),第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉",仅用完全良性数据即达94.84%越狱成功率,与恶意微调(97.25%)相当且完全绕过审核模型。

Can DPO Learn Diverse Human Values? A Theoretical Scaling Law

建立了 DPO 在多元人类价值设定下的理论泛化框架——通过分析有限梯度步后 reward margin 的动态轨迹,证明了每种价值所需样本量必须随价值类别数 \(K\) 对数增长(\(Q = \Theta(\log K)\))才能维持泛化性能,揭示了对齐多元化社会价值的统计代价。

Capturing Individual Human Preferences with Reward Features

提出奖励特征模型(RFM):学习共享奖励特征 \(\phi_\theta(x,y)\),每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\),并首次给出多评价者偏好学习的PAC泛化界,证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效,仅30个样本即可快速适应新用户。

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

提出DeepVideo-R1,将GRPO重新表述为回归优势值的Reg-GRPO(消除clipping/min等保护机制),同时通过难度感知数据增强缓解优势值消失问题,在视频推理任务上相比标准GRPO提升高达10.1个百分点。

EvoRefuse: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

本文提出 EvoRefuse——一个以 LLM 拒绝概率的证据下界(ELBO)为适应度的进化式提示优化算法,自动生成"看着像坏话、其实无害"的伪恶意指令;用它造出评测集 EvoRefuse-Test(582 条,平均拒绝触发率比最强基线高 85.34%)和对齐集 EvoRefuse-Align(3000 条),后者微调 LLaMA3.1-8B 后过度拒绝最多降 45.96% 且不牺牲安全。

From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

提出 Streaming Content Monitor (SCM)——首个原生支持部分检测的流式有害内容监控器,通过 FineHarm 数据集(29K 样本含 token 级标注)和层次一致性感知学习,平均仅需看到 18% 的 response tokens 即可达到 0.95+ macro F1,实现对 LLM 有害输出的实时早停。

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs

提出GASP框架,通过训练专用的SuffixLLM生成可读的对抗后缀,利用潜在贝叶斯优化(LBO)在连续嵌入空间中高效搜索并用ORPO迭代微调生成器,在完全黑盒设置下实现高攻击成功率且生成的后缀保持人类可读性。

Generalizing while Preserving Monotonicity in Comparison-based Preference Learning Models

提出 Linear GBT with Diffusion Prior,一类在保证单调性(偏好比较后被偏好方的分数不会反常下降)的同时能泛化到未比较数据的偏好学习模型,首次正面回答了"泛化与单调性能否兼得"的核心问题。

Greedy Sampling Is Provably Efficient for RLHF

证明了在KL正则化的RLHF设置下,直接使用经验估计的贪心采样(无需构建乐观/悲观估计)就能在在线和离线两种设置中实现\(O(\log T)\)遗憾界和\(O(\varepsilon^{-1})\)样本复杂度,这是首次在一般偏好模型下达到这些阶数。

GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

通过将 KL 约束奖励最大化的解析解融入梯度权重(零和权重消除配分函数),设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO,在 AIME 上达到 20.72%(GRPO 14.79%),并证明具有唯一全局最优解。

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

提出两种互补技术提升 LLM 强化微调(GRPO)的数据效率:(1) DOTS——基于注意力机制预测自适应难度,优先选择中等难度问题以最大化梯度信号;(2) Rollout Replay——复用近期 rollout 降低每步计算开销。两者结合在 6 个模型-数据集组合上平均减少 40.7% 训练时间。

Inference-time Alignment in Continuous Space

提出 Simple Energy Adaptation (SEA),将推理时对齐从"离散空间搜索"范式转变为"连续空间优化"范式,通过在连续 logit 空间上进行基于梯度的 Langevin 采样来逼近 RLHF 最优策略,在 AdvBench 上相对最优基线提升 77.51%,在 MATH 上提升 16.36%。

Jailbreak-Zero: A Path to Pareto Optimal Red Teaming for Large Language Models

提出基于策略(而非示例)的 LLM 红队评估框架和 Jailbreak-Zero 方法,通过简单的大规模并行采样策略(无需人工越狱策略),在 HarmBench 上对 GPT-4o 和 Claude 3.5 分别达到 99.5% 和 96.0% 的攻击成功率,同时通过微调实现覆盖率、多样性和保真度三个目标的 Pareto 最优。

LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits

将多个奖励模型(RM)的选择建模为上下文多臂老虎机(LinUCB)问题,在迭代 LLM 训练中自适应地为每个 batch 选择最合适的 RM,在推理、指令跟随和长上下文任务上以 2-3 倍效率优势全面超越 RM 集成和单 RM 基线。

Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

提出 LENS 框架,通过在 LLM 嵌入的潜在空间中利用 VAE 合成偏好数据对,绕过昂贵的文本生成过程,以极低计算成本(模型缩小 16000 倍、生成速度提升 18 倍)显著提升 reward model 性能。

LLM Safety Alignment is Divergence Estimation in Disguise

建立统一理论框架证明 RLHF/DPO/KTO/BCO 等对齐方法本质上是在估计安全分布 \(\mathcal{D}^+\) 与不安全分布 \(\mathcal{D}^-\) 之间的散度,由此解释了对齐后隐空间分离现象,并提出基于 KL 散度的 KLDO 对齐方法,在 5 个模型上实现最佳鲁棒性。

Mechanism Design for LLM Fine-tuning with Multiple Reward Models

将多方偏好聚合的 RLHF 微调建模为机制设计问题,证明了在社会福利最大化训练规则下各方有动机虚报偏好,并通过扩展 VCG 支付机制实现了占优策略激励相容(DSIC),确保各方如实报告偏好。

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

提出 MetaDefense,一个两阶段(生成前+生成中)防御框架,通过训练 LLM 自身预测查询和部分响应的有害性来防御基于微调的越狱攻击,无需额外分类器,实现 2× 内存效率。

Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability

系统研究了多环境 POMDP(ME-POMDP)——一类共享状态/动作/观测空间但转移、观测和奖励函数可任意不同的 POMDP 集合,目标是找到在最坏情况环境下最大化奖励的鲁棒策略。通过引入对抗信念 POMDP(AB-POMDP)统一建模,并证明其与单侧部分可观测随机博弈(POSG)的等价关系,提出精确(值迭代 + LP)和近似(AB-HSVI)算法。

PolyJuice Makes It Real: Black-Box, Universal Red Teaming for Synthetic Image Detectors

提出 PolyJuice,首个面向合成图像检测器(SID)的黑盒、图像无关的红队方法,通过在 T2I 模型潜空间中发现并利用"真实感方向",以通用方式引导生成图像欺骗检测器,成功率高达 84%。

Preference Learning with Lie Detectors can Induce Honesty or Evasion

系统研究了将谎言检测器(lie detector)整合到LLM偏好学习标注流程中的效果(SOLiD框架),发现训练后模型是变得诚实还是学会规避检测取决于三个关键因素:探索程度(GRPO vs DPO)、检测器准确率(TPR)和KL正则化强度。

Preference Optimization by Estimating the Ratio of the Data Distribution

将 DPO 重新解释为似然比估计(ratio matching)问题,基于 Bregman 散度框架提出 BPO(Bregman Preference Optimization),包含 DPO 为特例的广义损失函数族,并设计了 SBA(Scaled Basu's Power Divergence)实例,在 Llama-3-8B 上实现 55.9% AlpacaEval2 length-controlled win rate 的 SOTA。

Provably Efficient Online RLHF with One-Pass Reward Modeling

提出一种基于 online mirror descent(OMD)的 one-pass reward modeling 方法,消除了 online RLHF 中需要存储历史数据并重新从头优化的计算瓶颈,实现每次迭代 \(\mathcal{O}(1)\) 的时间和存储复杂度,同时在统计效率上也优于 MLE 方法。

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

RL 微调 LLM 时实际上只更新了 5%-30% 的参数(稀疏子网络),且该子网络在不同种子、数据和算法间具有高度一致性,仅微调子网络即可复现完整微调的模型性能甚至参数值。

ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning

提出 ResponseRank 方法,通过利用偏好强度的代理信号(如响应时间和标注者一致性)的局部相对差异来鲁棒地学习效用差值,显著提升奖励模型的样本效率。

SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism

通过分析多模态 LLM 中有害 token 的传播机制,发现不到 1% 的 token 在早期-中间层引发越狱行为,由此提出无需训练的 SafePTR 框架,在脆弱层剪枝有害 token 并在后续层恢复良性特征,显著提升安全性而不牺牲任务性能。

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks

理论证明并实验验证:防御长度 \(\Theta(M)\) 的后缀越狱攻击,只需要在长度 \(\Theta(\sqrt{M})\) 的对抗后缀上做对抗训练即可,即"短对抗训练防长越狱"——在5个主流LLM上,20 token 对抗训练可将 120 token 越狱成功率降低至少 30%。

Strategyproof Reinforcement Learning from Human Feedback

首次从机制设计角度研究 RLHF 中多标注者策略性操纵问题,证明了策略防操纵(strategyproofness)与政策对齐之间存在根本性权衡,并提出 Pessimistic Median of MLEs 算法实现近似策略防操纵。

T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning

提出 T-SHIRT 数据选择框架,通过 Selective IFD(仅考虑有信息量的 token)和分层选择策略(偏好邻域一致性高的样本),用 5% 数据微调即可超越全量数据训练,同时仅需 GPT-2 和单 GPU 40 分钟完成选择。

Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons

通过机制可解释性视角发现 LLM 中约 5% 的稀疏"安全神经元",仅修补(patching)这些神经元的激活即可恢复 90% 以上的安全性能,并从神经元重叠角度解释了 alignment tax 现象。

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

提出 TBA(Trajectory Balance with Asynchrony),将 GFlowNet 的轨迹平衡(TB)目标与异步分布式 RL 架构结合,实现 LLM 后训练中探索与学习的解耦,在数学推理、偏好微调和自动红队测试任务上获得 4-50 倍加速且性能不降反升。

What Makes a Reward Model a Good Teacher? An Optimization Perspective

从优化理论角度证明:奖励模型的准确率(accuracy)不足以衡量其作为 RLHF "教师"的质量——即使完美准确的奖励模型,如果诱导的奖励方差(reward variance)过低,也会导致 RLHF 目标函数景观平坦,使 policy gradient 优化极慢;不同的语言模型需要不同的奖励模型。