⚖️ 对齐 / RLHF¶

🧠 NeurIPS2025 · 36 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (12) · 🔬 ICLR2026 (102) · 💬 ACL2026 (38) · 🧪 ICML2026 (37) · 🤖 AAAI2026 (17) · 📹 ICCV2025 (2)

🔥 高频主题： LLM ×12 · 对齐/RLHF ×7 · 对抗鲁棒 ×5 · 强化学习 ×2

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency: 提出基于任务并发（Task Concurrency）的LLM越狱攻击框架 JAIL-CON，通过在词级别交错编码有害任务和良性任务，利用LLM处理并发任务的能力绕过安全防护，同时产生的并发回答在guardrail下具有更强的隐蔽性。
Alignment of Large Language Models with Constrained Learning: 本文提出 CAID（Constrained Alignment via Iterative Dualization），通过迭代对偶方法交替更新 LLM 策略和对偶变量，在理论上证明了对偶方法可以找到最优约束 LLM 策略（至多存在参数化间隙），并在 PKU-SafeRLHF 数据集上显著改善了约束满足和 helpfulness-safety 权衡。
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond): 构建了 Infinity-Chat 数据集（26K 开放式真实用户查询 + 31,250 条人类标注），揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重，并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。
Ask a Strong LLM Judge when Your Reward Model is Uncertain: 提出基于不确定性的路由框架，用SNGP对pairwise reward model做不确定性量化，将高认知不确定性的样本路由到强LLM judge（DeepSeek-R1），在仅调用9.2%~42.5% judge的成本下显著超越随机路由的准确率，且有效改善下游在线RLHF对齐效果。
Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs: 提出两阶段微调攻击：第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解（尖锐loss landscape），第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉"，仅用完全良性数据即达94.84%越狱成功率，与恶意微调（97.25%）相当且完全绕过审核模型。
Can DPO Learn Diverse Human Values? A Theoretical Scaling Law: 建立了 DPO 在多元人类价值设定下的理论泛化框架——通过分析有限梯度步后 reward margin 的动态轨迹，证明了每种价值所需样本量必须随价值类别数 \(K\) 对数增长（\(Q = \Theta(\log K)\)）才能维持泛化性能，揭示了对齐多元化社会价值的统计代价。
Capturing Individual Human Preferences with Reward Features: 提出奖励特征模型（RFM）：学习共享奖励特征 \(\phi_\theta(x,y)\)，每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\)，并首次给出多评价者偏好学习的PAC泛化界，证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效，仅30个样本即可快速适应新用户。
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO: 提出DeepVideo-R1，将GRPO重新表述为回归优势值的Reg-GRPO（消除clipping/min等保护机制），同时通过难度感知数据增强缓解优势值消失问题，在视频推理任务上相比标准GRPO提升高达10.1个百分点。
EvoRefuse: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions: 本文提出 EvoRefuse——一个以 LLM 拒绝概率的证据下界(ELBO)为适应度的进化式提示优化算法，自动生成"看着像坏话、其实无害"的伪恶意指令；用它造出评测集 EvoRefuse-Test(582 条，平均拒绝触发率比最强基线高 85.34%)和对齐集 EvoRefuse-Align(3000 条)，后者微调 LLaMA3.1-8B 后过度拒绝最多降 45.96% 且不牺牲安全。
From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring: 提出 Streaming Content Monitor (SCM)——首个原生支持部分检测的流式有害内容监控器，通过 FineHarm 数据集（29K 样本含 token 级标注）和层次一致性感知学习，平均仅需看到 18% 的 response tokens 即可达到 0.95+ macro F1，实现对 LLM 有害输出的实时早停。
GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs: 提出GASP框架，通过训练专用的SuffixLLM生成可读的对抗后缀，利用潜在贝叶斯优化（LBO）在连续嵌入空间中高效搜索并用ORPO迭代微调生成器，在完全黑盒设置下实现高攻击成功率且生成的后缀保持人类可读性。
Generalizing while Preserving Monotonicity in Comparison-based Preference Learning Models: 提出 Linear GBT with Diffusion Prior，一类在保证单调性（偏好比较后被偏好方的分数不会反常下降）的同时能泛化到未比较数据的偏好学习模型，首次正面回答了"泛化与单调性能否兼得"的核心问题。
Greedy Sampling Is Provably Efficient for RLHF: 证明了在KL正则化的RLHF设置下，直接使用经验估计的贪心采样（无需构建乐观/悲观估计）就能在在线和离线两种设置中实现\(O(\log T)\)遗憾界和\(O(\varepsilon^{-1})\)样本复杂度，这是首次在一般偏好模型下达到这些阶数。
GVPO: Group Variance Policy Optimization for Large Language Model Post-Training: 通过将 KL 约束奖励最大化的解析解融入梯度权重（零和权重消除配分函数），设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO，在 AIME 上达到 20.72%（GRPO 14.79%），并证明具有唯一全局最优解。
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay: 提出两种互补技术提升 LLM 强化微调（GRPO）的数据效率：(1) DOTS——基于注意力机制预测自适应难度，优先选择中等难度问题以最大化梯度信号；(2) Rollout Replay——复用近期 rollout 降低每步计算开销。两者结合在 6 个模型-数据集组合上平均减少 40.7% 训练时间。
Inference-time Alignment in Continuous Space: 提出 Simple Energy Adaptation (SEA)，将推理时对齐从"离散空间搜索"范式转变为"连续空间优化"范式，通过在连续 logit 空间上进行基于梯度的 Langevin 采样来逼近 RLHF 最优策略，在 AdvBench 上相对最优基线提升 77.51%，在 MATH 上提升 16.36%。
Jailbreak-Zero: A Path to Pareto Optimal Red Teaming for Large Language Models: 提出基于策略（而非示例）的 LLM 红队评估框架和 Jailbreak-Zero 方法，通过简单的大规模并行采样策略（无需人工越狱策略），在 HarmBench 上对 GPT-4o 和 Claude 3.5 分别达到 99.5% 和 96.0% 的攻击成功率，同时通过微调实现覆盖率、多样性和保真度三个目标的 Pareto 最优。
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits: 将多个奖励模型（RM）的选择建模为上下文多臂老虎机（LinUCB）问题，在迭代 LLM 训练中自适应地为每个 batch 选择最合适的 RM，在推理、指令跟随和长上下文任务上以 2-3 倍效率优势全面超越 RM 集成和单 RM 基线。
Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis: 提出 LENS 框架，通过在 LLM 嵌入的潜在空间中利用 VAE 合成偏好数据对，绕过昂贵的文本生成过程，以极低计算成本（模型缩小 16000 倍、生成速度提升 18 倍）显著提升 reward model 性能。
LLM Safety Alignment is Divergence Estimation in Disguise: 建立统一理论框架证明 RLHF/DPO/KTO/BCO 等对齐方法本质上是在估计安全分布 \(\mathcal{D}^+\) 与不安全分布 \(\mathcal{D}^-\) 之间的散度，由此解释了对齐后隐空间分离现象，并提出基于 KL 散度的 KLDO 对齐方法，在 5 个模型上实现最佳鲁棒性。
Mechanism Design for LLM Fine-tuning with Multiple Reward Models: 将多方偏好聚合的 RLHF 微调建模为机制设计问题，证明了在社会福利最大化训练规则下各方有动机虚报偏好，并通过扩展 VCG 支付机制实现了占优策略激励相容（DSIC），确保各方如实报告偏好。
MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation: 提出 MetaDefense，一个两阶段（生成前+生成中）防御框架，通过训练 LLM 自身预测查询和部分响应的有害性来防御基于微调的越狱攻击，无需额外分类器，实现 2× 内存效率。
Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability: 系统研究了多环境 POMDP（ME-POMDP）——一类共享状态/动作/观测空间但转移、观测和奖励函数可任意不同的 POMDP 集合，目标是找到在最坏情况环境下最大化奖励的鲁棒策略。通过引入对抗信念 POMDP（AB-POMDP）统一建模，并证明其与单侧部分可观测随机博弈（POSG）的等价关系，提出精确（值迭代 + LP）和近似（AB-HSVI）算法。
PolyJuice Makes It Real: Black-Box, Universal Red Teaming for Synthetic Image Detectors: 提出 PolyJuice，首个面向合成图像检测器（SID）的黑盒、图像无关的红队方法，通过在 T2I 模型潜空间中发现并利用"真实感方向"，以通用方式引导生成图像欺骗检测器，成功率高达 84%。
Preference Learning with Lie Detectors can Induce Honesty or Evasion: 系统研究了将谎言检测器（lie detector）整合到LLM偏好学习标注流程中的效果（SOLiD框架），发现训练后模型是变得诚实还是学会规避检测取决于三个关键因素：探索程度（GRPO vs DPO）、检测器准确率（TPR）和KL正则化强度。
Preference Optimization by Estimating the Ratio of the Data Distribution: 将 DPO 重新解释为似然比估计（ratio matching）问题，基于 Bregman 散度框架提出 BPO（Bregman Preference Optimization），包含 DPO 为特例的广义损失函数族，并设计了 SBA（Scaled Basu's Power Divergence）实例，在 Llama-3-8B 上实现 55.9% AlpacaEval2 length-controlled win rate 的 SOTA。
Provably Efficient Online RLHF with One-Pass Reward Modeling: 提出一种基于 online mirror descent（OMD）的 one-pass reward modeling 方法，消除了 online RLHF 中需要存储历史数据并重新从头优化的计算瓶颈，实现每次迭代 \(\mathcal{O}(1)\) 的时间和存储复杂度，同时在统计效率上也优于 MLE 方法。
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models: RL 微调 LLM 时实际上只更新了 5%-30% 的参数（稀疏子网络），且该子网络在不同种子、数据和算法间具有高度一致性，仅微调子网络即可复现完整微调的模型性能甚至参数值。
ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning: 提出 ResponseRank 方法,通过利用偏好强度的代理信号（如响应时间和标注者一致性）的局部相对差异来鲁棒地学习效用差值,显著提升奖励模型的样本效率。
SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism: 通过分析多模态 LLM 中有害 token 的传播机制，发现不到 1% 的 token 在早期-中间层引发越狱行为，由此提出无需训练的 SafePTR 框架，在脆弱层剪枝有害 token 并在后续层恢复良性特征，显著提升安全性而不牺牲任务性能。
Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks: 理论证明并实验验证：防御长度 \(\Theta(M)\) 的后缀越狱攻击，只需要在长度 \(\Theta(\sqrt{M})\) 的对抗后缀上做对抗训练即可，即"短对抗训练防长越狱"——在5个主流LLM上，20 token 对抗训练可将 120 token 越狱成功率降低至少 30%。
Strategyproof Reinforcement Learning from Human Feedback: 首次从机制设计角度研究 RLHF 中多标注者策略性操纵问题，证明了策略防操纵（strategyproofness）与政策对齐之间存在根本性权衡，并提出 Pessimistic Median of MLEs 算法实现近似策略防操纵。
T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning: 提出 T-SHIRT 数据选择框架，通过 Selective IFD（仅考虑有信息量的 token）和分层选择策略（偏好邻域一致性高的样本），用 5% 数据微调即可超越全量数据训练，同时仅需 GPT-2 和单 GPU 40 分钟完成选择。
Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons: 通过机制可解释性视角发现 LLM 中约 5% 的稀疏"安全神经元"，仅修补（patching）这些神经元的激活即可恢复 90% 以上的安全性能，并从神经元重叠角度解释了 alignment tax 现象。
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training: 提出 TBA（Trajectory Balance with Asynchrony），将 GFlowNet 的轨迹平衡（TB）目标与异步分布式 RL 架构结合，实现 LLM 后训练中探索与学习的解耦，在数学推理、偏好微调和自动红队测试任务上获得 4-50 倍加速且性能不降反升。
What Makes a Reward Model a Good Teacher? An Optimization Perspective: 从优化理论角度证明：奖励模型的准确率（accuracy）不足以衡量其作为 RLHF "教师"的质量——即使完美准确的奖励模型，如果诱导的奖励方差（reward variance）过低，也会导致 RLHF 目标函数景观平坦，使 policy gradient 优化极慢；不同的语言模型需要不同的奖励模型。