⚖️ 对齐 / RLHF¶
💬 ACL2025 · 82 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (102) · 💬 ACL2026 (38) · 🧪 ICML2026 (37) · 🤖 AAAI2026 (17) · 🧠 NeurIPS2025 (36)
🔥 高频主题: 对齐/RLHF ×39 · LLM ×11 · 对抗鲁棒 ×11 · Agent ×5 · 多模态 ×4
- A Dual-Mind Framework for Strategic and Expressive Negotiation Agent
-
本文受人类认知双过程理论启发,提出双心智谈判智能体框架(DMNA),将直觉模块(快速策略规划,基于 MCTS+DPO 训练)和审慎模块(慢速表达优化,基于多面反思机制)相结合,在谈判任务上取得了最优性能。
- AceCoder: Acing Coder RL via Automated Test-Case Synthesis
-
构建 AceCode-87K(87K 编码题 + 138 万自动合成测试用例),训练代码专用 Reward Model(7B 超越 340B Nemotron),Best-of-N 提升 Llama-3.1-8B 平均 8.9 分,R1 风格从 base 直接 RL 仅 80 步 HumanEval+ 提升 22.5%。
- AGD: Adversarial Game Defense Against Jailbreak Attacks in Large Language Models
-
本文提出AGD(Adversarial Game Defense),一种基于对抗博弈的LLM越狱攻击防御方法,通过动态调整模型内部表示在有用性和无害性之间取得平衡,利用IQR异常检测、双层优化博弈和专家模型采样三个阶段显著提升LLM安全性。
- AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic LLMs
-
本文提出 AgentAlign 框架,利用抽象行为链作为中介,在模拟环境中合成高质量的 agent 安全对齐数据(有害+良性),通过 SFT 使三类开源模型的 agent 安全性提升35.8%-79.5%,同时保持甚至提升了任务能力。
- AgentRM: Enhancing Agent Generalization with Reward Modeling
-
提出 AgentRM,一个可泛化的奖励模型,通过显式/隐式/LLM-as-Judge 三种方式构建,用测试时搜索(Best-of-N / Beam Search)引导策略模型,在 9 个 Agent 任务上平均提升 8.8 分并超越最佳通用 Agent 4.0 分。
- Aligning to What? Limits to RLHF Based Alignment
-
本文通过系统实验发现RLHF(包括DPO、ORPO、RLOO等方法)在减少LLM隐性种族偏见方面基本无效,且SFT在RLHF之前进行会"固化"模型偏见,揭示了当前对齐技术在处理模糊目标(如消除偏见)方面的根本局限。
- AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models
-
提出AMoPO框架,通过将生成空间建模为高斯分布实现维度感知的自适应权重分配,在不依赖奖励模型和参考模型的情况下完成多目标偏好对齐,在HelpSteer2数据集上超越SOTA 28.5%,并在7B/14B/32B模型上验证了缩放能力。
- ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning
-
将 DPO 的偏好优化粒度从回复级细化到句子级,通过图文相似度和文本困惑度两个维度动态计算每个句子的自适应奖励权重,在 LLaVA-1.5-7B/13B 和 InstructBLIP-13B 上分别带来平均 2.57/2.87/1.98 分提升,同时显著降低幻觉率。
- Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization
-
在 SemEval 2025 LLM 遗忘共享任务中,将负偏好优化 (NPO) 与低秩适配 (LoRA) 结合,利用 LoRA 的结构特性零开销获取原始模型分布来计算 KL 散度正则化,显著稳定了遗忘过程并超越了任务基线。
- AutoMixAlign: Adaptive Data Mixing for Multi-Task Preference Optimization in LLMs
-
AutoMixAlign 提出了一种理论驱动的多任务偏好优化数据混合方法:先训练各任务的 specialist model 确定最优 loss 基线,再通过 minimax 优化自适应调整数据混合比例,优先处理 excess loss(与 specialist 的差距)最大的任务,在 helpfulness/harmlessness/reasoning 多任务 DPO 中平均提升 9.42%。
- Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning
-
系统研究了在固定数据标注预算下,如何在监督微调(SFT)和偏好微调(PFT/DPO)两个阶段之间最优分配资源,发现低数据量时纯 SFT 最优,高预算时组合使用效果最佳,且仅将 <10% 预算分配给 SFT 就能解决 DPO 的冷启动问题并带来 15-20% 的数学推理提升。
- Beyond Similarity: A Gradient-based Graph Method for Instruction Tuning Data Selection
-
本文提出 G2IS(Gradient-based Graph Instruction Selection),通过构建基于梯度的指令图来建模指令数据之间的联合分布和相互依赖关系,结合梯度遍历算法进行数据选择,仅用 1% 的数据即可超越全数据指令调优的效果。
- Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs
-
提出 EDDF,一种基于"攻击本质"而非表面模式的越狱防御框架:离线提取已知攻击的本质策略存入向量数据库,在线时对新查询做本质抽象+检索+细粒度判断,将攻击成功率降低至少 20% 且误报率仅 2.18%。
- Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models
-
系统评估 13 个 SOTA 小语言模型(<4B参数)在 5 种越狱攻击下的安全性,发现 SLM 虽能抵御直接攻击但在越狱攻击下显著比大模型脆弱,进一步分析了架构压缩、量化和知识蒸馏等 SLM 技术对安全性的影响。
- Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data
-
提出 ReVD 框架,通过双向漏洞推理数据合成 + 三元组 SFT(同时学习漏洞代码/修复代码/代码差异的推理)+ 课程化在线偏好优化(COPO),将 LLM 的漏洞检测准确率提升 12-23%,在 PrimeVul 和 SVEN 上达到 SOTA。
- Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space
-
基于精细化可能性模型 (ELM) 将越狱策略分解为四类可独立进化的组件(角色/内容支撑/语境/沟通技巧),提出 CL-GSO 遗传算法在组件级进行交叉与变异,将策略空间从既有方法的 40 种扩展到 839 种,在 Claude-3.5 上实现 96% 攻击成功率(此前方法最高仅 4%),同时提出基于意图一致性的评估机制,准确率达 96.5% 超越专用安全模型。
- Call for Rigor in Reporting Quality of Instruction Tuning Data
-
通过系统性的 16 种超参数组合实验,揭示了指令微调数据质量评估中的严重问题——研究者对训练超参数的任意选择可以导致完全相反的「数据 A 优于数据 B」的结论,呼吁在报告数据质量时必须采用经过验证的超参数设置。
- Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
-
提出 Chain-of-Jailbreak(CoJ)攻击,将无法直接绕过安全护栏的恶意 query 分解为多步编辑子 query(删然后插、插然后删、改然后改回),在 GPT-4V/4o/Gemini 上达到 60%+ 越狱成功率;同时提出 Think-Twice Prompting 防御,拦截 95%+ 的 CoJ 攻击。
- Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch
-
为弥补中文 Reward Model 资源的空白,本文构建了 CheemsBench(首个大规模中文 RM 评测基准)和 CheemsPreference(首个大规模中文偏好数据集),通过人机协作标注 + 远程监督过滤策略训练的 CheemsRM 在中文场景显著超越现有所有开源 RM。
- Constitutional Classifiers: Defending Against Universal Jailbreaks Across Thousands of Hours of Red Teaming
-
Anthropic提出"宪法分类器"(Constitutional Classifiers),通过从自然语言安全规则(宪法)出发生成合成训练数据来训练输入/输出安全分类器,在超过3000小时的红队测试中未被发现通用越狱攻击,同时仅增加0.38%的误拒率和23.7%的推理开销。
- Curiosity-Driven Reinforcement Learning from Human Feedback
-
CD-RLHF 将好奇心驱动探索(curiosity-driven RL)引入 RLHF,通过前向动力学模型的预测误差作为内在奖励,结合 top-k 门控过滤与 reward whitening,在不损失对齐质量的前提下大幅提升 LLM 输出多样性(Llama-3.2-1B 上 Diversity 提升 40.26%,EAD 提升 8.92%)。
- Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement
-
提出 D&R 框架,让小模型(student)与多个大模型(teacher)进行多轮辩论并收集自我反思和教师反馈,然后将辩论日志组织为偏好树做 Tree-structured DPO (T-DPO) 蒸馏,在 MMLU Pro 和 MATH 上平均提升 14.18 分,且推理效率优于基线。
- DiffPO: Diffusion Alignment with Direct Preference Optimization
-
提出 DiffPO,将 LLM 对齐重新建模为句子级扩散去噪过程,通过 parallel decoding 实现高效推理时对齐,作为即插即用模块可增强任意底座模型的对齐质量。
- Don't Say No: Jailbreaking LLM by Suppressing Refusal
-
本文提出 DSN(Don't Say No)攻击方法,通过分析现有越狱攻击中目标损失函数的缺陷,引入余弦衰减调度和拒绝抑制两种改进策略,在多个 LLM 上实现了超越现有方法的攻击成功率(ASR),并展示了对未见数据集和黑盒模型的强迁移性。
- Dynamic Scaling of Unit Tests for Code Reward Modeling
-
本文发现扩展LLM生成的单元测试数量可以持续提升代码奖励信号质量(尤其对困难问题效果更好),据此训练了轻量级单元测试生成模型CodeRM-8B并实现动态缩放策略,在多个代码生成基准上取得显著提升。
- Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent
-
提出 ECPO(Expectation Confirmation Preference Optimization),首个面向 LLM 对话推荐 Agent 的多轮偏好优化方法——基于心理学期望确认理论(ECT)显式建模用户满意度在多轮对话中的演变,通过前向期望确认定位不满意根因 + 后向期望推导重写回复构建 turn-level 偏好对,配合 AILO 用户模拟器,在 3 个数据集上显著优于现有 MTPO 方法。
- Model Extrapolation Expedites Alignment
-
基于"对齐训练仅产生微小参数变化"的观察,提出ExPO方法——通过放大SFT→DPO的参数变化方向(\(\theta_2 = \theta_1 + \alpha\Delta\theta\)),在零额外训练开销下提升对齐性能,使仅训练20%步骤的DPO模型超越完整训练的版本。
- Federated Data-Efficient Instruction Tuning for Large Language Models
-
提出 FedHDS(Federated Hierarchical Data Selection),通过 intra-client 和 inter-client 两级层次化数据选择消除联邦学习中客户端内部和跨客户端的数据冗余,结合多层 Transformer 特征融合提升 coreset 质量;仅用不到 1.5% 的数据,在 Rouge-L 上相对 SOTA 全数据联邦基线平均提升 10.72%,训练效率提升最高达 48.8 倍。
- Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
-
发现传统的 DPO 偏好数据构建策略(max-min)在增加采样量时性能反而下降,通过基于奖励分布的系统性探索发现 rejected 响应应选在 μ−2σ 而非最小值,据此提出了一种随采样量增加而持续提升的偏好数据构建方法。
- Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization
-
提出 Segment Supervised Preference Optimization (SSPO),将视频配音中译文与源语音的时长对齐问题建模为段级偏好优化,通过逐句采样+细粒度 DPO 损失实现每行对话的时长一致性,同时维持翻译质量和输出格式。
- FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings
-
本文提出 FocalPO,一种 DPO 变体,通过引入受 Focal Loss 启发的调制因子来降低错误排序对的权重、优先强化模型已正确排序的偏好对的理解,在 AlpacaEval 2.0 等基准上超越 DPO 及其变体。
- Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points
-
发现代码生成模型的错误高度集中在特定"错误易发点"(error-prone points),前缀/后缀几乎不变而中间段决定正确性,提出 Focused-DPO:通过 PageRank 在代码-测试二部图上排序定位关键中间段,并在 DPO 损失中对该段加权放大(\(w_{focused}=2\)),仅用 5000 样本即可在 HumanEval+ 上提升 4.41%、LiveCodeBench-Hard 上相对提升 42.86%。
- From Lists to Emojis: How Format Bias Affects Model Alignment
-
本文系统研究了 RLHF 中偏好模型(包括人类评估者、GPT-4 和开源模型)对粗体、列表、emoji 等格式模式的偏好偏差,展示了不到 1% 的偏差数据即可显著注入偏差,并提出了双头奖励模型的去偏方法。
- HAF-RM: A Hybrid Alignment Framework for Reward Model Training
-
提出混合对齐框架 HaF-RM,在奖励模型训练中保留策略层(policy layer),通过同时优化序列级奖励损失和 token 级策略损失来共同监督共享的内部偏好模型,在 5 个数据集上一致性超越标准 Baseline 和 DPO 方法。
- HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States
-
提出 HiddenDetect,一种免训练(tuning-free)的基于内部激活状态的安全检测框架:通过监控 LVLM 推理时隐藏状态中的拒绝语义信号来检测越狱攻击,在多个模型和多模态基准上 AUROC 大幅超越现有方法。
- Understanding Impact of Human Feedback via Influence Functions
-
首次将影响函数应用于 RLHF 奖励模型的反馈数据审计,结合 OPORP 向量压缩实现 2.5 倍加速,在偏差检测上超越 GPT-4o(AUC 0.8 vs 0.747),并从 Anthropic-HH 数据集中发现 47% 的错标样本。
- Internal Value Alignment in Large Language Models through Controlled Value Vector Activation
-
提出 ConVA(Controlled Value Vector Activation)框架,通过上下文控制的数据集精准识别 LLM 隐空间中的价值向量,并用门控最小扰动机制在推理时激活目标价值,在 Schwartz 10 种基本价值上实现平均 29.6% 的控制成功率提升,同时保持 97%+ 的文本流畅度和通用能力。
- Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process
-
通过 MDP 框架统一分析 SFT 和偏好优化(PO),发现 SFT 是 PO 的特例但偏好估计和转移优化均不充分,提出 IFT(Intuitive Fine-Tuning)通过时序残差连接让模型在不需要偏好数据的情况下获得接近甚至超越 SFT+PO 流水线的对齐效果。
- IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
-
提出 IOPO(Input-Output Preference Optimization),在传统 DPO 仅优化输出偏好的基础上,引入输入偏好建模——让模型学习"给定回复 y,哪个指令 x 更匹配",从而增强对复杂多约束指令的细粒度感知能力;同时构建了包含 120K 训练数据、1K 评测数据、覆盖 5 大类 26 个约束维度的 Trace 基准。
- Jailbreaking? One Step Is Enough!
-
本文提出REDA(Reverse Embedded Defense Attack)方法,将攻击意图伪装为"防御"有害内容的任务,通过反转攻击视角+ICL示例引导+请求意图削弱,实现一步生成、跨模型通用的高成功率越狱攻击。
- JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs
-
首个覆盖自动和非自动越狱攻击的统一全面评估框架:收集17种代表性越狱攻击,建立六类攻击分类体系,在9个对齐LLM×8种防御策略下进行大规模系统评测,揭示启发式攻击"高ASR但低实用性"的关键洞察。
- JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning
-
提出 JsonTuning——将指令微调的输入输出从自然语言文本替换为 JSON 结构化格式,通过显式表示任务元素、关系和输出约束(JSON Schema),在 7 个预训练模型和 6 类任务上一致超越传统 TextTuning,平均性能从 26.78 提升到 30.88,同时显著增强鲁棒性和可控性。
- LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges
-
构建 MalwareBench 基准(320 个手工恶意代码需求 × 11 种黑盒越狱方法 = 3520 个 prompt),系统评测 29 个 LLM 在恶意代码生成场景下的安全性,发现越狱攻击将平均拒绝率从 60.93% 降至 39.92%,且模型参数量与防御能力并非正比关系。
- LoGU: Long-form Generation with Uncertainty Expressions
-
定义"长文本不确定性生成"(LoGU)任务,识别不确定性抑制和不确定性错位两个子挑战,提出基于分解的数据构造框架和 SFT+DPO 两阶段训练流水线,使 LLM 在长文本生成中对不确定事实显式表达不确定性,在三个数据集上将 Llama3-8B 的事实准确率从 51.9% 提升到 71.6%,错误声明数从 20.4 降到 5.81。
- LPOI: Listwise Preference Optimization for Vision Language Models
-
本文提出 LPOI,首个面向 VLM 的目标感知列表级偏好优化方法——通过识别并遮挡图像中的关键目标,在正样本和负样本之间插值生成渐进式遮挡序列,训练模型按目标可见度排序,从而在无需额外标注的情况下有效降低幻觉,在 MMHalBench、AMBER 和 Object HalBench 上超越现有偏好优化方法。
- LSSF: Safety Alignment via Low-Rank Safety Subspace Fusion
-
LSSF 提出 LLM 的安全信息存在于低秩子空间中的假设,通过 SVD 提取安全对齐模型的主成分,利用安全奇异值熵自适应确定每层的保留秩,最终将提取的安全主成分线性融合到微调后的模型中,无需额外训练即可恢复因微调而退化的安全对齐,同时保持下游任务性能。
- M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs
-
提出 M2S 框架,通过三种简单的格式转换方法(Hyphenize/Numberize/Pythonize)将多轮人类越狱对话压缩为单轮 prompt,不仅保持甚至超越原始多轮攻击效果(ASR 高达 95.9%,比多轮提升最多 17.5%),同时 token 使用量减半以上。
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric
-
系统分析 11 种现有多样性度量方法的局限性,提出 NovelSum——一种同时考虑样本间差异和信息密度的数据多样性指标,与指令微调性能达到 0.97 相关性。
- MPO: Multilingual Safety Alignment via Reward Gap Optimization
-
MPO 发现 LLM 在主导语言(英文)和目标语言间的隐式 Reward Gap 与安全性能强相关,提出直接最小化两者 Reward Gap 差异来将主导语言的安全对齐能力迁移到多语言,在三个模型上显著降低了低资源语言的攻击成功率且不损害通用能力。
- MTSA: Multi-Turn Safety Alignment for LLMs through Multi-Round Red-Teaming
-
提出MTSA框架,通过思维引导的多轮红队攻击学习和基于未来奖励的多轮强化学习算法,在对抗迭代优化中同时提升红队模型的攻击能力和目标模型的安全防御能力,在多个安全基准上达到SOTA,且不损失模型通用性能。
- Mutual-Taught for Co-adapting Policy and Reward Models
-
Mutual-Taught 提出了一种基于 EM 算法的自训练框架,在偏好优化过程中同时迭代更新 policy model 和 reward model:E-step 用当前 RM 优化 PM,M-step 用 PM 更新前后的输出差异构建伪偏好对来更新 RM,解决了分布偏移导致的 reward hacking 问题,8B 模型在 AlpacaEval-2 达到 54.1% LC win rate。
- Optimal Transport-Based Token Weighting for Enhanced Preference Optimization
-
OTPO 利用无平衡最优传输(UOT)在 chosen/rejected 回复的 token 表示之间计算语义对齐权重,使偏好优化聚焦于关键差异 token 而非均等对待所有 token,在 AlpacaEval2 上将 DPO 的 LC WR 从 48.14% 提升至 55.84%,并将 DPO/SimPO/SamPO/LDDPO 统一为 token 加权的特例。
Whose Boat Does it Float? Improving Personalization in Preference Tuning via Inferred User Personas
- PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference
-
发布 PKU-SafeRLHF 大规模安全偏好数据集,包含 44.6k 精炼 prompt、265k 带安全元标签的 QA 对和 166.8k 偏好数据,首次引入 19 种危害类别和 3 级严重程度标注,并训练了严重程度敏感的审核模型(93% 准确率)和基于该数据的 SafeRLHF 对齐 pipeline。
- PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
-
本文提出PRMBench,一个包含6,216个精心设计问题和83,456个步骤级标签的基准,从简洁性(Simplicity)、合理性(Soundness)和敏感性(Sensitivity)三个维度系统评估过程级奖励模型(PRM)的细粒度错误检测能力,实验揭示了现有15个PRM的显著不足。
- Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
-
PCPO 在偏好对选择阶段引入 token 级概率一致性指标,选出答案正确且推理过程与错误回答最"相似"的配对进行 DPO 训练,让模型聚焦关键推理差异,在多个数学推理 benchmark 上一致超越 IRPO/ScPO。
- QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language
-
提出 QueryAttack,将恶意自然语言查询分解为三个语义组件(内容、修饰符、类别)并填入编程语言模板(SQL/URL/Python/Java/C++ 等 9 种),结合 ICL 引导目标 LLM 直接用自然语言回复有害内容,无需解密步骤,在 GPT-4o 上 Ensemble 配置达到 96.35% ASR,且提出的跨语言 CoT 防御可将 ASR 降低最多 64%。
- Red Queen: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking
-
提出 Red Queen Attack——首个基于 Theory of Mind(ToM)构建多轮对话场景并隐藏恶意意图的越狱攻击方法,生成 56K 多轮隐蔽攻击数据,在 GPT-4o 上达到 87.6% ASR;同时提出 Red Queen Guard 防御策略,通过多轮 DPO 数据训练将 ASR 降至 <1%,同时不影响通用基准性能。
- Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization
-
本文从奖励过优化(reward overoptimization)的视角重新审视奖励模型评估方法,发现现有基准与下游策略性能相关性弱,并提出了三条构建可靠评估基准的关键准则:最小化正负样本的非正确性差异、使用多次比较覆盖广泛响应范围、以及从多样模型中采样响应。
- Rethinking Table Instruction Tuning
-
系统消融表格指令微调中被忽视的超参数选择(学习率、数据量、epoch),揭示现有表格 LLM 因学习率过大(2e-5)导致通用能力严重退化(MMLU 降 14 分、AI2ARC 降 21 分),提出仅需 13 个数据集各 200 条(共 2600 条)+ 学习率 1e-6 + 2 epoch 微调 LLaMA 3.1 8B Instruct 即可构建 TAMA,在 13 个表格任务上匹配/超越 GPT-3.5 和 GPT-4,同时完整保持通用能力。
- Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation
-
本文针对工业视觉编程语言(Ladder Diagram)的自动生成任务,提出了一种两阶段训练策略:先通过检索增强微调(Retrieval-Augmented Fine-Tuning)利用子程序复用特性,再通过基于图编辑操作构造偏好对的 DPO 训练进一步提升准确性,在真实 LD 数据上将程序级准确率提升超过 10%。
- Reverse Preference Optimization for Complex Instruction Following
-
提出反向偏好优化(RPO),通过动态反转指令中未满足的约束将任意回复转化为"完美"chosen 样本,消除多约束偏好对中的噪声,在多轮复杂指令遵循任务上显著超越 DPO 基线。
- Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
-
将 RLHF 中的长度偏差、类别偏差、社会偏差等多种奖励偏差统一定义为"奖励不公平"问题,借鉴资源分配理论提出 Fairness Regularization 和 Fairness Coefficient 两种偏差无关方法,分别应用于奖励模型训练和策略模型训练,在不针对特定偏差设计的前提下同时缓解多种偏差并提升对齐质量。
- Reward Generalization in RLHF: A Topological Perspective
-
从信息拓扑的角度系统刻画 RLHF 中 reward 信息的流动——宏观层面将 RLHF 建模为自编码过程,微观层面提出 Induced Bayesian Network (IBN) 分析偏好数据拓扑对 reward 泛化的影响,进而提出树结构偏好数据方法,在 HH-RLHF/GSM-8K/DialogSum 三个任务上平均 65% win rate 超越链式 baseline。
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction
-
提出 R2J(Rewrite to Jailbreak),一种可学习、可迁移的黑盒越狱方法——通过迭代训练 attacker LLM 学习改写有害指令(仅改措辞不改意图),相比 GCG/AutoDAN 等方法攻击成功率提高 20%+,且无额外前缀/后缀,更隐蔽且跨模型可迁移。
- RISE: Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing
-
RISE 发现 LLM 约 75% 的数学错误是微妙的步内错误(数字替换、操作数交换、步骤遗漏),通过让 LLM 自编辑向正确解注入预定义微妙错误来构造高质量难负样本,配合错误感知 DPO 训练,仅用 4.5K 样本在 GSM8K 提升 3.0%、MATH 提升 7.9%,并泛化到逻辑推理和代码生成。
- Robust Preference Optimization via Dynamic Target Margins
-
本文提出 γ-PO,一种通过在偏好对级别动态调整目标奖励边际的方式来增强 DPO 鲁棒性的即插即用方法,在 AlpacaEval2 和 Arena-Hard 上平均提升 4.4%。
- RPO: Retrieval Preference Optimization for Robust Retrieval-Augmented Generation
-
提出 Retrieval Preference Optimization (RPO),一种专为 RAG 设计的轻量级偏好对齐方法,通过将检索质量评估隐式地集成到生成过程中,使 LLM 能够自适应地在参数知识和检索知识之间做出选择,无需额外组件即可缓解知识冲突导致的幻觉问题。
- Safety Alignment via Constrained Knowledge Unlearning
-
本文提出 Constrained Knowledge Unlearning (CKU),通过在 MLP 层中定位有用知识神经元并在遗忘过程中保护其梯度来删除有害知识,在不损害模型通用能力的前提下显著提升 LLM 的安全性。
- SDPO: Segment-Level Direct Preference Optimization for Social Agents
-
SDPO 提出在多轮社交对话中以"片段"(segment)为粒度进行偏好优化,通过动态定位错误轮次、从错误点前的历史重新采样正样本、选取等长的关键片段对进行训练,既降低了会话级 DPO 的训练噪声,又通过等长约束严格消除了分区函数 \(Z\),在 SOTOPIA 基准上超越了 GPT-4o 和所有 DPO 变体。
- SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings
-
提出 SEA 框架,通过梯度优化生成合成模态 embedding(不需要真实图像/视频/音频),仅用文本安全数据就能实现多模态 LLM 的安全对齐,在单张 RTX3090 上 24 秒即可合成高质量 embedding,同时发布了视频和音频安全基准 VA-SafetyBench。
- SQL Injection Jailbreak: A Structural Disaster of Large Language Models
-
提出 SQL Injection Jailbreak(SIJ),一种利用 LLM 提示构造方式中的结构性漏洞进行越狱的新方法,在开源模型上实现近 100% 攻击成功率,在闭源模型上平均超过 85%,并提出 Self-Reminder-Key 防御方案。
- Synergistic Weak-Strong Collaboration by Aligning Preferences
-
本文提出 CoWest 框架,通过让专业化的弱模型(如 LLaMA3-8B)生成初始草稿,再由通用强模型(如 GPT-4)精炼,并利用协作反馈通过 DPO 微调弱模型以对齐强模型偏好,在反事实推理、医学和伦理三个领域显著超越单模型和已有协作方法。
- SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs
-
提出 SynthesizeMe 方法,通过从用户有限的成对偏好交互中自动推理-合成用户画像(persona),构建可解释、可迁移的个性化 prompt,在 PersonalRewardBench 上显著提升个性化偏好预测准确率。
- T-REG: Preference Optimization with Token-Level Reward Regularization
-
T-REG 提出了一种 token 级奖励正则化方法,利用 LLM 的对比提示自生成 token 级奖励信号,将其作为弱监督来引导 DPO 隐式学习到的 token 级奖励分配,在 Alpaca Eval 2 和 Arena-Hard 上分别超过 DPO 最多 3.8% 和 4.4%。
- TableDreamer: Progressive and Weakness-Guided Data Synthesis from Scratch for Table Instruction Tuning
-
提出 TableDreamer 两阶段数据合成框架:第一阶段从零合成多样化表格及种子指令数据,第二阶段通过弱点引导的迭代输入空间探索(在三个方向上演化数据,并用 LLM-as-Judge 筛选模型表现差的样本作为下一轮种子),仅用 27K GPT-4o 合成数据即将 Llama3.1-8B 的平均准确率提升 11.62%,超越使用 80K-100K 数据的所有基线方法。
- Teaching an Old LLM Secure Coding: Localized Preference Optimization on Distilled Preferences
-
提出 DiSCo(从前沿 LLM 蒸馏的安全代码偏好数据集,10K 实例覆盖 431 种 CWE)和 LPO(局部偏好优化算法,仅在安全相关 token 上传播损失),在四个安全编码基准上减少 19-40% 的安全问题,同时提升 3-10% 的代码质量。
- Tempest: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
-
本文提出 Tempest(论文早期版本称 Siege),一个基于广度优先树搜索的多轮对抗框架,通过追踪目标 LLM 的部分合规信息并将其重新注入后续查询,在 JailbreakBench 上对 GPT-3.5-turbo 达到 100%、GPT-4 达到 97% 的攻击成功率,且需要的查询数远少于 Crescendo/GOAT 等基线。
- Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling
-
将归因文本生成(带引用的文本生成)建模为多步推理问题,提出自引导蒙特卡洛树搜索(SG-MCTS)结合进度奖励建模(PRM),通过多路径搜索+中间状态反思+生成/归因双维度进度奖励,在 ALCE 基准三个数据集上显著超越所有基线。
- A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns
-
提出TMCHT(大规模多智能体多拓扑文本攻击评估框架)和ARCJ(对抗性复制传染越狱)方法——通过优化检索后缀提高毒性样本被检索概率+优化复制后缀使毒性信息具有自我复制传染能力,解决了多智能体系统中单智能体攻击方法面临的"毒性消散"问题。
- Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging
-
本文提出UpIT (Upcycling Instruction Tuning),利用密集模型指令微调过程中的中间checkpoint作为专业化专家,通过遗传算法扩展专家数量和路由预优化,实现数据高效且灵活的dense-to-MoE转换。
- World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
-
提出 Dual Preference Optimization (D²PO) 框架,通过联合优化状态预测(世界建模)和动作选择两个目标的偏好学习,使视觉语言模型在具身任务规划中同时学会"理解世界动态"和"做出更好决策",7B 模型大幅超越 GPT-4o。