跳转至

⚖️ 对齐 / RLHF

💬 ACL2026 · 38 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (102) · 🧪 ICML2026 (37) · 🤖 AAAI2026 (17) · 🧠 NeurIPS2025 (36) · 📹 ICCV2025 (2)

🔥 高频主题: LLM ×11 · 对齐/RLHF ×9 · 个性化生成 ×2 · 强化学习 ×2

AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling

针对奖励模型普遍用「固定池化(如 last-token)把整条序列压成一个标量」带来的两个结构性缺陷——固定的空间归纳偏置与生成式 backbone 表示不适配判别——AdaJudge 先用门控精炼块把 backbone 表示重塑到判别空间,再用「域感知门控的多视角池化」按 prompt 动态融合 last-token / mean / attention 三种池化证据,在 RM-Bench 和 JudgeBench 上让 4B/8B 模型超过 27B 的 off-the-shelf 强奖励模型。

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

把奖励模型从"单轮打分"重塑为"前向+后向双 agent + 工具调用"的多轮审议流程,并通过 SFT+GRPO 把多 agent 能力蒸馏到单个 4B 模型中,使其在 BoN 选择上比 70B 量级 ORM 高 25.2%。

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

提出 Plan-RewardBench,一个面向复杂工具增强场景的轨迹级偏好基准,用于评估奖励模型在多步规划、工具使用和错误恢复等场景下区分优劣智能体轨迹的能力。

Alignment Data Map for Efficient Preference Data Selection and Diagnosis

提出 Alignment Data Map,一个通过联合考量回复质量(quality)和回复变异性(variability)来可视化、选择和诊断偏好数据的分析工具,仅用 33% 数据即可达到全量训练的对齐效果。

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

ARES 通过一个能动态组合「话题 / 人设 / 目标 / 战术」四元结构的 Safety Mentor 同时探测 Core LLM 和 Reward Model 的「系统性弱点」(两者同时失守),然后用先修 RM 再修策略的两阶段闭环把 RedTeam 安全率从 0.28 提到 0.96,几乎不损失通用能力。

BACH-V: Bridging Abstract and Concrete Human-Values in Large Language Models

本文提出 abstraction-grounding 框架,把 LLM 的概念理解拆成"抽象-抽象 / 抽象-具体 / 具体-具体"三层,并用概念探针 + 激活引导在 6 个开源 LLM、10 个价值维度上证明:LLM 内部确实存在结构化的价值表示,能跨抽象层迁移、并因果地驱动具体决策。

Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach

这篇论文把文学翻译质量拆成“表达流畅”和“文学效果”两个维度,用专门 LLM 反复生成高质量参考译文和偏好对,再用 SFT + 显式奖励模型 + GRPO 训练 LitMT,使 8B/14B 小模型在英译中文学翻译上接近甚至超过部分大模型。

Compatibility-Aware Dynamic Fine-Tuning for Large Language Models

CADFT 在 token 级稳定化方法 DFT 的基础上,引入一个由模型自身似然算出的"样本级兼容性"信号去重加权监督梯度,再配一个延迟、低频的"兼容性引导重写"把顽固难学的样本改写成可学目标,从而在不引入任何奖励模型/RL 的前提下,把高方差梯度压下去,同时提升微调稳定性、泛化和冷启动 RL 初始化质量。

ComplexConstraints and Beyond: Expert Rubrics for RLVR

这篇论文系统论证了"专家手写的细粒度评分量表(rubric)"既是更靠谱的前沿大模型评测工具,也是数据高效的 RLVR 奖励信号:它先给出构造高质量 rubric 的五条设计原则,配套放出每条 prompt 带 10–40 条原子准则的 ComplexConstraints 数据集,然后实证只用约 1000 条专家样本做 RLVR,就能让 4B 模型指令跟随涨 +15.5 pp、235B 涨 +12.2 pp,且单 epoch 的 agentic 训练能迁移到模型从没训过的 OOD benchmark(BFCL +4.5 / τ²-Bench +7.4 / Toolathlon +6.8 pp)。

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

ConsistRM 提出基于一致性感知的自训练框架,通过时序一致性伪标签(融合在线状态和历史记忆的偏好一致性)和语义一致性批评奖励(衡量多次生成批评的语义相似度)两个模块,在无需人工标注的条件下将生成式奖励模型的五个基准平均性能提升 1.5%,同时显著缓解了位置偏差问题。

CuMA: Aligning LLMs with Sparse Cultural Values via Demographic-Aware Mixture of Adapters

CuMA 指出稠密模型在拟合相互冲突的文化价值时会"均值坍塌"成谁都不像的稀泥,于是用"人口画像 + 语义"联合路由的 LoRA 专家混合,把冲突梯度拆进各自的专家子空间,从而在多个文化对齐基准上既提精度又保留价值多样性。

Debiasing Reward Models via Causally Motivated Inference-Time Intervention

作者把 Bradley-Terry reward model 视作估计 total effect 的因果图,识别出与五类风格性偏差(长度 / 段落 / 词重叠 / 感叹号 / 粗体)激活高度相关的 bias-specific neurons(占总神经元 < 2%),在推理时把这些神经元激活替换为验证集中位数(估计 controlled direct effect),在 RewardBench / RM-Bench 上既不掉点又消除偏差,DPO 下游使用后让 8B 模型的对齐分数追平 70B SOTA reward model。

HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human–LLM Collaborative Writing

论文指出"草稿协同写作"是一种被忽视的越狱面——恶意用户把残缺的危险草稿丢给 LLM 让它"润色补全",模型的"补全本能"会压过安全护栏吐出可执行的危险细节;作者构造了 HarDBench 基准量化这一漏洞(CoJP 攻击下八个模型 ASR 全部 >80%),并提出 SUBA 偏好优化对齐,把有害草稿的拒答和良性草稿的配合同时学进去,将 ASR 压到个位数而效用几乎不掉。

How Value Induction Reshapes LLM Behaviour

本文用价值标注后的偏好数据子集对 8 个开源 LLM (3 系) × 15 个价值做 DPO 微调,发现价值之间存在系统性串扰 —— 诱导一个值会同时强化或抑制其他相关 / 对立值,正面价值能提升安全性但所有价值都会让模型更"拟人化",使输出更易被感知为阿谀。

Large Language Models Are Overconfident in Their Own Responses

这篇论文发现 instruction-tuned LLM 在评估“自己给出的答案”时存在显著 ownership bias,并提出把答案改写成用户输入再询问置信度的简单推理时策略,可在无需重训的情况下降低过度自信。

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization

本文提出 MAESTRO,将 GRPO 中的奖励标量化重新定义为上下文老虎机问题,通过轻量级 Conductor 网络利用模型末层隐藏状态自适应地为每个 prompt-response 对选择奖励权重,在七个开放域基准上一致超越静态奖励和单一奖励基线。

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

MDP-GRPO 针对多约束指令遵循中 GRPO 在离散低方差奖励下的不稳定问题,结合多温度采样、双锚点 advantage、prospect-theoretic shaping 和非对称 KL,使小模型在 IFEval、FollowBench 和自建多约束测试集上获得更稳的软/硬约束满足率。

Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO

作者发现标准 GRPO 把同一题目的不同选项顺序当成独立 prompt 训练,导致模型在"换顺序"后选择会变化(permutation-blindness),于是提出 PA-GRPO:把同一语义实例的多种排列组成 permutation group,用跨排列的 advantage baseline + 一致性 reward 显式优化"换顺序不换选择",在 7 个 MCQ/Judge benchmark 上把 selection bias 大幅压低同时保持准确率。

ModeX: Evaluator-Free Best-of-N Selection for Open-Ended Generation

把开放式文本生成的 Best-of-N 选样建模为「在生成文本的相似度图上找模态簇」的问题——用 n-gram Jaccard 构图 + 递归 Fiedler 向量谱聚类 + 中心度选 centroid,不需要任何 reward model / LLM-judge 就把 self-consistency 推广到摘要 / 代码 / 数学等无标准答案的任务。

On the Rejection Criterion for Proxy-Based Test-Time Alignment

这篇论文把隐式奖励、Nudging 和 KAD 等 proxy-based test-time alignment 方法统一成一个“先采样再决定是否拒绝”的概率图模型,并提出用小对齐模型的最佳置信度作为参照的 conservative confidence bet,在多个数学与常识推理数据集上提升了混合解码精度。

P-Check: Advancing Personalized Reward Model via Learning to Generate Dynamic Checklist

P-Check 把个性化奖励建模从“给用户历史塞进 judge”改成“先为当前用户和当前问题生成带权重的动态评价 checklist,再用它指导奖励打分”,在 PRISM、Arena、BESPOKE 的个性化偏好预测和下游生成任务上都显著优于 persona、记忆检索和微调奖励模型基线。

PERSA: Reinforcement Learning for Professor-Style Personalized Feedback with LLMs

PERSA 用“教授示范 + 教授偏好奖励 + 只更新高层 LoRA 的 PPO”把通用 LLM 调成特定教师的编程反馈风格,在 APPS、PyFiXV、CodeReviewQA 上显著提升风格一致性,同时基本保持 100% 诊断正确率。

Pref-CTRL: Preference Driven LLM Alignment using Representation Editing

Pref-CTRL 在不更新大模型参数的测试时对齐框架 RE-Control 上,引入面向成对偏好数据的 margin loss 和 regularizer loss 来训练轻量价值函数,使表示编辑更符合人类偏好并在 SHP、HH-RLHF 与跨域数据上稳定优于 RE-Control。

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

RbtAct 把作者 rebuttal 视为“哪些评审意见真的促成修改”的隐式监督,构建 7.5 万条 review-rebuttal 段级映射,并用 SFT+DPO 训练 8B 模型生成更具体、更可执行的论文评审反馈。

S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models

提出 Simple-to-Hard(S2H)DPO 框架,通过构建三个递进难度级别的多图偏好数据(定点推理→跨图比较→全局视觉搜索),系统性地提升 VLM 的多图推理能力,同时保持单图性能。

SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

本文提出 SFTMix,一种基于 Mixup 的指令微调方法,通过训练动态将 SFT 数据集分为高置信度和低置信度子集,在隐表示空间对两者进行线性插值并施加 Mixup 正则化,在不依赖高质量数据集的情况下,跨 LLM 家族和数据集规模一致性地提升指令遵循能力。

Student Guides Teacher: Weak-to-Strong Inference via Spectral Orthogonal Exploration

本文把 LLM 在难题上反复沿同一错误逻辑采样的现象解释为隐藏状态低秩塌缩,并提出 Spectral Orthogonal Exploration (SOE):用弱学生模型提供与教师当前 dominant subspace 正交的短 probe,迫使教师跳出原有 bias manifold,在 AIME/MATH/Olympiad 等难题子集上把 Pass@16 平均从 26.7% 提升到 45.9%。

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting

这篇论文把 GRPO 训练中的熵不稳定归因于少量极端 token 的“log 概率-优势”协方差贡献,并用无额外超参的高斯核对这些 token 的 advantage 做软抑制,从而在 1.5B 和 7B 数学推理模型上稳定提升性能。

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards

这篇论文面向在线旅游平台的酒店降价谈判场景,提出 REPO 用偏好奖励模型、LLM 评审和规则函数三类奖励共同训练 Qwen3-32B,使模型在专家评价和 9653 场真实 A/B 对话中同时提升说服力、SOP 合规和坏例修复质量。

Team-Based Self-Play With Dual Adaptive Weighting for Fine-Tuning LLMs

TPAW 将 LLM 自训练改造成“当前模型与历史模型组队博弈”的对齐过程,并用目标响应权重与主玩家权重两套自适应机制稳定偏好优化,在不额外引入人工偏好标注的情况下提升 Open LLM Leaderboard 与 GSM8K 表现。

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

针对 RLVR 指令跟随中用大模型当裁判(LLM-as-a-judge)评判软约束时奖励精度低、训练慢的问题,TinyJudge 先发现"软约束里只有 style/structure/semantic 三类具备高泛化性",再把前沿模型的判分能力蒸馏进若干个 0.6B 的专家小模型组成集成奖励,使奖励精度提升约 12%、判分提速 6×、总训练时间缩短 3×,同时下游指令满足率平均提升约 10%。

To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending

针对推理时对齐里"用对齐模型逐 token 引导未对齐基座"时存在的质量盲区——现有方法一律二元接受/拒绝引导、无法分辨好坏建议,导致越干预性能越差的"干预悖论"——BlendIn 改用质量感知的概率分布混合:在基座不确定的位置按两模型置信度自适应加权融合二者的分布再贪心选 token,从而保留有益引导、压低不可靠引导,在最难的高干预模型对上取得最高 50% 的一致提升。

Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

这篇论文指出强推理模型在“太容易、几乎全对”的训练集上做 GRPO 会因为组内奖励方差消失而停止学习,并提出 Mixed-CUTS 用受限 Top-K 均匀采样混合标准 rollout,重新制造有意义的探索差异,在 Qwen3-4B 上把 AIME25 Pass@1 相比标准 GRPO 提高 15.1%。

Topology-Enhanced Alignment for Large Language Models: Trajectory Topology Loss and Topological Preference Optimization

这篇论文把 LLM 对齐看成隐藏空间中的“语义轨迹”塑形问题,在 SFT 阶段用 0 维持久同调抽取 prompt-answer 拓扑桥并加入 TTL,在 DPO 阶段用主题偏好方向加入 TPO,使 UltraChat 和 HH-RLHF 上的奖励、胜率和无害性指标都稳定优于非拓扑基线。

Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms

本文识别了直接对齐算法(DAAs)中的"奖励-生成鸿沟"——训练目标与自回归解码动态之间的不匹配,提出 POET(Prefix-Oriented Equal-length Training),通过将偏好响应对截断为较短者长度来隐式约束 token 级 MDP 在所有时间步上收敛,在 AlpacaEval 2 上最高提升 11.8 个百分点。

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

本文提出 weighted In-Context Influence (wICI),用候选样本作为 one-shot demonstration 后能否降低相关困难 probe 的 instruction-following difficulty 来衡量指令数据价值,在 10% 数据预算下优于或匹配 IFD、DEITA、NUGGETS、SelectIT 等选择方法。

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

本文首次系统研究了 SFT 中的"不完全学习现象"(ILP)——即模型收敛后仍无法正确复现部分训练数据,识别了五种反复出现的原因(知识缺失、知识冲突、数据内部矛盾、左侧遗忘、不充分优化),并提出诊断框架和针对性缓解策略。

WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback

WildFeedback 从真实用户与 ChatGPT 的多轮对话中自动识别满意/不满意反馈,把自然发生的用户偏好转成偏好训练样本和逐例 checklist 评估标准,使小型开源指令模型在通用 benchmark 与真实用户偏好测试上都比 UltraFeedback 训练更贴近用户需求。