ACL2026 对话系统论文解读论文笔记推理情感分析 Agent LLM 对齐/RLHF

🗣️ 对话系统¶

💬 ACL2026 · 26 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (10) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8) · 🧪 ICML2025 (2) · 💬 ACL2025 (18)

🔥 高频主题： 对话系统 ×18 · 推理 ×3 · 情感分析 ×3 · Agent ×3 · LLM ×2

APEX-MEM: Agentic Semi-Structured Memory with Temporal Reasoning for Long-Term Conversational AI: 把对话长期记忆建成"领域无关本体支撑的属性图 + 只追加事件存储 + ReAct 多工具检索代理"三件套——构建时永不覆盖、检索时再做时序冲突解析，在 LOCOMO 拿到 88.88%（比 MIRIX 高 3.5 个点）、LongMemEval 拿到 86.2%（比最强 RAG baseline 高 13.7 个点）。
Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review: 本文将学术论文作者回复（rebuttal）生成重新定义为"作者在回路"任务，提出 Re3Align 数据集（3.4K 论文、440K 句级编辑标注、15K 审稿-回复-修改三元组）、REspGen 可控生成框架和 REspEval 20+ 指标评估套件，在 5 个 SOTA LLM 上系统验证了作者输入、可控性和评估引导精修的效果。
Codebook-Injected Dialogue Segmentation for Multi-Utterance Constructs Annotation: LLM-Assisted and Gold-Label-Free Evaluation: 论文把 dialogue act 标注重新定义为"先分段、再贴标签"的两步问题，提出 codebook-injected 的 LLM 分割（System 1）和 Dial-Start 的 DA-aware 检索增强（System 2）两种方案，并给出无需 gold boundary 的三类评测指标（segment 内一致性 / 相邻段差异性 / 人-AI 分布对齐），在 TalkMoves 和 CLASS-annotated 两套教学对话上证明：DA-aware 提示能让 LLM 切出更同质的 segment，但和 coherence-based baseline 各占不同评测维度，没有单一最优。
CoDial: Interpretable Task-Oriented Dialogue Systems Through Dialogue Flow Alignment: 本文提出 CoDial，一个将预定义的对话流（task schema）转换为结构化异构图再自动生成 LLM 护栏代码（如 Colang）的框架，在推理阶段实现可解释且可控的任务型对话策略，在 STAR 基准上达到 SOTA，且无需训练数据。
Cognitive Policy-Driven LLM for Diagnosis and Intervention of Cognitive Distortions in Emotional Support Conversation: 提出CoPoLLM框架，通过构建首个带认知扭曲标注的情感支持对话数据集CogBiasESC，结合认知策略强化学习（CPRL）引擎和双流条件优化（DSCO），使LLM能诊断8类认知扭曲并生成策略感知的干预回复，在15个SOTA基线上全面领先。
Context-Agent: Dynamic Discourse Trees for Non-Linear Dialogue: 作者提出 Context-Agent，把多轮对话历史建模为"话题树森林"（每棵树代表一个独立话题、每条分支代表一次指令细化/分叉），按导航意图而非语义相似度组织节点，并配套提出 NTM 基准评测非线性长程对话，在多种 LLM 上同时提升任务完成率并降低 token 消耗。
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky: 提出 DiaFORGE 框架，通过消歧中心的合成数据生成管线 + 推理链微调 + 动态评估体系，让开源 LLM 在面对近重复企业 API 时的工具调用成功率比 GPT-4o 高 27 个百分点、比 Claude-3.5-Sonnet 高 49 个百分点。
Discourse Coherence and Response-Guided Context Rewriting for Multi-Party Dialogue Generation: 本文提出 DRCR，首个将上下文改写引入多方对话生成的框架，使用话语连贯性和回复质量双反馈信号构建偏好数据，通过动态自演化学习让改写器和回复器在迭代训练中相互增强。
Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents: 作者把"美国最高法院法官审律师"这种"AI 主动提问、对方未必合作"的对话定义为 Inquisitive Dialogue，提出 Dual Hierarchical RL 框架——一个 Appraisal Agent 实时打分律师回答（9 种 appraisal 类）、一个 Hierarchical Dialogue Agent 在三层（act/subtype/utterance）Poincaré 动作空间上做 DDQN 选 act，再叠加目标相关性/新颖性/简洁性三重 reward 与一个 conservative 正则项，在 Oyez Supreme Court 数据集上把 PES（探查有效性）从 baseline 的 4.22 推到 4.47，多轮 Coverage / MR 都最高。
ETHICMIND: A Risk-Aware Framework for Ethical-Emotional Alignment in Multi-Turn Dialogue: ETHICMIND 提出推理时（inference-time）的风险感知对齐框架，在多轮对话的每一轮中联合分析伦理风险和用户情感，规划高层响应策略，再生成兼顾伦理引导和情感共鸣的回复，无需额外训练即可在高风险和道德模糊场景中实现更一致的对齐表现。
Frame of Reference: Addressing the Challenges of Common Ground Representation in Dialogue: 本文提出 IndiRef 基准测试，用于评估对话系统通过"关系指代"（如"昨天我们去的那个公园旁边的咖啡馆"）建立和利用持久共识（common ground）的能力，发现现有 LLM 在全上下文条件下准确率不超过 50%，并通过合成数据 + GRPO 强化学习训练将性能提升 15-20%。
GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling: GenesisFunc 用可靠工具池、多代理对话生成和多阶段质检自动构造高质量函数调用训练数据，微调 Qwen3-8B 后在 BFCL、API-Bank 和 ACEBench 上超过同规模开源函数调用模型，并展示出向更多工具和多轮 RL 训练扩展的潜力。
LOCKET: Robust Feature-Locking Technique for Language Models: 为 LLM "按特征付费解锁" 商业模式设计了一个不用密码、可扩展、抗越狱的 feature-locking 方案 LOCKET：每个待锁特征训一个 LoRA adapter（用 LAT 做对抗强化拒答），合并多个 adapter 时按层做频谱范数裁剪 (spectral norm clipping) 防止"过度拒答"塌缩，最终在 3 个模型 × 4 特征 (Math/SQL/Summarize/MMLU) 上拿到 100% 拒答率、≤7% 效用损失、≤5% 越狱攻击成功率，全面碾压 password-locking 基线。
MA\(^2\)P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion: MA\(^2\)P 将复杂说服对话拆成“元策略选择-任务级多智能体说服-事后知识更新”的闭环，在不训练底座 LLM 的情况下，把被说服者的信念、欲望和顾虑转成更具体的策略动作，并在 CToMPersu 上显著提升多种 LLM 的说服成功率。
Metro: Towards Strategy Induction from Expert Dialogue Transcripts for Non-collaborative Dialogues: Metro 把专家对话 transcript 自动归纳成一片 "Strategy Forest"——以 K-Means 聚类的对话状态为根节点的树，节点是 LLM 扩展的 micro-principle 动作、分支是按 Wilson 置信下界 + MCTS 风格价值回传打分剪枝后的完整动作轨迹，推理时直接 retrieve 一棵树、并行抽取 short-term（breadth）和 long-term（depth）建议，无需任何训练就在 P4G / CB 两个非合作对话任务上比 PRINCIPLES、PPDPP、GDP-Zero 等基线平均涨点约 10%。
Preference Learning Unlocks LLMs' Psycho-Counseling Skills: 本文构建了面向心理咨询回复质量的 PsyCoPref 偏好数据集，并用奖励模型、DPO 与迭代式偏好学习训练 LLM，使 8B 模型在心理咨询回复上相对 GPT-4o 达到 87.0% 的胜率。
ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking: ReacTOD 将任务型对话状态跟踪拆成受限工具调用，并用确定性符号校验器拦截和反馈 LLM 错误，使 8B 到 32B 级模型也能在零样本 MultiWOZ 和 SGD 上获得强于先前大模型提示方法的 JGA。
Reasoning Gets Harder for LLMs Inside A Dialogue: 这篇论文提出 Boulder 动态基准，证明 LLM 在孤立推理题上表现很好，但同一问题嵌入任务型对话后会显著退化，主要原因来自多轮上下文、对话角色约束和工具调用负担。
Simulated Students in Tutoring Dialogues: Substance or Illusion?: 这篇论文提出了一套面向数学辅导对话的模拟学生评测框架，发现简单 prompting 往往只会生成“看似会答题的学生”，而 SFT 和 DPO 更接近真实学生行为，但在错误复现和个体差异建模上仍然远未解决。
SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation: 本文提出 SPASM，一个以稳定性为核心的人设驱动多轮对话模拟框架，通过模块化人设生成、自我中心上下文投影（ECP）和终止检测三个组件，在 LLM-LLM 对话中大幅减少角色漂移和"回声"现象，构建了 45,000 段高质量多轮对话数据。
Stress-Testing Emotional Support Models: Moving from Homogeneous to Diverse Help Seekers: 这篇论文用 Reddit 情感支持对话构造九维求助者画像，并用带行为路由的 LoRA-MoE 训练可控求助者模拟器，从而让情感支持模型在更真实、更困难、更多样的人群上接受交互式压力测试。
STRIDE-ED: A Strategy-Grounded Stepwise Reasoning Framework for Empathetic Dialogue Systems: 本文提出 STRIDE-ED 框架，通过构建覆盖正/中/负情绪的全面共情策略体系，设计任务对齐的多阶段认知CoT推理，结合策略感知数据精炼和SFT+PPO两阶段训练，在多个开源LLM上实现共情对话SOTA，情感准确率达57.25%，BLEU-4达4.67。
Surprisal Minimisation over Goal-directed Alternatives Predicts Production Choice in Dialogue: 这篇论文把自然对话中的话语生成建模为在上下文替代项中的成本敏感选择，并发现相对于“同一交际目标”的 goal-directed alternatives 最小化 surprisal，最能预测人类实际说出的 continuation。
Template-assisted Contrastive Learning of Task-oriented Dialogue Sentence Embeddings: 提出 TaDSE 框架，利用对话中现有的模板（template）信息作为辅助锚点，通过模板感知的数据增强、配对对比训练和语义压缩推理三个阶段，在无监督设置下显著提升任务型对话的句子嵌入质量，在五个基准上超越此前 SOTA 甚至优于有监督的商业嵌入模型。
Towards Proactive Information Probing: Customer Service Chatbots Harvesting Value from Conversation: 本文提出 ProChatIP 框架，将客服聊天机器人从被动应答工具转变为主动信息采集引擎，通过专门的对话策略模块学习"何时探测"用户以获取预设的目标信息，同时最小化对话轮数和用户摩擦。
Your Students Don't Use LLMs Like You Wish They Did: 这篇论文提出 6 个面向教育 AI 对话的可计算行为指标，并在 500 段真实学生-AI 对话中发现：学生常把本应促进学习的 LLM 工具用成答案提取器，且部署方式比系统设计或学生偏好更能决定这种错位。