🗣️ 对话系统¶

🔬 ICLR2026 · 10 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (26) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8) · 🧪 ICML2025 (2) · 💬 ACL2025 (18)

🔥 高频主题： 对话系统 ×2 · 推理 ×2

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions: 提出 AQuA，首个按模糊度细粒度分级（4 级）的视觉问答数据集（7.2K 样本），为每级定义最优回应策略（直接回答/推断/列举/请求澄清），发现 GPT-5 和 Gemini 在模糊 VQA 上都过度自信地直接回答，通过 SFT+GRPO 训练的 3B 模型反而能超越闭源大模型的策略适应能力。
ClarifyVC: Clarifying Ambiguous Commands in Vehicle Control with a Hybrid Data Augmentation Pipeline: ClarifyVC 用一个 Agent 编排的四阶段数据增强流水线，从 2 万条真实车载指令里"种"出大量歧义丰富、协议合规的单轮/多轮对话，配上三层评测协议与数据质量分 DQS，在这套数据上微调后让车载语音指令的解析准确率提升约 15%、歧义消解提升约 20%、协议合规度达 98%。
Codified Finite-state Machines for Role-playing: 针对 LLM 角色扮演时只会模仿表层动作、记不住人物"内在状态"的问题，本文让 LLM 把人物档案自动编译成可执行的有限状态机（CFSM），用代码显式记录角色状态及其转移规则，并进一步扩展成用概率分布建模状态的 CPFSM；在合成验证和 Fandom 真实剧情基准上都比纯 prompt 的状态建模基线更连贯、更可解释。
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning: DRIFT 把真实部署里大量但隐式的"用户不满"（DSAT）当作高质量负样本锚点，正样本则从当前策略动态采样，用标准 DPO 迭代训练，无需人工标注/奖励模型/更强模型生成的正例，就让 14B 模型在 WildBench 上超过 GPT-4o-mini。
Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings: 本文提出一个计算极快的稳健性检验：在 Chatbot Arena 这类基于 Bradley–Terry 模型的 LLM 排行榜上，只要丢掉最坏情况下极小一撮（最少 0.003%、两条）人类偏好评测，就能让排名第一的模型换人——并且方法还能精确指出是哪几条偏好导致了翻盘。
Flipping the Dialogue: Training and Evaluating User Language Models: 把对话"翻转"过来——不再训练 LLM 当好助手，而是专门后训练一个用户语言模型（User LM）去模拟真实人类用户，用它在多轮对话里逼出助手 LM 在真实场景下的短板（GPT-4o 任务成功率从 74.6% 掉到 57.4%）。
Non-Collaborative User Simulators for Tool Agents: 基于marketing研究定义四类非协作用户行为（不可用服务/跑题闲聊/不耐烦/不完整表述），构建了可保持goal-alignment的模拟框架，在MultiWOZ和τ-bench上系统暴露了SOTA工具Agent的行为特异性失败机制——跑题闲聊导致平均SR下降29.1%，且不同模型呈现截然不同的崩溃路径（GPT系列陷入helper API重复调用，Qwen系列倾向于幻觉编造API结果）。
ReIn: Conversational Error Recovery with Reasoning Inception: 提出 Reasoning Inception（ReIn），一种无需修改模型参数或系统提示的测试时干预方法，通过外部 inception 模块检测对话错误并将恢复计划注入任务 agent 的推理链中，在多种错误场景下显著提升对话任务完成率，且可泛化至未见错误类型。
Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation: FlyThinker 提出了一种高效的 "think-while-generating" 框架，使用独立的推理模型(Reasoner)在 token 级别并行生成潜在推理信号，动态融入生成模型(Generator)以指导个性化长文本生成，同时保持训练和推理效率。
Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding: 通过对比有/无视觉输入的逐层隐藏表征（chain-of-embedding），发现LVLM中存在一个"视觉整合点"(VIP)层，并据此提出Total Visual Integration (TVI)指标来量化语言先验的强度。