🗣️ 对话系统¶
🔬 ICLR2026 · 5 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (9) · 📷 CVPR2026 (1) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (5) · 🧪 ICML2025 (3) · 💬 ACL2025 (23)
🔥 高频主题: 推理 ×2
- AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions
-
提出 AQuA,首个按模糊度细粒度分级(4 级)的视觉问答数据集(7.2K 样本),为每级定义最优回应策略(直接回答/推断/列举/请求澄清),发现 GPT-5 和 Gemini 在模糊 VQA 上都过度自信地直接回答,通过 SFT+GRPO 训练的 3B 模型反而能超越闭源大模型的策略适应能力。
- Non-Collaborative User Simulators for Tool Agents
-
基于marketing研究定义四类非协作用户行为(不可用服务/跑题闲聊/不耐烦/不完整表述),构建了可保持goal-alignment的模拟框架,在MultiWOZ和τ-bench上系统暴露了SOTA工具Agent的行为特异性失败机制——跑题闲聊导致平均SR下降29.1%,且不同模型呈现截然不同的崩溃路径(GPT系列陷入helper API重复调用,Qwen系列倾向于幻觉编造API结果)。
- ReIn: Conversational Error Recovery with Reasoning Inception
-
提出 Reasoning Inception(ReIn),一种无需修改模型参数或系统提示的测试时干预方法,通过外部 inception 模块检测对话错误并将恢复计划注入任务 agent 的推理链中,在多种错误场景下显著提升对话任务完成率,且可泛化至未见错误类型。
- Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation
-
FlyThinker 提出了一种高效的 "think-while-generating" 框架,使用独立的推理模型(Reasoner)在 token 级别并行生成潜在推理信号,动态融入生成模型(Generator)以指导个性化长文本生成,同时保持训练和推理效率。
- Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
-
通过对比有/无视觉输入的逐层隐藏表征(chain-of-embedding),发现LVLM中存在一个"视觉整合点"(VIP)层,并据此提出Total Visual Integration (TVI)指标来量化语言先验的强度。