🗣️ 对话系统¶
🧪 ICML2026 · 4 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (26) · 📷 CVPR2026 (1) · 🔬 ICLR2026 (5) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (5) · 🧪 ICML2025 (3)
🔥 高频主题: LLM ×2
- DiscoverLLM: From Executing Intents to Discovering Them
-
DiscoverLLM 把 "用户没想清楚自己要什么" 形式化为意图层级树的渐进发现过程,用可奖励的层级化用户模拟器训练模型在不清晰时主动发散探索、在清晰时收敛执行,在创意写作 / 技术写作 / SVG 三任务上比 CollabLLM 等 baseline 满意度 +10%、对话长度 -40%。
- From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents
-
针对"多轮交互式工具调用 Agent"后训练里两大瓶颈——高质量数据贵 + 用户模拟噪声毁 RL 信号,作者提出"自演化多 agent 数据合成 (AReaL-SEA)"配套生成可执行 verifier 当奖励,再配上"先 SFT 用户模型再做大 batch + 动态过滤 GRPO"的 RL recipe,在 τ²-bench 上把 Qwen3-235B 推到 Airline 73.0 / Telecom 98.3 的 pass^1,全面达到或超过 Claude/Gemini/GPT-5。
- Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
-
本文把 LLM-as-a-Service 建模成"委托-代理"问题,证明现在主流的"按 token 收费"机制天然激励服务商把同一字符串重新切成更长的 token 序列来超额收费,并且即使强制服务商公开 next-token 分布,多收费而不被发现也只是 NP-Hard 而非不可行——作者给出一个简单启发式算法在保持合理性的前提下实测最多多收 11.2% 的 token,最后证明唯一能消除该激励的可加性定价机制是"按字符长度线性计费"。
- Not All Prefills Are Equal: PPD Disaggregation for Multi-turn LLM Serving
-
本文指出多轮对话场景下传统 Prefill-Decode 分离架构因每轮都要 P→D 重算并传输 KV 而严重低效,提出 PPD(Prefill-capable Decode)动态路由系统,让 decode 节点根据 SLO 权重决定是否本地处理 Turn 2+ 的 append-prefill,把 Turn 2+ TTFT 降低约 68%。