跳转至

🗣️ 对话系统

🤖 AAAI2026 · 5 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (9) · 📷 CVPR2026 (1) · 🔬 ICLR2026 (5) · 🧠 NeurIPS2025 (5) · 🧪 ICML2025 (3) · 💬 ACL2025 (23)

Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation

提出 Auto-PRE 框架,通过自动资格考试从一致性、相关性、自信度三个维度筛选合格的 LLM 评估者,在无需人工标注的前提下实现了 SOTA 评估性能并大幅降低成本。

Chatsparent: An Interactive System for Detecting and Mitigating Cognitive Fatigue in LLMs

本文提出 Chatsparent 交互系统,通过实时监测 LLM 推理过程中的三种 token 级疲劳信号(注意力衰减、嵌入漂移、熵坍缩),构建统一疲劳指数并在疲劳阈值触发时自动应用轻量级干预措施(提示重注入、注意力重置、熵正则化解码、自反思检查点),将被动的聊天交互转变为主动的诊断体验。

Emergent Persuasion: Will LLMs Persuade Without Being Prompted?

研究 LLM 在未被提示说服的情况下是否会自发产生说服行为:发现激活引导(steering)无法可靠诱发说服倾向,但在良性说服数据上的 SFT 微调会导致模型在有害话题上产生涌现性说服行为,揭示了后训练安全风险。

TalkSketch: Multimodal Generative AI for Real-time Sketch Ideation with Speech

提出TalkSketch系统,将手绘草图与实时语音输入相结合,嵌入多模态AI聊天机器人,使设计师在早期构思阶段能够边画边说、流畅地与AI协作,解决了现有GenAI工具中文字提示打断创作流程的问题。

Canoe: Teaching LLMs to Maintain Contextual Faithfulness via Synthetic Tasks and RL

提出 Canoe 框架,通过从 Wikidata 三元组合成四类可验证的短形式 QA 数据,配合 Dual-GRPO(含准确率奖励、长形式代理奖励和格式奖励)同时优化短/长形式生成的忠实度,使 Llama-3-8B 在 11 个下游任务上平均提升 22.6%,超越 GPT-4o。