🗣️ 对话系统¶

🧠 NeurIPS2025 · 8 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (10) · 💬 ACL2026 (26) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (5) · 🧪 ICML2025 (2) · 💬 ACL2025 (18)

🔥 高频主题： LLM ×2

AC-LoRA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs: 设计 AC-LoRA 端到端系统，为不同权限数据集训练独立的 LoRA 适配器，推理时根据用户查询的 cosine 相似度和权限动态检索并无训练合并多个 LoRA 输出，在保证强信息隔离的同时匹配或超越 SOTA LoRA 混合方法的回答质量。
Agentic Persona Control and Task State Tracking for Realistic User Simulation: 提出三 agent 协作框架用于逼真的用户模拟——User Agent（协调）+ State Tracking Agent（结构化任务状态）+ Message Attributes Generation Agent（基于 persona 和状态的行为属性控制），在餐厅点餐场景中综合仿真质量（CRRS）提升 102.6%，persona 保持度 +19.9%，行为自然度 +284.5%，且核心发现：无状态感知的行为控制导致 BVS=0（完全刚性）。
Bridging Human and LLM Judgments: Understanding and Narrowing the Gap: 提出Bridge统计框架，通过序数logistic回归建模人类和LLM评判之间的潜在关系，以少量人类标签改善LLM评判的校准和对齐，同时支持对系统性偏差的正式统计检验。
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location: 提出HyGen——干扰感知的LLM推理系统，通过精准的批次延迟预测器、SLO感知的性能分析器和前缀共享最大化调度策略，实现在线和离线工作负载的弹性共置，在保证严格SLO合规的同时获得3.87-5.84倍吞吐提升。
KL Penalty Control via Perturbation for Direct Preference Optimization: 提出 ε-DPO，通过观察训练时扰动 β 后 logit 作为偏好模型的单调性，实现实例级自适应 KL 惩罚控制，无需额外计算开销即可显著超越 DPO 及大多数直接对齐算法，在 AlpacaEval 2 上达到 46.4% LC win rate（DPO 仅 40.3%）。
LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation: 提出 LatentGuard 三阶段框架，通过行为级对齐微调 + 结构化 VAE 监督潜空间 + 潜空间维度操控，实现对 LLM 拒绝行为的可解释、可控制调节，在抵御对抗攻击的同时保持对正常查询的响应能力。
Less is More: Local Intrinsic Dimensions of Contextual Language Models: 提出利用上下文 token 嵌入的局部内在维度（Local Intrinsic Dimension, LID）来无监督监测 LLM 训练动态——维度下降预示泛化改善，维度上升预示过拟合——在对话状态跟踪、grokking、情感识别等任务上验证了这一几何信号的实用性。
SciArena: An Open Evaluation Platform for Non-Verifiable Scientific Literature-Grounded Tasks: 构建 SciArena 社区驱动的科学文献评估开放平台，采用 Chatbot Arena 式的人类偏好投票方式对 47 个基础模型进行排名，收集超过 20,000 条投票数据，并发布 SciArena-Eval 元基准来评测自动评估系统对文献任务答案质量的判断能力。