🗣️ 对话系统¶
🎞️ ECCV2024 · 3 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (9) · 📷 CVPR2026 (1) · 🔬 ICLR2026 (5) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (5) · 🧪 ICML2025 (3)
🔥 高频主题: 多模态 ×3 · 对话系统 ×2
- A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis
-
本文构建了一个包含13.7万张作物病害图像和100万条问答对的多模态数据集CDDM,并提出同时对视觉编码器、适配器和语言模型进行LoRA微调的策略,在作物病害诊断任务上将病害分类准确率从5%提升至91.8%。
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation
-
提出 BI-MDRG 框架,通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation
-
在多模态对话响应生成(MDRG)中,通过视觉交叉注意力层+注意力掩码调制桥接图像历史到文本回复,通过Citation Module标注跨轮重复物体并结合定制化T2I模型生成一致的图像回复。