跳转至

🗣️ 对话系统

🎞️ ECCV2024 · 3 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (9) · 📷 CVPR2026 (1) · 🔬 ICLR2026 (5) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (5) · 🧪 ICML2025 (3)

🔥 高频主题: 多模态 ×3 · 对话系统 ×2

A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

本文构建了一个包含13.7万张作物病害图像和100万条问答对的多模态数据集CDDM,并提出同时对视觉编码器、适配器和语言模型进行LoRA微调的策略,在作物病害诊断任务上将病害分类准确率从5%提升至91.8%。

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

提出 BI-MDRG 框架,通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

在多模态对话响应生成(MDRG)中,通过视觉交叉注意力层+注意力掩码调制桥接图像历史到文本回复,通过Citation Module标注跨轮重复物体并结合定制化T2I模型生成一致的图像回复。