跳转至

🔍 信息检索/RAG

🎞️ ECCV2024 · 4 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (43) · 📷 CVPR2026 (8) · 🔬 ICLR2026 (33) · 🤖 AAAI2026 (28) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (8)

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

本文提出将视觉属性识别问题重新建模为基于图像条件的前缀语言模型(PrefixLM)下的句子生成概率问题,通过"生成式检索"(Generative Retrieval)替代传统的"对比式检索"(Contrastive Retrieval),显式建模物体-属性间的条件依赖关系,在VAW和新提出的VGARank数据集上显著超越对比检索方法。

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

将视觉属性识别重新建模为基于PrefixLM的句子生成概率评估问题,通过设计不同句子模板灵活构建"物体-属性"条件依赖的概率图模型(元模型),在零样本和微调设定下均显著优于CLIP风格的对比式检索。

Grounding Language Models for Visual Entity Recognition

提出 AutoVER——首个将多模态大语言模型(MLLM)应用于大规模视觉实体识别的方法,通过将检索能力集成到 MLLM 内部,结合对比训练和前缀树约束解码,在 Oven-Wiki 基准上大幅超越 PaLI-17B 等先前方法。

OneRestore: A Universal Restoration Framework for Composite Degradation

提出 OneRestore,一种基于 Transformer 的通用图像复原框架,通过场景描述符引导的交叉注意力机制和复合退化复原损失,能在单一模型中自适应地处理低光照、雾、雨、雪及其任意组合的复合退化场景,并支持文本/视觉双模式的可控复原。