跳转至

🔍 信息检索/RAG

🎞️ ECCV2024 · 3 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (81) · 💬 ACL2026 (73) · 🧪 ICML2026 (26) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (25) · 📹 ICCV2025 (5)

Multi-Label Cluster Discrimination for Visual Representation Learning

提出多标签聚类判别方法 MLCD,通过为每张图像分配多个聚类伪标签并设计消歧多标签分类损失,在 LAION-400M 上预训练的 ViT 在 linear probe、zero-shot 分类和检索任务上全面超越 OpenCLIP、FLIP 和 UNICOM。

OneRestore: A Universal Restoration Framework for Composite Degradation

提出 OneRestore,一种基于 Transformer 的通用图像复原框架,通过场景描述符引导的交叉注意力机制和复合退化复原损失,能在单一模型中自适应地处理低光照、雾、雨、雪及其任意组合的复合退化场景,并支持文本/视觉双模式的可控复原。

Towards Open-Ended Visual Recognition with Large Language Model

提出 OmniScient Model (OSM)——一个基于冻结 CLIP-ViT + 可训练 MaskQ-Former + 冻结 LLM (Vicuna-7B) 的生成式 mask 分类器,将视觉识别从"从预定义词表中选择类别"转变为"直接生成类别名称",消除了训练和测试时对预定义词表的依赖,在 COCO 全景分割上超越 DaTaSeg +4.3 PQ。