📊 LLM 评测¶
📷 CVPR2025 · 4 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (131) · 💬 ACL2026 (96) · 🧪 ICML2026 (40) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (38) · 📹 ICCV2025 (27)
- Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways (EraDiff)
-
本文提出EraDiff,通过链式校正优化范式(CRO)建立从"含物体"到"纯背景"的渐进扩散路径,并用自校正注意力机制(SRA)在采样时抑制伪影,使扩散模型真正理解"擦除意图",在OpenImages V5上取得SOTA的Local FID(3.799),在复杂真实场景中显著优于SD2-Inpaint和LaMa。
- PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation
-
提出 PosterO,将海报版面结构化为 SVG 布局树,通过设计意图向量化和层次节点表示实现与 LLM 的对接,利用意图对齐的上下文学习生成高质量内容感知版面,在多个基准上达到 SOTA 并引入首个支持多用途和多形状元素的 PStylish7 数据集。
- RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives
-
本文提出RoadSocial,一个来源于社交媒体的大规模多样化VideoQA数据集(13.2K视频、260K问答对),覆盖全球多地域多视角的道路事件场景,通过半自动标注框架和12类QA任务系统性评测了18种Video LLM的道路事件理解能力。
- UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
-
提出 UniGoal 统一零样本目标导航框架,通过将场景和目标统一表示为图结构,结合图匹配驱动的多阶段探索策略,在单一模型中实现对象类别、实例图像和文本描述三种目标类型的零样本导航,性能超越任务专用方法。