跳转至

⚡ LLM 效率

📷 CVPR2026 · 4 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (8) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (35) · 📹 ICCV2025 (1) · 🧪 ICML2025 (13)

GeoCodeBench: Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

首个面向3D几何计算机视觉的PhD级代码生成基准GeoCodeBench,包含100个从2025年顶会论文+代码库中精选的函数补全任务,配套自动化多样化单元测试,最强模型GPT-5仅36.6%通过率,揭示LLM在科学级3D代码实现上的巨大差距。

CHEEM: Continual Learning by Reuse, New, Adapt and Skip -- A Hierarchical Exploration-Exploitation Approach

提出 CHEEM 框架,通过分层探索-利用采样的 NAS 自动学习任务感知的动态 ViT 骨干——在每一层选择 Reuse/New/Adapt/Skip 四种操作——在 MTIL 和 VDD 两个挑战性持续学习基准上显著超越提示类方法,接近全量微调上界。

SparVAR: Exploring Sparsity in Visual Autoregressive Modeling for Training-Free Acceleration

对VAR模型注意力激活模式进行系统分析,揭示三大稀疏特性(注意力汇、跨尺度相似性、空间局部性),并提出SparVAR无训练加速框架,通过跨尺度自相似稀疏注意力(CS⁴A)和跨尺度局部稀疏注意力(CSLA)两个即插即用模块,实现8B模型1024×1024生成降至1秒级(1.57×加速),且几乎不损失高频细节。

StoryTailor: A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

提出StoryTailor零样本视觉叙事生成管线,通过高斯中心注意力(GCA)缓解主体重叠和背景泄漏、动作增强奇异值重加权(AB-SVR)放大动作语义、选择性遗忘缓存(SFC)维护跨帧背景连续性,在单张RTX 4090上实现多主体、动作丰富的图像叙事生成,CLIP-T较基线提升10-15%。