跳转至

⚡ LLM 效率

📷 CVPR2025 · 6 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (8) · 📷 CVPR2026 (4) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (35) · 📹 ICCV2025 (1)

Associative Transformer

提出 Associative Transformer (AiT),通过在 Transformer 中引入可学习的显式记忆模块和 Hopfield 网络进行 token 重建,以更少的参数实现优于 ViT 的分类和关系推理性能。

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

提出一种从预训练 ViT 中自动提取 MoE(Mixture-of-Experts)变体的方法:先聚类 MLP 层的输出激活模式,再据此抽取对应的子网络作为专家,无需从头训练 MoE,在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能,同时将 FLOPs 和模型大小分别减少 36% 和 32%。

Language Guided Concept Bottleneck Models for Interpretable Continual Learning

本文将语言引导的概念瓶颈模型(CBM)引入持续学习,用 ChatGPT 生成人类可理解的概念、CLIP 编码概念嵌入构建概念瓶颈层,在缓解灾难性遗忘的同时提供透明的决策解释,在 ImageNet-subset 上超越 SOTA 3.06%。

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

提出 LoCoRe(Long-Context Re-ranker),首次实现基于局部描述子的列表级(list-wise)图像重排序,利用 Longformer 长上下文序列模型同时处理查询图像和整个候选列表的局部描述子,通过捕获候选图像间的传递关系显著提升重排序性能。

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

提出一种从预训练 ViT 中提取 MoE 变体的后训练方法,通过 HDBSCAN 聚类 MLP 隐层激活模式自动发现专家结构,无需重新训练即可在 ImageNet-1k 上减少 36% MACs 和 32% 参数的同时保留 98% 原始精度。

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

本文提出 Spatial-TTT,通过测试时训练(TTT)机制将模型的部分参数(快速权重)作为紧凑非线性记忆,配合混合架构和空间预测机制,从无界视频流中持续积累和组织3D空间证据,在视频空间理解基准上达到 SOTA。