⚡ VLM Efficiency¶

📷 CVPR2025 · 3 篇论文解读

🔥 高频主题： 模型压缩 ×2

MBQ: Modality-Balanced Quantization for Large Vision-Language Models: 发现大型VLM中视觉token和语言token对量化误差的敏感度差异超过10倍，提出MBQ方法在量化校准过程中引入基于梯度的模态平衡因子，在W3A16和W4A8设置下分别提升精度最高4.4%和11.6%，并实现1.4倍端到端加速。
Quantization without Tears: 提出 QwT（Quantization without Tears）方法，通过在量化网络的每个 block 后添加一个轻量级线性补偿层来弥补量化信息损失，该补偿层参数可通过闭式解在2分钟内求得，在视觉、语言、多模态等多种任务上均显著提升了 PTQ 精度。