LATTE: Collaborative Test-Time Adaptation of Vision-Language Models in Federated Learning¶

会议: ICCV 2025
arXiv: 2507.21494
代码: GitHub
领域: 多模态VLM
关键词: 测试时自适应, 联邦学习, 视觉语言模型, 记忆缓存, CLIP

一句话总结¶

提出 Latte 框架，在联邦学习的去中心化场景下，通过本地记忆与外部记忆的协同机制，实现视觉语言模型（如 CLIP）的协作式测试时自适应，兼顾跨客户端知识共享与个性化。

研究背景与动机¶

预训练视觉语言模型（VLM）如 CLIP 在零样本图像分类上表现出色，但部署到具体下游领域时面临域偏移问题——视觉和文本嵌入的对齐关系可能不再适用。测试时自适应（TTA）是缓解此问题的有效途径，其中基于记忆的方法因免训练、无需反向传播而特别高效。

然而，现有记忆式 TTA 方法有一个关键假设：单一域且数据充足。在联邦学习（FL）场景下，多个客户端执行相同任务但数据分布各异且每个客户端数据量有限，这带来两个矛盾：

独立适应：各客户端独立运行 TTA，因数据稀缺导致记忆质量差，性能下降

全局共享：所有客户端共享一份全局记忆，无法针对各客户端独特分布进行个性化

本文的核心切入点是：如何在去中心化的异构客户端间，安全高效地共享记忆信息，既利用同分布客户端的数据优势，又对异分布客户端保持鲁棒？ Latte 通过本地记忆 + 外部记忆的双重设计来解决这一问题。

方法详解¶

整体框架¶

Latte 的流程分为四步： 1. 对输入图像编码获得嵌入 \(\boldsymbol{f}\) 和初始预测 2. 用 \(\boldsymbol{f}\) 更新本地记忆 \(\boldsymbol{L}^i\) 3. 利用本地记忆 \(\boldsymbol{L}^i\) 和外部记忆 \(\boldsymbol{E}^i\) 获得自适应预测 4. （可选）与服务器通信，更新外部记忆 \(\boldsymbol{E}^i\)

关键设计¶

本地记忆构建（优先队列）：每个客户端维护一个类别分裂的记忆 \(\boldsymbol{L}^i \in \mathbb{R}^{c \times k_l \times d}\)，其中每个类别对应一个按熵排序的优先队列。新测试样本到来时，若队列未满则直接插入；若已满且新样本熵更低（更确定），则替换最高熵的条目。这保证记忆中始终保留最可靠的样本嵌入。
全局记忆与外部记忆（服务器协调的选择性共享）：服务器维护全局记忆 \(\boldsymbol{G} \in \mathbb{R}^{c \times n \times d}\)，每个客户端上传其本地记忆的加权原型（熵加权平均后归一化）。关键在于，每个客户端不是获取整个全局记忆，而是用自身原型作为查询向量，检索 top-\(k_e\) 个最相似的其他客户端原型作为外部记忆。这实现了粗粒度过滤，减少了不相关原型的传输。
融合记忆的自适应预测：将本地记忆和外部记忆合并后，通过同时考虑嵌入相似度和不确定性（熵）来计算聚合权重：

\[w_{y,\kappa}^i = \exp(\beta \cdot \boldsymbol{f}^\top \boldsymbol{m}_{y,\kappa}^i) \cdot \exp(-\gamma \cdot H(\boldsymbol{m}_{y,\kappa}^i))\]

这个设计使得高相似度且低不确定性的样本获得更大权重，从而对 OOD 原型和误分类样本保持鲁棒。最终预测为 CLIP 原始 logits 和记忆 logits 的加权和。

通信与推理解耦：通信过程仅依赖本地记忆而不依赖当前测试样本，允许客户端在通信间隔期间进行离线推理，大幅减少通信轮次。

损失函数 / 训练策略¶

Latte 是一个免训练框架——不需要任何反向传播或梯度计算。其适应过程完全通过记忆的构建、共享和加权查询实现。超参数包括记忆大小 \(k_l\)、外部记忆大小 \(k_e\)、相似度锐度 \(\beta\)、不确定性锐度 \(\gamma\) 和融合系数 \(\alpha\)。

实验关键数据¶

主实验¶

在域适应基准（VLCS、TerraIncognita）和损坏基准（CIFAR-10-C、CIFAR-100-C）上进行评估。

方法	VLCS (ViT-B/16)	TerraIncognita (ViT-B/16)	CIFAR-10-C (ViT-B/16)
CLIP	80.83	31.84	65.58
VTE	81.75	38.56	67.64
TDA (local)	81.44	34.24	66.58
TDA (global)	80.29	36.19	65.58
DMN-ZS (local)	81.12	33.65	67.42
DMN-ZS (global)	80.55	37.64	63.90
Latte	82.57 (+1.74)	40.95 (+9.11)	68.27 (+2.69)

Latte 在所有基准上均取得最佳性能。值得注意的是，在 TerraIncognita 上，Latte 比 CLIP 零样本高出 9.11%，远超其他方法。全局共享策略（TDA global、DMN-ZS global）在某些场景下甚至出现负迁移。

消融实验¶

消融项	VLCS 准确率	说明
仅用本地记忆	~81.5	缺少跨客户端信息
仅用外部记忆	~81.0	缺少本地个性化
Latte（完整）	82.57	两者互补
去掉相似度权重	~81.0	仅用熵加权不足
去掉不确定性权重	~81.5	仅用相似度加权不足
Latte（完整）	82.57	两者缺一不可

关键发现¶

数据去中心化程度增加时（每域客户端数从 1 增到 50），DMN-ZS 和 TDA 性能显著下降，而 Latte 保持稳定
计算开销极小：相比 CLIP 推理的 17.6G MACs，Latte 仅增加 871K MACs
通信效率高：每轮通信量不到 CLIP 视觉编码器大小的 0.4%；通信间隔 T≤50 时精度几乎不变
ID 客户端主要从同分布客户端获取原型，合并记忆后熵显著降低、类内聚更紧凑

亮点与洞察¶

设计优雅：双记忆 + 原型检索的机制在保持简洁的同时有效平衡共享与个性化
理论保障：证明了 Latte 在 ID 客户端数增加时误差单调下降，且对 OOD 客户端的误差界不受影响
实用性强：通信与推理解耦使其真正适用于实际 FL 系统，而非仅限于理想化设置
免训练特性使其适合资源受限的边缘设备

局限与展望¶

仅在图像分类任务上验证，未扩展到检测、分割等视觉任务
对客户端数据分布差异极端的情况（如完全不重叠的类别空间）未充分讨论
原型检索的 top-k 策略较为简单，可探索更细粒度的图级别记忆共享
理论分析基于简化的二分类假设，与实际多分类场景有一定差距

评分¶

新颖性: 7/10 — 双记忆 + 协作检索的组合在 VLM+FL 场景下是新颖的
技术质量: 8/10 — 方法完整、理论分析扎实、实验全面
实用性: 8/10 — 免训练、低通信开销、通信与推理解耦
写作质量: 8/10 — 结构清晰，符号定义完整