WiTTA-Bench: Benchmarking Test-Time Adaptation for WiFi Sensing¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/BdLI-group/WiTTABench
领域: WiFi感知 / 测试时适应 / Benchmark
关键词: WiFi感知, 测试时适应, 域偏移, 人体活动识别, 跨设备

一句话总结¶

WiTTA-Bench 是第一个系统评测「WiFi 感知测试时适应（TTA）」的基准：它把 WiFi 信道状态信息（CSI）的域偏移拆成跨环境、跨人、跨设备三类物理诱导偏移，在线（OTTA）与离线（TTDA）两套协议下统一跑了 20 个代表性 TTA 方法，并自采了一套配对的跨设备数据集 WiHAR-Dual，得出「CE < CS < CD 的难度分层、OTTA 与 TTDA 互补、视觉里好用的一致性方法在 WiFi 上反而失灵」等一批 WiFi 独有结论。

研究背景与动机¶

领域现状：WiFi 感知用普通路由器/网卡就能做被动、保护隐私的人体活动识别（HAR），是摄像头在暗光、遮挡、隐私敏感场景下的替代方案。近年基于 CSI 的深度模型（THAT、DeepFi、Person-in-WiFi 等）在「同分布」测试下精度很高。

现有痛点：这些模型一旦换了房间、换了人、换了网卡，精度就断崖式下跌——因为布局、体型、硬件的微小变化都会扰乱多径传播模式。真实部署里往往拿不到源域训练数据（隐私 + 在线约束），传统的域适应（DANN、MMD、MixStyle）需要源数据，因此不可用。测试时适应（TTA）只用无标签目标样本在推理阶段自校准，是更现实的方案。

核心矛盾：TTA 在计算机视觉里很成熟，但 WiFi 的域偏移本质不同——它来自无线物理传播和硬件差异（多径、衰减、天线增益、振荡器漂移），产生的是非平稳、设备相关的失真，而不是视觉里的纹理/风格变化。视觉 TTA 的经验能不能迁移到 WiFi，完全没人系统验证过；这个方向连一个统一的评测基准都没有。

本文目标：建立第一个 WiFi TTA 基准，回答三个问题——WiFi 域偏移的主导模式是什么（RQ1）、各类 TTA 方法在不同偏移下的效果如何（RQ2）、哪些因素影响 TTA 的有效性与效率（RQ3）。

切入角度：作者主张 WiFi 的偏移应该按「物理来源」而非「数据现象」来组织——环境、人、设备各自对应一类物理扰动（传播路径、人体运动动力学、硬件响应），从而构成一条难度递增的层级。

核心 idea：把「物理诱导的三类偏移 × 在线/离线两套协议 × 20 个 TTA 方法 × 兼顾精度与效率的指标」标准化成一个可复现、可扩展的测试床，并补上长期缺失的「干净跨设备」数据。

方法详解¶

这是一篇 benchmark 论文，所以「方法」= 数据集 + 评测协议 + 基准设计，而不是某个新模型。整篇工作把一个零散的研究问题（WiFi 模型换场景就崩）转成一个可量化、可对比的评测管线：固定同一个骨干网络，把目标域按物理来源切成三类偏移，在两套适应协议下跑 20 个 TTA 方法，用一组兼顾精度和部署成本的指标统一打分。

整体框架¶

输入是源域训练好的一个轻量 CNN 模型 \(f_{\theta_0}\)（4 个 Conv2d-BN-ReLU-MaxPool 块，通道数 [16, 32, 64, 128]，接两层 MLP 分类头）和无标签的目标域 CSI；输出是「20 个 TTA 方法 × 3 类偏移 × 2 套协议」的精度-效率画像，以及由此提炼的若干 WiFi 独有结论。整条评测管线如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源域模型 f_θ0<br/>统一 CNN 骨干"] --> B["物理诱导域偏移分层<br/>CE / CS / CD"]
    B --> C["双协议<br/>OTTA 在线 / TTDA 离线"]
    C --> D["WiHAR-Dual<br/>配对跨设备数据集 + CSLOS"]
    D --> E["统一评测与指标<br/>精度 + 延迟 + 参数量 + 适应时间"]
    E -->|横向对比 20 个方法| F["TTA 难度分层与部署指南"]

整个基准把无标签目标样本喂给 TTA 方法，方法只能通过无监督目标（熵最小化、伪标签一致性等）就地更新模型 \(\theta_t = \arg\min_\theta \mathcal{L}_{\text{TTA}}\big(f_\theta(x^{(t)})\big)\)，全程不回看源数据 \(D_S\)——这是 source-free TTA 的硬约束，也是作者排除掉 DATTA、MDTA、CARING 等需要源标签/域监督方法的原因。

关键设计¶

1. 物理诱导的三类域偏移分层：把「换场景就崩」拆成可解释的 CE / CS / CD

WiFi 的偏移和视觉不同，作者坚持按物理来源切分而非按数据现象切分。三类偏移各自对应一种物理扰动：跨环境（CE）来自房间几何、材料、家具布局变化，改变多径轨迹和反射路径，导致时延扩展、路径增益、相位相干性变动；跨人（CS）来自体型、动作风格、步态速度，引入多普勒频移和动态散射，扭曲时间-频谱流形；跨设备（CD）来自天线方向图、标定偏置、振荡器漂移，造成幅度缩放、相位偏移、噪声底不匹配。作者通过 PCA/t-SNE/UMAP 特征可视化 + 聚类指标量化发现，这三类偏移在特征空间上呈现递增的破坏程度：CE 是整团特征「相干平移」（拓扑不变、只是统计包络漂移），CS 是「运动流形重组」（类边界被局部挤压变形），CD 则几乎是「完全不相交的流形」（甚至 PCA 轴出现镜像翻转）。这条 CE → CS → CD 的难度层级是全文的骨架，后面所有结论都挂在它上面。

2. OTTA 与 TTDA 双协议：把「实时 vs 离线」两种部署现实都覆盖到

同一类偏移，部署约束不同，能用的方法也不同。作者用两套互补协议统一所有基线（共享同一骨干和超参以保证公平）。OTTA（在线测试时适应）从 CSI 流里实时、逐 batch 地用轻量更新（多为 BatchNorm 重标定、熵最小化）跟随渐变偏移，强调低延迟、流式友好，每个 batch 后立即评测；TTDA（测试时域适应）则在无标签目标集上离线微调几个 epoch（仅归一化层或有限参数更新），冻结后稳定推理，适合一次性校准或边缘设备的短离线窗口。两者都是 source-free 的，区别只在「何时、如何」适应。这个二分让基准能干净地回答「实时性 vs 适应深度」之间的权衡，而不是把所有方法混在一个不公平的设定里比。

3. WiHAR-Dual 配对跨设备数据集：补上长期缺失的「干净 CD」评测

跨设备一直是 WiFi 感知最难也最缺数据的一环。已有数据集（MM-Fi、Widar3.0）把硬件和其他因素（环境、人）纠缠在一起，无法单独隔离设备偏移。作者自采了 WiHAR-Dual：在完全相同的环境、人、活动下，用两块异构网卡——Intel 5300（30 子载波 × 3 天线，802.11n）和 Atheros AR9580（56 子载波 × 1 天线，802.11ac 兼容）——同步配对录制，从而第一次提供了「只变设备、其他全控住」的受控 CD 基准。再配上 CSLOS 数据集补充 LOS/NLOS 遮挡多样性，两套数据合起来才能系统覆盖 CE/CS/CD 三类真实偏移。这个配对设计是整篇能可信地下「CD 最难」结论的前提。

4. 兼顾精度与部署成本的统一指标体系：让「能不能上边缘设备」也进入排名

WiFi 感知常部署在资源受限的边缘端，只看精度会误导。作者除准确率外还纳入四个效率指标：每样本 GFLOPs（计算量）、延迟（ms/样本，OTTA 的适应+推理耗时）、更新参数量、总适应时间（秒，TTDA 的离线微调耗时）。基准覆盖 5 大方法学类别（归一化标定、熵最小化、伪标签、抗遗忘正则、一致性/自监督），20 个方法全部共享同一骨干与超参，这样画出来的精度-延迟-参数 Pareto 前沿才有可比性，也才能给出「轻偏移用 OTTA、重偏移用 TTDA」这类直接面向部署的指南。

一个完整示例：一次跨设备适应¶

以 WiHAR-Dual 上 Atheros → Intel 的跨设备路由为例：源模型在 Atheros 上训练，直接用到 Intel 上时，t-SNE 里目标特征几乎和源域完全不相交、类簇坍塌翻转，基线精度极低（CD base 仅 ~14%）。此时在线的 OTTA（如 TENT）只靠 BatchNorm 重标定，因为 RF 响应已是「全新流形」，只能拿到边际提升（CD OTTA 平均 21.5%）；而离线的 TTDA 聚类方法 ASFA 能用整批目标数据重组类流形，把潜在运动几何在新 RF 世界里重建，绝对精度恢复最高 +30%（CD TTDA 最佳 37.0%）。这个例子正好说明三个设计如何咬合：CD 这一类「硬物理偏移」（设计 1）只有靠 TTDA 的结构性重对齐（设计 2）才救得动，而能可信地观测到这点，靠的是 WiHAR-Dual 的受控配对（设计 3）和把适应时间也算进去的指标（设计 4）。

实验关键数据¶

主实验：三类偏移下的难度分层¶

下表汇总各偏移类型下 OTTA / TTDA 的最佳与平均精度（Fig. 4，单位 %），清晰呈现 CE < CS < CD 的难度趋势，以及 TTDA 在重偏移下的优势：

偏移类型	OTTA 最佳	OTTA 平均	TTDA 最佳	TTDA 平均
跨环境 CE	35.2	32.2	55.6	48.4
跨人 CS	35.8	33.7	38.5	37.5
跨设备 CD	23.0	21.5	37.0	28.7

CD 上所有方法都明显掉点；TTDA 在 CE 上把精度推到 55.6%，远高于 OTTA，体现「离线全特征重对齐」的威力。

方法排名：WiHAR-Dual 上的两套协议¶

协议	最佳方法	最佳精度	最差方法	最差精度
OTTA	T3A	37.9	CoTTA	26.2
TTDA	SHOT++	74.7	SFDA-UR	35.0

在 CSLOS 上 OTTA 最佳是 PETAL（34.3）、最差 CoTTA（24.9）；TTDA 最佳 BAIT（37.3）、最差 ISFDA（32.9）。值得注意的是重计算的一致性方法 CoTTA 在两套数据上都垫底，而轻量的归一化/熵方法（DUA、EATA、TENT）反而稳居前列。

消融/分析：骨干泛化性¶

为验证结论不依赖特定骨干，作者把默认 CNN 换成 MobileNetV2 和 ResNet-10，在 WiHAR-Dual 三类偏移下复测代表性 OTTA 方法（平均精度 %）：

设定	骨干	Base	TENT	EATA	T3A	SAR
CE	ResNet-10	25.72	39.37	39.87	38.93	39.73
CE	MobileNetV2	25.10	36.60	36.90	35.30	34.70
CD	ResNet-10	14.29	28.55	28.93	14.29	29.02
CD	MobileNetV2	15.60	39.30	38.50	15.40	38.80

跨 CE/CS/CD 的趋势高度一致：归一化类 OTTA 始终有效、CD 最难、方法排名基本保持——说明结论是 WiFi 物理层面的，不是骨干的产物。注意 T3A 在 CD 上几乎没提升（14.29 ≈ base），因为它只调分类头、不动统计量，救不了「全新流形」。

关键发现¶

反直觉：CE 比 CS 更好适应，这与早期域适应文献相反。原因在偏移性质——CE 是全局低秩的「包络漂移」（类簇拓扑不变，只需重新居中 mean/variance 即可），而 CS 是「运动流形重组」，目标样本侵入并重塑类边界，破坏了简单重居中的假设，需要流形锚定或源监督。
域偏移指标预测不了 TTA 难度：SS、CH、DB、熵、甚至 MMD 与适应后精度的 Spearman 相关只有 −0.21 ~ 0.18（|r| ≤ 0.25）。ME1→E3 聚类分数最差却不是 TTA 精度最低的——静态几何指标只刻画局部紧致度，捕捉不到优化稳定性、熵正则等动态因素，这是 WiFi 非平稳物理失真带来的根本局限。
视觉经验在 WiFi 上失灵：视觉里一致性 OTTA（CoTTA）通常胜过归一化（TENT），但 WiFi 上恰好相反——硬件/天线增益/频率响应主导的失真不是语义变化，强制预测一致性耗算力却几乎不涨精度；WiFi 信号主要需要「重新居中（均值-方差对齐）+ 重新自信（熵抑制）」，而非伪目标自训练去「幻想」。
超参敏感性两极分化：归一化 OTTA（TENT、DUA、EATA）在大范围学习率/batch 上精度平坦、鲁棒；聚类 TTDA（ASFA）则是尖锐的高增益最优点，参数偏一点就从 ~63% 暴跌到 35%——根源是 TTDA 递归伪标签自训练的反馈放大。
源模型质量正相关但会饱和：源精度从 50% 调到 100%，TTA 精度随之上升但逐渐饱和；SHOT 在极高源精度下反而略降，提示过自信伪标签会自我强化偏置。
效率画像：OTTA 在 <10 ms 延迟、≤1M 参数下维持 ~34-35% 精度；TTDA 以 80-500 s 适应时间换 45-60% 精度，ASFA 性价比最稳（~48%），SHOT++ 峰值最高（~57%）。

亮点与洞察¶

把「物理来源」当一等公民：CE/CS/CD 的分层不是随便切的数据集划分，而是对应三种可解释的无线物理扰动，让「为什么 CD 最难」有了机理解释（设备 = 全新流形），这种「按物理而非按现象组织 benchmark」的思路可迁移到雷达、毫米波、声学等其他无线感知任务。
WiHAR-Dual 的受控配对是真功夫：在相同环境/人/活动下用两块异构网卡同步录制，把硬件偏移从其它因素里干净剥离出来，这是能可信下「CD 最难、需结构重对齐」结论的实验前提，也是社区长期缺的资源。
一条对从业者极实用的部署指南：轻偏移（CE/CS）用低延迟 OTTA，重偏移（CD）用离线 TTDA——直接把「精度-延迟-参数」三维权衡落到可操作的选型规则上。
打破跨模态的经验直觉：「视觉里好用的一致性方法在 WiFi 上反而浪费算力」这个发现提醒大家不要盲目把 vision TTA 搬到无线域，WiFi 真正需要的是统计重居中而非伪标签自训练。

局限性 / 可改进方向¶

任务局限于 HAR：基准只覆盖人体活动识别，作者也承认；不过 CE/CS/CD 层级源自任务无关的无线物理（多径、散射、硬件响应），预期可泛化到其他 WiFi 感知任务，但这只是「预期」，缺少实证。
没有提出新方法：WiTTA-Bench 只是评测床，揭示了「物理诱导偏移需要 physics-aware TTA」却没给出针对 WiFi 设计的新适应算法，CD 这类硬偏移仍是开放难题（最佳也才 ~37%）。
指标预测失败留下空白：现有静态域偏移指标无法预测 TTA 难度，但论文没给出能预测的替代指标，部署前「这个目标域好不好适应」仍无法预判。
数据规模与多样性有限：WiHAR-Dual 仅两块网卡、CSLOS 仅遮挡多样性，活动类别数（7~12 类）和受试者规模都不大，跨设备结论是否在更多硬件组合上成立有待验证。
可改进方向：可以探索「物理先验注入的 TTA」（如显式建模多径包络漂移做重居中、对 CD 做硬件无关的相位/幅度标定），以及能在线预判适应难度的动态指标。

评分¶

新颖性: ⭐⭐⭐⭐ 第一个 WiFi TTA 基准 + 自采受控跨设备数据集，物理分层视角新颖；但属基准而非新方法。
实验充分度: ⭐⭐⭐⭐⭐ 20 方法 × 3 偏移 × 2 协议 × 2 数据集，含骨干泛化、超参敏感、源质量、Pareto、持续适应等多维分析。
写作质量: ⭐⭐⭐⭐ 结构清晰、结论有机理解释；图表偏多、部分附录依赖，正文细节略密。
价值: ⭐⭐⭐⭐⭐ 为 WiFi 感知 TTA 立了可复现标准与部署指南，并给出一批反直觉的实用结论，社区基础设施价值高。