TransPL: VQ-Code Transition Matrices for Pseudo-Labeling of Time Series Unsupervised Domain Adaptation¶

会议: ICML 2025
arXiv: 2505.09955
代码: 有
领域: 时间序列
关键词: 无监督域适应, 伪标签, 向量量化, 转移矩阵, 最优传输

一句话总结¶

提出 TransPL，通过将时间序列 patch 离散化为 VQ 码并构建类别-通道级转移矩阵，利用贝叶斯定理在目标域生成可解释伪标签，实现时间序列无监督域适应中平均 6.1% 准确率和 4.9% F1 的提升。

研究背景与动机¶

时间序列数据在不同域（如不同用户、不同设备）之间常表现出强烈的分布差异，主要体现在两个层面：时间动态转变和通道级（传感器级）偏移。例如在人体活动识别中，加速度计的重力分量可能跨用户稳定，但陀螺仪读数可能因佩戴松紧不同而发生剧烈偏移。

现有的伪标签策略（如 Softmax、NCP、SHOT、T2PL 等）大多源自图像领域，存在两个核心问题：

忽略时序动态：将时间序列当作静态数据处理，未建模时间维度上的状态转变模式

忽略通道级偏移：多通道时间序列中各传感器受域偏移的影响程度不同，但现有方法未做区分

核心矛盾在于：时间序列域适应需要同时建模时序转变和选择性通道偏移，但现有方法将其作为黑盒操作，既不显式建模也不提供可解释性。

本文方案：TransPL 将时间序列分割为 patch，通过向量量化（VQ）将 patch 映射为离散码，构建类别级转移矩阵（建模源域各类的时序模式）和通道级转移矩阵（量化各通道的域偏移），利用贝叶斯定理生成加权伪标签。这不仅实现了显式的时序-通道联合建模，还使伪标签生成过程具备可解释性。

方法详解¶

整体框架¶

TransPL 包含三个阶段：

阶段 A — 源域训练：使用有标签的源域数据训练编码器（Transformer）、解码器、粗-细双码本和分类器。时间序列 $\mathbf{X} \in \mathbb{R}^{D \times T}$ 被分割为 $N = \lfloor T/m \rfloor$ 个 patch，编码后通过 VQ 映射为离散码。

阶段 B — 转移矩阵构建：冻结模型参数，从源域和目标域推断粗码序列，构建三组转移矩阵： - 源域类别级 TM：$\mathbf{P}_{\text{cl}}^{\mathcal{S}} \in \mathbb{R}^{K \times D \times n_c \times n_c}$ - 源域通道级 TM：$\mathbf{P}_{\text{ch}}^{\mathcal{S}} \in \mathbb{R}^{D \times n_c \times n_c}$ - 目标域通道级 TM：$\mathbf{P}_{\text{ch}}^{\mathcal{T}} \in \mathbb{R}^{D \times n_c \times n_c}$

阶段 C — 伪标签生成：基于类别级 TM 计算通道级类条件似然，结合通道对齐权重和先验分布，通过贝叶斯定理生成最终伪标签。

关键设计¶

粗-细双码本（Coarse-Fine Codebook）: 受经典时间序列加性分解（趋势+残差）启发，设计了两级码本结构。粗码本 $\mathcal{C}_c$（$n_c = 8$ 个码）捕获 patch 的短期趋势，细码本 $\mathcal{C}_f$（$n_f = 64$ 个码）捕获残差细节。量化过程为： $\tilde{c} = \arg\min_c \|\ell_2(\mathbf{z}) - \ell_2(\mathbf{e}_c)\|_2^2, \quad \mathbf{e}_c \in \mathcal{C}_c$ $\tilde{f} = \arg\min_f \|\ell_2(\mathbf{z}) - \ell_2(\mathbf{e}_{\tilde{c}}) - \ell_2(\mathbf{e}_f)\|_2^2, \quad \mathbf{e}_f \in \mathcal{C}_f$ 置换熵（Permutation Entropy）分析验证了粗码确实捕获了更简单的全局趋势（低 PE），细码编码了更复杂的残差模式（高 PE）。关键优势是 $n_c \ll n_f$ 使转移矩阵计算可行且无死码（dead codes）。
VQ 码转移矩阵（Transition Matrices）: 将粗码序列视为离散马尔可夫链，转移概率为： $p(s_{t+1} = \mathbf{e}_j | s_t = \mathbf{e}_i) = \frac{\text{count}(\mathbf{e}_i, \mathbf{e}_j)}{\text{count}(\mathbf{e}_i)}$ 类别级 TM 从源域有标签数据按类别和通道分别统计，用于给定类别 $k$ 时目标序列的类条件似然计算（类似 HMM 的极大似然估计）。通道级 TM 分别从源域和目标域不区分类别地构建，用于后续通道对齐打分。
通道对齐与贝叶斯伪标签: 伪标签核心公式为加权通道级类后验的聚合： $\hat{y}_k = \frac{1}{D} \sum_{d=1}^{D} w_d \frac{p(\mathbf{X}^d | y=k) \, p(k)}{\sum_{c=1}^{K} p(\mathbf{X}^d | y=c) \, p(c)}$ 其中通道对齐分数 $w_d$ 通过最优传输计算：先求源域和目标域通道 TM 行之间的 Earth Mover's Distance（代价矩阵为码间余弦距离），再经 RBF 核转为对齐分数： $w_d = \exp\left(-\left(\frac{1}{n_c}\sum_{i=1}^{n_c}\langle\gamma_i^*, \mathbf{M}\rangle\right)^2 / \sigma^2\right)$ 直觉是：偏移较小的通道权重更高。类条件对数似然： $\log p(\mathbf{X}^d | y=k) = \frac{1}{N}\sum_{t=1}^{N-1}\log p(s_{t+1} | s_t, y=k)$

损失函数 / 训练策略¶

源域训练损失： $$\mathcal{L}_{\text{src}} = \mathcal{L}_{\text{ce}} + \mathcal{L}_{\text{VQ}}, \quad \mathcal{L}_{\text{VQ}} = \mathcal{L}_{\text{code}} + \mathcal{L}_{\text{rec}}$$

$\mathcal{L}_{\text{code}}$：标准 VQ 损失含 stop-gradient 和 commitment loss（$\beta=0.25$），同时优化粗码和细码
$\mathcal{L}_{\text{rec}}$：解码器从 $\mathbf{e}_c + \mathbf{e}_f$ 重建原始时间序列的 MSE
$\mathcal{L}_{\text{ce}}$：[CLS] token 的分类交叉熵

目标域微调损失： $$\mathcal{L}_{\text{trg}} = \lambda_1 \mathcal{L}_{\text{ce}} + \lambda_2 \mathcal{L}_{\text{VQ}}$$

微调时每个 mini-batch 选取置信度前 $r_{\text{top}}$ 比例的伪标签样本。$\lambda_1, \lambda_2$ 可用多任务学习的可学习权重自动调节。

弱监督扩展：当已知目标域标签分布时，可直接将其作为先验 $p(k)$ 加入贝叶斯公式，使用对数先验 $\log p(k) / \tau$ 并以温度 $\tau$ 调节强度。

实验关键数据¶

主实验¶

数据集	指标	TransPL	之前SOTA (SHOT)	提升
UCIHAR	Acc	69.0	67.8	+1.2
UCIHAR	MF1	64.9	64.3	+0.6
WISDM	Acc	64.0	62.2	+1.8
WISDM	MF1	56.2	54.6	+1.6
HHAR	Acc	68.4	64.8	+3.6
HHAR	MF1	65.3	63.2	+2.1
PTB	Acc	67.2	61.6	+5.6
PTB	MF1	74.0	66.9	+7.1

伪标签准确率方面，TransPL 相比所有基线平均提升 6.1% 准确率 和 4.9% F1。加入弱监督后提升进一步扩大至 10.7% 和 5.2%。

消融实验¶

配置	UCIHAR Acc	HHAR Acc	PTB Acc	说明
无 CA 无 WS	68.0	63.2	68.3	基线
+CA	69.0	68.4	67.2	通道对齐有效
+WS	68.6	62.3	72.2	弱监督有效
+CA +WS	71.2	70.4	72.4	联合使用最优

码本配置消融（HHAR）：粗 8 + 细 64 最优（PL Acc 68.4%，0% 死码），单一大码本（128）死码率高达 66.8%。

关键发现¶

TransPL 在 4 个数据集上全面超越所有 DA 方法和伪标签方法，无适应基线平均提升 11.4% Acc 和 12.2% MF1
与判别式模型（1D-CNN、LSTM、GRU）直接建模粗码序列相比，TransPL 的生成式转移矩阵方法显著更优，表明 TM 能更好捕获跨域不变的时序动态
CoDATS 的弱监督在多个数据集上反而降低性能（如 PTB 下降 5.3%），而 TransPL 通过贝叶斯先验实现了所有数据集的一致提升
通道对齐分析表明基于原型距离的方法无法准确测量通道偏移，而基于最优传输的方法能给出良好校准的距离

亮点与洞察¶

离散化建模时序联合分布的新范式：将连续时间序列→VQ 码→马尔可夫转移矩阵的路径，把高维连续密度估计问题转化为可计算的离散转移概率计算，思路巧妙
可解释性：类条件似然可视化直接展示了不同类别的时序模式差异，使伪标签生成不再是黑盒，这在实际部署中具有重要价值
弱监督的优雅整合：通过贝叶斯先验自然地纳入标签分布信息，比 CoDATS 的 ad-hoc KL 散度最小化更有数学根基
最优传输度量通道偏移：利用码间语义距离作为 OT 的代价矩阵，比简单的欧氏距离更能捕捉语义相似转移间的关系

局限与展望¶

通道重要性未区分：当前方法对偏移大的通道降权，但若该通道恰好含有关键分类信息则适得其反。未来可结合通道重要性度量
粗-细分工缺乏数学约束：虽然实验验证了粗码捕获趋势、细码捕获残差，但缺少显式的正则化来强制这种层级关系
马尔可夫假设的局限：仅用一阶马尔可夫性可能无法捕获更长程的时序依赖
码本大小固定：所有数据集使用同样的 $n_c=8, n_f=64$，未探讨自适应码本大小的可能
标签空间假设：要求源域和目标域标签空间完全相同，未考虑部分标签重叠的场景

评分¶

新颖性: ⭐⭐⭐⭐ 将 VQ 码转移矩阵用于时序 UDA 伪标签是全新视角，粗-细双码本和 OT 通道对齐设计有创意，但整体在已有组件上的组合色彩较重
实验充分度: ⭐⭐⭐⭐ 四个数据集、多种基线对比、消融充分、可解释性分析直观，但数据集规模和多样性偏小（主要是传感器数据）
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，方法推导完整，图表直观，符号定义规范，可解释性可视化很有说服力
价值: ⭐⭐⭐⭐ 为时序域适应提供了可解释的伪标签新范式，弱监督扩展具有实用价值，但需在更大规模数据集上验证泛化性