SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion¶

会议: CVPR2026
arXiv: 2603.12764
代码: jack1ee/SAVAX
领域: 视频理解
关键词: 跨视角模仿错误检测, 自适应采样, 场景感知视角嵌入, 双向交叉注意力融合, 第一人称-第三人称视频

一句话总结¶

提出 SAVA-X 框架，通过自适应采样、场景感知视角嵌入和双向交叉注意力融合三个互补模块，解决第三人称示范→第一人称模仿场景下的跨视角时序错误检测问题，在 EgoMe 基准上全面超越现有基线。

研究背景与动机¶

实际需求强烈：工业装配、医疗培训、机器人模仿学习等场景中，操作者（第一人称/ego）需要根据第三人称（exo）示范执行操作，错误检测对质量控制至关重要。

现有方法局限于单视角：此前的错误检测方法（如 PREGO）均假设单一视角输入，无法处理示范和执行来自不同视角的实际情况。

时序不对齐问题：Ego/Exo 视频异步录制，时长和节奏不同，直接对齐特征会导致误判——时长差异本身并非错误。

严重的冗余干扰：长视频中存在大量无关内容，稀释注意力机制并增加假阳性；实验发现基线方法随输入帧数增加反而性能下降。

视角域差距显著：Ego 视角关注局部手-物交互，Exo 视角捕捉全身姿态和场景布局，二者外观和运动统计差异大，直接特征融合不可靠。

缺乏统一评估协议：该任务此前未被正式定义，缺少标准化的基线对比和评估框架，妨碍了研究进展。

方法详解¶

整体框架：Align–Fuse–Detect¶

SAVA-X 采用冻结视频编码器（TSP，预训练于 ActivityNet）提取逐帧特征，然后依次经过三个核心模块+可变形 Transformer 编码器-解码器完成预测：

自适应采样（AS） → 去冗余 + 时序对齐
场景感知字典视角嵌入（SVE） → 缩小跨视角域差距
双向交叉注意力融合（BiX） → 互补证据聚合
解码器输出第一人称时间段 + 模仿正确性判断

关键设计一：门控自适应采样（Adaptive Sampling）¶

Exo 侧：通过自注意力 + FFN 计算显著性分数，经 Gumbel Top-K 硬选择保留关键帧
Ego 侧：以已采样的 Exo 特征为 Key/Value 做交叉注意力评分，使 Ego 采样对示范关键点敏感
残差门控：在硬选择的同时引入软门控 \(\mathbf{g} = \mathbf{1} + \alpha(\text{Norm}(\mathbf{s}) - \mathbf{1})\)，为评分器提供稳定梯度
正则化：选择熵 \(\mathcal{L}_{\text{sel}}\) 防止选择坍缩，VICReg 风格 \(\mathcal{L}_{\text{vic}}\) 防止维度共线性

关键设计二：场景感知字典视角嵌入（SVE）¶

维护共享视角-场景字典 \(\mathbf{D} \in \mathbb{R}^{M \times d}\)，行向量捕捉常见视角子因素（如"近距离手-物交互"、"全身运动结构"）
每个视角流通过温度缩放的交叉注意力从字典中检索自适应视角嵌入：\(\mathbf{VE}^u = \text{CrossAttn}(\hat{\mathbf{Z}}^u / \tau, \mathbf{D})\)
双层注入：融合前对 Ego/Exo 流各注入一次 + 编码器各时序层级多层注入
注意力熵正则 \(\mathcal{L}_{\text{view-ent}}\)：防止注意力过于尖锐，鼓励均匀覆盖
字典多样性正则 \(\mathcal{L}_{\text{dict-div}}\)：对归一化字典行强制近似正交

关键设计三：双向交叉注意力融合（BiX）¶

对称双向交叉注意力：Ego→Exo 和 Exo→Ego 并行计算
可学习门控残差混合：\(\mathbf{F}^{ego} = (1-\boldsymbol{\gamma}^e)\tilde{\mathbf{Z}}^{ego} + \boldsymbol{\gamma}^e \mathbf{E}^\star\)，门控值由拼接特征经 sigmoid 生成
最终融合：\(\tilde{\mathbf{Z}}^{fused} = \frac{1}{2}(\mathbf{F}^{ego} + \mathbf{F}^{exo})\)
Exo→Ego 方向提供边界和步骤排序线索，Ego→Exo 方向贡献手-物细节和局部因果信息

损失函数¶

DVC 损失 \(\mathcal{L}_{\text{DVC}}\)（匈牙利集合预测，继承 PDVC 配置）
模仿判别损失 \(\mathcal{L}_{\text{Imit}}\)（权重 \(\lambda_{\text{Imit}}=0.5\)）
正则项：\(\mathcal{L}_{\text{sel}}\)、\(\mathcal{L}_{\text{vic}}\)、\(\mathcal{L}_{\text{view-ent}}\)、\(\mathcal{L}_{\text{dict-div}}\)（权重 0.01–0.05）

实验¶

数据集与设置¶

EgoMe 数据集：7,902 对异步 Exo-Ego 视频（约 82.8 小时），训练/验证/测试 = 4,777/997/2,128
特征提取：TSP（冻结），特征维度 d=512
优化器：AdamW，学习率 1e-4，batch size 16

主实验结果（Table 1）¶

方法	Val AUPRC@0.3	Val AUPRC@0.5	Val AUPRC@0.7	Val Mean	Val tIoU
PDVC	28.21	20.48	7.95	18.88	58.58
Exo2EgoDVC	31.33	20.27	7.49	19.69	59.06
ActionFormer	31.37	15.41	2.63	16.47	48.89
TriDet	30.04	14.61	2.44	15.70	49.05
PDVC (仅Ego)	19.35	13.91	5.11	12.79	57.63
SAVA-X	33.56	24.04	9.48	22.36	59.31

SAVA-X 的 Mean AUPRC 较最强基线 Exo2EgoDVC 提升 +2.67（+13.56%），在所有阈值下均取得最优。

消融实验（Table 2）¶

AS	SVE	BiX	Mean AUPRC	tIoU
			18.88	58.58
✓			20.90	58.88
	✓		21.29	59.27
		✓	21.06	58.27
✓	✓		21.82	58.96
✓		✓	20.32	58.14
	✓	✓	22.33	58.76
✓	✓	✓	22.36	59.31

关键发现¶

三模块互补：单独使用 AS/SVE/BiX 分别提升 +10.7%/+12.8%/+11.6%，组合后达到最优
SVE+BiX 组合最强：成对组合中 SVE+BiX 效果最佳，说明缩小域差距 + 双向校验最关键
AS+BiX 较弱：未经视角适配直接融合易受域偏移和噪声影响
单视角输入大幅退化：仅用 Ego 输入的 PDVC Mean AUPRC 降至 12.79，验证了 Exo 示范信息的必要性
自适应采样在高帧率下更有效：高帧率冗余更多，保留少量高分帧即可提升性能
SVE 优于固定视角嵌入：固定可学习 token 增益有限，自适应字典能覆盖跨场景差异
Exo→Ego 方向更关键：单向消融显示 Exo→Ego 接近双向效果，因任务目标是 Ego 流上的错误检测

亮点¶

首次正式定义 Ego→Exo 模仿错误检测任务，建立统一评估协议
三个模块各自针对一个核心挑战（冗余/域差距/融合），设计正交且互补
场景感知字典视角嵌入是有创意的设计，通过可学习字典实现跨场景自适应
门控自适应采样兼顾硬选择的效率和软门控的梯度稳定性
消融和组件分析非常详尽（帧率、Top-K 比例、字典大小、融合变体、域差距可视化）

局限性¶

仅在 EgoMe 一个数据集上验证，泛化性未知
冻结 TSP 特征提取器（预训练于 ActivityNet），对 Ego 视频的适配可能不够充分
绝对性能仍然较低（Mean AUPRC 仅 22.36），距实用部署有较大差距
未探索大规模视频基础模型（如 InternVideo、VideoMAE v2）的特征
字典大小和正则权重需要调参，缺少自动选择机制
未讨论推理速度和计算开销

评分¶

新颖性: ⭐⭐⭐⭐ （任务定义新颖，三模块设计有针对性）
实验充分度: ⭐⭐⭐⭐⭐ （消融极为详尽，组件分析全面）
写作质量: ⭐⭐⭐⭐ （结构清晰，动机和方法阐述到位）
价值: ⭐⭐⭐⭐ （实际应用场景明确，但绝对性能偏低）