Contrastive Representations for Temporal Reasoning¶
会议: NeurIPS 2025
arXiv: 2508.13113
代码: GitHub
领域: 自监督学习 / 表征学习
关键词: 对比学习, 时间推理, 组合问题, Sokoban, 魔方
一句话总结¶
提出 CRTR(Contrastive Representations for Temporal Reasoning),通过在训练批次中重复同一轨迹来引入轨迹内负样本对,消除标准时间对比学习对静态上下文特征的依赖,学习到反映时间结构的表征,在魔方等组合推理任务上首次实现无搜索求解。
研究背景与动机¶
现有痛点¶
现有痛点:组合推理问题(如 Sokoban、魔方)通常需要昂贵的搜索算法(A*、BestFS)来求解
领域现状¶
领域现状:时间对比学习**(如 CRL)用于学习状态表征,正样本来自轨迹内邻近状态,负样本来自不同轨迹
核心矛盾¶
核心矛盾:关键失败模式**:在 Sokoban 中,不同轨迹有不同的墙壁布局(上下文),CRL 利用墙壁布局而非时间结构来区分正负样本,导致同一轨迹内所有状态被编码到极相似的表征(t-SNE 显示轨迹聚簇为小点)
解决思路¶
解决思路:结果:CRL 表征无法反映状态间的时间距离,对规划无用
方法详解¶
整体框架¶
CRTR 的核心改动极其简洁——仅修改对比学习中的负采样方式:
- 将训练批次中的轨迹 ID 重复若干次(repetition factor = 2)
- 这使得批次中有多个来自同一轨迹但不同时间步的正样本
- 标准对比学习将其他批次元素作为负样本,因此同一轨迹内的不同时间状态成为负样本对
- 模型无法再利用恒定的上下文特征(如墙壁位置)来区分,被迫学习时间结构
关键设计¶
-
轨迹内负采样消除上下文依赖:
- 功能:修改数据采样,使同一轨迹的多个时间步出现在同一批次中
- 核心思路:当负样本具有相同上下文(如相同墙壁布局)时,上下文特征对区分正负样本无用,模型被迫编码时间结构
- 设计动机:理论上,此目标是条件互信息 \(I(X;X^+|C)\) 的下界,等价于最大化 \(I(X;X^+) - I(X^+;C)\),后者类似对抗性特征学习但无需对抗训练
-
从理想化到实用化的推导:
- 功能:理想化方法需要知道上下文变量 \(C\) 并按其条件抽负样本;实用化方法只需重复轨迹 ID
- 核心思路:重复轨迹 ID 自然产生具有相同上下文的负样本对(同一集的不同时间步),且所有负样本都有锚点(避免表征漂移)
- 设计动机:实际中无法事先知道哪些特征是"上下文"(如第一次看到 Sokoban 板面,如何知道墙不可移动?)
损失函数 / 训练策略¶
- 标准 InfoNCE 损失,唯一改变是批次构建方式(
traj_id = np.repeat(traj_id[:B//R], R, axis=0)) - 编码器架构:8 层 MLP,隐藏维度 512,表征维度 64
- 对比损失使用后向版本(backward),在魔方上优于对称版本
- Adam 优化器,学习率 0.0003,batch size 512
- repetition factor = 2 在所有测试环境中均表现良好
实验关键数据¶
主实验(表格)¶
| 环境 | CRL 成功率 | Supervised 成功率 | DeepCubeA 成功率 | CRTR 成功率 |
|---|---|---|---|---|
| Sokoban | ~10% | ~30% | ~35% | ~40% |
| 魔方 | ~55% | 0% | ~60% | ~63% |
| 15-Puzzle | ~35% | ~50% | - | ~50% |
| Lights Out | ~30% | ~10% | - | ~80% |
| Digit Jumper | ~5% | ~60% | - | ~70% |
(BestFS 搜索预算 6000 节点)
消融实验¶
- Repetition factor: R=2 一致提升所有环境;过大的 R 在某些环境退化
- Spearman 相关性(表征距离 vs 真实步数距离):CRTR > 0.8 vs CRL < 0.4(Sokoban)
- 无搜索求解:CRTR 在 4/5 任务上用贪心策略几乎解决所有实例(魔方 100% 成功!)
关键发现¶
- 最惊人的结果:CRTR 在魔方上不用任何搜索即可解决所有随机打乱的配置(在 6000 步内)
- 无搜索解法虽然更长(平均 ~400 步 vs 最优 ~26 步),但展现出类似人类"块构建"的涌现行为
- CRTR 在 A* 搜索中也优于 CRL,改进不限于贪心搜索
- 平均无搜索解长度:CRTR 448.7 vs CRL 1830.3(魔方)
亮点与洞察¶
- 极简改动,巨大影响:仅修改一行代码(重复轨迹 ID)即实现从"完全失败"到"SOTA"的跨越
- 无搜索求解组合问题:首次仅用学习到的表征(无外部搜索算法)高效求解任意魔方状态
- 涌现的"块构建"策略呼应了人类解谜行为
- 条件互信息框架漂亮地解释了为何去除上下文可改善时间推理
局限与展望¶
- 无搜索解太长(魔方 ~400 步),远非最优
- Sokoban 成功率仍较低,可能由于死路(irreversible states)问题
- 假设动力学已知且确定性,限制了对随机/未知动力学问题的适用性
- 魔方的状态距离几乎总满足三角不等式取等,无法忠实嵌入欧氏空间
相关工作与启发¶
- CRL (Eysenbach et al.) 是直接基础,CRTR 修复了其在组合域的关键失败
- DeepCubeA 用值迭代学习启发式,CRTR 用对比学习达到可比甚至更好结果
- 与对抗性特征学习的联系:消除上下文≈对抗性去除不变特征,但无需对抗训练
评分¶
- 理论创新:⭐⭐⭐⭐⭐
- 实验验证:⭐⭐⭐⭐⭐
- 实用价值:⭐⭐⭐⭐
- 写作质量:⭐⭐⭐⭐⭐
- 综合评分:⭐⭐⭐⭐⭐