Self-Consistency for LLM-Based Motion Trajectory Generation and Verification¶
会议: CVPR2026
arXiv: 2603.29301
代码: majiaju.io/trajectory-self-consistency
领域: 多模态VLM
关键词: 自一致性, 运动轨迹, 几何变换群, 形状族, 无监督验证
一句话总结¶
将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族,通过在变换不变距离度量下聚类 LLM 采样的多条轨迹,实现无监督的轨迹生成改进(+4-6%)和验证(精度+11.8%),无需训练。
研究背景与动机¶
自一致性(self-consistency)是 LLM 推理领域的有效技术:多次采样 → 找最一致答案。在数学推理等文本域中,一致性检查很简单(直接比较数值是否相同)。但 LLM 也被广泛用于生成视觉输出(SVG、3D 场景、动画等),如何将自一致性扩展到视觉域?
核心挑战:视觉域中两个输出几乎不可能像素级匹配。更深层的原因是提示的欠规约性——"move the circle in a logarithmic spiral path"描述的不是单一轨迹,而是一个形状族(包含不同位置、大小、朝向的所有对数螺旋线)。因此需要定义何时两条轨迹应被视为"一致的"。
核心 idea:将形状族建模为原型轨迹+几何变换群(刚体、相似、仿射等),两条轨迹在变换群允许的变换下可相互转化则视为一致。利用变换群的层次结构自动恢复形状族。
方法详解¶
整体框架¶
这篇要解决的是"怎么把 LLM 的自一致性从文本搬到视觉域"。文本里判断两个答案是否一致很简单(数值相等即可),可视觉输出几乎不可能像素级匹配,而且像"沿对数螺旋移动圆"这种 prompt 本身就欠规约——它描述的不是一条轨迹,而是一整个形状族(不同位置、大小、朝向的所有对数螺旋)。整体流程是:给定 prompt,先用 LLM 采样 \(N\) 条多样轨迹,再在一套 Lie 变换群的层次结构里、用变换不变的距离度量对它们聚类,接着用决策准则挑出最合适的变换群,最后取最大簇的质心作为自一致生成结果,或检查一条新轨迹是否落在这个形状族里来做验证。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["prompt(欠规约,对应一整个形状族)"] --> B["多样性采样<br/>LLM 分批生成、显式覆盖分布尾部,凑满 N=19 条轨迹"]
B --> C["形状族 / Lie 变换群层次<br/>每个候选群 W 配变换不变距离 d_W,DBSCAN 聚类"]
C --> D["无监督决策准则选 W<br/>Majority-Consensus / Hierarchical-Consistency"]
D --> E["取最大簇质心为原型 o<br/>恢复形状族 F(o, W)"]
E -->|生成| F["返回最大簇代表轨迹<br/>作为自一致生成结果"]
E -->|验证| G["验证:查询轨迹 t 到原型 o<br/>的 d_W 距离 < τ 即判定匹配"]
关键设计¶
1. 多样性采样策略:逼 LLM 覆盖分布的尾部
整条流水线的第一步是攒出一池候选轨迹,而聚类要有意义,候选必须足够分散。如果只是独立重复采样,LLM 容易反复给出几条高概率的"安全"轨迹,覆盖不到形状族的边角。这里改成一次让 LLM 生成 \(k\) 条并要求覆盖分布"尾部",分批采样直到凑满 \(N\) 条,保证后续聚类时有足够多样的候选去支撑起一个真正的最大簇。
2. 形状族与 Lie 变换群层次:用"等价类"重新定义什么叫一致
视觉域里"一致"不能再靠身份匹配,这是把自一致性搬到几何域的核心机关。论文把形状族定义为原型轨迹加变换群 \(\mathcal{F}(o, W) = \{w(o) | w \in W\}\),并把变换群排成一条层次链:刚体 SE(2) ⊂ 刚体+反射 E(2) ⊂ 相似 Sim⁺(2) ⊂ 相似+反射 Sim(2) ⊂ 仿射 Aff(2),外加各向异性相似等。每个群配一个变换不变的距离度量 \(d_W(t_1, t_2) = \min_{w \in W} \frac{1}{n}\sum_i \|w(t_{1,i}) - t_{2,i}\|^2\),用广义 ICP 求解——两条轨迹只要能在某个群允许的变换下相互转化,距离就为零、即算一致。有了这个度量,就对 \(N\) 条采样轨迹两两算距离、送进 DBSCAN 聚类,最大的那个簇就是该群下最自一致的一组。
3. 两种无监督决策准则:在严格与宽松的群之间做取舍
层次里到底该用哪个群,直接决定召回与精度的平衡,而且没有标签可用。论文给了两条互补的准则:Majority-Consensus 从最严格的群往上爬,选第一个能让最大簇超过 50% 的群,偏保守,精度高但召回低;Hierarchical-Consistency 从最宽松的群往下走,选最严格的、但又不会让最大簇丢成员的群,更平衡精度和召回。实验也显示二者犯错的方向相反——前者选错时 95.6% 是选了过严的群,后者选错时 80.6% 是选了过松的群。
4. 验证:把"是否匹配 prompt"变成良定义的几何判定
恢复出形状族 \(\mathcal{F}(o, W)\) 之后,验证一条查询轨迹 \(t\) 是否匹配 prompt,就退化成算它到原型 \(o\) 在度量 \(d_W\) 下的距离、看是否 \(< \tau\)。正因为形状族一旦确定、成员检查就是个干净的几何问题,自一致性方法在验证任务上的优势反而比生成更明显。
损失函数 / 训练策略¶
- 完全无监督、训练免,仅需 LLM API 访问
- 超参:\(N=19\) 条采样,\(n=100\) 点重采样,\(\tau\) 为聚类阈值(对其不敏感,32× 范围内 F1 仅变化 7.2%)
- 单次距离计算平均 67ms(CPU)
实验关键数据¶
轨迹生成准确率¶
| 方法 | 决策准则 | GPT-4.1 | GPT-5 |
|---|---|---|---|
| LLM-Direct | - | 62.1% | 79.1% |
| Ours | Majority-Consensus | 68.0% | 83.3% |
| Ours | Hierarchical-Consistency | 66.7% | 82.6% |
| Ours | Oracle(已知正确 W) | 68.5% | 83.5% |
轨迹验证¶
| 方法 | Precision | Recall | F1 |
|---|---|---|---|
| GPT-4.1 (VLM) | 62.0 | 96.9 | 75.6 |
| GPT-5 (VLM) | 74.0 | 84.7 | 79.0 |
| Ours (Majority-Consensus) | 85.8 | 66.1 | 74.6 |
| Ours (Hierarchical-Consistency) | 80.5 | 89.0 | 84.6 |
| Ours (Oracle) | 87.9 | 83.3 | 85.6 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| \(N=10\) 条采样 | F1 接近饱和 | 10 条即可提供充分信号 |
| \(\tau\) 扫描 0.25-8.0 | F1 仅变化 7.2% | 对阈值不敏感 |
| 多原型改进 | F1: 71.0→88.9 | 允许返回多个大簇处理歧义 prompt |
关键发现¶
- 无监督 Majority-Consensus 接近 Oracle 上界(68.0 vs 68.5, GPT-4.1)
- GPT-4.1 作为 VLM 验证器严重偏向"True"(预测正例率 90%,真实基础率 50%),精度仅 62%
- 自一致性验证精度比 VLM 基线高 11.8%(85.8 vs 74.0)
- Majority-Consensus 选错时 95.6% 选了过度严格的群;Hierarchical-Consistency 选错时 80.6% 选了过度宽松的群——二者互补
- \(N \geq 10\) 后性能稳定,无需大量采样
亮点与洞察¶
- 将自一致性从离散域推广到连续几何域:用变换群定义"一致性"替代简单的身份匹配,是概念层面的重要推广
- Lie 群层次结构的巧妙利用:不同形状族需要不同变换群,层次结构提供了无监督自动选择的框架
- 验证 > 生成的独特发现:自一致性方法在验证任务上的优势比生成更大,因为形状族恢复后的成员检查本质上是一个良定义的几何问题
- 为 LLM 视觉生成的自动评估/验证提供了不依赖 VLM 的替代路径
局限与展望¶
- 仅处理可用单一原型+变换群描述的形状族,对歧义描述(如"curved path")不适用
- 多原型情况(如七角星 {7/2} 和 {7/3})需要特殊处理
- 基于 ICP 的距离计算对噪声和离散化误差有一定敏感性
- 仅验证轨迹的几何形状,不涵盖动画的其他属性(速度、时序等)
相关工作与启发¶
- vs 原始 Self-Consistency:原始方法仅支持离散身份匹配(数值相等),本文将一致性推广到连续几何域的变换不变距离
- vs MoVer:MoVer 用一阶逻辑 DSL 验证动画的低级属性,但无法表达几何形状族
- 启发:这种通过定义域特定的"等价类"来扩展自一致性的思路可推广到 3D 生成、音乐等其他视觉/创意域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将自一致性从文本推广到视觉域的概念创新极高,Lie 群层次和决策准则设计优雅
- 实验充分度: ⭐⭐⭐⭐ 224 条 prompt + 2240 条验证轨迹的合成基准,两种 LLM、多种决策准则对比完整,但限于合成数据
- 写作质量: ⭐⭐⭐⭐⭐ 数学定义精确,直觉解释清晰,图示优秀
- 价值: ⭐⭐⭐⭐ 为 LLM 视觉生成的自动验证开辟了新范式,但应用场景(运动图形轨迹)偏窄