Self-Consistency for LLM-Based Motion Trajectory Generation and Verification¶

会议: CVPR2026
arXiv: 2603.29301
代码: majiaju.io/trajectory-self-consistency
领域: 多模态VLM
关键词: 自一致性, 运动轨迹, 几何变换群, 形状族, 无监督验证

一句话总结¶

将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族，通过在变换不变距离度量下聚类 LLM 采样的多条轨迹，实现无监督的轨迹生成改进（+4-6%）和验证（精度+11.8%），无需训练。

研究背景与动机¶

自一致性（self-consistency）是 LLM 推理领域的有效技术：多次采样 → 找最一致答案。在数学推理等文本域中，一致性检查很简单（直接比较数值是否相同）。但 LLM 也被广泛用于生成视觉输出（SVG、3D 场景、动画等），如何将自一致性扩展到视觉域？

核心挑战：视觉域中两个输出几乎不可能像素级匹配。更深层的原因是提示的欠规约性——"move the circle in a logarithmic spiral path"描述的不是单一轨迹，而是一个形状族（包含不同位置、大小、朝向的所有对数螺旋线）。因此需要定义何时两条轨迹应被视为"一致的"。

核心 idea：将形状族建模为原型轨迹+几何变换群（刚体、相似、仿射等），两条轨迹在变换群允许的变换下可相互转化则视为一致。利用变换群的层次结构自动恢复形状族。

方法详解¶

整体框架¶

这篇要解决的是"怎么把 LLM 的自一致性从文本搬到视觉域"。文本里判断两个答案是否一致很简单（数值相等即可），可视觉输出几乎不可能像素级匹配，而且像"沿对数螺旋移动圆"这种 prompt 本身就欠规约——它描述的不是一条轨迹，而是一整个形状族（不同位置、大小、朝向的所有对数螺旋）。整体流程是：给定 prompt，先用 LLM 采样 \(N\) 条多样轨迹，再在一套 Lie 变换群的层次结构里、用变换不变的距离度量对它们聚类，接着用决策准则挑出最合适的变换群，最后取最大簇的质心作为自一致生成结果，或检查一条新轨迹是否落在这个形状族里来做验证。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["prompt（欠规约，对应一整个形状族）"] --> B["多样性采样<br/>LLM 分批生成、显式覆盖分布尾部，凑满 N=19 条轨迹"]
    B --> C["形状族 / Lie 变换群层次<br/>每个候选群 W 配变换不变距离 d_W，DBSCAN 聚类"]
    C --> D["无监督决策准则选 W<br/>Majority-Consensus / Hierarchical-Consistency"]
    D --> E["取最大簇质心为原型 o<br/>恢复形状族 F(o, W)"]
    E -->|生成| F["返回最大簇代表轨迹<br/>作为自一致生成结果"]
    E -->|验证| G["验证：查询轨迹 t 到原型 o<br/>的 d_W 距离 < τ 即判定匹配"]

关键设计¶

1. 多样性采样策略：逼 LLM 覆盖分布的尾部

整条流水线的第一步是攒出一池候选轨迹，而聚类要有意义，候选必须足够分散。如果只是独立重复采样，LLM 容易反复给出几条高概率的"安全"轨迹，覆盖不到形状族的边角。这里改成一次让 LLM 生成 \(k\) 条并要求覆盖分布"尾部"，分批采样直到凑满 \(N\) 条，保证后续聚类时有足够多样的候选去支撑起一个真正的最大簇。

2. 形状族与 Lie 变换群层次：用"等价类"重新定义什么叫一致

视觉域里"一致"不能再靠身份匹配，这是把自一致性搬到几何域的核心机关。论文把形状族定义为原型轨迹加变换群 \(\mathcal{F}(o, W) = \{w(o) | w \in W\}\)，并把变换群排成一条层次链：刚体 SE(2) ⊂ 刚体+反射 E(2) ⊂ 相似 Sim⁺(2) ⊂ 相似+反射 Sim(2) ⊂ 仿射 Aff(2)，外加各向异性相似等。每个群配一个变换不变的距离度量 \(d_W(t_1, t_2) = \min_{w \in W} \frac{1}{n}\sum_i \|w(t_{1,i}) - t_{2,i}\|^2\)，用广义 ICP 求解——两条轨迹只要能在某个群允许的变换下相互转化，距离就为零、即算一致。有了这个度量，就对 \(N\) 条采样轨迹两两算距离、送进 DBSCAN 聚类，最大的那个簇就是该群下最自一致的一组。

3. 两种无监督决策准则：在严格与宽松的群之间做取舍

层次里到底该用哪个群，直接决定召回与精度的平衡，而且没有标签可用。论文给了两条互补的准则：Majority-Consensus 从最严格的群往上爬，选第一个能让最大簇超过 50% 的群，偏保守，精度高但召回低；Hierarchical-Consistency 从最宽松的群往下走，选最严格的、但又不会让最大簇丢成员的群，更平衡精度和召回。实验也显示二者犯错的方向相反——前者选错时 95.6% 是选了过严的群，后者选错时 80.6% 是选了过松的群。

4. 验证：把"是否匹配 prompt"变成良定义的几何判定

恢复出形状族 \(\mathcal{F}(o, W)\) 之后，验证一条查询轨迹 \(t\) 是否匹配 prompt，就退化成算它到原型 \(o\) 在度量 \(d_W\) 下的距离、看是否 \(< \tau\)。正因为形状族一旦确定、成员检查就是个干净的几何问题，自一致性方法在验证任务上的优势反而比生成更明显。

损失函数 / 训练策略¶

完全无监督、训练免，仅需 LLM API 访问
超参：\(N=19\) 条采样，\(n=100\) 点重采样，\(\tau\) 为聚类阈值（对其不敏感，32× 范围内 F1 仅变化 7.2%）
单次距离计算平均 67ms（CPU）

实验关键数据¶

轨迹生成准确率¶

方法	决策准则	GPT-4.1	GPT-5
LLM-Direct	-	62.1%	79.1%
Ours	Majority-Consensus	68.0%	83.3%
Ours	Hierarchical-Consistency	66.7%	82.6%
Ours	Oracle（已知正确 W）	68.5%	83.5%

轨迹验证¶

方法	Precision	Recall	F1
GPT-4.1 (VLM)	62.0	96.9	75.6
GPT-5 (VLM)	74.0	84.7	79.0
Ours (Majority-Consensus)	85.8	66.1	74.6
Ours (Hierarchical-Consistency)	80.5	89.0	84.6
Ours (Oracle)	87.9	83.3	85.6

消融实验¶

配置	关键指标	说明
\(N=10\) 条采样	F1 接近饱和	10 条即可提供充分信号
\(\tau\) 扫描 0.25-8.0	F1 仅变化 7.2%	对阈值不敏感
多原型改进	F1: 71.0→88.9	允许返回多个大簇处理歧义 prompt

关键发现¶

无监督 Majority-Consensus 接近 Oracle 上界（68.0 vs 68.5, GPT-4.1）
GPT-4.1 作为 VLM 验证器严重偏向"True"（预测正例率 90%，真实基础率 50%），精度仅 62%
自一致性验证精度比 VLM 基线高 11.8%（85.8 vs 74.0）
Majority-Consensus 选错时 95.6% 选了过度严格的群；Hierarchical-Consistency 选错时 80.6% 选了过度宽松的群——二者互补
\(N \geq 10\) 后性能稳定，无需大量采样

亮点与洞察¶

将自一致性从离散域推广到连续几何域：用变换群定义"一致性"替代简单的身份匹配，是概念层面的重要推广
Lie 群层次结构的巧妙利用：不同形状族需要不同变换群，层次结构提供了无监督自动选择的框架
验证 > 生成的独特发现：自一致性方法在验证任务上的优势比生成更大，因为形状族恢复后的成员检查本质上是一个良定义的几何问题
为 LLM 视觉生成的自动评估/验证提供了不依赖 VLM 的替代路径

局限与展望¶

仅处理可用单一原型+变换群描述的形状族，对歧义描述（如"curved path"）不适用
多原型情况（如七角星 {7/2} 和 {7/3}）需要特殊处理
基于 ICP 的距离计算对噪声和离散化误差有一定敏感性
仅验证轨迹的几何形状，不涵盖动画的其他属性（速度、时序等）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将自一致性从文本推广到视觉域的概念创新极高，Lie 群层次和决策准则设计优雅
实验充分度: ⭐⭐⭐⭐ 224 条 prompt + 2240 条验证轨迹的合成基准，两种 LLM、多种决策准则对比完整，但限于合成数据
写作质量: ⭐⭐⭐⭐⭐ 数学定义精确，直觉解释清晰，图示优秀
价值: ⭐⭐⭐⭐ 为 LLM 视觉生成的自动验证开辟了新范式，但应用场景（运动图形轨迹）偏窄