Teaching Metric Distance to Discrete Autoregressive Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=s0zLtkY7iu
代码: 未见公开代码
领域: LLM / NLP
关键词: 距离感知监督、离散自回归模型、软目标分布、度量空间、DIST2Loss

一句话总结¶

这篇论文提出 DIST2Loss，把数值、坐标、角度、VQ code 等 token 之间的度量距离转成距离加权的软目标分布，让离散自回归语言模型在保持 next-token 训练形式的同时学到“错得近比错得远好”的结构先验，并在视觉定位、机器人操作、奖励建模和图像生成中提升数据效率与下游表现。

研究背景与动机¶

领域现状：大语言模型的基础训练范式通常是离散 token 上的自回归预测。给定前文 token，模型输出词表上的 categorical distribution，再用交叉熵把概率压到真实 token 上。这个范式最初服务于自然语言，但现在已经被迁移到视觉、机器人、奖励建模、图像生成等任务：框坐标可以被写成数字 token，机械臂动作可以被写成位置和角度 token，图像也可以先经 VQ tokenizer 变成离散 code 序列。

现有痛点：一旦输出 token 带有数值或几何含义，普通 one-hot 监督就显得太粗糙。比如真实横坐标是 500，模型预测 499 和预测 102 在交叉熵里同样都是“非真实 token”；真实评分是 17，预测 16 和预测 3 也被同样视为错误。训练信号只告诉模型哪个 token 是对的，却不告诉它哪些 token 更接近、更可接受，因此浪费了任务本身已经给出的度量结构。

核心矛盾：离散自回归模型的输出接口是 categorical distribution，但很多下游任务的标签空间其实是带距离的 metric space。直接改模型结构会破坏 LLM/VLM 的通用训练栈；直接用 RL 或序列级 reward 又需要采样、rollout 和高方差估计。作者想解决的矛盾是：能否不改模型、不引入额外标注、不做复杂 RL，只在 loss 层把 token 间距离变成可学习的监督信号。

本文目标：论文把问题拆成三层。第一，给有度量意义的 token 子集定义距离函数，例如数字之间的平方距离、坐标之间的欧氏距离、VQ embedding 之间的 MSE 或 cosine distance。第二，把距离变成一个可归一化的软目标分布，让接近真值的 token 得到更高概率。第三，用一个仍兼容自回归语言模型训练的 KL loss，把模型输出拉向这个距离感知分布。

切入角度：作者的关键观察是，很多“离散输出”并不是真的无结构类别，而是连续空间或有序空间被 tokenizer 离散化后的结果。既然真实标签附近的 token 更合理，就可以把目标从 one-hot 改成以真值为中心、按距离指数衰减的分布。这相当于把回归问题的局部几何先验塞回 categorical training 中。

核心 idea：用预定义 token 距离构造 reward-weighted soft target，以 KL divergence 训练离散自回归模型，从而用一个 plug-and-play loss 替代 one-hot 监督在有度量输出上的信息浪费。

方法详解¶

整体框架¶

DIST2Loss 的输入仍然是普通的自回归训练样本：上下文 token、目标 token，以及模型在每个位置输出的 logits。不同之处在于，作者先识别出序列中哪些位置属于有度量意义的 token 子集 \(V_d\)，然后用任务定义的距离函数 \(d\) 为每个目标 token 生成一个软目标分布 \(p_d\)，最后用 KL divergence 让模型概率分布靠近这个距离感知目标，同时保留原始交叉熵以维持精确 token 匹配。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["离散自回归样本<br/>含数值/坐标/token code"] --> B["距离感知软目标构造"]
    B --> C["KL对齐与CE联合训练"]
    C --> D["熵正则策略优化解释"]
    D --> E["高维token距离扩展"]
    E --> F["更接近真值的<br/>metric-aware预测"]

这张图里的核心贡献节点和下面四个关键设计一一对应。前两个设计是实际训练流程：先从 metric 得到软目标，再和模型输出做 KL 对齐；后两个设计解释了这个 loss 为什么像一个无采样版本的 RL，并说明它怎样扩展到 VQ codebook 这类高维离散词表。

关键设计¶

1. 距离感知软目标构造：把“错得近”显式写进目标分布

标准交叉熵把真实 token 之外的所有候选都归为零概率，这对自然语言词表也许合理，但对坐标、分数、角度和量化 embedding 并不合理。DIST2Loss 先选出有度量意义的词表子集 \(V_d\)，再对每个目标位置 \(t\) 比较候选 token \(v\) 与真实组件 \(x_t\) 的距离。距离越小，候选 token 在目标分布中得到的概率越高；距离越大，概率指数衰减。

核心公式是：

\[ p_d(v \mid x,t)=\frac{\exp(-d(v,x,t)/\tau)}{\sum_{v'\in V_d}\exp(-d(v',x,t)/\tau)}. \]

这里 \(\tau\) 控制分布平滑程度。小 \(\tau\) 会让概率集中在真值附近，接近 one-hot；大 \(\tau\) 会让更多邻近 token 分到概率。对数字 token，论文默认用平方欧氏距离并设置 \(\tau=1\)，它等价于一个离散化的单位方差 Gaussian。这样模型不仅知道“5 是真值”，还会知道“4 和 6 比 1 和 9 更像合理答案”。

2. KL对齐与CE联合训练：不改模型结构，只改监督信号

DIST2Loss 没有要求模型输出连续值，也没有改变 Transformer 或 tokenizer。模型仍然在整个词表上输出 \(p_\theta(v\mid s_{<t})\)，只是在有度量意义的位置额外把输出分布拉向 \(p_d\)。作者用 KL divergence 定义距离 loss：

\[ L_{dist}=\sum_{t=1}^{n}\sum_{v\in V_d}p_d(v\mid x,t)\log\frac{p_d(v\mid x,t)}{p_\theta(v\mid s_{<t})}. \]

最终训练目标是 \(L=L_{CE}+\alpha L_{dist}\)，实验里固定 \(\alpha=0.1\)。这个组合很重要：\(L_{CE}\) 继续保证模型把最高概率放在真实 token 上，\(L_{dist}\) 则给所有邻近 token 一个有序的学习信号。相比只在 \(V_d\) 上再做一次 one-hot CE 的 vocab baseline，DIST2Loss 的信息量更高，因为它不是简单提醒模型“这些是数字 token”，而是告诉模型数字之间、坐标之间、codebook embedding 之间的相对远近。

3. 熵正则策略优化解释：用闭式软策略替代高方差RL

作者把候选 token 看成 action，把距离的负值看成 reward：越接近真值，reward 越高。熵正则 policy optimization 的目标是最大化期望奖励加熵项，形式上是 \(\mathbb{E}_{a\sim\pi}[R(a)]+\tau H(\pi)\)。这个问题有闭式最优解 \(\pi^*(a)\propto\exp(R(a)/\tau)\)。如果令 \(R(a)=-d(a,x,t)\)，得到的正是 DIST2Loss 里的距离加权目标分布。

这个解释让 DIST2Loss 的位置很清楚：它保留了 reward alignment 的核心机制，却不用在线采样、rollout 或 policy gradient。只要每个 token 的 reward 能由已知 metric 独立算出，训练就可以退化成稳定的 supervised learning。它也说明了方法边界：如果输出 token 没有可解释距离，或者奖励必须依赖整段序列的全局组合，DIST2Loss 就不再天然适用。

4. 高维token距离扩展：让VQ codebook也能带几何监督

距离感知目标不只适用于一维数字。对图像生成中的 VQ token，词表里的每个 code 对应一个高维 embedding，两个 token 的相似性可以由 embedding 空间距离衡量。论文用 VQ 模型的 token embedding 计算 MSE 距离，也讨论了 cosine distance 的一般形式 \(d(v(x),v(y))=1-\frac{v(x)\cdot v(y)}{\|v(x)\|\|v(y)\|}\)。

这一点把 DIST2Loss 从“数字标签 smoothing”扩展成了更通用的离散表示学习目标。图像实验先通过替换中心 VQ token 观察到：近邻 token 往往保持语义，随机或远距离 token 会造成失真或语义漂移。因此，在训练自回归图像生成器时，把概率分给 codebook 中的语义近邻，能比 one-hot 更好地传达“这个位置需要的视觉语义是什么”。

一个完整示例¶

假设一个多模态模型要输出 referring expression 对应的边界框，答案被写成四个整数坐标 token，例如目标框是 \((120, 340, 500, 780)\)。在普通 SFT 中，第一个坐标位置的 token 只有 120 是正类，119、121、400 都是负类。模型预测 121 和预测 400 得到的监督惩罚没有体现几何差别。

使用 DIST2Loss 时，第一个坐标位置会以 120 为中心构造分布。若距离函数取平方误差，119 和 121 的 \(d\) 很小，会分到较高软概率；100 概率更低；400 几乎没有概率。训练时模型仍然通过 teacher forcing 看见真实序列，但它的输出分布会被鼓励成“围绕真实坐标的局部峰”，而不是在所有非真值 token 上一刀切。

这个例子也解释了论文在 hard-case IoU 分析里的现象：即使模型没有达到 IoU≥0.5 的正确判定，DIST2Loss 训练出的框也可能更接近真实框。它不只是提高分类式 accuracy，而是在错误样本里也改善了几何对齐。

损失函数 / 训练策略¶

训练时，DIST2Loss 只作用在有 metric 的输出 token 上；普通文本 token 仍主要由标准 CE 监督。论文强调，多个结构化元素出现在同一序列时，可以分别计算它们的距离 loss 再求和。对多 token 结构，作者采用逐位置分解而不是枚举所有候选序列，因为联合枚举会随长度指数增长。

默认超参比较克制。loss 权重 \(\alpha\) 在主要实验中固定为 \(0.1\)，没有为每个任务精调；数字 token 的温度 \(\tau=1\)，VQ codebook 的 \(\tau\) 通过熵匹配得到，论文报告 \(K=16{,}384\) 的 codebook 对应 \(\tau\approx9.7\)。这种设置让方法更像一个可插拔训练目标，而不是依赖大量调参的任务专用技巧。

作者也讨论了多 token 距离的 credit assignment 问题。如果一个真实结构需要多个 token 共同表达，整体距离很难准确归因到某个位置。论文没有在主实验中强行做序列级 DIST2Loss，而是聚焦在 token 级 reward 能自然分解的场景，如整数、坐标、角度和连续 token embedding。附录中给出 contrastive target augmentation 和 place value weighting 作为折中方案。

实验关键数据¶

主实验¶

论文用五类任务验证同一个训练思想：toy 线性回归、视觉 grounding、机器人操作、生成式奖励建模和 VQ 图像生成。最能体现通用性的结果是，它不只在一个视觉任务上有效，也能在 LLM alignment 的 reward modeling 和图像 token 生成中带来收益。

任务	Backbone / 设置	主要指标	SFT 基线	DIST2Loss	结论
Visual grounding	Phi3V 在 RefCOCO 系列上微调	RefCOCO test-A accuracy	93.5	94.5	框坐标 token 加入距离监督后，定位更准
Visual grounding	Phi3V 在 RefCOCO+ test-B	accuracy	78.7	81.4	更困难 split 上提升 2.7 个点
Robotic manipulation	LLaRA / VIMABench L2，1K 数据	accuracy	46.2	51.5	低数据动作学习提升明显
Reward modeling	Llama-3.1-8B / RewardBench	average accuracy	75.3	85.3	生成式评分 token 的距离结构很有用
Image generation	LlamaGen-111M / ImageNet 50 epoch	FID ↓ / IS ↑	10.03 / 116.37	9.41 / 127.44	VQ token 近邻监督改善早期训练
Image generation	LlamaGen-343M / ImageNet 300 epoch	FID ↓ / IS ↑	3.08 / 256.07	3.04 / 258.19	大模型长训后仍有小幅收益

视觉 grounding 的完整表中，DIST2Loss 在 RefCOCO、RefCOCO+、RefCOCOg 多个 split 上都优于 Phi3V-sft；vocab baseline 则有升有降，说明“只强调数字词表”不等于“学到几何距离”。机器人实验也呈现类似趋势，尤其在 1K 数据规模下，L2 从 46.2 提到 51.5，说明 metric prior 在低数据下更有价值。

奖励建模是这篇论文比较有意思的跨域验证。模型被训练成用自然语言模板生成 0 到 20 的总体分数，以及 0 到 4 的五个细项分数。这里的 score token 天然有序，DIST2Loss 可以让 18 比 8 更接近 20。结果显示，Llama-dist 在 RewardBench 平均准确率达到 85.3，比 Llama-sft 高 10.0 个点，并且在 Chat Hard、Safety、Reasoning 上都有明显提升。

消融实验¶

配置	MAE ↓	RMSE ↓	说明
Llama-dist	0.092	0.124	完整 DIST2Loss，在 10 个训练问题的 meta linear regression 上最好
- Place value weighting	0.098	0.137	去掉位值权重后，多位数字的误差归因变弱
- Contrastive loss	0.099	0.139	去掉多 token 近邻负样本后，结构学习变差
- Distance-aware target	0.099	0.142	换成普通 label smoothing 后退化明显
Llama-sft	0.113	0.154	只用 one-hot CE，低数据泛化最弱

检查项	设置	结果	解读
Loss weight \(\alpha\)	reward modeling sweep	\(\alpha=0.1\) 得到 85.3 accuracy	过小会接近 SFT，过大也会损害精确匹配
随机距离	用 random metric 替代 Euclidean	76.0 vs SFT 75.3	没有语义的距离几乎不给收益
灾难性遗忘	Reward model 测 MMLU	DIST2Loss 43.9，SFT 42.8	距离 loss 没明显破坏通用能力
视觉泛化	RefCOCO 微调后测 RealWorldQA	54.3 vs backbone 54.4	grounding 微调后视觉理解基本保持
Hard-case IoU	RefCOCO testA 错例	DIST2Loss 40.3，SFT 31.0	即使预测错，框也更接近真值

关键发现¶

DIST2Loss 的收益主要来自“距离语义”，不是来自额外约束词表。vocab baseline 在多个任务中不稳定，而 random metric 也无法带来有效提升，这两个对照一起证明：真正起作用的是有意义的 token 间距离。
低数据场景收益更明显。toy regression 和 VIMABench 1K 设置都显示，metric prior 可以在样本少时提供额外归纳偏置；数据变多后，SFT 可以从大量样本中慢慢补上部分结构，差距会缩小但不完全消失。
方法对不同输出空间都可迁移。坐标、动作角度、评分数字、VQ embedding 形式上差异很大，但只要能定义 token-level distance，就可以套用同一个 \(p_d\) 构造和 KL 训练。
限制也很清楚：DIST2Loss 不适合无度量词表，或需要序列级整体 reward 才能评估的任务。它不是通用 RL 替代品，而是 metric reward 已知时的闭式监督化方案。

亮点与洞察¶

最巧妙的地方是把“回归式距离”转成 categorical soft target，而不是把 LLM 输出头改成连续回归头。这样做保留了现有自回归模型、tokenizer、teacher forcing、Trainer 基础设施，工程侵入性很低。
论文给 one-hot CE 的问题找到了一个很具体的切口：不是所有 token 类别都应被当成互斥无序标签。对于坐标和数字，one-hot 丢掉的不是小细节，而是任务本身最重要的几何信息。
RL 解释很有启发。DIST2Loss 可以看作在已知 token reward 时直接写出 entropy-regularized optimal policy，再用 supervised KL 去蒸馏这个 policy。这让“为什么不用 PPO/DPO 类方法”有了清晰答案：当 reward 可闭式计算时，采样估计反而是不必要的。
高维 VQ token 的实验扩展了方法想象空间。很多 multimodal generation 都依赖离散 latent code，如果 codebook 的 embedding 空间有语义几何，那么生成模型训练时就不该把所有错误 code 一视同仁。
对 LLM 评分/奖励建模也很自然。生成式 reward model 输出的是分数 token，分数天然有序；DIST2Loss 让模型知道 19 和 20 的差距比 1 和 20 小得多，这比把评分当普通文本 token 更合理。

局限与展望¶

方法依赖预定义 metric 的语义正确性。随机距离实验已经说明，错误 metric 不会带来收益，甚至可能误导模型。对于自然语言词表、抽象概念标签或主观偏好类别，距离怎么定义并不显然。
当前主实验基本避开了真正复杂的序列级 credit assignment。边界框、评分、动作 token 可以逐位置处理，但如果一个结构的质量取决于多个 token 的组合关系，简单 per-token factorization 会丢掉全局约束。
论文使用固定 \(\alpha=0.1\) 展示了鲁棒性，但不同任务中 CE 与 distance loss 的最佳平衡仍可能不同。尤其在高精度坐标预测和语义 code 生成之间，过平滑与过尖锐的风险并不一样。
实验覆盖面广但每个方向的深挖有限。例如图像生成只在 LlamaGen/VQ 设置中验证，机器人只到 VIMABench 的 L1/L2，后续可以看更复杂操作、时间序列预测、医学数值预测或检索 embedding 生成。
一个有价值的后续方向是学习 metric 本身。当前 DIST2Loss 假设距离由任务或 tokenizer 给定；如果能从数据中校准距离，或者结合人类偏好学习非欧式距离，它可能扩展到更多弱结构输出。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把距离感知软目标系统化地接入离散自回归 LLM/VLM 训练，想法不复杂但切中 one-hot 监督的真实盲点。
实验充分度: ⭐⭐⭐⭐☆ 任务覆盖非常广，含视觉、机器人、奖励建模和图像生成；不足是每个方向主要是代表性验证，统计重复和更大规模实验仍有限。
写作质量: ⭐⭐⭐⭐☆ 主线清楚，公式和 RL 解释能帮助理解；实验章节跨度大，部分实现细节需要读附录才能完全复现。
价值: ⭐⭐⭐⭐⭐ 这是一个低侵入、易迁移的训练目标，对任何把连续/有序对象 token 化后交给 LLM 生成的任务都有直接参考价值。