跳转至

Conjuring Semantic Similarity

会议: ICLR2026
arXiv: 2410.16431
代码: 待确认
领域: 图像生成
关键词: semantic similarity, diffusion model, Jeffreys divergence, SDE, text-to-image

一句话总结

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

研究背景与动机

领域现状:语义相似度传统上通过文本空间测量(Word2Vec、BERT 嵌入、CLIP 等)。Liu et al. (2023) 定义了自回归 LLM 的意义空间为续写分布。

现有痛点:(a) 文本嵌入方法生成不可解释的向量距离;(b) 没有方法量化文本条件扩散模型所学语义空间的质量;(c) Bender & Koller (2020) 认为仅语言训练不足以捕获语义——需要外部接地。

核心矛盾:语义相似度应该可解释——但现有方法只给数字不给解释。人类理解语义是通过"想象"场景来比较的,但人无法系统化比较心理图像。

切入角度:让扩散模型充当"想象力"——两个文本的语义距离 = 它们诱导的图像分布的距离。

核心 idea:文本语义相似度 = 两个文本条件下反向扩散 SDE 的路径测度之间的 Jeffreys 散度,通过 Monte-Carlo 计算。

方法详解

整体框架

这篇论文要回答的问题是:两段文本到底有多"近"?它的答案不是去比文本嵌入向量,而是让一个文本条件扩散模型替我们"想象"。具体来说,给定两个文本 \(y_1, y_2\) 和一个预训练扩散模型 \(s_\theta\),从同一个高斯噪声出发,分别以 \(y_1\)\(y_2\) 为条件做反向去噪;两条去噪轨迹会逐步分叉成两幅不同的图像,而它们在每个时间步的分歧程度,正好刻画了两段文本在"视觉想象"上的距离。最后把整条轨迹上的分歧累加起来、再做 Monte-Carlo 平均,就得到一个标量的语义相似度。

关键设计

1. 用 Jeffreys 散度把"比图像分布"变成"比分数函数":让距离既严格又可算

直接比较两个文本各自诱导的图像分布(比如算 FID)需要先采样大量图像、统计量再对比,代价高且只给最终结果。本文换了个角度:两个文本条件下的反向扩散其实是两条随机微分方程(SDE),文本的语义距离可以定义为这两条 SDE 路径测度之间的散度。借助 Girsanov 定理,路径测度之间的 KL 散度可以被化简成沿轨迹对分数函数之差求积分,再把两个方向的 KL 对称化即得 Jeffreys 散度,最终落到一个干净的期望式:

\[d_{\text{ours}}(y_1, y_2) = \mathbb{E}_{t,\, x \sim \frac{1}{2}p_t(\cdot|y_1) + \frac{1}{2}p_t(\cdot|y_2)} \big\| s_\theta(x, t|y_1) - s_\theta(x, t|y_2) \big\|_2^2\]

这样做的好处是:抽象的路径测度距离被还原成"在每个去噪步上量一量两个条件分数差多大",既保留了理论上的严格性,又能在去噪过程中边走边算、不必先生成完整图像。

2. Monte-Carlo 估计:把期望式落成几行可执行的采样流程

上面的期望无法解析求解,本文用 Monte-Carlo 直接估计:从 \(\mathcal{N}(0, I)\) 采一份噪声,分别以 \(y_1\)\(y_2\) 为条件去噪,在每个时间步算两个条件分数差的 L2 范数 \(\|s_\theta(x_t, t|y_1) - s_\theta(x_t, t|y_2)\|_2^2\),沿轨迹求和;再换不同的初始噪声重复 \(k\) 次取平均,降低单次采样的方差。实验显示去噪只需 \(T=10\) 步分歧的累计就已饱和,因此整套估计在计算上是友好的。

3. 可解释性:度量的副产品是一段"概念变形"的可视化

文本嵌入方法只能吐出一个不可解释的向量距离,而这里因为距离本身是从一段真实去噪轨迹里算出来的,轨迹本身就自带解释。沿着去噪过程逐帧观察,可以看到模型如何把一个概念平滑"变形"成另一个——例如从雪豹到孟加拉虎,画面里的斑点会逐步过渡成条纹。这让相似度分数不再只是一个数字,而是配上了"为什么近、近在哪里"的视觉证据。

实验关键数据

主实验(STS Benchmark, Spearman 相关系数)

方法 STS-B STS12 STS13 STS14 Avg
BERT-CLS 16.5 20.2 30.0 20.1 29.2
BERT-mean 45.4 38.8 58.0 58.0 ~50
SimCSE-BERT 68.4 82.4 74.4 80.9 76.3
CLIP-ViTL14 65.5 67.7 68.5 58.0 67.0
Ours (SD v1.4) ~55 ~50 ~55 ~50 ~53

消融实验

配置 效果 说明
只看初始步 较差 高噪声区分辨力弱
只看最终步 中等 低噪声有信息但不完整
全轨迹(ours) 最优 累积各尺度语义信息
KL vs Jeffreys Jeffreys 更稳定 对称化改善
\(T\) 步数消融 \(T=10\) 即饱和 计算友好

关键发现

  • 零样本方法超过 BERT 编码器:仅用 Stable Diffusion 就能达到与语言模型可比的语义相似度——说明扩散模型确实学到了有意义的语义结构
  • 可解释性是独特优势:不仅给出数值分数,还可视化两个概念的"变形过程"——这是文本嵌入方法无法做到的
  • 首次量化扩散模型的语义对齐:为评估 T2I 模型开辟了新维度——不仅评图像质量,还评语义理解

亮点与洞察

  • "意义 = 唤起的图像分布":将 Wittgenstein 的"意义即使用"从文本扩展到视觉——概念转移
  • Girsanov 定理在 AI 中的优雅应用:将抽象的路径测度距离化简为简单的分数函数差——理论推导优美且实用
  • 可扩展到任何条件生成模型:方法不限于文本-图像,理论上可用于音频-文本、视频-文本等

局限与展望

  • 不如专门训练的嵌入模型:SimCSE-BERT (76.3) vs Ours (~53)——专用模型仍有大优势
  • 计算成本:每对需要多次去噪采样(~2s/步 × 10步 × k次),比嵌入距离慢几个量级
  • 依赖扩散模型质量:SD v1.4 的语义空间有限,更强的模型(如 DALL-E 3)可能效果更好

相关工作与启发

  • vs Liu et al. (2023):他们用 LLM 续写分布定义语义。本文用扩散模型图像分布——从文本空间转向视觉空间
  • vs CLIP score:CLIP 用对齐的文本-图像嵌入。本文直接在扩散过程中测距——更原生、更可解释

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "语义=唤起图像"的定义极具创意,SDE 散度的数学推导优美
  • 实验充分度: ⭐⭐⭐ 在 STS benchmark 上验证充分,但未超越专用模型,应用场景有限
  • 写作质量: ⭐⭐⭐⭐⭐ 概念清晰、推导严谨、可视化令人印象深刻
  • 价值: ⭐⭐⭐⭐ 为评估扩散模型语义空间开辟新方向,更多是概念贡献而非 SOTA