Conjuring Semantic Similarity¶
会议: ICLR2026
arXiv: 2410.16431
代码: 待确认
领域: 图像生成
关键词: semantic similarity, diffusion model, Jeffreys divergence, SDE, text-to-image
一句话总结¶
提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。
研究背景与动机¶
领域现状:语义相似度传统上通过文本空间测量(Word2Vec、BERT 嵌入、CLIP 等)。Liu et al. (2023) 定义了自回归 LLM 的意义空间为续写分布。
现有痛点:(a) 文本嵌入方法生成不可解释的向量距离;(b) 没有方法量化文本条件扩散模型所学语义空间的质量;(c) Bender & Koller (2020) 认为仅语言训练不足以捕获语义——需要外部接地。
核心矛盾:语义相似度应该可解释——但现有方法只给数字不给解释。人类理解语义是通过"想象"场景来比较的,但人无法系统化比较心理图像。
切入角度:让扩散模型充当"想象力"——两个文本的语义距离 = 它们诱导的图像分布的距离。
核心 idea:文本语义相似度 = 两个文本条件下反向扩散 SDE 的路径测度之间的 Jeffreys 散度,通过 Monte-Carlo 计算。
方法详解¶
整体框架¶
这篇论文要回答的问题是:两段文本到底有多"近"?它的答案不是去比文本嵌入向量,而是让一个文本条件扩散模型替我们"想象"。具体来说,给定两个文本 \(y_1, y_2\) 和一个预训练扩散模型 \(s_\theta\),从同一个高斯噪声出发,分别以 \(y_1\) 和 \(y_2\) 为条件做反向去噪;两条去噪轨迹会逐步分叉成两幅不同的图像,而它们在每个时间步的分歧程度,正好刻画了两段文本在"视觉想象"上的距离。最后把整条轨迹上的分歧累加起来、再做 Monte-Carlo 平均,就得到一个标量的语义相似度。
关键设计¶
1. 用 Jeffreys 散度把"比图像分布"变成"比分数函数":让距离既严格又可算
直接比较两个文本各自诱导的图像分布(比如算 FID)需要先采样大量图像、统计量再对比,代价高且只给最终结果。本文换了个角度:两个文本条件下的反向扩散其实是两条随机微分方程(SDE),文本的语义距离可以定义为这两条 SDE 路径测度之间的散度。借助 Girsanov 定理,路径测度之间的 KL 散度可以被化简成沿轨迹对分数函数之差求积分,再把两个方向的 KL 对称化即得 Jeffreys 散度,最终落到一个干净的期望式:
这样做的好处是:抽象的路径测度距离被还原成"在每个去噪步上量一量两个条件分数差多大",既保留了理论上的严格性,又能在去噪过程中边走边算、不必先生成完整图像。
2. Monte-Carlo 估计:把期望式落成几行可执行的采样流程
上面的期望无法解析求解,本文用 Monte-Carlo 直接估计:从 \(\mathcal{N}(0, I)\) 采一份噪声,分别以 \(y_1\)、\(y_2\) 为条件去噪,在每个时间步算两个条件分数差的 L2 范数 \(\|s_\theta(x_t, t|y_1) - s_\theta(x_t, t|y_2)\|_2^2\),沿轨迹求和;再换不同的初始噪声重复 \(k\) 次取平均,降低单次采样的方差。实验显示去噪只需 \(T=10\) 步分歧的累计就已饱和,因此整套估计在计算上是友好的。
3. 可解释性:度量的副产品是一段"概念变形"的可视化
文本嵌入方法只能吐出一个不可解释的向量距离,而这里因为距离本身是从一段真实去噪轨迹里算出来的,轨迹本身就自带解释。沿着去噪过程逐帧观察,可以看到模型如何把一个概念平滑"变形"成另一个——例如从雪豹到孟加拉虎,画面里的斑点会逐步过渡成条纹。这让相似度分数不再只是一个数字,而是配上了"为什么近、近在哪里"的视觉证据。
实验关键数据¶
主实验(STS Benchmark, Spearman 相关系数)¶
| 方法 | STS-B | STS12 | STS13 | STS14 | Avg |
|---|---|---|---|---|---|
| BERT-CLS | 16.5 | 20.2 | 30.0 | 20.1 | 29.2 |
| BERT-mean | 45.4 | 38.8 | 58.0 | 58.0 | ~50 |
| SimCSE-BERT | 68.4 | 82.4 | 74.4 | 80.9 | 76.3 |
| CLIP-ViTL14 | 65.5 | 67.7 | 68.5 | 58.0 | 67.0 |
| Ours (SD v1.4) | ~55 | ~50 | ~55 | ~50 | ~53 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 只看初始步 | 较差 | 高噪声区分辨力弱 |
| 只看最终步 | 中等 | 低噪声有信息但不完整 |
| 全轨迹(ours) | 最优 | 累积各尺度语义信息 |
| KL vs Jeffreys | Jeffreys 更稳定 | 对称化改善 |
| \(T\) 步数消融 | \(T=10\) 即饱和 | 计算友好 |
关键发现¶
- 零样本方法超过 BERT 编码器:仅用 Stable Diffusion 就能达到与语言模型可比的语义相似度——说明扩散模型确实学到了有意义的语义结构
- 可解释性是独特优势:不仅给出数值分数,还可视化两个概念的"变形过程"——这是文本嵌入方法无法做到的
- 首次量化扩散模型的语义对齐:为评估 T2I 模型开辟了新维度——不仅评图像质量,还评语义理解
亮点与洞察¶
- "意义 = 唤起的图像分布":将 Wittgenstein 的"意义即使用"从文本扩展到视觉——概念转移
- Girsanov 定理在 AI 中的优雅应用:将抽象的路径测度距离化简为简单的分数函数差——理论推导优美且实用
- 可扩展到任何条件生成模型:方法不限于文本-图像,理论上可用于音频-文本、视频-文本等
局限与展望¶
- 不如专门训练的嵌入模型:SimCSE-BERT (76.3) vs Ours (~53)——专用模型仍有大优势
- 计算成本:每对需要多次去噪采样(~2s/步 × 10步 × k次),比嵌入距离慢几个量级
- 依赖扩散模型质量:SD v1.4 的语义空间有限,更强的模型(如 DALL-E 3)可能效果更好
相关工作与启发¶
- vs Liu et al. (2023):他们用 LLM 续写分布定义语义。本文用扩散模型图像分布——从文本空间转向视觉空间
- vs CLIP score:CLIP 用对齐的文本-图像嵌入。本文直接在扩散过程中测距——更原生、更可解释
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "语义=唤起图像"的定义极具创意,SDE 散度的数学推导优美
- 实验充分度: ⭐⭐⭐ 在 STS benchmark 上验证充分,但未超越专用模型,应用场景有限
- 写作质量: ⭐⭐⭐⭐⭐ 概念清晰、推导严谨、可视化令人印象深刻
- 价值: ⭐⭐⭐⭐ 为评估扩散模型语义空间开辟新方向,更多是概念贡献而非 SOTA