跳转至

LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations

会议: ACL 2025
arXiv: 2505.10354
代码: szu-tera/LDIR
领域: 信息检索
关键词: text embedding, interpretable representation, relative representation, farthest point sampling, low-dimensional

一句话总结

提出 LDIR 方法,通过最远点采样选取锚文本(anchor texts),计算待编码文本与各锚文本的语义相关度,构建低维(≤500 维)、稠密且可解释的文本嵌入,性能接近黑盒模型并显著优于已有可解释嵌入方法。

研究背景与动机

文本嵌入是 NLP 的基础技术,当前方法面临"性能 vs 可解释性"的矛盾:

黑盒稠密嵌入(SimCSE、LLM2Vec):性能强但每个维度含义不可追溯,768-4096 维

词袋模型(BoW):可解释性高但性能差,维度约 30K

QA 嵌入(QAEmb-MBQA、CQG-MBQA):通过 LLM 回答 yes/no 问题生成 0/1 嵌入,可解释但需 ~10K 维度,且依赖 GPT-4 生成问题

核心矛盾在于:0/1 表示的表达力有限,需要极高维度才能覆盖语义空间;而稠密浮点表示虽然表达力强,但缺乏每个维度的明确语义解释。

LDIR 的关键洞察是:如果每个维度代表"与某个已知锚文本的语义相关度",那么浮点数值本身就具有了可解释的语义含义,同时因为连续值比 0/1 更具表达力,所以维度数可大幅降低。

方法详解

整体框架

LDIR 的流程为:锚文本选取 → 相关度计算 → 嵌入生成。

给定文本 \(t\),LDIR 的嵌入定义为:

\[e_{\text{dense}}^{\text{interp}}(t) = [\text{Rel}(a_1, t), \text{Rel}(a_2, t), \ldots, \text{Rel}(a_n, t)]\]

其中 \(a_1, \ldots, a_n\) 为锚文本,\(\text{Rel}\) 为相关度函数。

关键设计

  1. 从 0/1 嵌入到稠密嵌入

    • QA 嵌入用 yes/no 回答作为 0/1 值,LDIR 则用连续的相关度分数
    • 用余弦相似度计算相关度:\(\text{Rel}(a_j, t) = \frac{\text{Enc}(a_j) \cdot \text{Enc}(t)}{\|\text{Enc}(a_j)\| \cdot \|\text{Enc}(t)\|}\)
    • 编码器 Enc 可用任何预训练模型(SimCSE、ModernBERT、AngIE),不需额外微调
    • 设计动机:浮点值比二值提供更丰富的信息量,因此需要的维度更少
  2. 最远点采样(Farthest Point Sampling)选取锚文本

    • 从语料库中用编码器生成所有文本嵌入
    • 用 FPS 算法迭代选取语义空间中最分散的 \(n\) 个文本作为锚点
    • FPS 确保选出的锚文本彼此间距最大,覆盖语义空间的不同区域
    • 无需 GPT-4 生成问题,也不需要人工过滤
    • 设计动机:如果锚文本彼此相似,则嵌入各维度值趋同,丧失区分能力
  3. 可解释性保证

    • 每个维度对应一个具体的锚文本,值表示输入与该锚文本的语义相关程度
    • 用户可以通过查看高值维度对应的锚文本来理解"这段文本主要与什么相关"
    • 虽然相关度不如 yes/no 回答那样直接,但提供了可追溯的语义依据

损失函数 / 训练策略

LDIR 不需要任何训练或微调: - 锚文本通过自动化的 FPS 从语料库选取 - 嵌入计算仅依赖现有编码器的余弦相似度 - 整个过程是确定性的、无参数学习的

实验关键数据

主实验(STS 语义相似度,Spearman 相关系数)

模型 维度 类型 STS12 STS13 STS14 STS15 STS16 STS-B SICK-R Avg
SimCSE_sup 768 黑盒 75.30 84.67 80.19 85.40 80.82 84.25 68.38 79.86
AngIE 1024 黑盒 79.09 89.62 85.02 89.51 86.61 89.06 82.62 85.93
QAEmb-MBQA 10654 可解释 59.40 63.19 57.68 69.29 63.18 71.33 72.33 65.20
CQG-MBQA 9614 可解释 69.21 80.19 73.91 80.66 78.30 82.69 78.21 77.60
LDIR (AngIE, 500) 500 可解释 78.85 84.35 80.93 84.79 83.61 86.31 80.85 82.82

LDIR 以 500 维达到 82.82 平均分,超越所有可解释基线(CQG-MBQA 77.60),且接近黑盒 SimCSE_sup (79.86)。

消融实验(锚文本选取方法对比,AngIE 编码器,500 维)

采样方法 STS Avg Retrieval Avg Clustering Avg
Uniform Sampling ~78 ~47 ~28
K-Means ~80 ~48 ~30
FPS 82.82 50.31 31.39

FPS 在所有任务上一致优于均匀采样和 K-Means 聚类中心,验证了最远点采样的有效性。

关键发现

  1. 维度效率极高:仅用 500 维就超越了 9614-10654 维的 0/1 可解释嵌入
  2. 编码器选择很重要:基础编码器越强,LDIR 性能越好(AngIE > ModernBERT > SBERT)
  3. 200 维即可竞争:LDIR 200 维的性能已经接近 CQG-MBQA 9614 维
  4. 检索任务有差距:在信息检索任务上与黑盒模型差距较大(41-50 vs 56-58 nDCG@10),因为低维表示压缩了细粒度区分信息
  5. 无外部成本:不需要调用 GPT-4 或训练额外模块,仅需一次 FPS 采样

亮点与洞察

  • 相对表示(Relative Representation)的妙用:借鉴了 Moschella et al. (2023) 的跨模型不变性发现,将其应用于文本嵌入的可解释性
  • 极简流程:整个方法没有可学习参数,无需微调,仅靠采样和余弦相似度,再现性极佳
  • 优雅的维度-可解释性权衡:0/1 嵌入需要万级维度,LDIR 靠连续值将其压缩到百级
  • "可解释性的光谱"视角:不追求绝对可解释(如 yes/no),而是提供"相对可追溯性",是务实的设计选择

局限与展望

  1. 可解释性弱于 QA 嵌入:相关度分数不如 yes/no 回答直观,需要查看锚文本才能理解
  2. 检索任务性能明显弱于黑盒模型,低维表示损失了细粒度区分信息
  3. 锚文本选取依赖语料库分布,换领域时可能需要重新采样
  4. 未探索锚文本的可学习选取方式(如端到端优化锚点位置)
  5. 缺少在大规模工业场景(如搜索引擎、推荐系统)中的实用性验证

相关工作与启发

  • QAEmb-MBQA 和 CQG-MBQA 开创了"用问题定义嵌入维度"的方向,LDIR 将其推广到连续值
  • Moschella et al. (2023) 的相对表示在跨模型对齐中有用,LDIR 展示了其在可解释性方面的新应用
  • 启发:能否将 LDIR 的思想应用于多模态嵌入(如用图像锚点定义视觉表示的可解释维度)

评分

  • 新颖性: ⭐⭐⭐⭐ — 将相对表示引入可解释文本嵌入是新颖的思路,FPS 选锚文本简洁高效
  • 实验充分度: ⭐⭐⭐⭐ — STS/Retrieval/Clustering 三大任务全面覆盖,大量基线对比
  • 写作质量: ⭐⭐⭐⭐ — 对比表格清晰,方法阐述直观,与基线的区别一目了然
  • 价值: ⭐⭐⭐⭐ — 对需要可解释文本表示的场景(如可信AI、模型审计)有实用价值