LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations¶
会议: ACL 2025
arXiv: 2505.10354
代码: szu-tera/LDIR
领域: 信息检索
关键词: text embedding, interpretable representation, relative representation, farthest point sampling, low-dimensional
一句话总结¶
提出 LDIR 方法,通过最远点采样选取锚文本(anchor texts),计算待编码文本与各锚文本的语义相关度,构建低维(≤500 维)、稠密且可解释的文本嵌入,性能接近黑盒模型并显著优于已有可解释嵌入方法。
研究背景与动机¶
文本嵌入是 NLP 的基础技术,当前方法面临"性能 vs 可解释性"的矛盾:
黑盒稠密嵌入(SimCSE、LLM2Vec):性能强但每个维度含义不可追溯,768-4096 维
词袋模型(BoW):可解释性高但性能差,维度约 30K
QA 嵌入(QAEmb-MBQA、CQG-MBQA):通过 LLM 回答 yes/no 问题生成 0/1 嵌入,可解释但需 ~10K 维度,且依赖 GPT-4 生成问题
核心矛盾在于:0/1 表示的表达力有限,需要极高维度才能覆盖语义空间;而稠密浮点表示虽然表达力强,但缺乏每个维度的明确语义解释。
LDIR 的关键洞察是:如果每个维度代表"与某个已知锚文本的语义相关度",那么浮点数值本身就具有了可解释的语义含义,同时因为连续值比 0/1 更具表达力,所以维度数可大幅降低。
方法详解¶
整体框架¶
LDIR 的流程为:锚文本选取 → 相关度计算 → 嵌入生成。
给定文本 \(t\),LDIR 的嵌入定义为:
其中 \(a_1, \ldots, a_n\) 为锚文本,\(\text{Rel}\) 为相关度函数。
关键设计¶
-
从 0/1 嵌入到稠密嵌入
- QA 嵌入用 yes/no 回答作为 0/1 值,LDIR 则用连续的相关度分数
- 用余弦相似度计算相关度:\(\text{Rel}(a_j, t) = \frac{\text{Enc}(a_j) \cdot \text{Enc}(t)}{\|\text{Enc}(a_j)\| \cdot \|\text{Enc}(t)\|}\)
- 编码器 Enc 可用任何预训练模型(SimCSE、ModernBERT、AngIE),不需额外微调
- 设计动机:浮点值比二值提供更丰富的信息量,因此需要的维度更少
-
最远点采样(Farthest Point Sampling)选取锚文本
- 从语料库中用编码器生成所有文本嵌入
- 用 FPS 算法迭代选取语义空间中最分散的 \(n\) 个文本作为锚点
- FPS 确保选出的锚文本彼此间距最大,覆盖语义空间的不同区域
- 无需 GPT-4 生成问题,也不需要人工过滤
- 设计动机:如果锚文本彼此相似,则嵌入各维度值趋同,丧失区分能力
-
可解释性保证
- 每个维度对应一个具体的锚文本,值表示输入与该锚文本的语义相关程度
- 用户可以通过查看高值维度对应的锚文本来理解"这段文本主要与什么相关"
- 虽然相关度不如 yes/no 回答那样直接,但提供了可追溯的语义依据
损失函数 / 训练策略¶
LDIR 不需要任何训练或微调: - 锚文本通过自动化的 FPS 从语料库选取 - 嵌入计算仅依赖现有编码器的余弦相似度 - 整个过程是确定性的、无参数学习的
实验关键数据¶
主实验(STS 语义相似度,Spearman 相关系数)¶
| 模型 | 维度 | 类型 | STS12 | STS13 | STS14 | STS15 | STS16 | STS-B | SICK-R | Avg |
|---|---|---|---|---|---|---|---|---|---|---|
| SimCSE_sup | 768 | 黑盒 | 75.30 | 84.67 | 80.19 | 85.40 | 80.82 | 84.25 | 68.38 | 79.86 |
| AngIE | 1024 | 黑盒 | 79.09 | 89.62 | 85.02 | 89.51 | 86.61 | 89.06 | 82.62 | 85.93 |
| QAEmb-MBQA | 10654 | 可解释 | 59.40 | 63.19 | 57.68 | 69.29 | 63.18 | 71.33 | 72.33 | 65.20 |
| CQG-MBQA | 9614 | 可解释 | 69.21 | 80.19 | 73.91 | 80.66 | 78.30 | 82.69 | 78.21 | 77.60 |
| LDIR (AngIE, 500) | 500 | 可解释 | 78.85 | 84.35 | 80.93 | 84.79 | 83.61 | 86.31 | 80.85 | 82.82 |
LDIR 以 500 维达到 82.82 平均分,超越所有可解释基线(CQG-MBQA 77.60),且接近黑盒 SimCSE_sup (79.86)。
消融实验(锚文本选取方法对比,AngIE 编码器,500 维)¶
| 采样方法 | STS Avg | Retrieval Avg | Clustering Avg |
|---|---|---|---|
| Uniform Sampling | ~78 | ~47 | ~28 |
| K-Means | ~80 | ~48 | ~30 |
| FPS | 82.82 | 50.31 | 31.39 |
FPS 在所有任务上一致优于均匀采样和 K-Means 聚类中心,验证了最远点采样的有效性。
关键发现¶
- 维度效率极高:仅用 500 维就超越了 9614-10654 维的 0/1 可解释嵌入
- 编码器选择很重要:基础编码器越强,LDIR 性能越好(AngIE > ModernBERT > SBERT)
- 200 维即可竞争:LDIR 200 维的性能已经接近 CQG-MBQA 9614 维
- 检索任务有差距:在信息检索任务上与黑盒模型差距较大(41-50 vs 56-58 nDCG@10),因为低维表示压缩了细粒度区分信息
- 无外部成本:不需要调用 GPT-4 或训练额外模块,仅需一次 FPS 采样
亮点与洞察¶
- 相对表示(Relative Representation)的妙用:借鉴了 Moschella et al. (2023) 的跨模型不变性发现,将其应用于文本嵌入的可解释性
- 极简流程:整个方法没有可学习参数,无需微调,仅靠采样和余弦相似度,再现性极佳
- 优雅的维度-可解释性权衡:0/1 嵌入需要万级维度,LDIR 靠连续值将其压缩到百级
- "可解释性的光谱"视角:不追求绝对可解释(如 yes/no),而是提供"相对可追溯性",是务实的设计选择
局限与展望¶
- 可解释性弱于 QA 嵌入:相关度分数不如 yes/no 回答直观,需要查看锚文本才能理解
- 检索任务性能明显弱于黑盒模型,低维表示损失了细粒度区分信息
- 锚文本选取依赖语料库分布,换领域时可能需要重新采样
- 未探索锚文本的可学习选取方式(如端到端优化锚点位置)
- 缺少在大规模工业场景(如搜索引擎、推荐系统)中的实用性验证
相关工作与启发¶
- QAEmb-MBQA 和 CQG-MBQA 开创了"用问题定义嵌入维度"的方向,LDIR 将其推广到连续值
- Moschella et al. (2023) 的相对表示在跨模型对齐中有用,LDIR 展示了其在可解释性方面的新应用
- 启发:能否将 LDIR 的思想应用于多模态嵌入(如用图像锚点定义视觉表示的可解释维度)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将相对表示引入可解释文本嵌入是新颖的思路,FPS 选锚文本简洁高效
- 实验充分度: ⭐⭐⭐⭐ — STS/Retrieval/Clustering 三大任务全面覆盖,大量基线对比
- 写作质量: ⭐⭐⭐⭐ — 对比表格清晰,方法阐述直观,与基线的区别一目了然
- 价值: ⭐⭐⭐⭐ — 对需要可解释文本表示的场景(如可信AI、模型审计)有实用价值