LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations¶

会议: ACL 2025
arXiv: 2505.10354
代码: szu-tera/LDIR
领域: 信息检索
关键词: text embedding, interpretable representation, relative representation, farthest point sampling, low-dimensional

一句话总结¶

提出 LDIR 方法，通过最远点采样选取锚文本（anchor texts），计算待编码文本与各锚文本的语义相关度，构建低维（≤500 维）、稠密且可解释的文本嵌入，性能接近黑盒模型并显著优于已有可解释嵌入方法。

研究背景与动机¶

文本嵌入是 NLP 的基础技术，当前方法面临"性能 vs 可解释性"的矛盾：

黑盒稠密嵌入（SimCSE、LLM2Vec）：性能强但每个维度含义不可追溯，768-4096 维

词袋模型（BoW）：可解释性高但性能差，维度约 30K

QA 嵌入（QAEmb-MBQA、CQG-MBQA）：通过 LLM 回答 yes/no 问题生成 0/1 嵌入，可解释但需 ~10K 维度，且依赖 GPT-4 生成问题

核心矛盾在于：0/1 表示的表达力有限，需要极高维度才能覆盖语义空间；而稠密浮点表示虽然表达力强，但缺乏每个维度的明确语义解释。

LDIR 的关键洞察是：如果每个维度代表"与某个已知锚文本的语义相关度"，那么浮点数值本身就具有了可解释的语义含义，同时因为连续值比 0/1 更具表达力，所以维度数可大幅降低。

方法详解¶

整体框架¶

LDIR 的流程为：锚文本选取 → 相关度计算 → 嵌入生成。

给定文本 \(t\)，LDIR 的嵌入定义为：

\[e_{\text{dense}}^{\text{interp}}(t) = [\text{Rel}(a_1, t), \text{Rel}(a_2, t), \ldots, \text{Rel}(a_n, t)]\]

其中 \(a_1, \ldots, a_n\) 为锚文本，\(\text{Rel}\) 为相关度函数。

关键设计¶

从 0/1 嵌入到稠密嵌入
- QA 嵌入用 yes/no 回答作为 0/1 值，LDIR 则用连续的相关度分数
- 用余弦相似度计算相关度：\(\text{Rel}(a_j, t) = \frac{\text{Enc}(a_j) \cdot \text{Enc}(t)}{\|\text{Enc}(a_j)\| \cdot \|\text{Enc}(t)\|}\)
- 编码器 Enc 可用任何预训练模型（SimCSE、ModernBERT、AngIE），不需额外微调
- 设计动机：浮点值比二值提供更丰富的信息量，因此需要的维度更少
最远点采样（Farthest Point Sampling）选取锚文本
- 从语料库中用编码器生成所有文本嵌入
- 用 FPS 算法迭代选取语义空间中最分散的 \(n\) 个文本作为锚点
- FPS 确保选出的锚文本彼此间距最大，覆盖语义空间的不同区域
- 无需 GPT-4 生成问题，也不需要人工过滤
- 设计动机：如果锚文本彼此相似，则嵌入各维度值趋同，丧失区分能力
可解释性保证
- 每个维度对应一个具体的锚文本，值表示输入与该锚文本的语义相关程度
- 用户可以通过查看高值维度对应的锚文本来理解"这段文本主要与什么相关"
- 虽然相关度不如 yes/no 回答那样直接，但提供了可追溯的语义依据

损失函数 / 训练策略¶

LDIR 不需要任何训练或微调： - 锚文本通过自动化的 FPS 从语料库选取 - 嵌入计算仅依赖现有编码器的余弦相似度 - 整个过程是确定性的、无参数学习的

实验关键数据¶

主实验（STS 语义相似度，Spearman 相关系数）¶

模型	维度	类型	STS12	STS13	STS14	STS15	STS16	STS-B	SICK-R	Avg
SimCSE_sup	768	黑盒	75.30	84.67	80.19	85.40	80.82	84.25	68.38	79.86
AngIE	1024	黑盒	79.09	89.62	85.02	89.51	86.61	89.06	82.62	85.93
QAEmb-MBQA	10654	可解释	59.40	63.19	57.68	69.29	63.18	71.33	72.33	65.20
CQG-MBQA	9614	可解释	69.21	80.19	73.91	80.66	78.30	82.69	78.21	77.60
LDIR (AngIE, 500)	500	可解释	78.85	84.35	80.93	84.79	83.61	86.31	80.85	82.82

LDIR 以 500 维达到 82.82 平均分，超越所有可解释基线（CQG-MBQA 77.60），且接近黑盒 SimCSE_sup (79.86)。

消融实验（锚文本选取方法对比，AngIE 编码器，500 维）¶

采样方法	STS Avg	Retrieval Avg	Clustering Avg
Uniform Sampling	~78	~47	~28
K-Means	~80	~48	~30
FPS	82.82	50.31	31.39

FPS 在所有任务上一致优于均匀采样和 K-Means 聚类中心，验证了最远点采样的有效性。

关键发现¶

维度效率极高：仅用 500 维就超越了 9614-10654 维的 0/1 可解释嵌入
编码器选择很重要：基础编码器越强，LDIR 性能越好（AngIE > ModernBERT > SBERT）
200 维即可竞争：LDIR 200 维的性能已经接近 CQG-MBQA 9614 维
检索任务有差距：在信息检索任务上与黑盒模型差距较大（41-50 vs 56-58 nDCG@10），因为低维表示压缩了细粒度区分信息
无外部成本：不需要调用 GPT-4 或训练额外模块，仅需一次 FPS 采样

亮点与洞察¶

相对表示（Relative Representation）的妙用：借鉴了 Moschella et al. (2023) 的跨模型不变性发现，将其应用于文本嵌入的可解释性
极简流程：整个方法没有可学习参数，无需微调，仅靠采样和余弦相似度，再现性极佳
优雅的维度-可解释性权衡：0/1 嵌入需要万级维度，LDIR 靠连续值将其压缩到百级
"可解释性的光谱"视角：不追求绝对可解释（如 yes/no），而是提供"相对可追溯性"，是务实的设计选择

局限与展望¶

可解释性弱于 QA 嵌入：相关度分数不如 yes/no 回答直观，需要查看锚文本才能理解
检索任务性能明显弱于黑盒模型，低维表示损失了细粒度区分信息
锚文本选取依赖语料库分布，换领域时可能需要重新采样
未探索锚文本的可学习选取方式（如端到端优化锚点位置）
缺少在大规模工业场景（如搜索引擎、推荐系统）中的实用性验证

评分¶

新颖性: ⭐⭐⭐⭐ — 将相对表示引入可解释文本嵌入是新颖的思路，FPS 选锚文本简洁高效
实验充分度: ⭐⭐⭐⭐ — STS/Retrieval/Clustering 三大任务全面覆盖，大量基线对比
写作质量: ⭐⭐⭐⭐ — 对比表格清晰，方法阐述直观，与基线的区别一目了然
价值: ⭐⭐⭐⭐ — 对需要可解释文本表示的场景（如可信AI、模型审计）有实用价值