Towards Improved Sentence Representations using Token Graphs¶

会议: ICLR 2026
arXiv: 2603.03389
代码: https://github.com/ipsitmantri/GLOT
领域: NLP / 图学习
关键词: 句子表征, 图神经网络, Token图, 池化, 冻结LLM

一句话总结¶

提出 Glot，一种轻量结构感知池化模块，将冻结 LLM 的 token 级隐状态构建为潜在相似性图，通过 GNN 细化后聚合为句子表征，在 GLUE/MTEB 上与微调方法竞争力相当但仅需 20× 更少参数和 100× 更快训练。

研究背景与动机¶

领域现状：LLM 产生 token 级隐状态，但许多下游任务需要单向量句子表征。标准做法是 mean/max/[CLS] 池化——将 token 视为独立集合。

现有痛点：(a) 标准池化丢弃了自注意力层捕获的丰富关系结构；(b) 当仅少数 token 携带任务相关信号时，mean 池化被噪声淹没；(c) decoder-only LLM 的 causal attention 优化了 next-token prediction 而非句子理解。全模型微调太贵。

核心矛盾：如何在不微调 LLM 的条件下，从冻结模型的输出中获得高质量句子表征？

本文目标：将池化重新定义为"先做关系学习，再聚合"——token 不是独立集合而是图。

切入角度：LLM 的 token 隐状态天然携带相似性结构（cosine similarity），可以构建潜在图。GNN 在图上传播信息后再聚合，比 DeepSets 框架更强。

核心 idea：Glot = Token 相似性图构建 + Token-GNN 细化 + 可学习 readout。冻结 LLM backbone，仅训练轻量 GNN head。

方法详解¶

整体框架¶

Glot 想解决的问题是：怎样在不微调 LLM 的前提下，从冻结模型吐出的 token 隐状态里得到一条高质量的句子向量。它的思路是把"句子池化"从一步聚合改造成"先建关系、再聚合"的两阶段流程。冻结 LLM 先输出 token 级隐状态矩阵 \(\mathbf{X} \in \mathbb{R}^{L \times d}\)；Glot 据此用余弦相似度构建一张 token 相似性图，把自注意力里隐含的 token 关系显式恢复出来；再用一个轻量 GNN 在图上做若干轮消息传播，把每个 token 的表征细化得吸收了邻居信息；最后用可学习的注意力 readout 给 token 打分加权，汇成单条句子向量 \(\mathbf{z}\) 送往下游任务。整个 LLM backbone 全程冻结，只训练 GNN 头和任务分类器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入句子"] --> B["冻结 LLM<br/>token 隐状态 X (L×d)"]
    B --> C["Token 相似性图构建<br/>余弦相似度 + 阈值 τ 稀疏化"]
    C --> D["Token-GNN 细化<br/>K 层邻域消息传播"]
    D --> E["注意力 Readout<br/>打分 + softmax 加权汇聚"]
    E --> F["句子向量 z → 下游任务"]

关键设计¶

1. Token 相似性图构建：把"独立 token 集合"恢复成带结构的图

标准 mean/max 池化默认 token 之间互不相关，等于扔掉了自注意力辛苦学到的关系。Glot 反过来用隐状态本身的几何把这层关系显式恢复出来：对任意两个 token 计算余弦相似度 \(\mathbf{S}_{ij} = \cos(\mathbf{x}_i, \mathbf{x}_j)\)，只有当 \(\mathbf{S}_{ij} > \tau\) 时才在它们之间连一条边，\(\tau\) 是控制稀疏度的阈值超参数。这样得到的潜在图只保留语义相关的连接、剔除噪声边，既给后续 GNN 提供了有意义的消息通路，又把计算量压在稀疏图上。

2. Token-GNN 细化：让 token 之间真正交换信息，建模否定、修饰这类依赖

光有图还不够，关键是在图上做消息传播，让一个 token 的表征吸收邻居信息。Glot 堆 \(K\) 层 GNN，每层先聚合邻域 \(\mathbf{a}_i^{(\ell)} = \text{AGGREGATE}_{j \in \mathcal{N}_i}(\mathbf{h}_j^{(\ell)})\)，再把自身与邻域拼接后过线性变换和非线性 \(\mathbf{h}_i^{(\ell+1)} = \sigma(\mathbf{W}^{(\ell)} \text{CONCAT}(\mathbf{h}_i^{(\ell)}, \mathbf{a}_i^{(\ell)}))\)。这一步是和纯集合方法拉开差距的核心：像"not good"里 not 对 good 的否定语义，必须靠 token 间交互才能编码，而退化到 \(K=0\) 的 DeepSets 框架（AdaPool 也属于此类）根本无法表达这种交互。

3. 可学习注意力 Readout：自适应决定哪些 token 该被放大

细化完还要把 \(L\) 个 token 压成一条向量，固定的 mean/max 在只有少数 token 携带信号时会被淹没。Glot 改用注意力打分：先算每个 token 的分数 \(m_i = \mathbf{v}^\top \tanh(\mathbf{W}_m \mathbf{u}_i + \mathbf{b}_m)\)，softmax 归一化成权重 \(\pi = \text{softmax}(\mathbf{m})\)，再加权求和 \(\mathbf{z} = \sum_i \pi_i \mathbf{u}_i\)。这套打分让模型自适应地把权重压到任务相关 token 上，且作者从理论上证明：当退化各组件时 Glot 可以严格还原出 mean/max/CLS 乃至 AdaPool，即这些经典池化都是 Glot 的特例。

损失函数 / 训练策略¶

训练用任务特定损失——分类任务用交叉熵，语义相似度任务用 cosine 目标。LLM backbone 完全冻结，只更新 GNN 头与任务分类器，可训练参数量比 LoRA 等 PEFT 方法还少约 20×，因此训练显著更快。

实验关键数据¶

主实验（GLUE + 冻结 BERT）¶

方法	CoLA (MCC)	SST-2 (Acc)	STS-B (Spea)	MRPC (F1)	QQP (F1)
[CLS]	22.66	83.83	61.08	79.58	19.70
Mean	19.55	82.91	74.96	80.28	29.01
AdaPool	29.20	87.72	80.01	77.99	40.15
Glot	47.49	90.25	83.86	82.58	62.19

消融实验（信号稀释压力测试）¶

方法	0% 噪声	50% 噪声	90% 噪声
Mean	~92%	~70%	~52%
AdaPool	~93%	~78%	~60%
Glot	~95%	~94%	97%+

关键发现¶

CoLA 上 Glot 比 [CLS] 提升 +25 MCC（47.49 vs 22.66）——关系建模对语言理解至关重要
信号稀释压力测试：90% 随机干扰 token 时，Mean 和 AdaPool 崩溃（~50-60%），Glot 保持 97%+
Decoder-only LLM 受益最大：SmolLM2 和 TinyLlama 上 Glot 相比 Mean 提升很大
参数效率极高：比 LoRA 等 PEFT 方法少 20× 参数，训练快 100×+
理论保证：Glot 严格泛化 DeepSets，GNN 消息传播 > 纯集合函数

亮点与洞察¶

"池化即关系学习"的新范式：不把 token 当独立集合，而是构建图做基于关系的压缩
冻结 LLM + 轻量 GNN 的实用价值：避免昂贵微调，仅需少量可训练参数
压力测试的诊断价值：90% 噪声下的鲁棒性差异清晰展示了关系学习 vs 独立聚合的本质区别

局限与展望¶

图构建依赖 cosine 相似度阈值 \(\tau\)，需要调参
GNN 增加内存和计算开销（虽比微调少得多）
未探索预训练 GNN head 跨任务迁移的可能性
长文本（如文档级）的 token 图可能过大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将池化重定义为图关系学习是新颖且有理论支撑的范式转换
实验充分度: ⭐⭐⭐⭐⭐ GLUE+MTEB+IMDB+压力测试+6种backbone，非常全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，从理论到实践逻辑完整
价值: ⭐⭐⭐⭐⭐ 高效实用，对冻结 LLM 的下游应用有即时价值