Summaries as Centroids for Interpretable and Scalable Text Clustering¶

会议: ICLR 2026
arXiv: 2502.09667
代码: 无
领域: 信息检索
关键词: 文本聚类, k-means, 摘要即中心, 可解释性, 流式聚类, LLM可选

一句话总结¶

提出 k-NLPmeans 和 k-LLMmeans，通过在 k-means 迭代中周期性地用文本摘要替换数值质心（summary-as-centroid），在保持 k-means 标准目标的同时实现可解释的聚类原型，且 LLM 调用量与数据集大小无关。

研究背景与动机¶

标准 k-means 在文本上的局限：数值平均模糊了文本语义，质心不可人类理解
现有 LLM 聚类方法的问题：
可扩展性差：LLM 调用次数随数据集规模增长
优化不透明：依赖提示、贪心合并和相似度阈值，无明确目标函数
需要一种既可解释又可扩展的聚类方法

方法详解¶

核心思想：摘要即中心¶

在标准 k-means 循环中，每隔 \(l\) 次迭代用文本摘要替换数值质心：

\[\boldsymbol{\mu}_j = \text{Embedding}(f_{\text{summarizer}}(C_j))\]

其余迭代使用标准均值更新 \(\boldsymbol{\mu}_j = \frac{1}{|C_j|}\sum_{i \in [C_j]} \mathbf{x}_i\)

k-NLPmeans（无 LLM 版本）¶

使用经典 NLP 摘要方法作为 \(f_{\text{NLP}}^{(q)}\)：

Centroid-based：计算簇内句子嵌入质心，选 top-\(q\) 个最相似句子拼接
TextRank：构建句子相似度图，PageRank 评分后选 top-\(q\) 句子
LSA-style SVD：对句子嵌入做 SVD，按主成分贡献评分选句

特点：快速、确定性、无 LLM 依赖、离线可用。

k-LLMmeans（LLM 辅助版本）¶

\[\boldsymbol{\mu}_j = \text{Embedding}(f_{\text{LLM}}(p_j))\]

其中 \(p_j = \text{Prompt}(I, \{d_{z_i} | z_i \sim [C_j]\}_{i=1}^{m_j})\)

LLM 处理簇的代表性样本（k-means++ 采样）而非全部文档
每次摘要步做 \(k\) 次 LLM 调用 → 调用量与数据集大小无关

Mini-batch 扩展：流式聚类¶

将摘要步插入 mini-batch k-means 更新规则： - 按顺序接收批次 \(D_1, \ldots, D_b\) - 每批用 k-NLPmeans/k-LLMmeans 处理后增量更新质心 - 保持 mini-batch k-means 的低内存特性

损失函数¶

标准 k-means 目标在摘要步之间保持不变：

\[\min_{C_1, \ldots, C_k} \sum_{j=1}^k \sum_{i \in [C_j]} \|\mathbf{x}_i - \boldsymbol{\mu}_j\|^2\]

摘要失败时优雅退化为标准 k-means。

实验关键数据¶

静态聚类（text-embedding-3-small）¶

方法	Bank77 ACC	CLINC ACC	GoEmo ACC	MASSIVE(D) ACC	MASSIVE(I) ACC
k-means	~65	~77	~20	~59	~52
k-NLPmeans LSA-mult	67.1	80.2	22.3	63.3	55.3
k-LLMmeans single	67.1	78.1	24.0	—	—
k-LLMmeans mult	更高	更高	更高	更高	更高

LLM 调用效率对比¶

方法	LLM 调用复杂度	数据依赖
ClusterLLM	O(n)	随数据增长
LLMEdgeRefine	O(n)	随数据增长
k-NLPmeans	O(0)	零 LLM
k-LLMmeans	O(k·摘要步数)	与 n 无关

关键发现¶

即使单次摘要步（\(l=60\)）也能显著提升 k-means 性能
k-NLPmeans（零 LLM）在多数基准上接近甚至匹配 k-LLMmeans
k-means++ 采样输入文档比随机采样产生更好的 LLM 摘要
跨 4 种嵌入模型、5 种 LLM、3 种经典 NLP 方法的一致性改善
在流式聚类场景中也优于标准 mini-batch k-means

亮点与洞察¶

极简改动，效果显著：仅修改 k-means 的质心更新步骤，其余完全不变
LLM 可选设计：k-NLPmeans 完全不依赖 LLM 即可获得大部分收益
可解释性是内禀的：每个质心就是一段人类可读的文本摘要
优雅退化：摘要质量差时自动退化为标准 k-means，不会比原始更差
固定 LLM 预算：\(k \times\) 摘要步数的 LLM 调用量，对大规模数据无压力
推出 StackExchange 流式聚类基准

局限性¶

摘要质量受限于摘要器本身的能力
对于语义高度重叠的簇，摘要可能无法有效区分
需要预指定簇数 \(k\)（继承 k-means 的限制）
摘要步的频率 \(l\) 需要调节，虽然实验显示对此不敏感

评分¶

新颖性: ⭐⭐⭐⭐ — 摘要即中心的概念简洁新颖
技术深度: ⭐⭐⭐ — 方法直觉清晰，理论分析较少
实验充分性: ⭐⭐⭐⭐⭐ — 4 数据集 × 4 嵌入 × 5 LLM × 3 NLP 方法，极其全面
实用性: ⭐⭐⭐⭐⭐ — 即插即用、可解释、可扩展，实用价值高