跳转至

Summaries as Centroids for Interpretable and Scalable Text Clustering

会议: ICLR 2026
arXiv: 2502.09667
代码: 无
领域: 信息检索
关键词: 文本聚类, k-means, 摘要即中心, 可解释性, 流式聚类, LLM可选

一句话总结

提出 k-NLPmeans 和 k-LLMmeans,通过在 k-means 迭代中周期性地用文本摘要替换数值质心(summary-as-centroid),在保持 k-means 标准目标的同时实现可解释的聚类原型,且 LLM 调用量与数据集大小无关。

研究背景与动机

  • 标准 k-means 在文本上的局限:数值平均模糊了文本语义,质心不可人类理解
  • 现有 LLM 聚类方法的问题:
  • 可扩展性差:LLM 调用次数随数据集规模增长
  • 优化不透明:依赖提示、贪心合并和相似度阈值,无明确目标函数
  • 需要一种既可解释又可扩展的聚类方法

方法详解

核心思想:摘要即中心

在标准 k-means 循环中,每隔 \(l\) 次迭代用文本摘要替换数值质心:

\[\boldsymbol{\mu}_j = \text{Embedding}(f_{\text{summarizer}}(C_j))\]

其余迭代使用标准均值更新 \(\boldsymbol{\mu}_j = \frac{1}{|C_j|}\sum_{i \in [C_j]} \mathbf{x}_i\)

k-NLPmeans(无 LLM 版本)

使用经典 NLP 摘要方法作为 \(f_{\text{NLP}}^{(q)}\)

  • Centroid-based:计算簇内句子嵌入质心,选 top-\(q\) 个最相似句子拼接
  • TextRank:构建句子相似度图,PageRank 评分后选 top-\(q\) 句子
  • LSA-style SVD:对句子嵌入做 SVD,按主成分贡献评分选句

特点:快速、确定性、无 LLM 依赖、离线可用。

k-LLMmeans(LLM 辅助版本)

\[\boldsymbol{\mu}_j = \text{Embedding}(f_{\text{LLM}}(p_j))\]

其中 \(p_j = \text{Prompt}(I, \{d_{z_i} | z_i \sim [C_j]\}_{i=1}^{m_j})\)

  • LLM 处理簇的代表性样本(k-means++ 采样)而非全部文档
  • 每次摘要步做 \(k\) 次 LLM 调用 → 调用量与数据集大小无关

Mini-batch 扩展:流式聚类

将摘要步插入 mini-batch k-means 更新规则: - 按顺序接收批次 \(D_1, \ldots, D_b\) - 每批用 k-NLPmeans/k-LLMmeans 处理后增量更新质心 - 保持 mini-batch k-means 的低内存特性

损失函数

标准 k-means 目标在摘要步之间保持不变:

\[\min_{C_1, \ldots, C_k} \sum_{j=1}^k \sum_{i \in [C_j]} \|\mathbf{x}_i - \boldsymbol{\mu}_j\|^2\]

摘要失败时优雅退化为标准 k-means。

实验关键数据

静态聚类(text-embedding-3-small)

方法 Bank77 ACC CLINC ACC GoEmo ACC MASSIVE(D) ACC MASSIVE(I) ACC
k-means ~65 ~77 ~20 ~59 ~52
k-NLPmeans LSA-mult 67.1 80.2 22.3 63.3 55.3
k-LLMmeans single 67.1 78.1 24.0
k-LLMmeans mult 更高 更高 更高 更高 更高

LLM 调用效率对比

方法 LLM 调用复杂度 数据依赖
ClusterLLM O(n) 随数据增长
LLMEdgeRefine O(n) 随数据增长
k-NLPmeans O(0) 零 LLM
k-LLMmeans O(k·摘要步数) 与 n 无关

关键发现

  1. 即使单次摘要步\(l=60\))也能显著提升 k-means 性能
  2. k-NLPmeans(零 LLM)在多数基准上接近甚至匹配 k-LLMmeans
  3. k-means++ 采样输入文档比随机采样产生更好的 LLM 摘要
  4. 跨 4 种嵌入模型、5 种 LLM、3 种经典 NLP 方法的一致性改善
  5. 在流式聚类场景中也优于标准 mini-batch k-means

亮点与洞察

  • 极简改动,效果显著:仅修改 k-means 的质心更新步骤,其余完全不变
  • LLM 可选设计:k-NLPmeans 完全不依赖 LLM 即可获得大部分收益
  • 可解释性是内禀的:每个质心就是一段人类可读的文本摘要
  • 优雅退化:摘要质量差时自动退化为标准 k-means,不会比原始更差
  • 固定 LLM 预算\(k \times\) 摘要步数的 LLM 调用量,对大规模数据无压力
  • 推出 StackExchange 流式聚类基准

局限性

  • 摘要质量受限于摘要器本身的能力
  • 对于语义高度重叠的簇,摘要可能无法有效区分
  • 需要预指定簇数 \(k\)(继承 k-means 的限制)
  • 摘要步的频率 \(l\) 需要调节,虽然实验显示对此不敏感

相关工作

  • LLM 聚类:ClusterLLM, IDAS, LLMEdgeRefine 等
  • 经典文本聚类:k-medoids, spectral clustering, BERTopic
  • 流式聚类:mini-batch k-means, 基于 LLM 的在线方法

评分

  • 新颖性: ⭐⭐⭐⭐ — 摘要即中心的概念简洁新颖
  • 技术深度: ⭐⭐⭐ — 方法直觉清晰,理论分析较少
  • 实验充分性: ⭐⭐⭐⭐⭐ — 4 数据集 × 4 嵌入 × 5 LLM × 3 NLP 方法,极其全面
  • 实用性: ⭐⭐⭐⭐⭐ — 即插即用、可解释、可扩展,实用价值高