SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification¶

会议: ACL 2025
arXiv: 2506.21049
代码: 无
领域: 其他
关键词: 查询分类, 电商搜索, 半监督学习, 知识增强, 图神经网络

一句话总结¶

提出电商查询分类统一框架 SSUF，通过三个可插拔模块——标签增强（BERT 语义编码标签）、知识增强（LLM 世界知识 + 后验点击 + 半监督标签生成）、结构增强（共现/语义/层级三图融合 GCN）——解决短查询信息不足和"马太效应"恶性循环问题，在 JD.COM 意图分类和品类分类任务上 Macro F1 分别达到 49.46 和 41.22（均超 SMGCN 等 SOTA），已上线服务带来显著商业价值。

研究背景与动机¶

领域现状：电商平台（京东/淘宝/Amazon）的查询分类（意图/品类/品牌预测）是搜索系统核心。深度学习方法（XML-CNN、LSAN、DPHA）和近期的层级感知方法（HCL4QC、SMGCN、HQC）已有不少进展。

现有痛点：(1) 查询短且歧义——电商查询平均仅 6-8 个字符（如"黑 16pro"），语义信息极度不足，直接编码无法与"手机"类目关联。(2) 马太效应恶性循环——工业方法依赖用户点击行为构造训练样本，热门查询获得过多关注，偏差数据导致长尾查询泛化差。(3) 子任务孤立——意图/品类/品牌预测各自独立建模，无统一框架支持共享优化。

核心矛盾：如何在信息极度稀缺（短查询）和标签极度倾斜（马太效应）的双重约束下提升分类性能？

本文目标 构建统一框架，通过先验知识注入和结构信息传播，打破对后验点击标签的过度依赖。

切入角度：三管齐下——用 LLM 生成世界知识补充查询语义、用标签语义编码生成半监督信号、用图结构传播长尾标签梯度。

核心 idea：知识增强解决"信息不足"，半监督标签解决"马太效应"，图结构增强解决"长尾标签"。

方法详解¶

整体框架¶

SSUF 的核心是一个共享 BERT 文本编码器，叠加三个高度可插拔的增强模块。在线推理仅需查询文本 + GCN 标签嵌入，知识增强分支的重计算离线完成。

关键设计¶

标签增强模块（Label-Enhanced Module）:
- 功能：用 BERT 编码标签的语义表示，替代传统的标签 index 嵌入
- 核心思路：标签输入 = 标签名 \(n\) + 增强侧信息 \(m\)（产品词、高频搜索词、LLM 知识描述）。通过共享 BERT 编码：\(\mathbf{C}_j = \text{BERT}_{\text{CLS}}([n_1,...,n_L, m_1,...,m_{L_m}])\)
- 设计动机：传统 index 嵌入无法捕获标签间语义关系，语义编码使标签可做相似度计算，促进知识迁移
知识增强模块（Knowledge-Enhanced Module）:
- 功能：用外部知识补充短查询的语义信息，并生成半监督训练信号
- 核心思路：
  - 知识来源：(1) 后验知识——用户高频点击/购买的产品标签，(2) 世界知识——将查询和相关产品送入开源 LLM 生成简短描述（含相关查询/品类/产品）
  - 知识融合：注意力机制融合查询表示和知识嵌入: \(\alpha = \text{softmax}(\mathbf{Q}_i \mathbf{K}^T)\), \(\mathbf{q}'_i = \mathbf{Q}_i + \sum_j \alpha_j \mathbf{K}_j\)
  - 半监督标签生成：计算融合后查询与标签的余弦相似度，超过阈值 \(\tau\) 的作为半监督标签 \(y^{semi}_{ij} = s_{ij} \cdot \mathbb{1}_{s_{ij} \geq \tau}\)
  - 关键设计：对半监督分支做 stop_gradient，防止循环依赖导致模型坍塌
- 设计动机：如"黑 16pro"通过 LLM 知识可补充为"苹果手机 iPhone 16 Pro 黑色"，从而与"手机"类目匹配
结构增强模块（Structure-Enhanced Module）:
- 功能：通过标签关系图传播梯度到长尾标签
- 核心思路——三种图构建：
  - 共现图 \(\mathbf{A}^{coo}\)：标签共现条件概率 \(a_{ij} = N(c_i, c_j) / N(c_i)\)，阈值 \(\alpha\) 过滤低频边
  - 语义相似图 \(\mathbf{A}^{sim}\)：标签 BERT 嵌入的余弦相似度，阈值 \(\beta\) 过滤
  - 层级结构图 \(\mathbf{A}^{hier}\)：父子标签关系，边权 = \(\max(1/|Child(k)|, m_i / \sum_{j \in Child(k)} m_j)\)
- 图融合与学习：\(\mathbf{A} = \frac{1}{2}(\mathbf{A}^{coo} + \mathbf{A}^{sim}) \rightarrow \mathbf{A}^{hier}\)，归一化后用 GCN 学习标签表示
- 设计动机：长尾标签训练样本少但可通过图连接与热门标签关联，获得梯度传播

损失函数 / 训练策略¶

最终预测：\(\hat{\mathbf{y}}_i = \text{sigmoid}(\mathbf{q}_i \mathbf{H}_l^T + \mathbf{b})\)，仅对叶标签做预测
标签融合：\(\mathbf{y}_i = \min(\mathbf{y}_i^{click} + \mathbf{y}_i^{semi}, 1.0)\)，后验+半监督标签联合
损失函数：Binary Cross-Entropy Loss
推理优化：知识增强分支（LLM 世界知识生成 + 注意力融合）离线预计算，在线仅需查询编码 + 标签嵌入交互

实验关键数据¶

主实验（JD.COM 数据集, Micro/Macro F1）¶

模型	意图任务 Micro F1	意图任务 Macro F1	品类任务 Micro F1	品类任务 Macro F1
XML-CNN	45.58	27.24	38.34	20.16
LSAN	47.98	31.71	37.15	22.84
SMGCN	59.72	48.54	53.92	40.15
HQC	49.58	36.77	44.85	33.98
SSUF	61.81	49.46	56.45	41.22

消融实验¶

配置	意图 Macro F1	品类 Macro F1	说明
SSUF 完整	49.46	41.22	基线
w/o SE（结构增强全去）	43.30 (-6.16)	38.52 (-2.70)	图传播贡献显著
w/o KE（知识增强）	45.82 (-3.64)	39.24 (-1.98)	知识增强主要提升Macro（长尾）
w/o LE&KE	42.36 (-7.10)	36.47 (-4.75)	标签+知识联合移除影响最大
w/o SE-S（去语义图）	45.21 (-4.25)	39.72	语义图贡献最大
w/o SE-C（去共现图）	44.92 (-4.54)	39.24	共现图同样重要
w/o SE-H（去层级图）	47.29 (-2.17)	39.95	层级图贡献相对较小
纯 BERT	36.84	33.80	三模块联合提升 +12.62 Macro F1

关键发现¶

三个模块各有独立贡献，联合效果远超单独使用——纯 BERT 到 SSUF，意图 Macro F1 从 36.84 提升到 49.46（+34%）
知识增强模块对 Macro F1（长尾标签）提升大于 Micro F1（热门标签），验证了打破马太效应的设计目标
已通过 JD.COM 在线 A/B 实验验证，带来显著商业价值
三种图的贡献中，语义图和共现图各有 ~4-5 点 Macro F1 贡献，层级图约 2 点

亮点与洞察¶

统一框架的模块化设计——三个模块高度可插拔，可根据子任务的数据特点灵活组合。这种工程化的框架设计在工业界有很高的实用价值
LLM 知识离线注入小模型是实用的知识蒸馏范式——不需要在线调用 LLM，将 LLM 世界知识预计算为查询特征，成本可控
stop_gradient 防循环依赖的半监督设计巧妙——查询和标签共享编码器，直接传梯度会导致半监督信号和编码器互相强化坍塌

局限与展望¶

LLM 生成的世界知识质量不可控，错误信息可能反向污染分类
半监督阈值 \(\tau\) 和图过滤阈值 \(\alpha\)/\(\beta\) 的敏感性分析不够充分
仅在 JD.COM 中文电商数据上验证，其他平台和多语言场景未测试
三图融合策略较简单（均值叠加+层级赋值），更复杂的注意力融合可能更好
品类任务标签空间 6,634 个类别，GCN 的可扩展性在更大标签空间下需要验证

评分¶

新颖性: ⭐⭐⭐ 三个模块各自不算新（LLM知识增强/半监督/GCN），但组合设计和工程化统一框架有实用贡献
实验充分度: ⭐⭐⭐⭐⭐ 大规模真实数据（6700万+训练样本）、完整消融、线上A/B验证
写作质量: ⭐⭐⭐⭐ 框架描述清晰，公式推导完整，但动机部分偏工业化
价值: ⭐⭐⭐⭐ 已上线工业系统，对电商搜索有直接价值，模块化设计有迁移参考性