Can Large Language Models Understand Internet Buzzwords Through User-Generated Content¶

会议: ACL 2025
arXiv: 2505.15071
代码: https://github.com/SCUNLP/Buzzword
领域: LLM/NLP
关键词: buzzword, definition generation, user-generated content, language acquisition, LLM

一句话总结¶

本文构建了首个中文网络流行语数据集 Cheer（1127 条），并提出 Ress 方法——通过模拟儿童语言习得的六维理解技能引导 LLM 从用户生成内容中产出更准确的流行语定义，在语义准确度上平均提升 2.51%。

研究背景与动机¶

领域现状：网络流行语（如"窝囊费""0帧起手"）在社交媒体上大量涌现，其含义往往超越字面意思，具有高度抽象性和文化特定性。传统词典不收录这些词，用户只能通过大量上下文使用场景来理解它们。上下文感知的定义生成（context-aware definition generation）是 NLP 中对应的任务方向。

现有痛点：现有定义生成方法（包括 LLM-based）对常规词汇效果尚可，但面对网络流行语表现很差。原因在于：1）流行语变化快，静态训练数据无法跟上；2）LLM 对长尾词和新造词的理解本身就有限；3）即使提供了使用示例（UGC），LLM 的推理能力不足以从有限上下文中推断出完整含义。

核心矛盾：网络流行语的含义高度依赖语境和文化背景，但 LLM 倾向于依赖参数化知识中已见过的词义，对未见过的流行语缺乏有效推理能力。同时高质量 UGC 的获取和筛选也是瓶颈——不知道词义就难以判断哪些 UGC 最有参考价值。

本文目标 1）缺乏专门的中文流行语数据集和评测基准；2）如何让 LLM 更好地从 UGC 中理解流行语并生成准确定义。

切入角度：借鉴认知科学中儿童语言习得的理论——儿童通过意图理解、概念关联、语法结构、社交线索、词汇上下文和语音拼写六种核心技能来学习新词。作者将这六种技能编码为 LLM 的引导 aspect，分别生成候选定义再集成。

核心 idea：将儿童语言习得的六维理解技能转化为 LLM 提示策略，引导模型从多角度理解流行语后集成出最终定义。

方法详解¶

整体框架¶

输入是一个流行语词条和一组 UGC 示例句子，输出是该流行语的精确定义。Ress 方法分三步：先初始化六个理解维度（aspect），然后 LLM 在每个维度引导下分别生成一个候选定义，最后通过集成步骤将六个候选合并为统一的最终定义。

关键设计¶

Cheer 数据集:
- 功能：提供首个中文网络流行语定义生成基准
- 核心思路：从"梗百科"等平台收集 1127 个中文流行语，每个配有描述（平均 262.5 字）、精炼定义（平均 50 字，由 LLM 总结字面与引申义）和平均 30.7 条来自小红书/微博的 UGC 示例。经过词典网站→网民使用→人工审核三层质控，手动移除不当词条、精炼定义、清除 UGC 中已有的释义性信息
- 设计动机：此前无专门针对网络流行语定义生成的数据集，现有方法的局限性需要专门基准来揭示和量化
Ress 六维引导（Aspect Initialization）:
- 功能：将儿童语言习得的关键技能编码为 LLM 的理解维度
- 核心思路：六个维度——IU（意图理解）：推断说话者使用流行语的交际目的，如表达情感；CA（概念关联）：将流行语与相关概念联系，如"窝囊费"→"工作"；LS（语言结构）：分析流行语的语法角色；SCI（社交线索解读）：从 UGC 推断社交语境如语气和情绪；WC（上下文）：利用周围文本消歧；PS（发音拼写）：建立字形/语音与语义的联系
- 设计动机：模拟人类学习新词的自然过程，让 LLM 从多角度"观察"流行语的使用，避免单一视角的片面理解
Definition Ensemble（定义集成）:
- 功能：将多角度候选定义融合为最终输出
- 核心思路：提示 LLM "基于以下来自不同理解角度的候选定义，综合生成最终定义"。BERTScore 分析显示各 aspect 生成的定义之间语义多样性较高（弱相关），说明确实提供了互补视角。aspect 数量与定义质量正相关（1→3→5→6 个 aspect 效果递增）
- 设计动机：利用 ensemble 思想减少单一 prompt 的偏差，多角度覆盖流行语的语义全貌

损失函数 / 训练策略¶

Ress 是一个无需训练的 prompting 方法，不涉及参数更新。核心是精心设计的三阶段 prompt 工程：aspect initialization → aspect-guided generation → ensemble。可搭配任意 LLM backbone 使用。

实验关键数据¶

主实验¶

方法	Backbone	BLEU	R-L	BScore	SA (1-5)	SC (1-5)
DP (w/o UGC)	GPT-4o	9.56	39.42	66.56	2.05	1.62
DP	GPT-4o	17.85	45.22	67.56	2.50	2.13
CoT	GPT-4o	18.33	44.49	67.46	2.60	2.30
FOCUS (SOTA)	GPT-4o	15.08	35.10	66.05	2.95	2.92
Ress	GPT-4o	16.52	36.42	66.74	3.04	3.06
FOCUS	Qwen2-72B	12.09	29.81	64.75	2.88	3.20
Ress	Qwen2-72B	15.74	35.63	66.41	2.97	3.09

消融实验¶

Aspect 数量	效果趋势	说明
1 个 aspect	最低	单一维度不够全面
3 个 aspects	中等	部分维度组合即有提升
5 个 aspects	较高	更多维度带来更全面理解
6 个 (full Ress)	最高	aspect 数量与质量正相关

关键发现¶

UGC 的关键作用：DP vs DP(w/o UGC) 对比表明提供 UGC 示例显著提升定义质量（SA 从 2.05 升至 2.50），但即使有 UGC 所有方法表现仍不理想（SA 最高 3.04/5）
LLM 对已见/未见流行语的差距巨大：模型在训练数据中见过的流行语上表现远好于未见过的，暴露了 LLM 过度依赖参数化记忆的问题
各 aspect 确实互补：BERTScore 语义多样性分析表明不同 aspect 生成的定义弱相关，说明各维度提供了不同的理解视角
人工评估（win rate）与自动指标排序一致，验证了评估框架的可靠性
传统 LM 方法（MASS-zh、SDefiner）SA < 1.1，完全无法处理流行语

亮点与洞察¶

认知科学启发的 NLP 方法：将儿童语言习得理论转化为 LLM prompt 策略，思路新颖且有理论支撑。这种将认知过程形式化为 AI 操作的范式可推广到其他需要深层理解的 NLP 任务
揭示了 LLM 理解新概念的根本困难：即使是 GPT-4o 在未见流行语上 SA 也仅约 3 分（5 分满分），说明 LLM 从上下文推断新概念含义的能力仍有显著差距
Cheer 数据集本身有独立价值：1127 个流行语配 34607 条 UGC，可用于社会语言学、文化语言学、NLP 等多领域研究

局限与展望¶

整体性能仍然偏低（SA 最高 3.04/5），说明从 UGC 理解新词这个任务本质上很困难，需要更根本的方法创新而非仅靠 prompt 工程
仅覆盖中文流行语，不同语言和文化背景的流行语特性可能差异显著
UGC 质量参差不齐是核心瓶颈——如何在不知道流行语含义的前提下筛选高质量 UGC 是个鸡与蛋的问题
六个 aspect 源自儿童语言习得理论，但其对于 LLM 的最优性未经充分验证，可能存在更适合 LLM 的维度划分方式
Ress 需要 7 次 LLM 调用（6 aspect + 1 ensemble），推理成本较高

评分¶

新颖性: ⭐⭐⭐⭐ 认知科学视角切入 NLP 问题，Cheer 数据集填补空白
实验充分度: ⭐⭐⭐⭐ 多 backbone 对比、人工评估、aspect 消融、语义多样性分析均到位
写作质量: ⭐⭐⭐⭐ 问题定义清晰，从 benchmark 到方法到分析的逻辑链完整
价值: ⭐⭐⭐⭐ 数据集和 benchmark 的长期价值高于方法本身