Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction¶
会议: ACL 2025 (SemEval Workshop)
arXiv: 2506.04409
代码: 无
领域: 信息检索
关键词: 情感检测, RAG, 多语言, LLM集成, 多标签分类
一句话总结¶
提出 EmoRAG 系统,用检索增强生成(RAG)管道结合多 LLM 集成聚合,在 SemEval-2025 Task 11 多标签情感检测任务上无需额外训练即在 28 种语言中取得有竞争力的结果,平均 F1-micro 0.638。
研究背景与动机¶
SemEval-2025 Task 11 聚焦感知情感检测(perceived emotion detection):判断大多数读者会从给定文本中推断说话者正在经历哪些情感(joy, sadness, fear, anger, surprise, disgust, neutral)。这不是分析读者被唤起的情感,也不是推断说话者的真实情感,而是关注情感的社会共识性理解。
核心挑战:
多语言覆盖:涵盖 28 种语言,包括大量低资源语言(Hausa、Kinyarwanda、Emakhuwa、isiZulu 等)
多标签任务:每段文本可能同时包含多种情感
文化差异:不同文化背景下的情感表达和解读存在显著差异
传统方法(微调预训练 Transformer + 线性分类头)在单语场景表现好,但跨语言泛化面临语言变异性和文化差异的额外挑战。
EmoRAG 的核心思路:利用 RAG 不需要额外训练的特性,以标注训练数据作为检索语料库,让模型在推理时参考相关情感实例,提高跨语言和跨文化的鲁棒性。
方法详解¶
整体框架¶
EmoRAG 由四个组件串联:Database → Retriever → Generators (LLM集合) → Aggregation Model。
关键设计¶
-
数据库(Database):
- 直接使用标注训练数据构建
- 基于 BRIGHTER 数据集(28 种语言的多标签情感标注数据)和 EthioEmo 数据集(4 种埃塞俄比亚语言)
-
检索器(Retriever):
- 两种检索器对比:
- n-gram 检索器(来自 LangChain 模块):假设对低资源语言更好,因为依赖表面文本特征
- BGE-M3 句子嵌入检索器:多语言嵌入模型
- K 值设定:低资源语言 K=30(token 消耗大),高资源语言 K=100
- 检索得到的样本作为 LLM 的 few-shot prompt
- 两种检索器对比:
-
生成器(Decoder Models):
- 使用四个 LLM 集成:
- Llama-3.1-70B
- Qwen2.5-72B-Instruct
- gpt-4o-mini
- gemma-2-27b-it
- 系统提示均为英语(实验发现英语提示效果优于目标语言提示)
- 每个模型独立输出情感预测
- 使用四个 LLM 集成:
-
聚合策略(Aggregation):
- 单模型:直接使用某一模型的输出
- 多数投票:每个标签的预测取所有模型的多数投票
- Macro/Micro 加权投票:按模型在 dev 集上的 F1 分数加权
- Label-F1 加权投票:对每个标签独立加权,权重基于该标签在各模型上的 F1 分数
- GPT-4o 聚合:将所有模型结果 + few-shot 样例输入 gpt-4o-mini 做聚合
训练策略¶
- 无需额外训练:不做任何模型微调,纯推理时检索+生成
- 仅在 dev 集上确定最佳聚合策略和检索器配置
实验关键数据¶
主实验 — 代表性语言测试集表现(表格)¶
| 语言 | 最佳模型 | Dev F1-micro | Dev F1-macro | Test F1-micro | Test F1-macro |
|---|---|---|---|---|---|
| English | L-F1 Vote | 0.821 | 0.818 | 0.807 | 0.789 |
| Spanish | L-F1 Vote | 0.813 | 0.809 | 0.820 | 0.817 |
| Russian | L-F1 Vote | 0.880 | 0.880 | 0.883 | 0.879 |
| Hindi | L-F1 Vote | 0.842 | 0.849 | 0.866 | 0.866 |
| Marathi | L-F1 Vote | 0.943 | 0.947 | 0.856 | 0.864 |
| Hausa | L-F1 Vote | 0.735 | 0.731 | 0.704 | 0.695 |
| Swahili | L-F1 Vote | 0.440 | 0.409 | 0.430 | 0.386 |
| Emakhuwa | gpt-4o-mini | 0.300 | 0.211 | 0.256 | 0.216 |
各模型 Dev 集平均表现(表格)¶
| 模型/策略 | F1-micro | F1-macro |
|---|---|---|
| llama-3.1-70b | 0.563 | 0.515 |
| qwen2.5-70b | 0.590 | 0.556 |
| gpt-4o-mini | 0.631 | 0.590 |
| gpt-4o-mini + n-gram | 0.641 | 0.601 |
| gemma-2-27b | 0.617 | 0.576 |
| majority_vote | 0.661 | 0.617 |
| majority_vote_by_label_f1 | 0.678 | 0.634 |
关键发现¶
- Label-F1 加权投票在绝大多数语言上是最优聚合策略(21/28 种语言的最佳选择)
- 高资源语言表现好(Russian 0.883, Hindi 0.866),低资源语言差异大(Emakhuwa 仅 0.256, Tigrinya 0.260)
- n-gram 检索器对部分低资源语言更有效(Oromo、Sundanese、Mandarin、Kinyarwanda 选择了 n-gram 配置)
- gpt-4o-mini 在单模型中表现最佳(F1-micro 0.631),但集成聚合(0.678)显著优于任何单模型
- 英语系统提示效果优于目标语言提示,可能因为 LLM 的英语指令跟随能力更强
- 部分语言 dev/test 性能差异大(German: dev 0.745 → test 0.269;Brazilian Portuguese: dev 0.766 → test 0.481),暗示分布偏移问题
亮点与洞察¶
- 零训练范式:RAG + LLM 集成完全免去微调,对资源受限场景有吸引力
- Label-F1 加权策略比简单多数投票或全局加权更精细:不同情感标签的最优模型不同
- n-gram vs 嵌入检索器的选择揭示了低资源 vs 高资源语言的不同特征:低资源语言的嵌入质量差,表面特征匹配可能更可靠
- 多 LLM 集成的互补性强:单个模型在不同语言上各有所长
局限与展望¶
- 仅覆盖 6 种基本情感 + neutral,未测试更细粒度的情感分类
- 对高度不均衡的类别分布和显著的分布偏移(如 German、Portuguese)处理不足
- K 值(30 vs 100)的设定较粗糙,未做系统的超参数搜索
- 推理成本高(4 个大模型 + 检索),对于低延迟场景不适用
- 未与微调基线直接对比,难以判断 RAG 方式是否真的优于微调
相关工作与启发¶
- 传统方法(微调 Transformer + 分类头)在多语言情感任务上的局限性是本文的出发点
- RAG 在知识密集型 NLP 任务中的成功扩展到了情感分类领域
- BRIGHTER 数据集首次覆盖 28 种语言的情感标注,为多语言情感研究提供基础
- 与跨语言情绪检测的 LLM 方法形成呼应,但本文更强调实用性和可扩展性
评分¶
- 新颖性: 5/10 — RAG + LLM 集成是成熟范式的组合应用,缺乏技术创新
- 实验充分度: 7/10 — 覆盖 28 种语言很全面,但缺乏与微调基线的对比
- 写作质量: 6/10 — 内容组织清晰但篇幅短,分析不够深入
- 价值: 6/10 — 作为 SemEval 系统描述论文,展示了 RAG 在多语言情感分析中的可行性