Do Language Models Understand Honorific Systems in Javanese?¶
会议: ACL 2025
arXiv: 2502.20864
代码: https://github.com/JavaneseHonorifics/Unggah-Ungguh
领域: LLM/NLP - 低资源语言评估
关键词: honorifics, Javanese, low-resource, Unggah-Ungguh, linguistic evaluation
一句话总结¶
构建首个爪哇语敬语语料库 Unggah-Ungguh(4,024 句,覆盖四个敬语层级),通过分类/风格转换/跨语言翻译/对话生成四个任务系统评估 LLM 对爪哇语敬语系统的理解能力,发现即使最强闭源模型(GPT-4o)的零样本分类准确率也仅 53.5%,且普遍偏向特定敬语层级。
研究背景与动机¶
领域现状:爪哇语拥有超过 9,800 万使用者,其核心特征之一是称为 Unggah-Ungguh Basa 的复杂敬语系统,包含四个层级——Ngoko(最非正式)、Ngoko Alus(稍正式)、Krama(正式)、Krama Alus(最正式)。敬语选择取决于说话者、听者和被提及者之间的社会关系。
现有痛点:(1) 现有爪哇语语料库的敬语层级分布严重不平衡,大多偏向 Ngoko;(2) 缺乏专门标注的敬语语料库用于 NLP 任务;(3) 随着 LLM 越来越多地充当个人助手,其理解和生成恰当敬语的能力直接影响文化敏感度和用户信任。
核心矛盾:敬语系统要求模型不仅理解语义,还要捕捉社会等级、对话角色和语境等语用信息——这对现有模型是极大挑战,尤其在低资源语言场景下。
本文目标 系统评估 LLM 对爪哇语四级敬语系统的理解和生成能力,识别其偏向和局限。
切入角度:构建平衡分布的敬语语料库,设计覆盖理解和生成的四项基准任务。
核心 idea:通过构建首个标注爪哇语四级敬语的平衡语料库和四项评估任务,揭示当前 LLM 对复杂敬语系统的理解严重不足。
方法详解¶
整体框架¶
构建 Unggah-Ungguh 语料库 → 设计四个评估任务 → 使用微调模型和零/少样本通用模型进行对比评估。微调模型用于分类任务并作为后续任务的自动评估工具;通用模型涵盖闭源(GPT-4o、Gemini 1.5 Pro)和开源(Llama 3.1 8B、Gemma2 9B、Sailor2 8B、SahabatAI)两类。
关键设计¶
-
Unggah-Ungguh 语料库构建:
- 功能:从《Kamus Unggah-Ungguh Basa Jawa》等四本权威参考书中手动构建 4,024 句标注语料库
- 核心思路:原始资料未数字化,需扫描→OCR→母语者两阶段校正。第二阶段独立审核发现并修正了 58 个错误(1.5%)。最终 Shannon 信息熵达 1.88,超过其他 9 个已有数据集,表明分布最平衡
- 设计动机:现有爪哇语语料库的敬语分布极度不平衡(多数集中在 Ngoko),无法公平评估模型能力
-
Task 1:敬语层级分类:
- 功能:将输入文本分类到四个敬语层级之一
- 核心思路:微调 Javanese BERT/DistilBERT/GPT-2 和 LSTM/规则基线。Javanese DistilBERT 达到最高 95.65% 准确率,作为后续 Task 4 的自动评估器
- 设计动机:评估模型对敬语层级的识别能力——这是理解敬语系统的基础
-
Task 2:敬语风格转换:
- 功能:将给定文本从一个敬语风格转换到另一个(如 Ngoko → Krama Alus)
- 核心思路:零样本翻译,评估模型是否能在保持语义的同时改变敬语层级
- 设计动机:敬语转换需要精确的词汇替换和语法调整,是理解敬语系统深度的直接测试
-
Task 3:跨语言敬语翻译:
- 功能:在特定敬语层级的爪哇语和印尼语之间进行翻译
- 核心思路:印尼语缺乏显式敬语系统,而爪哇语有丰富的敬语层级,两者之间的 KL 散度高达 2.26,词汇分布差异大
- 设计动机:测试模型是否能在跨语言场景中保留敬语信息
-
Task 4:对话生成:
- 功能:给定两个说话者的社会地位(如学生和老师)和对话上下文,生成使用恰当敬语的对话
- 核心思路:手动构建 160 个评估场景,使用微调的 DistilBERT 自动评估生成文本的敬语层级是否正确
- 设计动机:最具挑战性的任务——模型必须同时理解角色关系、敬语规则和对话连贯性
实验关键数据¶
主实验(Task 1:敬语分类)¶
| 模型 | 准确率 | F1 |
|---|---|---|
| Dictionary-Based | 88.37 | 88.64 |
| LSTM | 93.47 | 91.34 |
| Javanese BERT (微调) | 93.91 | 93.97 |
| Javanese DistilBERT (微调) | 95.65 | 95.66 |
| GPT-4o (零样本) | 53.50 | 40.70 |
| Gemini 1.5 Pro (零样本) | 50.70 | 45.40 |
| Llama 3.1 8B (零样本) | 43.00 | 24.00 |
消融实验(GPT-4o 逐层级分类性能)¶
| 敬语层级 | Precision | Recall | F1 |
|---|---|---|---|
| Ngoko | 78.00 | 91.10 | 84.00 |
| Ngoko Alus | 0 | 0 | 0 |
| Krama | 53.50 | 26.00 | 35.00 |
| Krama Alus | 29.90 | 82.40 | 43.80 |
关键发现¶
- 微调的专用模型(DistilBERT 95.65%)远超通用 LLM(GPT-4o 53.5%),说明爪哇语敬语仍是低资源难题
- GPT-4o 完全无法识别 Ngoko Alus 层级(F1=0),存在严重的层级偏向
- 闭源模型在分类中偏向 Ngoko 和 Krama Alus 两个极端层级,忽略中间层级
- 规则基线(88.37%)已经很强,因为敬语很大程度上通过词汇替换实现
- 跨语言翻译中,KL 散度和 Jensen 分数显示爪哇语-印尼语之间存在显著的词汇鸿沟
亮点与洞察¶
- 首次系统评估 LLM 在复杂敬语系统上的能力,填补了低资源语言语用学评估的空白
- GPT-4o 对 Ngoko Alus 完全失明的发现极具警示意义——表面上的"多语言能力"在文化细粒度上完全不足
- 语料库构建过程严谨(扫描→OCR→两阶段母语者校验),为其他低资源语言的数字化提供了范本
局限与展望¶
- 语料库规模较小(4,024 句),可能不足以训练更大模型
- 仅评估了四个敬语层级,实际使用中还有更细粒度的区分
- 未测试微调通用 LLM(如用 Unggah-Ungguh 微调 Llama)的效果
相关工作与启发¶
- vs Japanese Honorific Corpus (Liu & Kobayashi, 2022):本文的爪哇语敬语系统更复杂(四级 vs 日语的"尊敬语/谦让语"二分),且 Yule's K 值更低(105.43 vs 125.54),表明词汇多样性更高
- vs Wongso et al. (2021):后者做爪哇语预训练模型,但未涉及敬语系统
- vs Marreddy et al. (2022):后者指出低资源语言模型因缺乏标注数据而表现不佳,本文正是通过构建专门语料库来解决这一问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个爪哇语敬语评估基准,问题定义清晰独特
- 实验充分度: ⭐⭐⭐⭐ 四个任务全面覆盖,多类模型对比,但语料规模有限
- 写作质量: ⭐⭐⭐⭐ 语言学背景介绍详实,实验组织清晰
- 价值: ⭐⭐⭐⭐ 对低资源语言 NLP 和文化敏感 AI 研究有重要参考意义