Do Language Models Understand Honorific Systems in Javanese?¶

会议: ACL 2025
arXiv: 2502.20864
代码: https://github.com/JavaneseHonorifics/Unggah-Ungguh
领域: LLM/NLP - 低资源语言评估
关键词: honorifics, Javanese, low-resource, Unggah-Ungguh, linguistic evaluation

一句话总结¶

构建首个爪哇语敬语语料库 Unggah-Ungguh（4,024 句，覆盖四个敬语层级），通过分类/风格转换/跨语言翻译/对话生成四个任务系统评估 LLM 对爪哇语敬语系统的理解能力，发现即使最强闭源模型（GPT-4o）的零样本分类准确率也仅 53.5%，且普遍偏向特定敬语层级。

研究背景与动机¶

领域现状：爪哇语拥有超过 9,800 万使用者，其核心特征之一是称为 Unggah-Ungguh Basa 的复杂敬语系统，包含四个层级——Ngoko（最非正式）、Ngoko Alus（稍正式）、Krama（正式）、Krama Alus（最正式）。敬语选择取决于说话者、听者和被提及者之间的社会关系。

现有痛点：(1) 现有爪哇语语料库的敬语层级分布严重不平衡，大多偏向 Ngoko；(2) 缺乏专门标注的敬语语料库用于 NLP 任务；(3) 随着 LLM 越来越多地充当个人助手，其理解和生成恰当敬语的能力直接影响文化敏感度和用户信任。

核心矛盾：敬语系统要求模型不仅理解语义，还要捕捉社会等级、对话角色和语境等语用信息——这对现有模型是极大挑战，尤其在低资源语言场景下。

本文目标 系统评估 LLM 对爪哇语四级敬语系统的理解和生成能力，识别其偏向和局限。

切入角度：构建平衡分布的敬语语料库，设计覆盖理解和生成的四项基准任务。

核心 idea：通过构建首个标注爪哇语四级敬语的平衡语料库和四项评估任务，揭示当前 LLM 对复杂敬语系统的理解严重不足。

方法详解¶

整体框架¶

构建 Unggah-Ungguh 语料库 → 设计四个评估任务 → 使用微调模型和零/少样本通用模型进行对比评估。微调模型用于分类任务并作为后续任务的自动评估工具；通用模型涵盖闭源（GPT-4o、Gemini 1.5 Pro）和开源（Llama 3.1 8B、Gemma2 9B、Sailor2 8B、SahabatAI）两类。

关键设计¶

Unggah-Ungguh 语料库构建:
- 功能：从《Kamus Unggah-Ungguh Basa Jawa》等四本权威参考书中手动构建 4,024 句标注语料库
- 核心思路：原始资料未数字化，需扫描→OCR→母语者两阶段校正。第二阶段独立审核发现并修正了 58 个错误（1.5%）。最终 Shannon 信息熵达 1.88，超过其他 9 个已有数据集，表明分布最平衡
- 设计动机：现有爪哇语语料库的敬语分布极度不平衡（多数集中在 Ngoko），无法公平评估模型能力
Task 1：敬语层级分类:
- 功能：将输入文本分类到四个敬语层级之一
- 核心思路：微调 Javanese BERT/DistilBERT/GPT-2 和 LSTM/规则基线。Javanese DistilBERT 达到最高 95.65% 准确率，作为后续 Task 4 的自动评估器
- 设计动机：评估模型对敬语层级的识别能力——这是理解敬语系统的基础
Task 2：敬语风格转换:
- 功能：将给定文本从一个敬语风格转换到另一个（如 Ngoko → Krama Alus）
- 核心思路：零样本翻译，评估模型是否能在保持语义的同时改变敬语层级
- 设计动机：敬语转换需要精确的词汇替换和语法调整，是理解敬语系统深度的直接测试
Task 3：跨语言敬语翻译:
- 功能：在特定敬语层级的爪哇语和印尼语之间进行翻译
- 核心思路：印尼语缺乏显式敬语系统，而爪哇语有丰富的敬语层级，两者之间的 KL 散度高达 2.26，词汇分布差异大
- 设计动机：测试模型是否能在跨语言场景中保留敬语信息
Task 4：对话生成:
- 功能：给定两个说话者的社会地位（如学生和老师）和对话上下文，生成使用恰当敬语的对话
- 核心思路：手动构建 160 个评估场景，使用微调的 DistilBERT 自动评估生成文本的敬语层级是否正确
- 设计动机：最具挑战性的任务——模型必须同时理解角色关系、敬语规则和对话连贯性

实验关键数据¶

主实验（Task 1：敬语分类）¶

模型	准确率	F1
Dictionary-Based	88.37	88.64
LSTM	93.47	91.34
Javanese BERT (微调)	93.91	93.97
Javanese DistilBERT (微调)	95.65	95.66
GPT-4o (零样本)	53.50	40.70
Gemini 1.5 Pro (零样本)	50.70	45.40
Llama 3.1 8B (零样本)	43.00	24.00

消融实验（GPT-4o 逐层级分类性能）¶

敬语层级	Precision	Recall	F1
Ngoko	78.00	91.10	84.00
Ngoko Alus	0	0	0
Krama	53.50	26.00	35.00
Krama Alus	29.90	82.40	43.80

关键发现¶

微调的专用模型（DistilBERT 95.65%）远超通用 LLM（GPT-4o 53.5%），说明爪哇语敬语仍是低资源难题
GPT-4o 完全无法识别 Ngoko Alus 层级（F1=0），存在严重的层级偏向
闭源模型在分类中偏向 Ngoko 和 Krama Alus 两个极端层级，忽略中间层级
规则基线（88.37%）已经很强，因为敬语很大程度上通过词汇替换实现
跨语言翻译中，KL 散度和 Jensen 分数显示爪哇语-印尼语之间存在显著的词汇鸿沟

亮点与洞察¶

首次系统评估 LLM 在复杂敬语系统上的能力，填补了低资源语言语用学评估的空白
GPT-4o 对 Ngoko Alus 完全失明的发现极具警示意义——表面上的"多语言能力"在文化细粒度上完全不足
语料库构建过程严谨（扫描→OCR→两阶段母语者校验），为其他低资源语言的数字化提供了范本

局限与展望¶

语料库规模较小（4,024 句），可能不足以训练更大模型
仅评估了四个敬语层级，实际使用中还有更细粒度的区分
未测试微调通用 LLM（如用 Unggah-Ungguh 微调 Llama）的效果

评分¶

新颖性: ⭐⭐⭐⭐ 首个爪哇语敬语评估基准，问题定义清晰独特
实验充分度: ⭐⭐⭐⭐ 四个任务全面覆盖，多类模型对比，但语料规模有限
写作质量: ⭐⭐⭐⭐ 语言学背景介绍详实，实验组织清晰
价值: ⭐⭐⭐⭐ 对低资源语言 NLP 和文化敏感 AI 研究有重要参考意义