跳转至

Zero-shot Large Language Models for Automatic Readability Assessment

会议: ACL2026
arXiv: 2604.24470
代码: https://github.com/rag24/LAURAE
领域: 自动可读性评估 / 医学文本可读性 / NLP评估
关键词: 可读性评估, 零样本LLM, LAURAE, 置信度集成, 医疗文本

一句话总结

本文系统评估 10 个开源 LLM 在 14 个多语言可读性数据集上的零样本 ARA 能力,并提出 LAURAE:用 LLM 的期望值可读性分数与传统可读性公式按 verbal confidence 加权集成,从而在 13/14 个数据集上优于既有无监督方法。

研究背景与动机

领域现状:自动可读性评估(ARA)长期服务于教育、医学、政务和文本简化研究。尤其在医疗场景,患者材料是否能被目标人群理解会直接影响患者决策和健康结果。传统可读性公式如 FKGL、ARI 依赖句长、音节数、多音节词等浅层特征,使用方便,因此 2025 年相关应用论文中仍有大量工作采用公式方法。

现有痛点:传统公式虽然易用,但忽略语义、语境和技术词解释;监督式 BERT/ML 模型准确率更高,却需要标注数据、训练资源和专业能力。近期 GPT-4 零样本可读性评估显示潜力,但已有研究多只覆盖一个英文数据集或闭源模型,无法回答三个实际问题:开源 LLM 是否可靠,非英语和技术文本是否可靠,短文本和长文本是否都可靠。

核心矛盾:研究者和实践者需要比公式更准的无监督 ARA,但又不想承担监督训练成本;LLM 具备语义理解,却可能在短文本、儿童文本或低资源语言上不稳,且完全依赖 LLM 会牺牲公式方法的鲁棒性和低成本优势。

本文目标:作者希望提供一个可复现的无监督 ARA 方案:先改进零样本 LLM 打分方法,再用 10 个开源 LLM 和 14 个数据集做全面评测,最后提出一个结合 LLM 语义能力与公式浅层特征的集成方法 LAURAE。

切入角度:论文不把 LLM 看作传统公式的简单替代,而是认为两者捕捉不同信号。LLM 更懂语境和难度定义,公式更稳定地捕捉句长、词长等表层负担;如果用 LLM 自报置信度决定二者权重,就可能获得更稳的无监督可读性分数。

核心 idea:让 LLM 在与人工标注相同的可读性尺度上给分,并用输出 token 概率计算期望分数;再用 LLM verbal confidence 加权融合 LLM 分数和传统公式分数,形成 LAURAE。

方法详解

本文包含两个层面的技术贡献。第一层是改进零样本 LLM ARA:提示词不仅要求模型给可读性分数,还尽量让它使用人工标注采用的同一尺度,例如 CEFR A1-C2,并在 prompt 中给出等级定义。第二层是 LAURAE 集成:把 LLM 分数和可读性公式分数标准化后加权平均,权重来自 LLM 对自己评分的自然语言置信度。

整体框架

输入是一段待评估文本。若该数据集的人工标注基于 CEFR,prompt 会要求 LLM 按 A1-C2 对应的 1-6 整数打分,并附上各等级定义;否则使用 1-9 的任意可读性尺度,并提示模型考虑语法、清晰度等因素。模型生成可读性分数和置信度分数。系统不只取生成的最高概率数字,而是查看输出位置上所有数字 token 的概率,用期望值计算可读性分数和置信度。

随后,LAURAE 选择一个传统无监督 ARA 分数作为浅层特征。英语用 FKGL/ARI,阿拉伯语用 OSMAN,印地语和希腊语用 Lix,法语/俄语用改造版 Flesch Reading Ease 等。LLM 分数和公式分数都按数据集均值、标准差标准化,再用 LLM confidence c 加权:LLM 越自信,LLM 分数权重越高;LLM 不自信,公式分数权重增加。

关键设计

  1. 与人工标注一致的可读性尺度 prompt:

    • 功能:让 LLM 的输出空间贴近数据集 ground truth,减少“模型自定义可读性”的偏差。
    • 核心思路:对于 7 个使用 CEFR 的数据集,把 A1-C2 的等级定义放进 prompt,并把等级映射到 1-6;非 CEFR 数据集则使用 1-9 分,要求模型基于语法、清晰度、文本复杂度等因素评分。
    • 设计动机:如果人工标注者按 CEFR 理解“难度”,而 LLM 按自己的内部标准给分,相关性会被无谓拉低。显式给出尺度定义尤其能帮助非英语数据集。
  2. 基于输出 token 概率的期望值评分:

    • 功能:避免只取 greedy 输出数字带来的离散化和并列问题。
    • 核心思路:在可读性分数所在 token 位置,收集所有数字 token 的概率,把分数视为概率加权期望值。若模型最高概率输出是 4,但 3 和 5 也有较高概率,期望分数会保留这种不确定性,而不是硬取 4。
    • 设计动机:可读性本来就是连续难度。期望值评分能减少短文本对比任务中的 tie,论文消融显示它在全部 14 个数据集上都提升性能。
  3. LAURAE 的置信度加权集成:

    • 功能:把 LLM 的语义判断和传统公式的浅层稳健性结合起来。
    • 核心思路:LLM 额外输出一个 1-9 置信度,系统同样用期望值计算 confidence,并除以 10 得到权重 c。最终分数可理解为 c * standardized(LLM score) + (1-c) * standardized(formula score),保证两类方法至少各有一定贡献。
    • 设计动机:LLM 在长文本、技术文本和有明确难度定义的场景更有优势,但在儿童故事、极短句对或训练资源少的语言上可能不稳。让模型的自报置信度控制权重,是一种不需要标注验证集的无监督自适应策略。

损失函数 / 训练策略

本文完全是无监督推理方法,没有训练和 fine-tuning。实验使用 10 个开源 instruction-tuned LLM,包括 Llama 3.1 8B/70B、Llama 3.2 3B、Aya Expanse、Gemma 2、Mixtral 8x7B、Phi-4 等。英文数据后续主要采用 Llama 70B,非英语数据采用 Aya 32B,以模拟真实无监督场景下不能用验证集挑模型的设定。

评估指标随数据类型变化:11 个有连续 ground-truth rating 的数据集报告 Pearson correlation;3 个 pairwise comparison 数据集报告识别更易读文本的 accuracy。显著性检验上,相关性比较用 Steiger 修改的 Williams test,准确率比较用 McNemar test。

实验关键数据

主实验

14 个数据集覆盖 6 种语言、短句与段落/文章、CEFR 与非 CEFR 标注、医疗技术文本和 pairwise simplification 数据。MedReadMe 是医疗文本评测重点,能检验模型是否适合患者材料可读性场景。

数据集 语言 N 平均长度 Ground Truth
ReadMe 英/法/印地/阿/俄 163-296 22-25 CEFR rating
MedReadMe 英语 1,140 25 CEFR rating,医疗文本
Cambridge 英语 300 579 CEFR rating
CLEAR 英语 1,890 201 non-CEFR rating
Greek Language / History 希腊语 393 / 804 161 / 209 non-CEFR rating
OneStop 英语 567 782 non-CEFR rating
Asset 英语 485 21 pairwise comparison
Vikidia 英/法 150 / 150 596 / 509 pairwise comparison

LAURAE 主结果非常明确:平均性能 0.740,高于 LLM-v-ns、公式和 RSRS 三类 baseline,且在 13/14 个数据集上是最强方法;唯一例外是 Cambridge,LLM-v-ns 0.888 略高于 LAURAE 0.860。

数据集 LAURAE LLM-v-ns Formula RSRS
Greek Lang. 0.430 0.427 0.162 0.116
Greek Hist. 0.572 0.520 0.373 0.163
Vikidia (fr) 0.953 0.760 0.887 0.840
Asset 0.629 0.324 0.557 0.561
CLEAR 0.735 0.725 0.517 0.484
OneStop 0.654 0.488 0.577 0.627
MedReadMe 0.770 0.736 0.469 0.646
Cambridge 0.860 0.888 0.702 0.713
ReadMe 0.798 0.776 0.680 0.759
ReadMe (ru) 0.803 0.393 0.639 0.694
Average 0.740 0.595 0.599 0.592

消融实验

作者把两项 prompt/评分改进拆开评估。期望值评分在 14/14 个数据集上都有提升,其中 12 个显著;加入 CEFR scale definition 对 7 个 CEFR 数据集中的 5 个显著提升,非英语提升尤其大。

数据集 Expected Value 提升 Scale Included 提升
Greek History +0.022 -
Vikidia (fr) +0.160 -
Asset +0.231 -
OneStop +0.121 -
MedReadMe +0.014 +0.026
Cambridge +0.032 -0.059
ReadMe (fr) +0.016 +0.214
ReadMe (hi) +0.058 +0.204
ReadMe (ar) +0.029 +0.177
ReadMe (ru) +0.030 +0.339
Average +0.059 +0.125

LAURAE 的 ensemble 权重也做了对照。相对于 standalone LLM,verbal confidence 加权的 LAURAE 平均提升 0.027,优于等权 naive 集成、entropy 权重和 min-max confidence 变体。

集成变体 平均相对 standalone LLM 的变化 说明
LAURAE +0.027 verbal confidence 作为权重,平均最好
LAURAE-naive +0.015 等权集成有提升,但在部分数据集损失较大
LAURAE-entropy +0.006 熵权重有效但不如自报置信度
LAURAE-minmax -0.013 数据集内 min-max 置信度反而变差
LAURAE-agg +0.0007 用数据集平均置信度替代逐文本置信度几乎无额外收益

关键发现

  • 只看一个英文数据集会高估 LLM 零样本 ARA 的普适性。旧方法 LLM-v-ns 平均与公式、RSRS 接近,而不是全面碾压。
  • Llama 70B 在英语数据上整体最强,但非英语数据上 Aya 32B 更稳,说明专门的多语言训练比单纯参数规模更重要。
  • Expected value scoring 是低成本高收益改动,尤其对 Asset/Vikidia 这类比较任务有用,因为它能减少两个文本被判为同分的情况。
  • LAURAE 在 MedReadMe 上从公式的 0.469 提升到 0.770,说明对医疗可读性这类技术文本,LLM 语义理解与浅层特征融合很有价值。

亮点与洞察

  • 论文最强的地方是评估很全面。它没有只在 CLEAR 一个英文数据集上证明 LLM 好,而是把语言、文本长度、标注尺度、技术文本和比较任务都纳入评测。
  • “同一标注尺度 prompt”看似简单,但非常重要。让 LLM 按 CEFR 定义打分,其实是在把 task ontology 明确写进 prompt,比泛泛要求“给可读性评分”可靠得多。
  • verbal confidence 作为无监督集成权重很巧妙。它避免使用 dev labels 调参,同时比 entropy 这类纯概率不确定性更符合 LLM 作为自然语言评估器的特点。
  • 这篇论文对医疗 NLP 很有实用意义。很多医院/健康机构仍用传统公式衡量患者材料,而 LAURAE 提供了一个性能更强但仍无需标注训练的替代方案。

局限与展望

  • LAURAE 比传统公式要求更高:需要 Python 能力和 GPU/LLM 推理资源。作者报告 14B 以下模型用 1 张 A100,Aya 32B 用 2 张 A100,Mixtral/Llama 70B 用 3 张 A100。
  • 方法不如公式可解释。公式能直接解释句长、词长等因素,LAURAE 虽然要求 LLM 生成解释,但论文没有验证这些解释是否忠实或有用。
  • 评估主要看与 ground truth 的相关性,而非绝对 grade-level 或 CEFR level 的准确率。实际应用中,医疗材料常需要明确判断“是否达到 6 年级阅读水平”,这还需单独评估。
  • 医疗场景只覆盖 MedReadMe 一个数据集,不能完全代表所有患者材料、疾病说明、知情同意书或多语言健康资料。
  • 伦理上,作者明确不建议用该方法评价个人写作能力。可读性模型可能对某些写作风格存在偏差,应主要用于文本集合和材料版本比较。
  • LLM 推理有能源成本,且开源模型版本变化可能影响可复现性;后续可研究量化模型是否保留 ARA 性能。

相关工作与启发

  • vs 传统可读性公式: FKGL/ARI 等公式极易使用,但只看浅层特征;LAURAE 融合 LLM 语义判断后在 14 个数据集平均从约 0.599 提升到 0.740。
  • vs 监督式 BERT/ML ARA: 监督模型依赖标注和训练,不适合很多低资源或快速应用场景;LAURAE 仍保持无监督,不需要目标数据集标签。
  • vs RSRS: RSRS 用 PLM surprisal 衡量词语意外性,属于无监督神经方法;LAURAE 在大多数数据集上更强,尤其对多语言和技术文本更稳。
  • vs GPT-4 零样本可读性工作: 既有工作证明了闭源 GPT 在单一英文数据集上的潜力;本文把问题推进到开源 LLM、多语言、多文本长度和集成鲁棒性。
  • 启发: LAURAE 的思想可以迁移到其他无监督 NLP 评估任务,例如 toxicity、情感、文本清晰度:让 LLM 给语义判断,让浅层或规则特征提供保底,再用置信度做无监督权重。

评分

  • 新颖性: ⭐⭐⭐⭐ 单个组件不复杂,但把尺度 prompt、期望值评分和置信度加权集成组合成可靠无监督 ARA 方法很有新意。
  • 实验充分度: ⭐⭐⭐⭐⭐ 10 个开源 LLM、14 个数据集、多语言、技术文本、消融和集成变体都覆盖,实验非常扎实。
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,结果解释充分;部分图表依赖相关性/准确率混合指标,初读需要注意数据集类型差异。
  • 价值: ⭐⭐⭐⭐⭐ 对医学文本、教育材料和文本简化评估都有直接应用价值,也为无监督 LLM+规则集成提供了通用范式。