Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety¶

会议: ACL 2026
arXiv: 2605.13709
代码: 无（数据基于 UFLI K–2 课程 + GPT-4o/Llama-3.3 生成）
领域: 文本生成 / 教育
关键词: 儿童阅读、可控难度、紧凑 LLM、Rewarded SFT、QLoRA

一句话总结¶

作者用 UFLI K–2 英语阅读课程对应的 2,580 篇 GPT-4o / Llama-3.3-70B 生成故事，对三个 8B 模型（Llama 3 / Granite 3.3 / Apertus）做 4 种 SFT 设计（baseline / Good Stories / Rewarded SFT / 模拟儿童读音错误），证明 小模型 + 合适 SFT 策略 可在 Spache 可读性、句法复杂度、毒性等 K-2 关键指标上超过 zero-shot GPT-4o 与 Llama-3.3-70B，其中 Rewarded SFT 最稳定、几乎无幻觉。

研究背景与动机¶

领域现状：生成式 AI 在儿童教育内容生产里热度高涨，已有大量"AI story for children"系统（AIStory、StoryPrompt、Storiza 等）。先前同作者团队 (Leite et al. 2025) 用 zero-shot prompting + GPT-4o / Llama-3.3-70B 按 UFLI K–2 英文阅读课程生成 2,580 篇故事。

现有痛点：(1) 即使最强闭源 GPT-4o，也很难严格满足 K-2 课程约束——经常突破 phoneme 范围、用超出二年级词汇/句法的表达，破坏 readability 目标；(2) 闭源 API 持续付费 + 70B 本地部署需要 80GB+ 显存，教室、家庭显然部署不起；(3) <10B 紧凑模型理论上可负担，但在 multi-dimensional 教育约束（严格词表 + 句法简化 + 安全护栏）下容易"mode collapse 或 logical fragmentation"，标准 SFT 不够。

核心矛盾：紧凑模型 (sub-10B) 的"创造性 vs 严格 rule-following"trade-off 严重——一旦把约束加紧，故事就趋于重复模板化；一旦保留创造性，约束又守不住。这就是作者命名的 "controllability gap"。

本文目标：(RQ1) 哪种 SFT 策略最能让 sub-10B 模型生成同时满足 K-2 readability + 叙事连贯的儿童故事？(RQ2) 这些紧凑微调模型能否在内容安全上达到与 zero-shot 70B 模型相当的水平？

切入角度：把"教育约束"从 prompt 层 push 进 model parameters——通过 SFT 内化课程结构；并系统比较三种增强：(a) 用质量过滤的"Good Stories"子集训练；(b) Rewarded SFT（把多指标 reward 嵌入 loss 权重）；(c) 注入模拟儿童读音错误的输入端 augmentation。

核心 idea：紧凑模型不需要更大参数，需要"reward-aware 数据 + 教学领域内化"——把 RL 简化为"weighted SFT"绕过样本量不足训不出 RLHF 的现实约束。

方法详解¶

整体框架¶

这篇论文想回答一个很实际的问题：在严格的 K-2 阅读课程约束下，到底哪种 SFT 策略能让 sub-10B 的小模型把故事写好。它不去比拼参数量，而是把同一批数据喂给三个 8B 模型（Llama-3-8B / Apertus-8B-instruct-2509 / Granite-3.3-8B-instruct），用四种不同的 SFT 设计各训一遍，再放到同一套指标下横评。训练数据来自前作：UFLI K–2 课程 129 课、每课 20 篇（GPT-4o 10 篇 + Llama-3.3-70B 10 篇），共 2,580 篇故事。评估侧固定 5 个指标——Spache 可读性、GPT-2 LM-PPL、连贯度（coherence，相邻句共享 NER 数）、句法复杂度（avg MDD + avg NSC）、Detoxify 毒性，外加两种 Self-BLEU 看重复率。四种 SFT 设计里，baseline 就是标准 SFT 对照，剩下三个（Rewarded SFT、Good Stories、模拟儿童错读增强）才是本文的关键改动。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["UFLI K–2 课程<br/>2,580 篇 GPT-4o / Llama-3.3-70B 故事"] --> B["三个 8B 模型 + QLoRA<br/>Llama-3 / Granite-3.3 / Apertus"]
    B --> C["Baseline SFT<br/>标准 cross-entropy（对照，非贡献点）"]
    B --> D["Rewarded SFT<br/>5 指标均分当 sample weight 重加权 loss"]
    B --> E["Good Stories<br/>5 指标全达标筛 996 篇再 SFT"]
    B --> F["模拟儿童错读增强<br/>输入端拼接错读 phoneme，target 不变"]
    C --> G["统一评估<br/>Spache / PPL / 连贯 / 句法 / 毒性 + Self-BLEU"]
    D --> G
    E --> G
    F --> G

关键设计¶

1. Rewarded SFT：把已经算好的多指标平均分当 sample weight，绕过训不起的 RLHF

这套设计针对的是"样本太少训不出 reward model"这个硬约束——团队手里只有 2,580 篇故事，远不够支撑稳定的 RLHF，而紧凑模型一旦没有"哪些样本更值得学"的明确信号，在严格约束下就容易 mode collapse。作者的做法是把 RL 直接化简成带权重的监督学习：对每条训练样本 \(i\)，先用 5 个评估指标各算一个原始分，对"越低越好"的指标（如 Spache、PPL）用 inverted min-max 归一化 \(\tilde{m}_i = \max(0, \min(1, (b_m - m_i)/b_m))\)，对"越高越好"的用标准 min-max，再把 5 个归一化分无权平均成一个 scalar reward \(r_i = \frac{1}{5}\sum_k \tilde{m}_i^{(k)}\)。SFT Trainer 的 cross-entropy loss 按这个 \(r_i\) 重加权，模型自然在"高 reward 故事"上学得更彻底。

它和 reward-weighted regression（Peters 2006）、offline alignment（Mukherjee et al. 2025）一脉相承，但完全不需要单独训一个 reward model——5 个自动指标本来就为评估算好了，当成 cheap reward 几乎零成本，工程上只是改了 loss 权重，推理时一点开销都不加。

2. Good Stories：只留全指标达标的子集，验证"少而精"是否真的更强

这一支是冲着"more data vs better data"这个老问题去的。做法很直接：以 5 个指标的语料均值为阈值，只保留5 个指标全部不低于均值的故事，筛出 996 篇（约 38% 数据），再在这个精选子集上做标准 SFT。

它对标的是 AlpaGasus / LIMA 这类"少而精胜过多而粗"的主张，同时也是给 Rewarded SFT 做对照——如果简单的质量过滤就能打平甚至超过 reward 加权，那后者的复杂度就不值得。实验结果（见下）恰恰说明这条"less is more"在 K-2 任务上并不绝对成立。

3. 模拟儿童错读 phoneme 作 input 端增强：让模型训练时就"看到"早读者会犯的错音

真实的儿童阅读错误数据既稀缺又受 IRB 限制，但"针对哪些音去出题"恰恰是这个应用最有价值的地方。作者用 GPT-OSS-120B 配上少量真实错读样本做 few-shot，为每篇故事生成 3–8 个"模拟错读 phoneme"；训练时把"原课程 phoneme + 模拟错读 phoneme"拼成输入，目标仍是原故事。

这套思路与 Self-Instruct、LaMP 个性化、STaR bootstrapping 同源，关键巧处在于增强只发生在输入端、不动 target，所以对 lexical / syntax 控制几乎零负担，却能显式教会模型"该强化哪些音"。

损失函数 / 训练策略¶

所有实验统一用 QLoRA（NF4 4-bit + LoRA r=32, α=64, dropout=0.1, lr=1e-4, batch=4, epochs=5）。推理时用 nucleus sampling，top-p=0.9、T=0.8；每个 (实验设计, 模型) 组合生成 1,290 篇（129 lesson × 10），人工挑掉非故事输出后再做指标分析。除 Rewarded SFT 把 loss 按 \(r_i\) 重加权外，其余三种设计都是标准 cross-entropy SFT，差异只在训练数据（全量 / Good Stories 子集 / 错读增强输入）。

实验关键数据¶

主实验：Baseline vs Rewarded SFT（关键指标摘录自 Table 1）¶

指标	Baseline-Llama3	Baseline-Granite	Baseline-Apertus	Rewarded-Llama3	Rewarded-Granite	Rewarded-Apertus
Coherence ↑	0.02	0.07	0.09	0.12	0.18	0.13
Syntactic Complexity ↓	4.63	3.72	3.41	3.38	3.12	2.96
Spache Readability ↓	4.05	3.52	2.83	2.71	2.56	2.34
Toxicity ↓	0.01	0.06	0.00	0.01	0.02	0.02
LM-PPL ↓	23.16	24.91	16.49	16.86	14.55	19.73
Repetition in lessons ↓	0.03	0.11	0.12	0.11	0.12	0.09
Total repetition ↓	0.21	0.37	0.40	0.37	0.42	0.32

与 zero-shot 大模型对比（Table 2 摘录）：Llama-3.3-70B 原始 Spache=2.54, Syn=2.81, PPL=26.71；GPT-4o 原始 Spache=3.31, Syn=3.94, PPL=28.08。Rewarded-Apertus（Spache=2.34, Syn=2.96, PPL=19.73）在可读性和句法上接近或超过 Llama-3.3-70B，且远好于 GPT-4o。

消融实验：四种 SFT 策略 × 三个模型（关键 take-away，源自 Table 2）¶

实验设计	最佳模型	Spache	Syn	PPL	备注
原始 GPT-4o (zero-shot)	–	3.31	3.94	28.08	闭源 SOTA baseline
原始 Llama-3.3-70B (zero-shot)	–	2.54	2.81	26.71	开源 SOTA baseline
Baseline SFT	Apertus	2.83	3.41	16.49	标准 SFT 已显著降 PPL
Good Stories	Apertus	2.63	3.14	23.64	Spache 进一步↓，PPL 反升（数据量减少）
Rewarded SFT	Apertus	2.34	2.96	19.73	几乎所有指标最优 + 稳定无幻觉
SFT + Simulated errors	Apertus	2.51	2.41	31.32	Syn 最低但 PPL 偏高（短故事 + 偶尔 genre shift）

Welch's t-test 显示，Rewarded SFT 与 GPT-4o/Llama-3.3-70B 在 coherence、句法、Spache、PPL 上的差异 全部 p<0.001 且 Cohen's d>0.8（大效应量）。

关键发现¶

8B 模型可以打过 zero-shot 70B 模型在 K-2 难度上：Rewarded-Apertus 的 Spache 2.34、PPL 19.73 双指标全面胜过 Llama-3.3-70B (2.54, 26.71) 与 GPT-4o (3.31, 28.08)，给"小模型 + 微调"在垂直教育场景的实用价值提供了强证据。
Rewarded SFT 一致优于其他 SFT 设计且最稳定：生成的 1,290 篇故事几乎无 hallucination、无 garbled text、无非故事内容；其他实验都有 <10% 的不可用输出。
Good Stories 不一定全面胜过 Rewarded SFT：减少数据量带来 Spache 略降但 PPL 反升，验证 "less is more for alignment" 在这个任务上不绝对成立——reward shaping 比数据过滤更可靠。
Simulated errors 实验降低句法复杂度最多但有副作用：Apertus 的 Syn 拿到全表最低 2.41，但部分故事过短 → PPL 异常升高（短句 + 偶尔 genre shift 接非故事内容）。
Llama-3 8B 一致弱于 Granite 3.3 / Apertus：在大部分实验中 Llama-3 都落后另两个模型，说明同等 8B 规模下基础模型选择对教育细分任务影响显著。
毒性几乎全表 0–0.06：5 个/数据集 1290 故事中含 mild 不当语言（"too fat"、"stinky"、"the pig can gag"），但 toxicity mean 0.00–0.06，整体很安全。
重复度问题源于训练数据本身：Self-BLEU 总体在 0.21–0.42，源自 Llama-3.3-70B 训练故事中重复使用 "Sam, Pam, mats, pigs, farm"——微调小模型继承了这些 token frequency bias，验证 Santurkar 等"fine-tuning 数据决定生成行为"的结论。

亮点与洞察¶

"Rewarded SFT = 把多指标平均 reward 当 sample weight"是极简但有效的对齐范式：实现门槛极低，避免了完整 RLHF 所需的样本规模和工程复杂度。它给"研究团队 sample 量不够但有 cheap automatic metric"的所有场景一个可拿来即用的方案。
8B 模型 + QLoRA + cheap reward shaping 已经能在 K-2 教育内容生成上超越 GPT-4o：这对资源受限的教育机构、家庭部署具有立刻可执行的价值，"成本-民主化"叙事在数字上得到强支撑。
明确警示"reward = evaluation metric 同源"的潜在 over-optimization：作者在 Limitations 里诚实地承认 reward 与 metric 是同一组 5 个指标，可能让模型只对 proxy 高分。这种自我批评在 educational AI 论文里少见。
课程驱动的 SFT 设计可迁移到其他强约束场景：例如医疗教育（科普文不能含错术语）、法律辅导（不能含错条款）等"输出必须严格服从领域约束"的任务都可以借鉴 Rewarded SFT + Good Stories + Input augmentation 三件套。
模拟儿童读音错误作 augmentation 是有创造性的想法：把"用户最可能犯的错误"显式输入模型，让生成的练习题精准针对薄弱点；这种思想可推广到代码教育（模拟初学者常犯 bug）、外语教学（模拟典型语法错误）等。

局限与展望¶

算力受限（3 块 L4 GPU）限制了 epoch 数与未尝试的 SFT 策略（如更大 LoRA rank、full fine-tune）。
样本量 2,580 不足以训练 RLHF reward model，所以只能用 reward-weighted SFT 近似。
缺乏来自孩子、家长、教师的真实评价；所有评估都是 NLP 自动指标，可能与教育专业判断脱节。
仅用单一课程（UFLI），未验证到其他课程/其他语言；自动 phoneme 覆盖评测仍未解决（g2p-en 在 "CVC words" 等非标准表示上 hit rate 接近 0）。
Reward = evaluation metrics 同源，存在 over-optimization 风险。
与 GPT-4o/Llama-3.3-70B 比较不完全公平——后者仅用 zero-shot prompt，没尝试 prompt optimization 或 few-shot。
评估用同一批 129 课，未保留 held-out 课程做"未见 phoneme constraint 泛化测试"。
改进思路：(1) 收集真实师生用户反馈构建完整 RLHF；(2) 把模型蒸馏到 <8B 以便手机/平板部署；(3) reward 与 metric 解耦——引入专家评分构成独立 reward；(4) 多课程跨语言迁移验证；(5) 把四种 SFT 设计组合使用（如 Good Stories + Reward + Simulated）。

评分¶

新颖性: ⭐⭐⭐ 单点方法（QLoRA + reward-weighted SFT + simulated errors）都不算全新，但组合应用于 K-2 phoneme-controlled story generation 是细分领域首次系统比较。
实验充分度: ⭐⭐⭐⭐ 3 模型 × 4 SFT 策略 × 7 指标 + Welch's t-test + 定性分析，覆盖度对"empirical comparison"类论文足够。
写作质量: ⭐⭐⭐⭐ 论证清晰、limitations 诚实直接（明确指出 reward = eval metric 同源问题）、教育背景介绍到位。
价值: ⭐⭐⭐⭐ 8B 模型击败 70B zero-shot 的成本-民主化叙事对教育实际部署有现实价值；同时为资源受限团队提供了 reward-weighted SFT 这一可复用范式。