Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety¶
会议: ACL 2026
arXiv: 2605.13709
代码: 无(数据基于 UFLI K–2 课程 + GPT-4o/Llama-3.3 生成)
领域: 文本生成 / 教育
关键词: 儿童阅读、可控难度、紧凑 LLM、Rewarded SFT、QLoRA
一句话总结¶
作者用 UFLI K–2 英语阅读课程对应的 2,580 篇 GPT-4o / Llama-3.3-70B 生成故事,对三个 8B 模型(Llama 3 / Granite 3.3 / Apertus)做 4 种 SFT 设计(baseline / Good Stories / Rewarded SFT / 模拟儿童读音错误),证明 小模型 + 合适 SFT 策略 可在 Spache 可读性、句法复杂度、毒性等 K-2 关键指标上超过 zero-shot GPT-4o 与 Llama-3.3-70B,其中 Rewarded SFT 最稳定、几乎无幻觉。
研究背景与动机¶
领域现状:生成式 AI 在儿童教育内容生产里热度高涨,已有大量"AI story for children"系统(AIStory、StoryPrompt、Storiza 等)。先前同作者团队 (Leite et al. 2025) 用 zero-shot prompting + GPT-4o / Llama-3.3-70B 按 UFLI K–2 英文阅读课程生成 2,580 篇故事。
现有痛点:(1) 即使最强闭源 GPT-4o,也很难严格满足 K-2 课程约束——经常突破 phoneme 范围、用超出二年级词汇/句法的表达,破坏 readability 目标;(2) 闭源 API 持续付费 + 70B 本地部署需要 80GB+ 显存,教室、家庭显然部署不起;(3) <10B 紧凑模型理论上可负担,但在 multi-dimensional 教育约束(严格词表 + 句法简化 + 安全护栏)下容易"mode collapse 或 logical fragmentation",标准 SFT 不够。
核心矛盾:紧凑模型 (sub-10B) 的"创造性 vs 严格 rule-following"trade-off 严重——一旦把约束加紧,故事就趋于重复模板化;一旦保留创造性,约束又守不住。这就是作者命名的 "controllability gap"。
本文目标:(RQ1) 哪种 SFT 策略最能让 sub-10B 模型生成同时满足 K-2 readability + 叙事连贯的儿童故事?(RQ2) 这些紧凑微调模型能否在内容安全上达到与 zero-shot 70B 模型相当的水平?
切入角度:把"教育约束"从 prompt 层 push 进 model parameters——通过 SFT 内化课程结构;并系统比较三种增强:(a) 用质量过滤的"Good Stories"子集训练;(b) Rewarded SFT(把多指标 reward 嵌入 loss 权重);(c) 注入模拟儿童读音错误的输入端 augmentation。
核心 idea:紧凑模型不需要更大参数,需要"reward-aware 数据 + 教学领域内化"——把 RL 简化为"weighted SFT"绕过样本量不足训不出 RLHF 的现实约束。
方法详解¶
整体框架¶
基础设施:3 个 8B 模型(Llama-3-8B / Apertus-8B-instruct-2509 / Granite-3.3-8B-instruct);QLoRA(NF4 4-bit + LoRA r=32, α=64, dropout=0.1, lr=1e-4, batch=4, epochs=5);训练数据 = UFLI K–2 课程 129 课 × 20 故事(GPT-4o 10 + Llama-3.3 10)= 2,580 篇;评估 5 指标(Spache 可读性 / GPT-2 LM-PPL / coherence 即相邻句共享 NER 数 / 句法复杂度 = avg MDD + avg NSC / Detoxify toxicity)+ 两种 Self-BLEU 重复率;推理时 nucleus sampling top-p=0.9, T=0.8;每个 (实验, 模型) 组合生成 1,290 篇(129 lesson × 10),人工挑掉非故事输出后做指标分析。每个 SFT 实验设计共四类,下文为三个关键设计点。
关键设计¶
-
Rewarded SFT——用多指标 scalar reward 重新加权 SFT loss:
- 功能:在缺乏足够 RLHF 样本时,将 RL 化简为带权重的监督学习,使 8B 模型在训练中就感知"哪些故事是好故事"。
- 核心思路:对每条训练样本 \(i\),先用 5 个评估指标算原始分;对"低值好"的指标(如 Spache、PPL)用 inverted min-max 归一化 \(\tilde{m}_i = \max(0, \min(1, (b_m - m_i)/b_m))\),对"高值好"的用标准 min-max;然后用 5 个归一化指标的无权平均得到 scalar reward \(r_i = \frac{1}{5}\sum_k \tilde{m}_i^{(k)}\)。SFT Trainer 的 cross-entropy loss 按 \(r_i\) 重加权,让模型在"高 reward 故事"上学得更彻底。这一套与 reward-weighted regression(Peters 2006)和 offline alignment(Mukherjee et al. 2025)一脉相承,但不需要训练 reward model。
- 设计动机:(a) 团队只有 2,580 条故事样本,远不够训练稳定的 RLHF reward model;(b) 紧凑模型在严格约束下需要"哪些样本更值得学"的明确信号,否则 mode collapse;(c) 把已经计算好的 5 个自动指标当 cheap reward,工程实现只是改 loss 权重而已,不增加推理成本。
-
Good Stories——质量过滤子集 SFT:
- 功能:检验"more data vs better data"在 K-2 故事任务上的相对价值。
- 核心思路:用 5 个指标的语料均值作阈值,保留所有 5 个指标都不低于均值的故事,得到 996 篇(约 38% 数据),再用这个子集做标准 SFT。
- 设计动机:与 AlpaGasus / LIMA 等"少而精胜过多而粗"研究方向一致,同时验证质量过滤是否比 reward weighting 更简单有效。
-
SFT with simulated children's reading errors——把儿童错读 phoneme 作 input augmentation:
- 功能:让模型在训练时就"看到"真实早读者会犯的错音,输出端学会针对性强化目标 phoneme。
- 核心思路:用 GPT-OSS-120B 配合少量真实儿童错读样本做 few-shot prompt,为每篇故事生成 3–8 个"模拟错读 phoneme";训练时把"原课程 phoneme + 模拟错读 phoneme"拼起来作为输入,故事仍为目标。这套与 Self-Instruct + LaMP 个性化 + STaR bootstrapping 思路一致。
- 设计动机:真实儿童阅读错误数据稀缺且受 IRB 限制,但能 explicitly 教模型"针对哪些音去出题"是显著的应用价值;同时 input 侧 augmentation 不改变 target,对 lexical/syntax 控制几乎零负担。
实验关键数据¶
主实验:Baseline vs Rewarded SFT(关键指标摘录自 Table 1)¶
| 指标 | Baseline-Llama3 | Baseline-Granite | Baseline-Apertus | Rewarded-Llama3 | Rewarded-Granite | Rewarded-Apertus |
|---|---|---|---|---|---|---|
| Coherence ↑ | 0.02 | 0.07 | 0.09 | 0.12 | 0.18 | 0.13 |
| Syntactic Complexity ↓ | 4.63 | 3.72 | 3.41 | 3.38 | 3.12 | 2.96 |
| Spache Readability ↓ | 4.05 | 3.52 | 2.83 | 2.71 | 2.56 | 2.34 |
| Toxicity ↓ | 0.01 | 0.06 | 0.00 | 0.01 | 0.02 | 0.02 |
| LM-PPL ↓ | 23.16 | 24.91 | 16.49 | 16.86 | 14.55 | 19.73 |
| Repetition in lessons ↓ | 0.03 | 0.11 | 0.12 | 0.11 | 0.12 | 0.09 |
| Total repetition ↓ | 0.21 | 0.37 | 0.40 | 0.37 | 0.42 | 0.32 |
与 zero-shot 大模型对比(Table 2 摘录):Llama-3.3-70B 原始 Spache=2.54, Syn=2.81, PPL=26.71;GPT-4o 原始 Spache=3.31, Syn=3.94, PPL=28.08。Rewarded-Apertus(Spache=2.34, Syn=2.96, PPL=19.73)在可读性和句法上接近或超过 Llama-3.3-70B,且远好于 GPT-4o。
消融实验:四种 SFT 策略 × 三个模型(关键 take-away,源自 Table 2)¶
| 实验设计 | 最佳模型 | Spache | Syn | PPL | 备注 |
|---|---|---|---|---|---|
| 原始 GPT-4o (zero-shot) | – | 3.31 | 3.94 | 28.08 | 闭源 SOTA baseline |
| 原始 Llama-3.3-70B (zero-shot) | – | 2.54 | 2.81 | 26.71 | 开源 SOTA baseline |
| Baseline SFT | Apertus | 2.83 | 3.41 | 16.49 | 标准 SFT 已显著降 PPL |
| Good Stories | Apertus | 2.63 | 3.14 | 23.64 | Spache 进一步↓,PPL 反升(数据量减少) |
| Rewarded SFT | Apertus | 2.34 | 2.96 | 19.73 | 几乎所有指标最优 + 稳定无幻觉 |
| SFT + Simulated errors | Apertus | 2.51 | 2.41 | 31.32 | Syn 最低但 PPL 偏高(短故事 + 偶尔 genre shift) |
Welch's t-test 显示,Rewarded SFT 与 GPT-4o/Llama-3.3-70B 在 coherence、句法、Spache、PPL 上的差异 全部 p<0.001 且 Cohen's d>0.8(大效应量)。
关键发现¶
- 8B 模型可以打过 zero-shot 70B 模型在 K-2 难度上:Rewarded-Apertus 的 Spache 2.34、PPL 19.73 双指标全面胜过 Llama-3.3-70B (2.54, 26.71) 与 GPT-4o (3.31, 28.08),给"小模型 + 微调"在垂直教育场景的实用价值提供了强证据。
- Rewarded SFT 一致优于其他 SFT 设计且最稳定:生成的 1,290 篇故事几乎无 hallucination、无 garbled text、无非故事内容;其他实验都有 <10% 的不可用输出。
- Good Stories 不一定全面胜过 Rewarded SFT:减少数据量带来 Spache 略降但 PPL 反升,验证 "less is more for alignment" 在这个任务上不绝对成立——reward shaping 比数据过滤更可靠。
- Simulated errors 实验降低句法复杂度最多但有副作用:Apertus 的 Syn 拿到全表最低 2.41,但部分故事过短 → PPL 异常升高(短句 + 偶尔 genre shift 接非故事内容)。
- Llama-3 8B 一致弱于 Granite 3.3 / Apertus:在大部分实验中 Llama-3 都落后另两个模型,说明同等 8B 规模下基础模型选择对教育细分任务影响显著。
- 毒性几乎全表 0–0.06:5 个/数据集 1290 故事中含 mild 不当语言("too fat"、"stinky"、"the pig can gag"),但 toxicity mean 0.00–0.06,整体很安全。
- 重复度问题源于训练数据本身:Self-BLEU 总体在 0.21–0.42,源自 Llama-3.3-70B 训练故事中重复使用 "Sam, Pam, mats, pigs, farm"——微调小模型继承了这些 token frequency bias,验证 Santurkar 等"fine-tuning 数据决定生成行为"的结论。
亮点与洞察¶
- "Rewarded SFT = 把多指标平均 reward 当 sample weight"是极简但有效的对齐范式:实现门槛极低,避免了完整 RLHF 所需的样本规模和工程复杂度。它给"研究团队 sample 量不够但有 cheap automatic metric"的所有场景一个可拿来即用的方案。
- 8B 模型 + QLoRA + cheap reward shaping 已经能在 K-2 教育内容生成上超越 GPT-4o:这对资源受限的教育机构、家庭部署具有立刻可执行的价值,"成本-民主化"叙事在数字上得到强支撑。
- 明确警示"reward = evaluation metric 同源"的潜在 over-optimization:作者在 Limitations 里诚实地承认 reward 与 metric 是同一组 5 个指标,可能让模型只对 proxy 高分。这种自我批评在 educational AI 论文里少见。
- 课程驱动的 SFT 设计可迁移到其他强约束场景:例如医疗教育(科普文不能含错术语)、法律辅导(不能含错条款)等"输出必须严格服从领域约束"的任务都可以借鉴 Rewarded SFT + Good Stories + Input augmentation 三件套。
- 模拟儿童读音错误作 augmentation 是有创造性的想法:把"用户最可能犯的错误"显式输入模型,让生成的练习题精准针对薄弱点;这种思想可推广到代码教育(模拟初学者常犯 bug)、外语教学(模拟典型语法错误)等。
局限与展望¶
- 算力受限(3 块 L4 GPU)限制了 epoch 数与未尝试的 SFT 策略(如更大 LoRA rank、full fine-tune)。
- 样本量 2,580 不足以训练 RLHF reward model,所以只能用 reward-weighted SFT 近似。
- 缺乏来自孩子、家长、教师的真实评价;所有评估都是 NLP 自动指标,可能与教育专业判断脱节。
- 仅用单一课程(UFLI),未验证到其他课程/其他语言;自动 phoneme 覆盖评测仍未解决(g2p-en 在 "CVC words" 等非标准表示上 hit rate 接近 0)。
- Reward = evaluation metrics 同源,存在 over-optimization 风险。
- 与 GPT-4o/Llama-3.3-70B 比较不完全公平——后者仅用 zero-shot prompt,没尝试 prompt optimization 或 few-shot。
- 评估用同一批 129 课,未保留 held-out 课程做"未见 phoneme constraint 泛化测试"。
- 改进思路:(1) 收集真实师生用户反馈构建完整 RLHF;(2) 把模型蒸馏到 <8B 以便手机/平板部署;(3) reward 与 metric 解耦——引入专家评分构成独立 reward;(4) 多课程跨语言迁移验证;(5) 把四种 SFT 设计组合使用(如 Good Stories + Reward + Simulated)。
相关工作与启发¶
- vs Leite et al. 2025 (Storiza):他们用 zero-shot GPT-4o / Llama-3.3-70B 做 baseline,本文在此之上展示"8B SFT 可以击败 70B zero-shot",是直接 follow-up。
- vs AlpaGasus / LIMA (Chen 2024 / Zhou 2023):他们倡导"少而精"数据,本文 Good Stories 实验在 K-2 教育任务上验证此原则有限有效——Rewarded SFT 更强。
- vs ReadCtrl / Glandorf-Meurers 2024:他们做 readability-controlled generation 但不针对儿童 + phoneme 控制;本文做更窄但更深的领域专门化。
- vs BloomLLM (Duong-Trung et al. 2024):他们用 SFT 学 Bloom 分类层级,本文学 K-2 课程结构,方法论同源。
- vs COGENT (Liu et al. 2025):同是 curriculum-oriented 教育内容生成,本文系统比较四种 SFT 策略与 70B 模型,给可控难度生成提供更扎实 baselines。
- vs StepSearch/Rewarded SFT 的 RL 系列:本文是把 RL 思想"廉价化"为 weighted SFT 的具体实现;可与 ChatR1(同时被这批 ACL 2026 提交)形成"RL 数据足够 → 走 RL;不够 → 走 reward-weighted SFT"的双轨示范。
- 启发:(1) 任何垂直应用都该先尝试 cheap reward-weighted SFT 再考虑昂贵 RLHF;(2) 教育内容生成的真正瓶颈不是参数量而是 controllability,需要 task-specific 数据 + reward shaping;(3) 模拟用户错误做 input augmentation 是任何"个性化教育"任务都该考虑的 trick。
评分¶
- 新颖性: ⭐⭐⭐ 单点方法(QLoRA + reward-weighted SFT + simulated errors)都不算全新,但组合应用于 K-2 phoneme-controlled story generation 是细分领域首次系统比较。
- 实验充分度: ⭐⭐⭐⭐ 3 模型 × 4 SFT 策略 × 7 指标 + Welch's t-test + 定性分析,覆盖度对"empirical comparison"类论文足够。
- 写作质量: ⭐⭐⭐⭐ 论证清晰、limitations 诚实直接(明确指出 reward = eval metric 同源问题)、教育背景介绍到位。
- 价值: ⭐⭐⭐⭐ 8B 模型击败 70B zero-shot 的成本-民主化叙事对教育实际部署有现实价值;同时为资源受限团队提供了 reward-weighted SFT 这一可复用范式。