Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ABc5y3741T
代码: https://huggingface.co/KOREAson （数据与模型集合）
领域: LLM推理 / 多语言推理
关键词: 语言混合CoT, 中资源语言, 韩语推理, 数据蒸馏, SFT

一句话总结¶

针对中资源语言（韩语）缺乏长推理模型的问题，本文提出 Language-Mixed CoT——让模型在思考时以英语为"锚"做逻辑推演、同时保留韩语关键术语，再配上自采的 5.79M 原生韩语 prompt 与高产子集蒸馏，仅用 SFT 就训出 KO-REAson-35B，在 9 个韩语 benchmark 上取得最高平均分 64.0，且小模型平均提升 +18.6 分。

研究背景与动机¶

领域现状：前沿模型靠长链思考（long-CoT）在上下文里探索解空间来提升推理。开源社区复现这种能力的主流路线是从前沿教师模型蒸馏：系统化收集 prompt → 教师生成长推理轨迹 → 质量过滤 → SFT。但这些 pipeline 几乎只服务英语（少量中文），中资源语言怎么搭建推理模型仍是空白。

现有痛点：把高资源语言的配方直接搬到韩语行不通——韩语的基座模型更弱、高质量数据稀缺，而 RL 冷启动又强依赖"强基座 + 可靠奖励模型 + 大规模数据"三件套。退而求其次用翻译语料训练时，作者实测 Qwen2.5-1.5B 在翻译版 OpenThoughts 上训练后，MATH 从 25.5 涨到 74.4，但韩语文化基准 HAE-RAE Bench 却从 35.2 暴跌到 15.3——翻译腔污染了语料，模型对日常口语、文化语境的鲁棒性很差。

核心矛盾：推理过程到底用哪种语言写？两种单语方案各有硬伤——全用英语推理会引入翻译噪声（prompt 被误译、误差累积、模型"忘掉"原始韩语后跑题）；全用韩语推理则推理能力明显下降，且在英语预训练基座上长期训韩语会引发分布漂移，损害原有强项。

本文目标：为中资源语言找到一条可复现、可负担的配方，让模型在"推理 + 文化知识"多个维度都稳健，而不只是会做数学题。

切入角度：作者观察到推理的"逻辑骨架"和"语义忠实"可以解耦——逻辑推演让英语这个强项语言来扛，关键术语和引用则保留目标语言。再叠加"不靠翻译、直接采原生 prompt"来保证语料的真实分布。

核心 idea：用 English-anchored Language-Mixed CoT（英语做逻辑锚、韩语保术语）代替单语 CoT，配合大规模原生韩语数据与高产子集蒸馏，纯 SFT 就把中资源语言推到 SOTA。

方法详解¶

整体框架¶

整篇工作是一条"采数据 → 造监督信号 → 蒸高产子集 → 跨家族 SFT"的数据-中心 pipeline，没有改模型结构，全部增益来自监督信号格式和数据质量。具体地：先从韩语社区/问答站爬取 5.79M 条原生用户 prompt（YI-SANG 指令集），用 Qwen3-32B 当教师、强制 Language-Mixed CoT 格式生成 3.7M 条长推理轨迹（YI-SANG 全集）；再通过逐类别消融 + loss-spike 规则过滤 + 去污染，蒸馏出 260k 的高产子集 YI-SANG-HQ；最后在这个子集上对 4B–35B、跨 6 个模型家族做 SFT，得到 KO-REAson 系列。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["5.79M 原生韩语<br/>用户 prompt"] --> B["原生韩语指令采集<br/>逐字保留 + 轻过滤"]
    B --> C["Language-Mixed CoT 监督<br/>Qwen3-32B 教师<br/>英语锚 + 韩语术语"]
    C --> D["3.7M 长推理轨迹<br/>(YI-SANG 全集)"]
    D --> E["高产子集蒸馏<br/>逐类别消融 + loss-spike 过滤 + 去污染"]
    E --> F["YI-SANG-HQ<br/>260k 高产样本"]
    F --> G["纯 SFT 训练配方<br/>跨 6 家族 4B–35B"]
    G --> H["KO-REAson 系列<br/>KO-REAson-35B SOTA"]

关键设计¶

1. Language-Mixed CoT：英语做逻辑锚、韩语保术语的代码切换

这是全文的核心监督信号，直接针对"推理用哪种语言"的核心矛盾。做法是在 Think 阶段让模型代码切换（code-switching）：大部分逻辑脚手架用英语写，但把命名实体、引用片段、关键术语保留成韩语。生成时通过 prompt 指示教师 Qwen3-32B 保留韩语关键词、其余用英语推理；生成后用正则过滤，丢掉韩语字符比例落在 \([5\%, 20\%]\) 之外的样本。这样既借到英语的强推理能力，又不丢失韩语 prompt 的语义忠实。消融（Table 2）很能说明问题：在 Gemma-3-4B 上，English-anchored Language-Mixed CoT 在 HRB(54.9)/MCLM(55.8)/KMMLU-R(53.0) 三项全面超过全英语(50.3/48.1/52.2)和全韩语(40.6/25.6/42.5)；作者还试了中文锚、俄语锚（依据"中文与韩语文化更近、俄语更远"），发现只有英语锚才能在数学 MCLM 上拿到增益，其余锚语言数学反而掉。

2. 原生韩语指令采集：不洗 prompt、逐字保留真实语料分布

针对翻译语料"翻译腔污染、对口语不鲁棒"的痛点，作者干脆自己采原生 prompt 而非翻译。流程是两步法律分级爬取：作者先用领域知识圈定 54 个用户问答社区，给每个站标 A（可爬可再分发）/B（可爬但禁商用与再分发）/C（禁爬）三类许可，排除 C 站、低量站、结构混乱站和近重复后剩 28 站。关键反直觉的一点是——常规做法会用模板或 LLM 改写来"规范化"种子指令，但作者发现这种规范化会抹掉用户特征（错别字、缩写、混排、网络体），反而损害部署时的鲁棒性，所以逐字保留 prompt，只做轻量自动过滤：丢弃韩语字符比 < 30% 的、过短(<50 字符)或过长(>8192 字符)的。最终 YI-SANG 含 5.79M prompt / 3.7M 轨迹 / 6.77B token，是已公开的最大韩语后训练语料。由于纯 web 语料缺竞赛级难题，再用 Gemini-2.5-Flash 翻译补入 OpenThought（早期试 GPT-4o-mini、Qwen2.5-72B 会引发训练不稳定）。

3. 高产子集蒸馏：逐类别消融 + loss-spike 规则过滤 + 去污染

3.7M 全集多轮训练算力扛不住，需要从中挑出"高产"小子集。作者先逐类别单独训练看每类带来什么：OpenThought 在数学 MCLM 上增益最大，其次 Science、Code；Exams 对 HAE-RAE Bench 和 KMMLU-Redux 最有效；而 Medical 高度专精——只提升 ClinicalQA 却显著拖累其他所有 benchmark，于是连同 Daily 一起被剔除。最终只留 OpenThought + Code + Exams + Science（约 1.8M）。接着用代理小模型（Kanana-1.5-2.1B）做单 epoch "试跑"，把 loss spike（loss 突升且下一步不回落）定位到具体 batch、人工检查、写规则把该失败模式从全集清掉、重启，反复直到 loss 曲线稳定；三类反复触发的元凶是：响应无限重复同一短语、含多个 <think> 块、</think> 之后最终解写成非韩语；超过 16k token 的超长轨迹也丢掉。再用 13-gram 去污染（先用 MeCab-KO 做形态学切分归一化，再分别对归一化串和原文建 13-gram，与任一 benchmark 有 ≥1 个 13-gram 重叠就删），删掉约 0.7% 轨迹（~25.9k）。最终 YI-SANG-HQ 含 260k 样本（OpenThought 62k / Code 86k / Science 37k / Exams 66k）。期间还配了两种"考试题增广"——Style（加风格指令）和 Option（用 BM25 检索相似题、合并干扰项），二者单用效果相当，于是都用。

4. 纯 SFT 训练配方：不靠 RL、不喂 web 答案、只从 prompt 重生成目标

针对中资源语言"强基座稀缺、RL 冷启动易崩"的现实，作者选择只用 SFT：RL（如 GRPO）依赖强基座和稳定奖励，对韩语不现实，所以先用精心蒸馏的数据搭一个强基座，把 RL 留给后续。响应生成上，作者放弃了"agreement-sampling"（多次采样选与 web 答案一致的，太费算力）和"hint-based refinement"（把 web 答案前置让模型改写，有泄漏与分布漂移风险），也不信任 web 抓来的答案（不可靠、强 LLM 可能已超过众包答案），最终只给教师 prompt、从零重生成所有目标，不喂任何 web oracle。教师选型上，Qwen3-32B 带推理优于 Qwen3-4B 带推理，而后者又超过 Gemini-2.5-Pro 和 Qwen3-32B 关推理——印证了显式推理才是解锁能力的关键。所有训练默认 5 epoch（A.X-3.1-35B 因算力限制 3 epoch）。

损失函数 / 训练策略¶

全程标准 SFT 监督微调，无自定义损失。评测统一用 vLLM，temperature=0.7、top_p=0.9、max_tokens=32768，最终答案要求包在 \boxed{...} 里并用 math-verify 校验；主实验跑 3 次独立试验报均值 ± 标准误，消融跑单次。

实验关键数据¶

主实验¶

20B+ 量级对比（9 个 benchmark，KO-REAson-35B 基于 A.X-3.1 + YI-SANG-HQ）：

Benchmark	GPT-OSS-20B	DS-R1-32B	EXAONE-Deep-32B	QwQ-32B	KO-REAson-35B
KMMLU-Redux	67.6	70.0	68.2	74.7	76.0
KMMLU-Hard	39.0	43.3	43.5	49.0	51.4
Math (Ko)	82.8	85.4	84.8	82.3	87.5
HRB	65.1	70.8	76.1	75.5	78.9
Average (9 项)	58.8	56.4	57.4	59.6	64.0

KO-REAson-35B 在 9 项里 5 项第一、其余第二，拿到最高平均分。竞赛级数学（AIME2024-Ko 66.7、KSM 65.7）略逊 GPT-OSS-20B，作者归因于混合里竞赛题太少（过滤后仅 ~60k 翻译 OpenThought，远少于原始的近 1M）。

消融实验¶

配置 (Gemma-3-4B)	HRB	MCLM	KMMLU-R	说明
English-only CoT	50.3	48.1	52.2	单语英语
Korean-only CoT	40.6	25.6	42.5	单语韩语，数学崩
Lang-Mixed (zh/ko)	48.2	26.3	45.3	中文锚，数学无增益
Lang-Mixed (en/ko)	54.9	55.8	53.0	英语锚，三项全胜

逐类别贡献（Gemma-3-4B）：OpenThought 对数学 MCLM 增益最大(55.8)；Exams 对 KMMLU-R 最有效(64.2)；Medical 提升 ClinicalQA(65.6) 却把 MCLM 压到 20.9——被剔除。

关键发现¶

英语锚是数学增益的唯一来源：只有 en/ko 混合在 MCLM 上有提升，zh/ko、ru/ko 在数学上都不灵；Gemma3-4B 因预训练含俄/中数据，在 HRB/KMMLU-R 上对俄、中锚也有增益，而只训英韩的 Kanana-1.5 则没有，说明增益与基座预训练语言分布强相关。
跨家族、跨尺度普适：9 个模型（4B–35B、6 家族）训 YI-SANG-HQ 后几乎全面提升，数学类（Math-Ko、AIME24、KSM）增益尤其明显；小/中模型平均提升 +18.6 分；只有 2 例轻微下降（< 2 分）。
跨语言 + 多模态"免费午餐"：只用韩语文本训练的 KO-REAson-12B，在英语推理（AIME25 15.6→32.0、GPQA 30.0→45.1）和韩语视觉语言（HAERAE-Vision 15.47→26.42）上都涨——迁移偏向重推理任务，对浅层事实题增益有限。

亮点与洞察¶

把"逻辑语言"和"语义语言"解耦：Language-Mixed CoT 的巧妙在于它不是简单选英语或韩语，而是让英语扛逻辑骨架、韩语保术语忠实，一举绕开"翻译噪声 vs 推理退化"的两难——这个 code-switching 思路可直接迁移到任何"强英语基座 + 中资源目标语言"的组合。
不洗数据反而更鲁棒：逐字保留用户 prompt（错别字、网络体都留）这一反直觉决定，揭示了部署鲁棒性来自真实分布而非干净模板，对所有面向真实用户的指令数据构建都有借鉴。
loss-spike 当数据体检工具：把训练 loss 突刺当信号去人工定位坏样本、写规则全集清洗再重启，是一套朴素但好用的数据质量闭环，可复用到任何大规模 SFT 语料清洗。

局限性 / 可改进方向¶

竞赛级数学是短板：混合里竞赛题太少导致 AIME2024、KSM 落后 GPT-OSS-20B，作者把"补更多翻译竞赛题"留给未来工作。
只验证了韩语：方法在韩语这一个中资源语言上做案例研究，对其他语言（尤其是与英语字形/语系差异更大的）能否同样奏效未直接验证。
依赖强教师：整条 pipeline 的轨迹质量系于 Qwen3-32B 这个教师，若目标语言连可用的强多语言教师都没有，配方可能退化。
止步 SFT：作者明确把 RL 留作后续，当前模型只是"为 RL 准备的强基座"，长推理的进一步上限尚未触及。

评分¶

新颖性: ⭐⭐⭐⭐ Language-Mixed CoT 的 code-switching 监督信号简洁有效，是对"推理语言"问题的清晰解法
实验充分度: ⭐⭐⭐⭐⭐ 100+ 消融、9 模型 6 家族、9 benchmark、跨语言/多模态迁移验证，数据极其扎实
写作质量: ⭐⭐⭐⭐ 动机推导清楚、消融讲故事，数据-中心方法叙述完整
价值: ⭐⭐⭐⭐⭐ 开源最大韩语后训练语料 + 完整配方，为所有中资源语言社区提供可复现路径