K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology¶
会议: ACL 2026
arXiv: 2604.24645
代码: https://github.com/kmetbench/kmetbench-release
领域: 气象 LLM 评测 / 多模态 benchmark / 文化本地化
关键词: K-MetBench、Skew-T 图、气象推理、地理文化对齐、LLM-as-Judge
一句话总结¶
作者基于韩国国家气象工程师认证考试 25 届真题构造了 1,774 题的 K-MetBench,沿"多模态视觉 / 专家推理 / 地理文化 / 子领域细粒度"四个正交维度评测了 55 个 LLM/MLLM,发现现有模型存在普遍的 modality gap(视觉气象图准确率较纯文本平均掉 18.6%)、reasoning gap(答案对但 rationale 幻觉)、geo-cultural gap(小韩国模型 A.X-4.0 在韩特题上 78.9 反超 235B 的 Qwen3-VL 的 72.6),证明纯参数规模不能解决文化本地化问题。
研究背景与动机¶
领域现状:LLM/MLLM 在专业领域(医学 MedQA、法律 BarExam)已经达到执照考试通过线,气象领域也开始出现 ClimaQA、ClimateIQA、WeatherQA 等 benchmark,但都用单一聚合分数衡量"模型能不能行"。
现有痛点:作者把已有气象评测的问题归纳为四个 gap:(1)modality gap——大多数 benchmark 纯文本,但气象预报本质多模态(地面图、500/200 hPa 高空图、Skew-T Log-P 图、雷达图等),现有评测严重低估视觉短板;(2)reasoning gap——只看答案对错,不评 rationale 是否合理;模型可能用错误推理蒙对答案(shortcut learning);(3)geo-cultural gap——气象规则、地形、KMA(韩国气象厅)规范都是本地化的,全球模型把这些信息抽象掉;(4)granularity gap——单一总分掩盖了模型在"事实回忆"vs."定量推理"vs."大气动力"等子领域上的差异。
核心矛盾:气象工作是高赌注 + 多模态 + 强本地化 + 强物理推理的复合任务,但任何单维度 benchmark 都只能照出一个侧面;要给"模型能不能上岗当韩国预报员助手"一个真正可信的诊断,必须把四维一起评,并且 source-of-truth 必须是有官方权威的认证考题,否则评测本身就缺失信效度。
本文目标:(1)造一份基于韩国国家气象工程师认证考试 25 届真题、官方分 5 大子学科的诊断 benchmark;(2)把每篇真题打上四维标签(multimodal / reasoning rationale / Korean-specific / sub-domain);(3)在 55 个模型上跑全套实验,给出每个维度上"哪类模型差在哪"的可操作诊断地图;(4)用 LLM-as-a-Judge 评 rationale 并通过 meta-evaluation 证明其与人类专家一致。
切入角度:把"专业领域 LLM 评测"从"过没过及格线"提升为"在哪些子能力上没过、为什么没过"的诊断式评测,并把韩国本地认证考题作为"金标"以兼顾权威性、客观性、本地化。
核心 idea:用一份多维度标注 + 4 个正交诊断子集 + LLM-as-a-Judge with meta-validation,把气象 LLM 评测从"准确率排行"重塑为"四维 capability radar",让 modality / reasoning / geo-cultural / granularity 四个能力短板各自显形。
方法详解¶
整体框架¶
K-MetBench 构造与评测 pipeline 分三阶段:(1)数据构造:从 2003–2022 年韩国 National Meteorological Engineer 25 届考试官方公开 PDF 中抽 2,500 题,按相似度 0.6 阈值去重(保留 highest/lowest 这类逻辑反转题),剩 1,774 题;用 Gemini-2.5-Pro 改写题干、随机化选项顺序以缓解 contamination,人工校 14.88%;多模态题由 3 名研究者修复 OCR 工件,把公式图转 LaTeX 保留气象图原图。(2)四维标注:把 1,774 题打上 Modality(82 题带 image)、Reasoning(141 题带专家 rationale)、Geo-Cultural(73 题"韩特题")、Granularity(5 个子学科 P1-P5)四类标签,互相正交。(3)评测:55 个模型零样本评测,记录 hard accuracy + LLM-as-Judge 的 rationale 分(Factuality/Logicality/Depth/Clarity 四轴),并和 KMMLU / ClimaQA / ClimaIQA / WeatherQA 做 Kendall’s τ 相关性来证明 K-MetBench 评测的新维度信息。
关键设计¶
-
基于权威国家认证 + 多阶段去污的数据构造:
- 功能:保证题目权威、覆盖完整、抗数据污染。
- 核心思路:(a)原始来源 = 韩国 HRDK 官方发布的气象工程师考试真题(25 届,2003-2022),分 P1 预报理论 / P2 观测方法 / P3 大气动力 / P4 气候学 / P5 大气物理,每部分约 330-376 题;(b)用
difflib.SequenceMatcher阈值 0.6 去重并人工 audit 反转逻辑题;(c)所有选项随机化顺序、题干用 Gemini-2.5-Pro 重写(强约束保留专业术语),人工校 14.88%;(d)公式图转 LaTeX 避免 OCR 瓶颈,但 Skew-T / 等压线图等专业图保留原图以测 MLLM 真实视觉能力。 - 设计动机:(1)国家认证考题自带 60% 通过线作为"人类合格水位",提供了天然的 anchor;(2)改写 + 随机化挤掉训练集污染的可能性,避免高分被记忆 bias 推高;(3)公式 vs. 图的区别对待是关键——若全转文本就抹掉 modality 测试,若全保图又被 OCR 噪声污染——这种"内容分类处理"的工程决策为后续 benchmark 提供了可复用模板。
-
四维度正交诊断子集:
- 功能:把"专业能力"分解成可独立评测的四个轴,让模型短板各自显形。
- 核心思路:(a)Modality 子集(82 题, 4.62%)覆盖地面图、200/500 hPa 高空图、Skew-T Log-P 图等,专测 MLLM 是否能从致密视觉信号里提取气压梯度、风矢、热力学指数;(b)Reasoning 子集(141 题)配有专家审核 rationale,作为评 rationale 质量的 reference——rationale 由 GPT-5 先生成初稿、再由两位气象教授审核修正;(c)Geo-Cultural 子集(73 题)由 GPT-4.1 + Gemini-2.5-Pro 双 LLM 识别"韩特"概念(如 Yeongdong 山区、KMA 法规、Changma 梅雨锋)再人工校验;(d)Granularity 子集 = 官方 5 大学科,每科 332-376 题,确保子领域均衡。这四个轴两两正交,单个题可同时属多个子集。
- 设计动机:现有 benchmark 如 KMMLU 把气象作为 45 学科里的一个子集,分数粒度太粗;K-MetBench 把"专业能力"显式拆开后,诊断报告能直接告诉模型开发者"你的 modality 比 reasoning 差 10 分,应该补充什么数据",是一种把 benchmark 从 "leaderboard" 升级为 "diagnostic tool" 的设计哲学。
-
LLM-as-a-Judge 评 rationale + meta-evaluation 验证:
- 功能:在没有大量人类专家标注的情况下,仍能以可信方式评 rationale 质量。
- 核心思路:用 Gemini-2.5-Pro 作为 judge,对每条模型 rationale 在 Factuality / Logicality / Depth / Clarity 四轴打分(与专家 rationale 作 reference),总分 4-20 区间。为了证明这个 judge 可信,作者做了 meta-evaluation:抽 10 道有代表性的题 × 10 个开源 LLM 的 rationale,让 2 位人类气象专家和 Gemini judge 用同一 rubric 打分,算 Kendall's τ_b(人 vs. Gemini)和 Krippendorff's α / ICC。结果 τ_b > 0.8,all axes α > 0.7,Reasoning Total α = 0.838,证明 LLM-as-Judge 在专业领域可作为人专家的代理。
- 设计动机:专家时间昂贵且不可大规模标 55 个模型 × 141 题 = 7,755 条 rationale;用 meta-validated LLM-as-Judge 把成本压到可承受范围,是把 benchmark 推广到 SOTA 模型快速迭代场景的必要条件。
损失函数 / 训练策略¶
本文为评测论文,不涉及训练。评测协议关键设置:所有模型 zero-shot、Korean 原文 prompt(避免翻译伪影)、用正则提取 final answer,输出违反格式即记为 fail。温度默认 0.1,推理模型用 1.0;seed=42。Reasoning rationale 评分采用 LLM-as-Judge with rubric。Geo-Cultural 评测设计了 Implicit/Explicit × Standard/Advanced 四种 prompt 组合来公平评估全球模型,防止"我国"这种 speaker-centric 表达成为 ambiguity 而误判。
实验关键数据¶
主实验:55 个模型在 K-MetBench 四维上的综合排名¶
| 模型 | Acc. | Reas. (4-20) | Geo-Cult. (韩特) | Modality (Multi) | P1 / P2 / P3 / P4 / P5 |
|---|---|---|---|---|---|
| Gemini-3-Pro-Preview (Thinking) | 93.7 | 18.01 | 90.4 | 75.6 | 92.5/97.9/94.2/92.8/91.6 |
| GPT-5.2 (Thinking) | 87.8 | 17.33 | 80.8 | 29.3 | 86.3/93.4/88.0/86.2/85.3 |
| Qwen3-VL-235B-A22B-Thinking | 84.4 | 17.22 | 72.6 | 48.8 | 81.5/88.6/87.2/83.2/82.0 |
| Qwen3-VL-32B-Thinking | 78.6 | 16.19 | 60.3 | 51.2 | 74.3/85.2/78.8/78.7/76.3 |
| A.X-4.0 (72B, Korean) | 76.1 | 15.46 | 78.9 | – | 76.6/77.7/68.2/81.3/76.5 |
| GPT-OSS-120B | 77.3 | 16.12 | 62.0 | – | 72.5/85.8/76.5/77.4/74.9 |
| InternVL3.5-38B | 57.3 | 11.38 | 47.9 | 40.2 | 56.0/64.8/48.7/61.4/55.7 |
| Llama-3.2-90B-Vision | 56.9 | 9.72 | 52.1 | 30.5 | 57.1/59.3/52.4/62.2/53.3 |
| EXAONE-4.0-32B (Korean) | 59.9 | 13.57 | 59.2 | – | 58.2/64.8/52.4/63.1/61.2 |
消融实验:四个 gap 的量化¶
| Gap | 量化指标 | 关键数字 |
|---|---|---|
| Modality gap | Multimodal vs. Text-Only Acc 差 | 平均下降 −18.55%,Gemini-3-Pro 也只 75.6% vs. 整体 93.7% |
| Reasoning gap | 答案准确率 vs. rationale 评分 | Kendall’s τ_b = 0.78(整体相关)但 rationale 出现术语 hallucinate |
| Geo-Cultural gap | Qwen3-VL-235B vs. A.X-4.0 (72B) on 韩特题 | 72.6 vs. 78.9(72B 韩模反超 235B 全球模) |
| Granularity gap | A.X-4.0 在 P3 vs. P4 | P3 (Dynamics) 68.2 vs. P4 (Climatology) 81.3,差 13 分 |
| Benchmark 正交性 | K-MetBench Multimodal vs. KMMLU-Redux | τ_b = 0.29(弱相关,证明 K-MetBench 提供新维度信号) |
| Meta-evaluation | Human-LLM Reasoning Total α | 0.838(高于 0.7 阈值,LLM-as-Judge 可信) |
关键发现¶
- Modality 是顶级模型的最大短板:在五边形雷达图中所有模型都在 Multimodal 轴出现"凹陷",即使 Gemini-3-Pro Thinking 也只有 75.6 vs. 文本侧 90+,说明通用视觉训练对 Skew-T、等压线图等专业气象图无效,需要 domain-specific 视觉训练数据。
- Reasoning 的"对的答案,错的过程"现象:模型常给出正确答案配合幻觉术语的 rationale,揭示 shortcut learning。CoT prompting + scratchpad 在多步计算(如 geostrophic wind 计算)上仍显著掉点。
- 规模解不了地理文化问题:A.X-4.0 (72B 韩模) 在韩特子集上 78.9 反超 Qwen3-VL-235B-Thinking 的 72.6,证明 3× 参数也不能补偿本地化知识缺失,需要 region-aware fine-tuning。
- 子学科表现不均:所有模型在 P2 观测(事实回忆)最强,在 P3/P5 大气动力 + 大气物理(定量推理)最弱;A.X-4.0 在 P4 气候学(韩国法规为主)最高 81.3 但 P3 仅 68.2,揭示模型有"事实型 vs. 推理型"split。
- K-MetBench 与既有 benchmark 弱相关:与 KMMLU-Redux 文本侧 τ=0.78、与 ClimaQA / ClimaIQA / WeatherQA 平均 τ<0.14,说明 K-MetBench 真正测的是"专业 logic + 视觉解读"而非"语言能力"。
- LLM-as-Judge 在专业领域有效:α=0.838 + τ_b=0.99(w/ rationale)证明用 Gemini-2.5-Pro 当 judge 能与气象专家高度一致,为大规模 rationale 评测打开了路。
亮点与洞察¶
- "四维诊断雷达"评测范式:把单一 leaderboard 改成"四维短板图"是 benchmark 设计上的范式升级——同样的思路可移植到其它高赌注垂直领域(医学、法律、金融),让 benchmark 真正变成 "model debugging tool"。
- 韩特子集 + 翻译/disambiguation 协议:把"地理文化"作为独立可控变量,并通过 Implicit/Explicit + Standard/Advanced prompt 四象限实验把"语言歧义"与"知识缺失"分离,对评测公平性贡献巨大。
- "图保留原图、公式转 LaTeX"的数据工程哲学:用最小工程代价同时避免 OCR 噪声与 modality 评测失真,是一条极具复用价值的 best practice。
- LLM-as-Judge with meta-evaluation:明确证明在"专业领域"也能用 LLM-as-Judge,但前提是有 expert-verified rationale 作为 rubric;为后续专业 LLM 评测提供了一个可信任的低成本 judge 协议。
- 小本地模型反超大全球模型的实证:A.X-4.0 (72B) 在韩特题上 78.9 反超 Qwen3-VL-235B-Thinking 的 72.6,是 region-specific 模型必要性的硬证据,对韩国/日本/中文等本地 LLM 团队有直接说服力。
局限与展望¶
- 静态视觉:只测单张气象图,不测雷达回波 loop / 卫星动画等时间序列视觉推理(作者承认);真实预报员要看的是动态演化。
- 韩国本地化只覆盖一国:geo-cultural 评测设计是好的,但实例集中在韩国,对中文/日本等其它本地化场景没有现成 benchmark 可用,需要按相同范式各自重做。
- 人类上限未测:用 60% 通过线作为"人类合格水位",但顶尖气象学家的真实上限未量化(作者承认),未来可加 super-human gap 测量。
- 改写 + 随机化的污染抑制效果未深入实证:作者用 Gemini 改写题干,但未给出"改写前后模型分数差"的实验来直接证明 contamination 被有效抑制。
- 未来方向:(1)扩展到 sequential radar/satellite 多模态视频;(2)建立中/英文气象 benchmark 复用本协议;(3)把 K-MetBench rationale 用作监督信号,做 reasoning-trace fine-tuning;(4)把 LLM-as-Judge 框架扩到其他专业领域。
相关工作与启发¶
- vs. KMMLU / KMMLU-Redux:那是 45 学科广度评测,气象只是其中一小子集;本文专攻气象但加多模态 + reasoning rationale 维度,深度远胜。
- vs. ClimaQA:纯文本气候 QA,源于教科书;K-MetBench 源于真考、加多模态、加韩特,更贴近真实预报员场景。
- vs. ClimateIQA / WeatherQA:都是多模态气象 QA,但模板化生成 + 英文 + 美国语境,缺少 expert rationale 和 5 子学科分解;K-MetBench 在多模态题量上少(82 题 vs. 数千),但每题都精校且配 5 子学科标签,diagnostic 信息量更高。
- vs. MedQA / 法律 BarExam:同属"权威认证驱动" benchmark 思路,本文把"四维度 + LLM-as-Judge with meta-evaluation"扩到一个全新垂直领域。
评分¶
- 新颖性: ⭐⭐⭐⭐ 四维度诊断 + 韩特子集 + meta-validated LLM-as-Judge 的组合是首次在气象领域出现;单项技术成熟但组合新。
- 实验充分度: ⭐⭐⭐⭐⭐ 55 个模型 × 4 维 + 5 子学科 + 4 prompt 组合 + meta-evaluation + benchmark 相关性,覆盖广度罕见。
- 写作质量: ⭐⭐⭐⭐ 表格密集但组织清晰,雷达图直观;个别小节论证略仓促。
- 价值: ⭐⭐⭐⭐⭐ 给"专业领域 LLM 评测"提供了可复用范式,对气象 AI 助手开发、韩本地化模型 / KMA 决策辅助都有直接价值。