K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology¶

会议: ACL 2026 Findings
arXiv: 2604.24645
代码: https://github.com/kmetbench/kmetbench-release
领域: 气象 LLM 评测 / 多模态 benchmark / 文化本地化
关键词: K-MetBench、Skew-T 图、气象推理、地理文化对齐、LLM-as-Judge

一句话总结¶

作者基于韩国国家气象工程师认证考试 25 届真题构造了 1,774 题的 K-MetBench，沿"多模态视觉 / 专家推理 / 地理文化 / 子领域细粒度"四个正交维度评测了 55 个 LLM/MLLM，发现现有模型存在普遍的 modality gap（视觉气象图准确率较纯文本平均掉 18.6%）、reasoning gap（答案对但 rationale 幻觉）、geo-cultural gap（小韩国模型 A.X-4.0 在韩特题上 78.9 反超 235B 的 Qwen3-VL 的 72.6），证明纯参数规模不能解决文化本地化问题。

研究背景与动机¶

领域现状：LLM/MLLM 在专业领域（医学 MedQA、法律 BarExam）已经达到执照考试通过线，气象领域也开始出现 ClimaQA、ClimateIQA、WeatherQA 等 benchmark，但都用单一聚合分数衡量"模型能不能行"。

现有痛点：作者把已有气象评测的问题归纳为四个 gap：（1）modality gap——大多数 benchmark 纯文本，但气象预报本质多模态（地面图、500/200 hPa 高空图、Skew-T Log-P 图、雷达图等），现有评测严重低估视觉短板；（2）reasoning gap——只看答案对错，不评 rationale 是否合理；模型可能用错误推理蒙对答案（shortcut learning）；（3）geo-cultural gap——气象规则、地形、KMA（韩国气象厅）规范都是本地化的，全球模型把这些信息抽象掉；（4）granularity gap——单一总分掩盖了模型在"事实回忆"vs."定量推理"vs."大气动力"等子领域上的差异。

核心矛盾：气象工作是高赌注 + 多模态 + 强本地化 + 强物理推理的复合任务，但任何单维度 benchmark 都只能照出一个侧面；要给"模型能不能上岗当韩国预报员助手"一个真正可信的诊断，必须把四维一起评，并且 source-of-truth 必须是有官方权威的认证考题，否则评测本身就缺失信效度。

本文目标：（1）造一份基于韩国国家气象工程师认证考试 25 届真题、官方分 5 大子学科的诊断 benchmark；（2）把每篇真题打上四维标签（multimodal / reasoning rationale / Korean-specific / sub-domain）；（3）在 55 个模型上跑全套实验，给出每个维度上"哪类模型差在哪"的可操作诊断地图；（4）用 LLM-as-a-Judge 评 rationale 并通过 meta-evaluation 证明其与人类专家一致。

切入角度：把"专业领域 LLM 评测"从"过没过及格线"提升为"在哪些子能力上没过、为什么没过"的诊断式评测，并把韩国本地认证考题作为"金标"以兼顾权威性、客观性、本地化。

核心 idea：用一份多维度标注 + 4 个正交诊断子集 + LLM-as-a-Judge with meta-validation，把气象 LLM 评测从"准确率排行"重塑为"四维 capability radar"，让 modality / reasoning / geo-cultural / granularity 四个能力短板各自显形。

方法详解¶

整体框架¶

K-MetBench 把气象 LLM 评测从"过没过及格线"重塑为"四维 capability radar"，整条 pipeline 分数据构造、四维标注、评测三段。数据构造从 2003–2022 年韩国 National Meteorological Engineer 25 届认证考试官方 PDF 抽 2,500 题，用 difflib.SequenceMatcher 阈值 0.6 去重（保留 highest/lowest 这类逻辑反转题）得 1,774 题，再用 Gemini-2.5-Pro 改写题干、随机化选项以抗污染（人工校 14.88%），多模态题修复 OCR 工件、公式图转 LaTeX 而专业气象图保留原图。随后给每题打上互相正交的四维标签——Modality（82 题带图）、Reasoning（141 题带专家 rationale）、Geo-Cultural（73 题"韩特题"）、Granularity（5 个子学科 P1–P5）。评测端对 55 个模型零样本跑测：统一用 Korean 原文 prompt（避免翻译伪影）、正则提取 final answer、温度默认 0.1（推理模型 1.0）、seed=42，记录 hard accuracy 与 LLM-as-Judge 给的 rationale 分，并与 KMMLU / ClimaQA / ClimaIQA / WeatherQA 做 Kendall’s τ 相关性以验证新维度信息量。

关键设计¶

1. 基于权威国家认证 + 多阶段去污的数据构造：保证权威、完整、抗污染

选韩国 HRDK 官方气象工程师考试真题（25 届，分 P1 预报理论 / P2 观测方法 / P3 大气动力 / P4 气候学 / P5 大气物理，每部分约 330–376 题）有三重好处：国家认证自带 60% 通过线作为"人类合格水位"锚点、题目权威客观、天然本地化。为抗训练集污染，所有选项随机化顺序、题干由 Gemini-2.5-Pro 在强约束保留专业术语下重写（人工校 14.88%），挤掉记忆 bias 推高分数的空间。最关键的是对图文内容分类处理——公式图转 LaTeX 以避开 OCR 瓶颈，而 Skew-T / 等压线等专业气象图保留原图以测 MLLM 真实视觉能力；若全转文本会抹掉 modality 测试、全保图又会被 OCR 噪声污染，这条折中给后续 benchmark 提供了可复用模板。

2. 四维度正交诊断子集：让模型短板各自显形

单一总分会掩盖模型在不同能力上的差异，于是把"专业能力"显式拆成四个两两正交、单题可同属多集的轴：Modality 子集（82 题, 4.62%）覆盖地面图、200/500 hPa 高空图、Skew-T Log-P 图，专测从致密视觉信号里提取气压梯度、风矢、热力学指数的能力；Reasoning 子集（141 题）配有 GPT-5 初稿 + 两位气象教授审核修正的专家 rationale 作为评分 reference；Geo-Cultural 子集（73 题）由 GPT-4.1 + Gemini-2.5-Pro 双 LLM 识别"韩特"概念（如 Yeongdong 山区、KMA 法规、Changma 梅雨锋）再人工校验；Granularity 子集即官方 5 大学科（每科 332–376 题）。拆开后诊断报告能直接告诉开发者"你的 modality 比 reasoning 差 10 分、该补什么数据"，把 benchmark 从 leaderboard 升级为 diagnostic tool。此外 Geo-Cultural 评测用 Implicit/Explicit × Standard/Advanced 四种 prompt 组合，把"语言歧义"与"知识缺失"分离，防止"我国"这类 speaker-centric 表达误判全球模型。

3. LLM-as-a-Judge 评 rationale + meta-evaluation 验证：低成本但可信地评推理质量

55 个模型 × 141 题 = 7,755 条 rationale 无法靠专家逐条标注，于是用 Gemini-2.5-Pro 作 judge，对每条 rationale 在 Factuality / Logicality / Depth / Clarity 四轴打分（以专家 rationale 为 reference，总分 4–20）。为证明这个 judge 可信，作者做 meta-evaluation：抽 10 道代表题 × 10 个开源 LLM 的 rationale，让 2 位人类气象专家与 Gemini judge 用同一 rubric 打分，算 Kendall's τ_b、Krippendorff's α 与 ICC，结果 τ_b > 0.8、各轴 α > 0.7、Reasoning Total α = 0.838，证明在专业领域 LLM-as-Judge 可作人类专家的代理，从而把评测成本压到可承受范围、支撑 SOTA 模型的快速迭代。

实验关键数据¶

主实验：55 个模型在 K-MetBench 四维上的综合排名¶

模型	Acc.	Reas. (4-20)	Geo-Cult. (韩特)	Modality (Multi)	P1 / P2 / P3 / P4 / P5
Gemini-3-Pro-Preview (Thinking)	93.7	18.01	90.4	75.6	92.5/97.9/94.2/92.8/91.6
GPT-5.2 (Thinking)	87.8	17.33	80.8	29.3	86.3/93.4/88.0/86.2/85.3
Qwen3-VL-235B-A22B-Thinking	84.4	17.22	72.6	48.8	81.5/88.6/87.2/83.2/82.0
Qwen3-VL-32B-Thinking	78.6	16.19	60.3	51.2	74.3/85.2/78.8/78.7/76.3
A.X-4.0 (72B, Korean)	76.1	15.46	78.9	–	76.6/77.7/68.2/81.3/76.5
GPT-OSS-120B	77.3	16.12	62.0	–	72.5/85.8/76.5/77.4/74.9
InternVL3.5-38B	57.3	11.38	47.9	40.2	56.0/64.8/48.7/61.4/55.7
Llama-3.2-90B-Vision	56.9	9.72	52.1	30.5	57.1/59.3/52.4/62.2/53.3
EXAONE-4.0-32B (Korean)	59.9	13.57	59.2	–	58.2/64.8/52.4/63.1/61.2

消融实验：四个 gap 的量化¶

Gap	量化指标	关键数字
Modality gap	Multimodal vs. Text-Only Acc 差	平均下降 −18.55%，Gemini-3-Pro 也只 75.6% vs. 整体 93.7%
Reasoning gap	答案准确率 vs. rationale 评分	Kendall’s τ_b = 0.78（整体相关）但 rationale 出现术语 hallucinate
Geo-Cultural gap	Qwen3-VL-235B vs. A.X-4.0 (72B) on 韩特题	72.6 vs. 78.9（72B 韩模反超 235B 全球模）
Granularity gap	A.X-4.0 在 P3 vs. P4	P3 (Dynamics) 68.2 vs. P4 (Climatology) 81.3，差 13 分
Benchmark 正交性	K-MetBench Multimodal vs. KMMLU-Redux	τ_b = 0.29（弱相关，证明 K-MetBench 提供新维度信号）
Meta-evaluation	Human-LLM Reasoning Total α	0.838（高于 0.7 阈值，LLM-as-Judge 可信）

关键发现¶

Modality 是顶级模型的最大短板：在五边形雷达图中所有模型都在 Multimodal 轴出现"凹陷"，即使 Gemini-3-Pro Thinking 也只有 75.6 vs. 文本侧 90+，说明通用视觉训练对 Skew-T、等压线图等专业气象图无效，需要 domain-specific 视觉训练数据。
Reasoning 的"对的答案，错的过程"现象：模型常给出正确答案配合幻觉术语的 rationale，揭示 shortcut learning。CoT prompting + scratchpad 在多步计算（如 geostrophic wind 计算）上仍显著掉点。
规模解不了地理文化问题：A.X-4.0 (72B 韩模) 在韩特子集上 78.9 反超 Qwen3-VL-235B-Thinking 的 72.6，证明 3× 参数也不能补偿本地化知识缺失，需要 region-aware fine-tuning。
子学科表现不均：所有模型在 P2 观测（事实回忆）最强，在 P3/P5 大气动力 + 大气物理（定量推理）最弱；A.X-4.0 在 P4 气候学（韩国法规为主）最高 81.3 但 P3 仅 68.2，揭示模型有"事实型 vs. 推理型"split。
K-MetBench 与既有 benchmark 弱相关：与 KMMLU-Redux 文本侧 τ=0.78、与 ClimaQA / ClimaIQA / WeatherQA 平均 τ<0.14，说明 K-MetBench 真正测的是"专业 logic + 视觉解读"而非"语言能力"。
LLM-as-Judge 在专业领域有效：α=0.838 + τ_b=0.99（w/ rationale）证明用 Gemini-2.5-Pro 当 judge 能与气象专家高度一致，为大规模 rationale 评测打开了路。

亮点与洞察¶

"四维诊断雷达"评测范式：把单一 leaderboard 改成"四维短板图"是 benchmark 设计上的范式升级——同样的思路可移植到其它高赌注垂直领域（医学、法律、金融），让 benchmark 真正变成 "model debugging tool"。
韩特子集 + 翻译/disambiguation 协议：把"地理文化"作为独立可控变量，并通过 Implicit/Explicit + Standard/Advanced prompt 四象限实验把"语言歧义"与"知识缺失"分离，对评测公平性贡献巨大。
"图保留原图、公式转 LaTeX"的数据工程哲学：用最小工程代价同时避免 OCR 噪声与 modality 评测失真，是一条极具复用价值的 best practice。
LLM-as-Judge with meta-evaluation：明确证明在"专业领域"也能用 LLM-as-Judge，但前提是有 expert-verified rationale 作为 rubric；为后续专业 LLM 评测提供了一个可信任的低成本 judge 协议。
小本地模型反超大全球模型的实证：A.X-4.0 (72B) 在韩特题上 78.9 反超 Qwen3-VL-235B-Thinking 的 72.6，是 region-specific 模型必要性的硬证据，对韩国/日本/中文等本地 LLM 团队有直接说服力。

局限与展望¶

静态视觉：只测单张气象图，不测雷达回波 loop / 卫星动画等时间序列视觉推理（作者承认）；真实预报员要看的是动态演化。
韩国本地化只覆盖一国：geo-cultural 评测设计是好的，但实例集中在韩国，对中文/日本等其它本地化场景没有现成 benchmark 可用，需要按相同范式各自重做。
人类上限未测：用 60% 通过线作为"人类合格水位"，但顶尖气象学家的真实上限未量化（作者承认），未来可加 super-human gap 测量。
改写 + 随机化的污染抑制效果未深入实证：作者用 Gemini 改写题干，但未给出"改写前后模型分数差"的实验来直接证明 contamination 被有效抑制。
未来方向：（1）扩展到 sequential radar/satellite 多模态视频；（2）建立中/英文气象 benchmark 复用本协议；（3）把 K-MetBench rationale 用作监督信号，做 reasoning-trace fine-tuning；（4）把 LLM-as-Judge 框架扩到其他专业领域。

评分¶

新颖性: ⭐⭐⭐⭐ 四维度诊断 + 韩特子集 + meta-validated LLM-as-Judge 的组合是首次在气象领域出现；单项技术成熟但组合新。
实验充分度: ⭐⭐⭐⭐⭐ 55 个模型 × 4 维 + 5 子学科 + 4 prompt 组合 + meta-evaluation + benchmark 相关性，覆盖广度罕见。
写作质量: ⭐⭐⭐⭐ 表格密集但组织清晰，雷达图直观；个别小节论证略仓促。
价值: ⭐⭐⭐⭐⭐ 给"专业领域 LLM 评测"提供了可复用范式，对气象 AI 助手开发、韩本地化模型 / KMA 决策辅助都有直接价值。