跳转至

Geo-Expert: 用 LoRA 把 8B 模型微调成专家级地质推理 LLM

会议: ICML 2026
arXiv: 2605.24844
代码: 论文未提供
领域: 领域适配 / 科学 LLM / 地质推理
关键词: 地质 LLM, LoRA, 指令合成, CoT, AI for Science

一句话总结

Geo-Expert 把 11,518 条从五本地质学经典教科书蒸馏出的 CoT-enhanced 指令数据用 LoRA 微调 Qwen3-8B/32B 和 Gemma-3-27B;在 Geo-Eval(387 hard boundary 题)上 Qwen3-8B-geo 平均 6.27 超过 Llama-3.1-70B-Instruct(4.12)和 GPT-4o(5.93),Qwen3-32B-geo 6.82 接近 GPT-5.4(7.15);证明 high-quality domain alignment 比 scaling 重要。

研究背景与动机

领域现状:当前 Earth Science 大模型(K2、GeoGalactica、GeoGPT、UnivEARTH)擅长 surface 任务但不涉及 solid Earth(地下层序解释、构造演化、岩石成因)的 deep reasoning。地质推理需要复杂的时空关系和大量专业数据。

现有痛点:通用 LLM 在地质学上经常严重 hallucinate——比如把"楔形地质构造"的 wedge 错认成机械工程的楔子,建议用碳纤维布加固混凝土。现有 geoscience foundation models 主要在 surface 文献上预训练,对 subsurface stratigraphic 推理几乎没专门 adaptation。

核心矛盾:通用 LLM 缺乏地质 domain alignment;scaling 不能直接救——地质术语高度多义、推理链长、cross-discipline 干扰严重,需要 deep domain anchoring 而不是更多参数。

本文目标:建一套可复现的 pipeline 把通用 LLM 转化成"专家级地质推理器",用 PEFT 控制成本,证明 small + aligned 模型可超越 large generalist。

切入角度:从权威教科书(Catuneanu、Fossen、Gao、Rowland 五本)抽 ground truth;用 LLM 系统生成 CoT-enhanced 指令数据;LoRA 微调三个 backbone 看 scaling;用 adversarial mining + expert verification 建 Geo-Eval benchmark 测试 hard boundary 问题。

核心 idea:High-quality domain-aligned data + PEFT + 难题 benchmark 三件套——CoT-enhanced 数据让模型学到推理链而非词条匹配;LoRA 在 RTX 5090 上能微调到 32B;Geo-Eval 通过 boundary mining 专门考真专家推理。

方法详解

整体框架

(1) 教材数字化 + 清洗——MinerU 把 PDF 转 Markdown,Python 模块按段落分块+去重;(2) Domain-Structured Instruction Synthesis——chapter-aware chunking + domain tree question generation + CoT answer 得 11,518 instruction pairs;(3) LoRA 微调三个 backbone;(4) Geo-Eval 评测——boundary mining + GPT-4o 评分。

关键设计

  1. Domain-Structured CoT Instruction Synthesis Pipeline:

    • 功能:把静态地质教科书转成高质量 instruction-response pairs 用于 fine-tuning。
    • 核心思路:(a) Chapter-Aware Recursive Chunking 按 Markdown header 分语义块;(b) Domain-Structured Question Generation——LLM 先建 hierarchical domain tree 给文本段 bind tags,再基于 tag 和字符密度动态生成问题;(c) CoT Answer Construction——用 reasoning-oriented 模型(DeepSeek-R1)生成答案,含中间推理步骤。
    • 设计动机:通用 fine-tuning 用 raw text 教模型"说什么"但不教"怎么推";CoT-enhanced data 强制模型学到 reasoning chain。Chapter-aware chunking 保证 context completeness,domain tree 避免 redundancy。
  2. 三尺度 LoRA 微调 + scaling analysis:

    • 功能:在不同模型规模上验证 domain adaptation 的 scaling 行为。
    • 核心思路:Qwen3-8B 用 LoRA rank=32, α=32, lr=2e-5, FP16, 单 RTX 5090;Gemma-3-27B 和 Qwen3-32B 扩 LoRA rank=64, α=128,BF16 + gradient checkpointing + grad accum=4,4×RTX 5090。所有 LoRA 应用到所有 linear 层。
    • 设计动机:单一规模看不出 scaling effect;三个 backbone 跨 8B/27B/32B 让"小 model + 好数据"vs"大 model + 通用数据"的比较成为可能。
  3. Geo-Eval:Adversarial Mining + Expert Verification 的难题 benchmark:

    • 功能:建一个真正考验 expert-level reasoning 的 benchmark。
    • 核心思路:(a) DeepSeek-R1 从教材抽 2,591 复杂问题 + 答案;(b) Qwen3-8B-Geo 和 DeepSeek-R1 独立回答;(c) GLM-4.5 做 LLM-as-judge 10 分制,挑出 score 差 ≤ 4 的 387 "hard boundary" 题;(d) 地质教授人工校验。三个领域:Concept、Process、Engineering。
    • 设计动机:传统 static MCQ 被现代大模型刷烂;boundary mining 自动找"general 模型刚好够不到"的题,是 discriminative benchmark 的方法学进步。

实验关键数据

主实验:Geo-Eval 三维度 score

Model Size Concept Process Engineering Average Δ vs Base
GPT-5.4 - 7.35 7.10 7.00 7.15 -
DeepSeek-V3.2 - 6.80 6.75 6.67 6.74 -
GPT-4o - 6.10 5.90 5.80 5.93 -
Gemma-3-27B-IT 27B 5.30 5.10 5.08 5.16 -
Qwen3-32B 32B 5.20 4.90 4.90 5.00 -
Qwen3-8B 8B 4.80 4.68 4.41 4.63 -
Llama-3.1-70B 70B 4.30 4.10 3.96 4.12 -
Qwen3-32B-geo 32B 6.78 6.79 6.90 6.82 +1.82
Gemma-3-27B-geo 27B 6.70 6.60 6.47 6.59 +1.43
Qwen3-8B-geo 8B 6.10 6.27 6.44 6.27 +1.64

Qwen3-32B-geo 6.82 全场第二,仅次于 GPT-5.4 7.15;Qwen3-8B-geo 6.27 超过 GPT-4o 和所有 < 70B 开源模型,统计显著(\(p = 3.7 \times 10^{-106}\))。

关键发现

  • 8B + domain alignment 超过 70B generalist:Qwen3-8B-geo 6.27 vs Llama-3.1-70B 4.12 (+51%)。证明 scaling law 在 vertical domain 失效。
  • 8B → 32B 增量微弱:8B-geo 6.27 → 32B-geo 6.82 仅 +0.55,说明 32B 的额外参数对地质推理边际效益不大。
  • Engineering 维度提升最大:Qwen3-8B 4.41 → Qwen3-8B-geo 6.44(+46%),证明不仅教术语还教推理。
  • 跨架构稳定:三个 backbone 都涨 1.5+ 分,方法 robust。
  • 质化分析戏剧性:GPT-4o 把"wedge thickening"答成混凝土加固(0/10),Qwen3-8B-geo 准确解释 thrust fault sliding 等地质机制(9/10)。

亮点与洞察

  • CoT 增强是 domain adaptation 的关键 trick:从 Engineering +46% 看,CoT data 价值远超 raw text 数据。
  • 3 backbone scaling analysis 的方法学价值:本文证明 8B 是 sweet spot,对预算紧的研究组有直接指导。
  • Hard Boundary Benchmark 是 discriminative 评测的范式:自动 mine 出"generalist 刚好够不到"的题专测 expert reasoning,方法可推广到所有 vertical scientific LLM 评测。
  • Consumer GPU recipe:4×RTX 5090 微调 32B,让 academic 研究组能复现。
  • 5 本经典教材为 anchor:选公认权威 textbook,保证 data quality 和 domain rigor。
  • Selection bias mitigation 三层:expert re-write + GPT-4o judge + 其他 model 验证。

局限与展望

  • 教材选择 bias:5 本教材偏 structural geology、stratigraphy、tectonics,mineralogy/geochemistry/geophysics 覆盖不足。
  • Geo-Eval 387 题规模偏小:相比通用 benchmark 万级题量,statistical power 偏弱。
  • Text-only:当前框架不处理地质数据固有 multimodal 性质(cross-sections、well logs、field photos)。
  • GPT-4o 当 judge 的偏好:reference-guided 评分仍可能有 LLM judge 的 verbosity/style bias。
  • 缺 retrieval-augmented baseline:RAG + general LLM 是否能达到类似效果未对比,PEFT 优势可能被高估。
  • 5,090 微调 32B 的工程细节:BF16 + grad checkpointing + grad accum=4 的内存预算需要 4×RTX 5090,依然是 prosumer-grade 而非 consumer。

相关工作与启发

  • vs K2 / GeoGalactica:他们做 continued pre-training on broad geoscience corpora,偏 factual recall;本文做 PEFT + CoT instruction tuning,偏 multi-step reasoning。
  • vs GeoGPT / UnivEARTH:geospatial agents,做 2D surface 任务;本文做 subsurface deep reasoning。
  • vs MedLLM / FinGPT / LawGPT:domain LLM 同族工作,但大多 raw text fine-tune;本文用 CoT-enhanced data 是方法学差异。
  • vs LIMA / Alpaca:general instruction tuning,本文是 vertical instruction tuning + boundary benchmark。
  • vs ProcessBench / PRM:step-level reasoning evaluation 思路相似,本文 adversarial mining + boundary 是 evaluation 创新。
  • 启发:(1) 任何 vertical scientific LLM 都应该用 CoT-enhanced data + boundary benchmark 评测;(2) "small + aligned > large + general" 在所有 vertical domain 都应该 revisit;(3) 教材作为 ground truth 源是 cost-effective 的 alternative to 论文堆 + RAG。

评分

  • 新颖性: ⭐⭐⭐⭐ Domain-structured CoT instruction synthesis + boundary mining benchmark + 3-backbone scaling analysis 组合,方法学创新中等但落地扎实。
  • 实验充分度: ⭐⭐⭐⭐ 3 backbone × Geo-Eval 3 维度 + 11 个 baseline + paired t-test + qualitative case study,证据完整。
  • 写作质量: ⭐⭐⭐⭐ 流程图清晰、数据 table 详细、qualitative case 有说服力;selection bias 三层 mitigation 体现 reviewer-conscious。
  • 价值: ⭐⭐⭐⭐⭐ "8B + aligned > 70B" 的实证对 vertical AI 部署有直接指导,benchmark 方法可推广到其他 STEM domain,对 democratize scientific LLM 有实战价值。