Geo-Expert: 用 LoRA 把 8B 模型微调成专家级地质推理 LLM¶
会议: ICML 2026
arXiv: 2605.24844
代码: 论文未提供
领域: 领域适配 / 科学 LLM / 地质推理
关键词: 地质 LLM, LoRA, 指令合成, CoT, AI for Science
一句话总结¶
Geo-Expert 把 11,518 条从五本地质学经典教科书蒸馏出的 CoT-enhanced 指令数据用 LoRA 微调 Qwen3-8B/32B 和 Gemma-3-27B;在 Geo-Eval(387 hard boundary 题)上 Qwen3-8B-geo 平均 6.27 超过 Llama-3.1-70B-Instruct(4.12)和 GPT-4o(5.93),Qwen3-32B-geo 6.82 接近 GPT-5.4(7.15);证明 high-quality domain alignment 比 scaling 重要。
研究背景与动机¶
领域现状:当前 Earth Science 大模型(K2、GeoGalactica、GeoGPT、UnivEARTH)擅长 surface 任务但不涉及 solid Earth(地下层序解释、构造演化、岩石成因)的 deep reasoning。地质推理需要复杂的时空关系和大量专业数据。
现有痛点:通用 LLM 在地质学上经常严重 hallucinate——比如把"楔形地质构造"的 wedge 错认成机械工程的楔子,建议用碳纤维布加固混凝土。现有 geoscience foundation models 主要在 surface 文献上预训练,对 subsurface stratigraphic 推理几乎没专门 adaptation。
核心矛盾:通用 LLM 缺乏地质 domain alignment;scaling 不能直接救——地质术语高度多义、推理链长、cross-discipline 干扰严重,需要 deep domain anchoring 而不是更多参数。
本文目标:建一套可复现的 pipeline 把通用 LLM 转化成"专家级地质推理器",用 PEFT 控制成本,证明 small + aligned 模型可超越 large generalist。
切入角度:从权威教科书(Catuneanu、Fossen、Gao、Rowland 五本)抽 ground truth;用 LLM 系统生成 CoT-enhanced 指令数据;LoRA 微调三个 backbone 看 scaling;用 adversarial mining + expert verification 建 Geo-Eval benchmark 测试 hard boundary 问题。
核心 idea:High-quality domain-aligned data + PEFT + 难题 benchmark 三件套——CoT-enhanced 数据让模型学到推理链而非词条匹配;LoRA 在 RTX 5090 上能微调到 32B;Geo-Eval 通过 boundary mining 专门考真专家推理。
方法详解¶
整体框架¶
(1) 教材数字化 + 清洗——MinerU 把 PDF 转 Markdown,Python 模块按段落分块+去重;(2) Domain-Structured Instruction Synthesis——chapter-aware chunking + domain tree question generation + CoT answer 得 11,518 instruction pairs;(3) LoRA 微调三个 backbone;(4) Geo-Eval 评测——boundary mining + GPT-4o 评分。
关键设计¶
-
Domain-Structured CoT Instruction Synthesis Pipeline:
- 功能:把静态地质教科书转成高质量 instruction-response pairs 用于 fine-tuning。
- 核心思路:(a) Chapter-Aware Recursive Chunking 按 Markdown header 分语义块;(b) Domain-Structured Question Generation——LLM 先建 hierarchical domain tree 给文本段 bind tags,再基于 tag 和字符密度动态生成问题;(c) CoT Answer Construction——用 reasoning-oriented 模型(DeepSeek-R1)生成答案,含中间推理步骤。
- 设计动机:通用 fine-tuning 用 raw text 教模型"说什么"但不教"怎么推";CoT-enhanced data 强制模型学到 reasoning chain。Chapter-aware chunking 保证 context completeness,domain tree 避免 redundancy。
-
三尺度 LoRA 微调 + scaling analysis:
- 功能:在不同模型规模上验证 domain adaptation 的 scaling 行为。
- 核心思路:Qwen3-8B 用 LoRA rank=32, α=32, lr=2e-5, FP16, 单 RTX 5090;Gemma-3-27B 和 Qwen3-32B 扩 LoRA rank=64, α=128,BF16 + gradient checkpointing + grad accum=4,4×RTX 5090。所有 LoRA 应用到所有 linear 层。
- 设计动机:单一规模看不出 scaling effect;三个 backbone 跨 8B/27B/32B 让"小 model + 好数据"vs"大 model + 通用数据"的比较成为可能。
-
Geo-Eval:Adversarial Mining + Expert Verification 的难题 benchmark:
- 功能:建一个真正考验 expert-level reasoning 的 benchmark。
- 核心思路:(a) DeepSeek-R1 从教材抽 2,591 复杂问题 + 答案;(b) Qwen3-8B-Geo 和 DeepSeek-R1 独立回答;(c) GLM-4.5 做 LLM-as-judge 10 分制,挑出 score 差 ≤ 4 的 387 "hard boundary" 题;(d) 地质教授人工校验。三个领域:Concept、Process、Engineering。
- 设计动机:传统 static MCQ 被现代大模型刷烂;boundary mining 自动找"general 模型刚好够不到"的题,是 discriminative benchmark 的方法学进步。
实验关键数据¶
主实验:Geo-Eval 三维度 score¶
| Model | Size | Concept | Process | Engineering | Average | Δ vs Base |
|---|---|---|---|---|---|---|
| GPT-5.4 | - | 7.35 | 7.10 | 7.00 | 7.15 | - |
| DeepSeek-V3.2 | - | 6.80 | 6.75 | 6.67 | 6.74 | - |
| GPT-4o | - | 6.10 | 5.90 | 5.80 | 5.93 | - |
| Gemma-3-27B-IT | 27B | 5.30 | 5.10 | 5.08 | 5.16 | - |
| Qwen3-32B | 32B | 5.20 | 4.90 | 4.90 | 5.00 | - |
| Qwen3-8B | 8B | 4.80 | 4.68 | 4.41 | 4.63 | - |
| Llama-3.1-70B | 70B | 4.30 | 4.10 | 3.96 | 4.12 | - |
| Qwen3-32B-geo | 32B | 6.78 | 6.79 | 6.90 | 6.82 | +1.82 |
| Gemma-3-27B-geo | 27B | 6.70 | 6.60 | 6.47 | 6.59 | +1.43 |
| Qwen3-8B-geo | 8B | 6.10 | 6.27 | 6.44 | 6.27 | +1.64 |
Qwen3-32B-geo 6.82 全场第二,仅次于 GPT-5.4 7.15;Qwen3-8B-geo 6.27 超过 GPT-4o 和所有 < 70B 开源模型,统计显著(\(p = 3.7 \times 10^{-106}\))。
关键发现¶
- 8B + domain alignment 超过 70B generalist:Qwen3-8B-geo 6.27 vs Llama-3.1-70B 4.12 (+51%)。证明 scaling law 在 vertical domain 失效。
- 8B → 32B 增量微弱:8B-geo 6.27 → 32B-geo 6.82 仅 +0.55,说明 32B 的额外参数对地质推理边际效益不大。
- Engineering 维度提升最大:Qwen3-8B 4.41 → Qwen3-8B-geo 6.44(+46%),证明不仅教术语还教推理。
- 跨架构稳定:三个 backbone 都涨 1.5+ 分,方法 robust。
- 质化分析戏剧性:GPT-4o 把"wedge thickening"答成混凝土加固(0/10),Qwen3-8B-geo 准确解释 thrust fault sliding 等地质机制(9/10)。
亮点与洞察¶
- CoT 增强是 domain adaptation 的关键 trick:从 Engineering +46% 看,CoT data 价值远超 raw text 数据。
- 3 backbone scaling analysis 的方法学价值:本文证明 8B 是 sweet spot,对预算紧的研究组有直接指导。
- Hard Boundary Benchmark 是 discriminative 评测的范式:自动 mine 出"generalist 刚好够不到"的题专测 expert reasoning,方法可推广到所有 vertical scientific LLM 评测。
- Consumer GPU recipe:4×RTX 5090 微调 32B,让 academic 研究组能复现。
- 5 本经典教材为 anchor:选公认权威 textbook,保证 data quality 和 domain rigor。
- Selection bias mitigation 三层:expert re-write + GPT-4o judge + 其他 model 验证。
局限与展望¶
- 教材选择 bias:5 本教材偏 structural geology、stratigraphy、tectonics,mineralogy/geochemistry/geophysics 覆盖不足。
- Geo-Eval 387 题规模偏小:相比通用 benchmark 万级题量,statistical power 偏弱。
- Text-only:当前框架不处理地质数据固有 multimodal 性质(cross-sections、well logs、field photos)。
- GPT-4o 当 judge 的偏好:reference-guided 评分仍可能有 LLM judge 的 verbosity/style bias。
- 缺 retrieval-augmented baseline:RAG + general LLM 是否能达到类似效果未对比,PEFT 优势可能被高估。
- 5,090 微调 32B 的工程细节:BF16 + grad checkpointing + grad accum=4 的内存预算需要 4×RTX 5090,依然是 prosumer-grade 而非 consumer。
相关工作与启发¶
- vs K2 / GeoGalactica:他们做 continued pre-training on broad geoscience corpora,偏 factual recall;本文做 PEFT + CoT instruction tuning,偏 multi-step reasoning。
- vs GeoGPT / UnivEARTH:geospatial agents,做 2D surface 任务;本文做 subsurface deep reasoning。
- vs MedLLM / FinGPT / LawGPT:domain LLM 同族工作,但大多 raw text fine-tune;本文用 CoT-enhanced data 是方法学差异。
- vs LIMA / Alpaca:general instruction tuning,本文是 vertical instruction tuning + boundary benchmark。
- vs ProcessBench / PRM:step-level reasoning evaluation 思路相似,本文 adversarial mining + boundary 是 evaluation 创新。
- 启发:(1) 任何 vertical scientific LLM 都应该用 CoT-enhanced data + boundary benchmark 评测;(2) "small + aligned > large + general" 在所有 vertical domain 都应该 revisit;(3) 教材作为 ground truth 源是 cost-effective 的 alternative to 论文堆 + RAG。
评分¶
- 新颖性: ⭐⭐⭐⭐ Domain-structured CoT instruction synthesis + boundary mining benchmark + 3-backbone scaling analysis 组合,方法学创新中等但落地扎实。
- 实验充分度: ⭐⭐⭐⭐ 3 backbone × Geo-Eval 3 维度 + 11 个 baseline + paired t-test + qualitative case study,证据完整。
- 写作质量: ⭐⭐⭐⭐ 流程图清晰、数据 table 详细、qualitative case 有说服力;selection bias 三层 mitigation 体现 reviewer-conscious。
- 价值: ⭐⭐⭐⭐⭐ "8B + aligned > 70B" 的实证对 vertical AI 部署有直接指导,benchmark 方法可推广到其他 STEM domain,对 democratize scientific LLM 有实战价值。