Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/phkhub/Chart-FR1
领域: 多模态VLM
关键词: 图表推理, 视觉聚焦, 强化学习, GRPO, 思维链
一句话总结¶
针对子图密集、图例标注繁多的「高信息密度图表」,Chart-FR1 用 <focus> 标签把推理步骤显式锚定到 OCR 文本和局部框区域(Focus-CoT),再用带「信息效率奖励 + 自适应 KL 惩罚」的 Focus-GRPO 做强化学习,把 Qwen2.5-VL-7B 在五个图表 benchmark 上平均拉高 6.1%,并反超 GPT-4o。
研究背景与动机¶
领域现状:多模态大模型(MLLM)在图表理解上进步很快,既有 GPT-4o、Qwen2.5-VL 这类通用模型,也有 ChartGemma、EvoChart 这类图表专用模型,近期还出现了用强化学习(GRPO)增强推理的 R1-VL、Vision-R1 等。
现有痛点:但论文盯住的是一类被忽视的硬骨头——高信息密度(High Information Density, HID)图表:一张图里塞了多个子图、多组图例、密密麻麻的标注。在这种图上现有模型暴露三个具体毛病:(1)细粒度感知不足——模型大多依赖全局视觉 embedding,无法从杂乱信息里精准抠出关键线索,漏读数值;(2)视觉冗余与噪声——一股脑塞进太多视觉元素,反而干扰推理,看似看得多其实抓不准;(3)推理深度不自适应——现有 RL 用固定的 KL 惩罚系数约束策略,当某些问题需要长链条、多线索的深推理时,固定惩罚会「过度惩罚」长输出,把模型按死在浅推理上。
核心矛盾:图表信息密度越高,视觉杂乱同时拖垮「感知」和「推理」两端——论文 Fig.2 显示,随着信息密度从 [0,3.7) 升到 [4.2,5.0],GPT-4o / Qwen2.5-VL 的准确率单调下滑。而推理链需要的探索深度本应随线索增多而放宽,固定 KL 却反着来。
本文目标:让模型在 HID 图表上同时做到「感知更细、聚焦更省、推理深度自适应」,并补上一个专门评测 HID 图表的 benchmark。
核心 idea:把「聚焦动作」显式写进推理链——每一步推理都用 <focus> 标签挂上它依据的 OCR 文本和局部框,让感知和推理紧耦合;再用一套以「聚焦效率」为核心的 RL 奖励和随线索数量动态调整的 KL 惩罚去优化这个聚焦行为。
方法详解¶
整体框架¶
Chart-FR1 是一个两阶段聚焦推理训练框架,base model 是 Qwen2.5-VL-7B。输入是一张图表 + 一个问题,输出是带 <think>/<focus>/<answer> 结构的推理与答案。
- Stage 1(冷启动 SFT):先用一条自动 Focus-CoT 数据合成流水线造出高质量的「带聚焦标签的推理链」数据,再做监督微调,把「边推理边聚焦」这个行为注入模型,作为冷启动。
- Stage 2(Focus-GRPO 强化学习):在冷启动模型上跑改进版 GRPO,用三路奖励(relaxed-accuracy / format / information-efficiency)+ 自适应 KL 惩罚进一步打磨聚焦效率和推理深度。
- 评测侧:作者另建了 HID-Chart benchmark 和 Chart-ID 信息密度指标,专门量化 HID 场景下的细粒度推理能力。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["图表 + 问题"] --> B["Focus-CoT<br/>推理步挂<focus>:OCR+局部框"]
B --> C["自动数据合成流水线<br/>多路rollout→筛选→GPT-5重构"]
C -->|冷启动SFT| D["Focus-GRPO<br/>relaxed-acc+信息效率+自适应KL"]
D --> E["Chart-FR1"]
E -->|在HID-Chart评测| F["细粒度图表推理"]
关键设计¶
1. Focus-CoT:把推理步骤显式锚定到视觉证据,并用流水线自动造冷启动数据
针对「细粒度感知不足」——普通 CoT 主要在语言层面推理,对图上的具体数值、局部区域缺乏感知。Focus-CoT 引入一个 <focus> 标签,每次聚焦动作包含两个子动作:OCR 文本抽取(<ocr>...</ocr>)和局部图像定位(<box>{"bbox_2d":[...], "label":...}</box>),后续推理在这些聚焦信息的指引下进行,从而让「推理」和「感知」紧耦合——例如模型先 <think> 怀疑某峰值,再 <focus> 去框出对应子图、OCR 出坐标值,回头修正之前的错误结论(论文开篇例子里,模型正是靠这一步把误判的「2 个峰」纠正成「1 个」)。
由于 RL 只会在模型已有知识里找高奖励路径,这种聚焦行为得先「教会」。作者设计了一条自动 Focus-CoT 生成流水线作为冷启动数据来源:① 按问题难度、图表质量、多样性筛样本,对每个样本用 Qwen2.5-VL 生成 8 条推理路径;② 格式过滤 + LLM 判对错,算每个样本的 pass@k,按难度分 easy/medium/hard(用 1:7:2 的比例搭 RL 训练集,剩下的 easy/hard 做冷启动集);③ 条件式 CoT 重构——用更强的教师模型 GPT-5 把原 CoT 接上视觉证据:原推理错了就定位错误、插入 <focus> 拿正确视觉信息并改写后续;原推理对了就在关键处插 <focus> 补一步「视觉验证」而不改原逻辑;④ 规则 + LLM 双重质量过滤,去掉冗余聚焦的链条。冷启动损失就是标准的序列 NLL:\(L_{\text{cold-start}} = -\mathbb{E}_{(x,q,r,a)\sim D}\sum_{t=1}^{T}\log \pi_\theta(y_t\mid x,q,y_{<t})\),其中 \(y\) 是推理 \(r\) 与答案 \(a\) 的拼接。
2. Focus-GRPO:以聚焦效率为核心的奖励 + 随线索数量自适应的 KL 惩罚
针对「视觉冗余」和「推理深度不自适应」两个痛点,这是本文最核心的创新。相比只靠稀疏的任务准确率做监督的标准 GRPO,Focus-GRPO 在三处动手。
(a) Relaxed-Accuracy 奖励——图表 QA 的数值答案常有小幅波动,硬比相等会让奖励信号过稀疏。于是定义 \(R_{\text{relaxed acc}}=1.0\) 当 \(\text{correctness}(\hat y,y)\) 成立否则为 0,而数值型答案的判对标准放宽为相对误差 \(\frac{|\hat y-y|}{\max(|y|,\mu)}\le 0.05\)(\(\mu\) 防止除零),非数值型则要求严格相等。
(b) Information-Efficiency 奖励——直接打击「聚焦了一堆冗余 OCR / 重叠框」的行为。它是冗余惩罚 \(P_{\text{redundancy}}\) 的指数衰减:\(R_{\text{efficiency}}=\exp(-\alpha\cdot P_{\text{redundancy}})\)。冗余惩罚由三个子项平均而来:OCR-OCR 文本相似度(用 SequenceMatcher 算,只对相似度超阈值 \(\tau\) 的对计入)、Box-Box 的 IoU 重叠、以及 OCR-Box(每条 OCR 文本与所有框标签的最大文本相似度,超 \(\tau\) 才计)。三项相似/重叠越高,惩罚越大、奖励越低,逼模型只挑高价值线索。format 奖励则用正则匹配输出结构,Focus-CoT 格式给 1.0、退化成普通 CoT 给 0.667、其它 0。三者加权汇总:\(R = R_{\text{relaxed acc}} + w_1\cdot R_{\text{format}} + w_2\cdot R_{\text{efficiency}}\)。
(c) 自适应 KL 惩罚——这是对「固定 KL 过度惩罚深推理」的直接修复。当模型聚焦到丰富线索、需要深探索时放松 KL 约束,线索少时收紧以保稳定。把聚焦信息量量化为 \(N_{\text{info}}=(N_{\text{ocr}}+N_{\text{box}})/2\),自适应系数 \(\beta'=\beta\cdot\frac{1}{1+\log(1+N_{\text{info}})}\)——线索越多 \(\beta'\) 越小、约束越松。最终目标在 group-relative 优势 \(A'_i=\frac{R_i-\text{mean}(\{R\})}{\text{std}(\{R\})}\) 上做带 clip 的 PPO 式优化,并减去用 \(\beta'\) 的自适应 KL 项 \(D'_{\text{KL}}(\pi_\theta\|\pi_{\text{ref}})\)。
3. HID-Chart benchmark 与 Chart-ID 信息密度指标:补上 HID 评测缺口
针对「现有图表 benchmark 在图表多样性、领域覆盖、信息密度上都不够」的问题,作者先定义一个信息密度指标 Chart-ID:用 GPT-5 从信息丰富度 \(S_{\text{rich}}\)、信息效率 \(S_{\text{eff}}\)、信息清晰度 \(S_{\text{clar}}\)、信息交互性 \(S_{\text{inter}}\) 四个维度各打 1-5 分,按 \(\text{Chart-ID}=\frac{S_{\text{rich}}}{2}+\frac{S_{\text{eff}}}{5}+\frac{S_{\text{clar}}}{5}+\frac{S_{\text{inter}}}{10}\) 合成(⚠️ 各维度权重以原文为准)。再走 human-in-the-loop 流程:从 2023-2025 的科学/社科出版物、网站、可视化库、行业报告里收约 2500 张图 → 用 Chart-ID 只留高密度图 → GPT-5 生候选问题 → 五名研究生删简单题、把单步题升级为多步题、标注答案并交叉二次校验。最终得到 734 张图、1561 条高质量 QA,平均信息密度 3.94(高于 ChartQA 3.23、CharXiv 3.75 等),覆盖 10 种图表类型、8 个领域。
损失函数 / 训练策略¶
两阶段共用 Qwen2.5-VL-7B,8×H100。冷启动集 6.4k 样本,训 1 epoch、lr \(2\times10^{-6}\)、batch 256;Focus-GRPO 阶段 30k 样本,训 3 epoch、lr \(1\times10^{-6}\)、batch 512、8 rollouts,超参 \(\alpha=2\)、\(\tau=0.9\)、\(\beta=1\times10^{-2}\)、\(w_1=w_2=0.1\)。
实验关键数据¶
主实验¶
五个图表 benchmark 上与闭源 / 通用 / 图表专用 / 推理类 MLLM 全面对比(Avg 为五项平均):
| 模型 | ChartQA | CharXiv | EvoChart | ChartBench | PlotQA | Avg |
|---|---|---|---|---|---|---|
| GPT-4o(闭源) | 85.7 | 47.1 | 63.9 | 72.3 | 51.0 | 64.0 |
| Qwen2.5-VL-7B(base) | 87.3 | 42.5 | 53.5 | 66.4 | 55.5 | 61.0 |
| Vision-R1-7B(推理类) | 84.0 | 38.7 | 54.0 | 66.3 | 58.3 | 60.3 |
| ChartSketcher-72B(图表类) | 88.9 | 36.6 | 63.3 | 68.3 | 57.1 | 62.8 |
| Chart-FR1-7B(本文) | 91.0 | 46.6 | 59.2 | 75.6 | 62.9 | 67.1 |
Chart-FR1-7B 比 base 平均高 6.1%,比闭源 GPT-4o 高 3.1%,在同体量里全面领先。在自建的 HID-Chart 上(Table 4)更明显:Avg 53.0,比 base 高 10.0%,反超 72B 的 Qwen2.5-VL-72B(51.5)1.5%、超 GPT-4o(51.2)1.8%;并且所有模型都随信息密度上升而掉点,印证 HID 图表的难度。
消融实验¶
Focus-GRPO 组件消融(在五 benchmark 的 Avg 上,Table 5):
| 配置 | Avg | 说明 |
|---|---|---|
| 标准 GRPO | 64.1 | 基线 RL |
| Focus-GRPO(完整) | 67.1 | 比 GRPO 高 3.0% |
| w/o 自适应 KL 惩罚 | 65.8 | 掉 1.3%,深推理被过度惩罚 |
| w/o 信息效率奖励 | 65.8 | 掉 1.3%,冗余信息损害准确率 |
| w/o 两者 | 65.5 | 仍比 GRPO 高 1.4%(relaxed-acc 之功) |
两阶段框架与聚焦线索消融(Table 6):
| 配置 | Avg | 说明 |
|---|---|---|
| Chart-FR1-7B(完整) | 67.1 | — |
| w/o Focus-GRPO | 62.7 | 掉 4.4%,RL 阶段贡献最大 |
| w/o Cold-Start | 64.7 | 掉 2.4%,冷启动激活聚焦能力 |
| w/o OCR | 64.5 | 掉 2.6%,去掉 OCR 线索最伤 |
| w/o box | 65.2 | 掉 1.9% |
关键发现¶
- Focus-GRPO 的 RL 阶段是头号功臣:去掉它掉 4.4%,远超去掉冷启动的 2.4%;自适应 KL 与信息效率奖励各贡献 1.3%,且二者全去掉后靠 relaxed-accuracy 仍能比标准 GRPO 高 1.4%。
- OCR 线索比框更关键:去 OCR 掉 2.6% > 去 box 掉 1.9%,说明 HID 图表里把文字数值读准是细粒度推理的命门。
- 方法可迁移到别的底座:换成 Qwen2.5-VL-3B / Qwen3-VL-8B 训练后,HID-Chart 等指标同样大幅提升(如 Qwen3-VL-8B Avg 63.9→69.7),不是只对单一 base 有效。
- 教师模型越强收益越高:用 GPT-5 当 CoT 重构教师(Avg 67.1)优于 Qwen3-VL-32B(66.7)和 Qwen2.5-VL-72B(65.5)。
亮点与洞察¶
- 把「聚焦」做成可监督的结构化动作:
<focus>里的 OCR + box 不是给人看的注释,而是能被「信息效率奖励」用 SequenceMatcher/IoU 直接量化冗余的对象,让「该看哪、别重复看」变成可优化目标——这套「让中间步骤可被奖励函数读取」的思路可迁移到任何需要工具调用 / 检索的多模态 RL。 - 自适应 KL 是个轻巧但对症的修复:仅用 \(\beta'=\beta/(1+\log(1+N_{\text{info}}))\) 一条公式,就把「线索多→放松约束允许深推理」的直觉编码进 GRPO,解决了固定 KL 对长链条的系统性压制。
- relaxed-accuracy 奖励本身就值钱:消融里把两个新奖励都拿掉、只留宽松数值判对,仍能稳超标准 GRPO 1.4%,提示图表 QA 里「奖励该不该容忍数值小波动」是个被低估的设计点。
局限与展望¶
- 重度依赖强教师模型:冷启动数据的
<focus>标注由 GPT-5 重构,教师弱了收益明显下降(Table 8),自建数据成本和可复现性受限于闭源教师。 - Chart-ID 指标本身由 GPT-5 打分:信息密度的四维评分是 LLM 主观给的,benchmark 的「难度标尺」与评测模型部分同源,⚠️ 是否引入循环偏置值得关注;各维度权重的取法原文也未充分论证。
- 只验证到 7B/8B 量级、单一语言:未报告更大模型或非英文图表上的表现;
<focus>的 box 定位精度在极密集子图下的失败模式也未深入分析。 - 可改进:把聚焦动作做成真正的迭代式「看-想-再看」多轮交互(当前一次推理内只插有限几个 focus),或让信息效率奖励区分「冗余」与「交叉验证型重复」,避免误伤有意的二次确认。
相关工作与启发¶
- vs 标准 GRPO / R1-VL / Vision-R1:它们用固定 KL + 稀疏准确率奖励,没法把视觉线索高效关联进推理;本文用三路奖励 + 自适应 KL,把「聚焦效率」和「推理深度」都纳入优化,HID 图表上 Avg 高 3% 起。
- vs ChartPoint / ChartSketcher(图表专用):ChartPoint 在推理时关联局部区域、ChartSketcher 做多轮交互式代码标注,但缺乏对「冗余聚焦」的信息效率监督;本文把局部区域 + OCR 显式标签化并用奖励约束其冗余度。
- vs EvoChart / ChartGemma(指令微调类):它们靠合成指令数据 SFT,受限于指令规模与质量、没有 RL 阶段;本文的两阶段范式里 RL 贡献了 4.4% 的主要增益。
评分¶
- 新颖性: ⭐⭐⭐⭐ Focus-CoT 的结构化聚焦标签 + 信息效率奖励 + 自适应 KL 三件套针对 HID 图表对症下药,组合新颖。
- 实验充分度: ⭐⭐⭐⭐⭐ 五 benchmark + 自建 HID-Chart,组件/两阶段/线索/底座/教师五类消融齐全。
- 写作质量: ⭐⭐⭐⭐ 公式与流水线交代清楚,痛点-设计对应明确,部分指标定义略需查补充材料。
- 价值: ⭐⭐⭐⭐ 在 7B 量级反超 GPT-4o 且方法可迁移底座,HID 图表与 Chart-ID 指标对社区有评测价值。