Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/phkhub/Chart-FR1
领域: 多模态VLM
关键词: 图表推理, 视觉聚焦, 强化学习, GRPO, 思维链

一句话总结¶

针对子图密集、图例标注繁多的「高信息密度图表」，Chart-FR1 用 <focus> 标签把推理步骤显式锚定到 OCR 文本和局部框区域（Focus-CoT），再用带「信息效率奖励 + 自适应 KL 惩罚」的 Focus-GRPO 做强化学习，把 Qwen2.5-VL-7B 在五个图表 benchmark 上平均拉高 6.1%，并反超 GPT-4o。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在图表理解上进步很快，既有 GPT-4o、Qwen2.5-VL 这类通用模型，也有 ChartGemma、EvoChart 这类图表专用模型，近期还出现了用强化学习（GRPO）增强推理的 R1-VL、Vision-R1 等。

现有痛点：但论文盯住的是一类被忽视的硬骨头——高信息密度（High Information Density, HID）图表：一张图里塞了多个子图、多组图例、密密麻麻的标注。在这种图上现有模型暴露三个具体毛病：（1）细粒度感知不足——模型大多依赖全局视觉 embedding，无法从杂乱信息里精准抠出关键线索，漏读数值；（2）视觉冗余与噪声——一股脑塞进太多视觉元素，反而干扰推理，看似看得多其实抓不准；（3）推理深度不自适应——现有 RL 用固定的 KL 惩罚系数约束策略，当某些问题需要长链条、多线索的深推理时，固定惩罚会「过度惩罚」长输出，把模型按死在浅推理上。

核心矛盾：图表信息密度越高，视觉杂乱同时拖垮「感知」和「推理」两端——论文 Fig.2 显示，随着信息密度从 [0,3.7) 升到 [4.2,5.0]，GPT-4o / Qwen2.5-VL 的准确率单调下滑。而推理链需要的探索深度本应随线索增多而放宽，固定 KL 却反着来。

本文目标：让模型在 HID 图表上同时做到「感知更细、聚焦更省、推理深度自适应」，并补上一个专门评测 HID 图表的 benchmark。

核心 idea：把「聚焦动作」显式写进推理链——每一步推理都用 <focus> 标签挂上它依据的 OCR 文本和局部框，让感知和推理紧耦合；再用一套以「聚焦效率」为核心的 RL 奖励和随线索数量动态调整的 KL 惩罚去优化这个聚焦行为。

方法详解¶

整体框架¶

Chart-FR1 是一个两阶段聚焦推理训练框架，base model 是 Qwen2.5-VL-7B。输入是一张图表 + 一个问题，输出是带 <think>/<focus>/<answer> 结构的推理与答案。

Stage 1（冷启动 SFT）：先用一条自动 Focus-CoT 数据合成流水线造出高质量的「带聚焦标签的推理链」数据，再做监督微调，把「边推理边聚焦」这个行为注入模型，作为冷启动。
Stage 2（Focus-GRPO 强化学习）：在冷启动模型上跑改进版 GRPO，用三路奖励（relaxed-accuracy / format / information-efficiency）+ 自适应 KL 惩罚进一步打磨聚焦效率和推理深度。
评测侧：作者另建了 HID-Chart benchmark 和 Chart-ID 信息密度指标，专门量化 HID 场景下的细粒度推理能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图表 + 问题"] --> B["Focus-CoT<br/>推理步挂&lt;focus&gt;:OCR+局部框"]
    B --> C["自动数据合成流水线<br/>多路rollout→筛选→GPT-5重构"]
    C -->|冷启动SFT| D["Focus-GRPO<br/>relaxed-acc+信息效率+自适应KL"]
    D --> E["Chart-FR1"]
    E -->|在HID-Chart评测| F["细粒度图表推理"]

关键设计¶

1. Focus-CoT：把推理步骤显式锚定到视觉证据，并用流水线自动造冷启动数据

针对「细粒度感知不足」——普通 CoT 主要在语言层面推理，对图上的具体数值、局部区域缺乏感知。Focus-CoT 引入一个 <focus> 标签，每次聚焦动作包含两个子动作：OCR 文本抽取（<ocr>...</ocr>）和局部图像定位（<box>{"bbox_2d":[...], "label":...}</box>），后续推理在这些聚焦信息的指引下进行，从而让「推理」和「感知」紧耦合——例如模型先 <think> 怀疑某峰值，再 <focus> 去框出对应子图、OCR 出坐标值，回头修正之前的错误结论（论文开篇例子里，模型正是靠这一步把误判的「2 个峰」纠正成「1 个」）。

由于 RL 只会在模型已有知识里找高奖励路径，这种聚焦行为得先「教会」。作者设计了一条自动 Focus-CoT 生成流水线作为冷启动数据来源：① 按问题难度、图表质量、多样性筛样本，对每个样本用 Qwen2.5-VL 生成 8 条推理路径；② 格式过滤 + LLM 判对错，算每个样本的 pass@k，按难度分 easy/medium/hard（用 1:7:2 的比例搭 RL 训练集，剩下的 easy/hard 做冷启动集）；③ 条件式 CoT 重构——用更强的教师模型 GPT-5 把原 CoT 接上视觉证据：原推理错了就定位错误、插入 <focus> 拿正确视觉信息并改写后续；原推理对了就在关键处插 <focus> 补一步「视觉验证」而不改原逻辑；④ 规则 + LLM 双重质量过滤，去掉冗余聚焦的链条。冷启动损失就是标准的序列 NLL：\(L_{\text{cold-start}} = -\mathbb{E}_{(x,q,r,a)\sim D}\sum_{t=1}^{T}\log \pi_\theta(y_t\mid x,q,y_{<t})\)，其中 \(y\) 是推理 \(r\) 与答案 \(a\) 的拼接。

2. Focus-GRPO：以聚焦效率为核心的奖励 + 随线索数量自适应的 KL 惩罚

针对「视觉冗余」和「推理深度不自适应」两个痛点，这是本文最核心的创新。相比只靠稀疏的任务准确率做监督的标准 GRPO，Focus-GRPO 在三处动手。

(a) Relaxed-Accuracy 奖励——图表 QA 的数值答案常有小幅波动，硬比相等会让奖励信号过稀疏。于是定义 \(R_{\text{relaxed acc}}=1.0\) 当 \(\text{correctness}(\hat y,y)\) 成立否则为 0，而数值型答案的判对标准放宽为相对误差 \(\frac{|\hat y-y|}{\max(|y|,\mu)}\le 0.05\)（\(\mu\) 防止除零），非数值型则要求严格相等。

(b) Information-Efficiency 奖励——直接打击「聚焦了一堆冗余 OCR / 重叠框」的行为。它是冗余惩罚 \(P_{\text{redundancy}}\) 的指数衰减：\(R_{\text{efficiency}}=\exp(-\alpha\cdot P_{\text{redundancy}})\)。冗余惩罚由三个子项平均而来：OCR-OCR 文本相似度（用 SequenceMatcher 算，只对相似度超阈值 \(\tau\) 的对计入）、Box-Box 的 IoU 重叠、以及 OCR-Box（每条 OCR 文本与所有框标签的最大文本相似度，超 \(\tau\) 才计）。三项相似/重叠越高，惩罚越大、奖励越低，逼模型只挑高价值线索。format 奖励则用正则匹配输出结构，Focus-CoT 格式给 1.0、退化成普通 CoT 给 0.667、其它 0。三者加权汇总：\(R = R_{\text{relaxed acc}} + w_1\cdot R_{\text{format}} + w_2\cdot R_{\text{efficiency}}\)。

(c) 自适应 KL 惩罚——这是对「固定 KL 过度惩罚深推理」的直接修复。当模型聚焦到丰富线索、需要深探索时放松 KL 约束，线索少时收紧以保稳定。把聚焦信息量量化为 \(N_{\text{info}}=(N_{\text{ocr}}+N_{\text{box}})/2\)，自适应系数 \(\beta'=\beta\cdot\frac{1}{1+\log(1+N_{\text{info}})}\)——线索越多 \(\beta'\) 越小、约束越松。最终目标在 group-relative 优势 \(A'_i=\frac{R_i-\text{mean}(\{R\})}{\text{std}(\{R\})}\) 上做带 clip 的 PPO 式优化，并减去用 \(\beta'\) 的自适应 KL 项 \(D'_{\text{KL}}(\pi_\theta\|\pi_{\text{ref}})\)。

3. HID-Chart benchmark 与 Chart-ID 信息密度指标：补上 HID 评测缺口

针对「现有图表 benchmark 在图表多样性、领域覆盖、信息密度上都不够」的问题，作者先定义一个信息密度指标 Chart-ID：用 GPT-5 从信息丰富度 \(S_{\text{rich}}\)、信息效率 \(S_{\text{eff}}\)、信息清晰度 \(S_{\text{clar}}\)、信息交互性 \(S_{\text{inter}}\) 四个维度各打 1-5 分，按 \(\text{Chart-ID}=\frac{S_{\text{rich}}}{2}+\frac{S_{\text{eff}}}{5}+\frac{S_{\text{clar}}}{5}+\frac{S_{\text{inter}}}{10}\) 合成（⚠️ 各维度权重以原文为准）。再走 human-in-the-loop 流程：从 2023-2025 的科学/社科出版物、网站、可视化库、行业报告里收约 2500 张图 → 用 Chart-ID 只留高密度图 → GPT-5 生候选问题 → 五名研究生删简单题、把单步题升级为多步题、标注答案并交叉二次校验。最终得到 734 张图、1561 条高质量 QA，平均信息密度 3.94（高于 ChartQA 3.23、CharXiv 3.75 等），覆盖 10 种图表类型、8 个领域。

损失函数 / 训练策略¶

两阶段共用 Qwen2.5-VL-7B，8×H100。冷启动集 6.4k 样本，训 1 epoch、lr \(2\times10^{-6}\)、batch 256；Focus-GRPO 阶段 30k 样本，训 3 epoch、lr \(1\times10^{-6}\)、batch 512、8 rollouts，超参 \(\alpha=2\)、\(\tau=0.9\)、\(\beta=1\times10^{-2}\)、\(w_1=w_2=0.1\)。

实验关键数据¶

主实验¶

五个图表 benchmark 上与闭源 / 通用 / 图表专用 / 推理类 MLLM 全面对比（Avg 为五项平均）：

模型	ChartQA	CharXiv	EvoChart	ChartBench	PlotQA	Avg
GPT-4o（闭源）	85.7	47.1	63.9	72.3	51.0	64.0
Qwen2.5-VL-7B（base）	87.3	42.5	53.5	66.4	55.5	61.0
Vision-R1-7B（推理类）	84.0	38.7	54.0	66.3	58.3	60.3
ChartSketcher-72B（图表类）	88.9	36.6	63.3	68.3	57.1	62.8
Chart-FR1-7B（本文）	91.0	46.6	59.2	75.6	62.9	67.1

Chart-FR1-7B 比 base 平均高 6.1%，比闭源 GPT-4o 高 3.1%，在同体量里全面领先。在自建的 HID-Chart 上（Table 4）更明显：Avg 53.0，比 base 高 10.0%，反超 72B 的 Qwen2.5-VL-72B（51.5）1.5%、超 GPT-4o（51.2）1.8%；并且所有模型都随信息密度上升而掉点，印证 HID 图表的难度。

消融实验¶

Focus-GRPO 组件消融（在五 benchmark 的 Avg 上，Table 5）：

配置	Avg	说明
标准 GRPO	64.1	基线 RL
Focus-GRPO（完整）	67.1	比 GRPO 高 3.0%
w/o 自适应 KL 惩罚	65.8	掉 1.3%，深推理被过度惩罚
w/o 信息效率奖励	65.8	掉 1.3%，冗余信息损害准确率
w/o 两者	65.5	仍比 GRPO 高 1.4%（relaxed-acc 之功）

两阶段框架与聚焦线索消融（Table 6）：

配置	Avg	说明
Chart-FR1-7B（完整）	67.1	—
w/o Focus-GRPO	62.7	掉 4.4%，RL 阶段贡献最大
w/o Cold-Start	64.7	掉 2.4%，冷启动激活聚焦能力
w/o OCR	64.5	掉 2.6%，去掉 OCR 线索最伤
w/o box	65.2	掉 1.9%

关键发现¶

Focus-GRPO 的 RL 阶段是头号功臣：去掉它掉 4.4%，远超去掉冷启动的 2.4%；自适应 KL 与信息效率奖励各贡献 1.3%，且二者全去掉后靠 relaxed-accuracy 仍能比标准 GRPO 高 1.4%。
OCR 线索比框更关键：去 OCR 掉 2.6% > 去 box 掉 1.9%，说明 HID 图表里把文字数值读准是细粒度推理的命门。
方法可迁移到别的底座：换成 Qwen2.5-VL-3B / Qwen3-VL-8B 训练后，HID-Chart 等指标同样大幅提升（如 Qwen3-VL-8B Avg 63.9→69.7），不是只对单一 base 有效。
教师模型越强收益越高：用 GPT-5 当 CoT 重构教师（Avg 67.1）优于 Qwen3-VL-32B（66.7）和 Qwen2.5-VL-72B（65.5）。

亮点与洞察¶

把「聚焦」做成可监督的结构化动作：<focus> 里的 OCR + box 不是给人看的注释，而是能被「信息效率奖励」用 SequenceMatcher/IoU 直接量化冗余的对象，让「该看哪、别重复看」变成可优化目标——这套「让中间步骤可被奖励函数读取」的思路可迁移到任何需要工具调用 / 检索的多模态 RL。
自适应 KL 是个轻巧但对症的修复：仅用 \(\beta'=\beta/(1+\log(1+N_{\text{info}}))\) 一条公式，就把「线索多→放松约束允许深推理」的直觉编码进 GRPO，解决了固定 KL 对长链条的系统性压制。
relaxed-accuracy 奖励本身就值钱：消融里把两个新奖励都拿掉、只留宽松数值判对，仍能稳超标准 GRPO 1.4%，提示图表 QA 里「奖励该不该容忍数值小波动」是个被低估的设计点。

局限与展望¶

重度依赖强教师模型：冷启动数据的 <focus> 标注由 GPT-5 重构，教师弱了收益明显下降（Table 8），自建数据成本和可复现性受限于闭源教师。
Chart-ID 指标本身由 GPT-5 打分：信息密度的四维评分是 LLM 主观给的，benchmark 的「难度标尺」与评测模型部分同源，⚠️ 是否引入循环偏置值得关注；各维度权重的取法原文也未充分论证。
只验证到 7B/8B 量级、单一语言：未报告更大模型或非英文图表上的表现；<focus> 的 box 定位精度在极密集子图下的失败模式也未深入分析。
可改进：把聚焦动作做成真正的迭代式「看-想-再看」多轮交互（当前一次推理内只插有限几个 focus），或让信息效率奖励区分「冗余」与「交叉验证型重复」，避免误伤有意的二次确认。

评分¶

新颖性: ⭐⭐⭐⭐ Focus-CoT 的结构化聚焦标签 + 信息效率奖励 + 自适应 KL 三件套针对 HID 图表对症下药，组合新颖。
实验充分度: ⭐⭐⭐⭐⭐ 五 benchmark + 自建 HID-Chart，组件/两阶段/线索/底座/教师五类消融齐全。
写作质量: ⭐⭐⭐⭐ 公式与流水线交代清楚，痛点-设计对应明确，部分指标定义略需查补充材料。
价值: ⭐⭐⭐⭐ 在 7B 量级反超 GPT-4o 且方法可迁移底座，HID 图表与 Chart-ID 指标对社区有评测价值。