Charts Are Not Images: On the Challenges of Scientific Chart Editing¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=259xBeNyDV
代码: https://github.com/adobe-research/figure-editing
领域: 图像生成 / 科学图表编辑 / 多模态评测基准
关键词: 图表编辑, 结构化变换, 图形语法, 基准测试, 语义评测, 指令编辑

一句话总结¶

本文指出"图表不是图像"——图表是受图形语法约束的结构化数据渲染，编辑图表本质是结构化变换而非像素操作；据此提出 30K+ 规模、覆盖 10 种图表类型与五类渐进任务的 FigEdit 基准，并揭示主流图像编辑模型在像素指标上分数虚高、实际语义编辑却频繁失败。

研究背景与动机¶

领域现状：扩散模型与自回归 VLM 在自然图像的指令式编辑上表现亮眼（InstructPix2Pix、Emu Edit、ControlNet 等），人们自然想把这些工具迁移到科学图表的修改上——更新数据、调整布局、统一风格、转换编码方式都是科研写作的日常需求。

现有痛点：把图表当图像处理建立在一个错误前提上。一张图表不是像素的堆叠，而是结构化数据 \(D\) 经图形语法（graphical grammar）渲染出的产物。诸如"为类别 X 添加一个值为 42 的柱子"这样的指令，要求模型协调更新数据 schema 与视觉映射，但当前模型往往把它当作视觉重排，产出"看似合理却违反语义"的结果。与此同时，已有图表基准多聚焦 captioning、QA、表格抽取或 chart-to-code，缺乏真实底层数据、编辑类别覆盖窄、几乎不含视觉引导/风格迁移等交互场景，且仍依赖 SSIM/PSNR 这类像素相似度指标。

核心矛盾：指令编辑器为"开放目标下的感知对齐"而优化，而图表编辑被"数据保真 + 可视化规则"严格约束——这是一种持续存在的 问题–方法错配（problem–method mismatch）。在自然图像上训练的模型缺乏保持"取值–编码一致性、坐标轴连贯性、图例完整性"的归纳偏置。

本文目标：建立一个任务结构化、语义感知、可规模化的图表编辑专用基准，并系统揭示现有模型的失败模式。

核心 idea：[问题重定义] 图表编辑 = 结构化变换——把编辑形式化为作用在标记/标度/编码/图例上的变换函数 \(f_e:\Sigma\to\Sigma\)，明确数据–编码对齐、轴连贯、图例完整等不变量；[基准] FigEdit 用确定性编辑函数对 Vega/Vega-Lite 规范施加变换再渲染，提供像素一致的监督；[评测] 语义感知指标揭示像素相似度与语义正确性之间的鸿沟。

方法详解¶

整体框架¶

FigEdit 是一条"规范驱动 + 确定性渲染"的数据生成与评测流水线：先用 LLM 在真实数据集与图表类别的约束下生成 Vega-Lite 基础规范并自动校验，再对规范施加来自一套原子操作集 \(O\) 的确定性编辑函数得到编辑后规范，最后由渲染器 \(R\) 统一渲染成"编辑前/后"图像对。在此基础上派生出单步、多步、对话、视觉引导、风格迁移五类任务，并在图像空间用六个互补指标（含 LLM 评分）评测模型。

flowchart LR
    A[真实数据集 A + 图表类别 C] --> B[LLM 生成 Vega-Lite 规范 σ]
    B --> C[自动校验/去重/多样性过滤]
    C --> D[施加原子编辑 f_e: σ→σ*]
    D --> E[确定性渲染 R: σ→图像]
    E --> F[五类任务<br/>单步/多步/对话/视觉引导/风格迁移]
    F --> G[六指标评测<br/>SSIM·PSNR·CLIP·LPIPS·OCR·LLM]

关键设计¶

1. 把图表形式化为"内容+风格"的结构化规范，让编辑成为可定义的变换。 自然图像被看作坐标到颜色的映射 \(I:\mathbb{R}^2\to\mathbb{R}^3\)，而图表被定义为渲染器对规范的确定性输出 \(I=R(\sigma)\)。规范进一步分解为 \(\sigma=(C,S)\)：内容 \(C\) 包含数据集 \(D\)、图表类型 \(\tau\) 以及把变量映射到几何标记的编码函数；风格 \(S\) 涵盖调色板、字体、描边/填充、网格线、图例布局、间距与边距。一个原子编辑 \(e\) 被定义为带前/后置条件的全函数 \(f_e:\Sigma\to\Sigma\)。这一形式化是全篇的基石——它把"编辑对不对"从模糊的视觉判断，转化为"规范层面的变换是否满足不变量"，从而能用确定性编辑函数生成像素一致的标准答案（GT），避免了 chart-to-code 那种"只验代码可执行性、忽视感知质量"的局限。

2. 五类渐进任务覆盖真实编辑场景。 任务按难度递进设计：单步编辑给定一个原子编辑 \(\sigma^\star=f_e(\sigma)\)；多步编辑要求联合施加 \(k\ge2\) 个编辑，对不可交换的操作采用固定规范顺序 \(\sigma^\star=(f_{e_k}\circ\cdots\circ f_{e_1})(\sigma)\)；对话编辑把两步编辑拆解为多轮，每轮输入 \((I_{t-1},H_{t-1},u_t)\) 含历史与中间状态，考察模型跨轮维持状态的能力；风格迁移给定源图风格与目标内容，要求 \(C(\sigma^\star)=(D_t,\tau_t)\) 同时 \(S(\sigma^\star)\approx S(\sigma_s)\)，即保内容换风格；视觉引导编辑额外给定一个标注区域 \(G\)（用 GPT-Image 在目标元素上画细红圈），要求 \(\sigma^\star=f_{e,u,G}(\sigma)\) 在引导区内施改、其余保持。这套任务把"原子编辑、复合编辑、多模态引导、跨图风格适配"系统铺开，正对应现有基准缺失的交互场景。

3. 自动化标注流水线保证可复现的确定性监督。 对每张图表自动产出三件套：带机器可读 OP 标签的自然语言指令、含内联数据值的编辑后规范、对应渲染图像。编辑前会按图表语义过滤非法操作（如间距调整只对 band/point 标度有效），并校验 schema 正确性、变化可见、增删行时数据账目一致，确保监督确定且可复现。在原子编辑之上再派生：把两步编辑拆成对话样本、用 VLM 给目标区域画红圈生成视觉引导资产、把目标编辑与"风格已匹配的参考图"配对生成风格迁移标注。最终得到 30,836 个编辑图，覆盖经济、气候、医疗、体育、社科等真实领域。

4. 语义感知评测：揭穿像素指标的"虚高"。 评测全在图像空间进行，计算六个互补指标——SSIM、PSNR、LPIPS、CLIP 相似度、OCR 相似度，以及一个基于 LLM 的指令评分（细分为指令遵循、内容保持、视觉质量三项 1–5 分）。前五个是经典像素/感知指标，最后一个直接判断"编辑是否真的按指令完成"。论文用一组案例（图 2）说明：模型可以拿到很高的 SSIM/PSNR，但编辑其实是错的——保持了整体外观却忽略指令、扭曲了图形或改错了关键内容。这种设计把评测的重心从"像素像不像"显式转向"语义对不对"。

实验关键数据¶

主实验表格¶

评测 4 个代表性指令编辑模型（GPT-Image、Imagen 4、OmniGen 2、InstructPix2Pix），MLLM 评分为 1–5 分：

任务	模型	SSIM↑	PSNR↑	OCR↑	Instr.↑	Preserv.↑	Qual.↑
Single	Imagen 4	0.773	13.04	0.072	1.58	1.51	2.05
Single	GPT-Image	0.730	10.32	0.205	3.47	1.71	2.45
Single	OmniGen2	0.735	11.30	0.262	3.35	2.55	2.85
Multi	Imagen 4	0.696	11.02	0.107	1.26	1.32	2.15
Multi	OmniGen2	0.710	10.15	0.265	2.65	2.10	2.70
Conv.	GPT-Image	0.673	10.66	0.172	4.59	2.51	2.91
Conv.	Imagen 4	0.718	11.58	0.070	1.35	1.23	2.11
Visual	Imagen 4	0.842	13.10	0.120	1.40	1.35	2.20
Visual	GPT-Image	0.836	12.85	0.467	2.39	3.16	3.95
Transfer	Imagen 4	0.850	14.00	0.130	1.30	1.25	2.15
Transfer	GPT-Image	0.844	13.81	0.509	3.06	3.57	4.16

关键对照：Imagen 4 几乎包揽所有任务的 SSIM/PSNR 最高分，却在指令遵循与内容保持上垫底（多处 Instr.≈1.3）；这正是"像素分高、语义分崩"的铁证。

消融实验/分模型分析¶

模型	强项	弱项
Imagen 4	像素保真（SSIM/PSNR 最高）	指令遵循、语义保持最差，编辑"看着平滑却没改对"
GPT-Image	指令遵循最强（尤其对话/迁移），OCR 高	PSNR 偏低，对文本密集/布局敏感编辑鲁棒性弱
OmniGen2	各任务最均衡，OCR 稳定	视觉引导与风格迁移偏弱，跨实例推理受限
InstructPix2Pix	部分语义指标尚可	复杂编辑普遍逊于 OmniGen2

关键发现¶

像素相似 ≠ 语义正确：SSIM/PSNR 会系统性夸大 Imagen 4 这类像素导向模型的表现，而 LLM 评分与 OCR 才暴露出大量语义错误，差距在多步与对话编辑中尤为剧烈。
没有模型全面领先：性能高度碎片化，各模型都过拟合到特定任务结构或指标类型；在经典像素指标上强，并不保证在更难场景里真的把编辑做对。
失败模式一致：删数据点、改背景色、加新元素等指令下，模型常产出"视觉相似但变换没发生"的结果。

亮点与洞察¶

一句口号点透问题本质："Charts are not images"——把图表编辑从图像编辑里剥离出来，重新定义为受图形语法约束的结构化变换问题，这个 reframing 本身就极具说服力。
确定性 GT 是巧思：用编辑函数作用在 Vega-Lite 规范上再渲染，既得到像素一致的标准答案，又避免了 chart-to-code 基准"只验代码可执行性"的退化，兼顾了结构正确与感知质量。
直接质疑评测范式：不只是又一个数据集，而是用实验证明 SSIM/PSNR 在图表编辑上会误导结论，推动评测向数据/编码层的语义正确性迁移——这对整个图表智能方向有方法论价值。
规模与覆盖扎实：30K+ 样本、10 种图表类型、五类任务、真实领域数据，且首个同时支持视觉引导与风格迁移的图表编辑基准。

局限与展望¶

只提基准、未提模型：论文诊断了"结构感知模型缺位"，但本身只给评测协议，没有给出能通过测试的结构感知编辑方法，留给后续工作。
LLM 评分作为裁判：语义正确性高度依赖 LLM 打分，其自身可靠性、偏差与可复现性需进一步标定。
图像空间评测的折中：虽然 GT 来自规范，但模型输出在图像空间评测，对"输出规范"的模型并未充分利用其可执行性做更细粒度的结构校验。
展望：构建真正以规范/可执行目标为输出、显式保持数据–编码不变量的结构感知编辑模型，是这条线最自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ — "图表不是图像"的问题重定义清晰有力，确定性规范驱动的基准构造与语义感知评测都有原创性，但属于"诊断 + 基准"而非新方法。
实验充分度: ⭐⭐⭐⭐ — 4 个代表性模型 × 五类任务 × 六指标，定量与定性证据互证，把像素–语义鸿沟讲透；可惜未含可通过测试的结构感知 baseline。
写作质量: ⭐⭐⭐⭐⭐ — 论点鲜明、形式化干净、表格与雷达图组织清晰，口号与论证高度一致。
价值: ⭐⭐⭐⭐ — 为图表/科学图编辑提供了任务结构化、语义感知的公共基准与评测范式，对方向有较强推动力，主要价值在"立标准"而非"给方案"。