ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qg7zOTPtg6
代码: https://github.com/JiaQiSJTU/VisionInText
领域: 多模态评测 / 视觉感知基准
关键词: ASCII art, 视觉感知, LLM/MLLM 评测, 跨模态对齐, OCR 权衡

一句话总结¶

本文以人类艺术家手绘的 ASCII art 为载体，构建了一个内容在文本与图像两种模态下完全等价的识别基准 ASCIIEval，系统性地揭示了 LLM 能从纯字符串"看出"视觉语义、开源 MLLM 在 OCR 与整体视觉感知之间存在权衡、且当前模型无法从"文本+图像"双模态输入中获益等多项诊断性发现。

研究背景与动机¶

领域现状：当下对 OCR（从图像中读出文字）已有充分研究，但反向问题——文本字符串里嵌入的视觉信息能否被模型感知——几乎无人系统考察。LLM 在海量文本上预训练后，被假设能通过换行符 \n 等捕捉人类书写中的二维结构，但现有评测（MMLU、FrontierMath 等）全是文本语义型，从未聚焦视觉感知能力；MLLM 基准（MMMU、MMStar）则只用常规自然图像，且无法保证混合输入时两种模态语义对齐。

现有痛点：已有的 ASCII 相关任务都很受限——BigBench 只有基础字符识别、其它工作要么是规则可生成的 box diagram / tone-based 图、要么只有 40 条生成样本，且大多用 Figlet 这类自动转换工具，模型容易过拟合到转换模式而非真正理解视觉内容；分类研究普遍只有 5 个类别，远不足以诊断 LLM/MLLM 的视觉表征能力。

核心矛盾：ASCII art 处在文本与图像的中间地带——它由固定宽度的可打印字符精心排布而成，同一份内容既能以文本字符串、也能以渲染图像表达，二者语义完全一致。这种"模态无关"特性使它成为衡量视觉感知能力的理想探针：对 LLM 是纯文本下的视觉感知考题，对 MLLM 则既考验对非常规图像的泛化、又是检验跨模态对齐的天然代理。但要把它做成严谨基准，必须解决数据稀缺、类别单一、词汇泄漏等一系列问题。

本文目标：构造一个覆盖丰富类别、文本/图像内容等价、可客观验证的识别基准，全面诊断 LLM 与 MLLM 在文本字符串中的视觉感知能力，并探索增强途径。

核心 idea：(1) 任务化 — 把问题形式化为多选题识别任务（"这幅 ASCII art 画的是什么"），答案客观便于验证；(2) 模态等价 — 每份 ASCII art 同时提供文本串与渲染图，构成 Text-only / Image-only / Text-Image 三种推理设置；(3) 高质量人工策展 — 用三层分类树组织、人工过滤掉不可识别样本并删除 art 中的文字以杜绝信息泄漏。

方法详解¶

整体框架¶

ASCIIEval 不提模型，而是一套"数据构造 + 多模态诊断 + 针对性增强"的评测体系。先从在线画廊与已有数据集收集艺术家手绘 ASCII art，经四阶段清洗构造测试集 ASCIIEval（3,526 样本 / 359 概念）与训练集 ASCIITune（11,836 样本）；再让 50+ 个 LLM/MLLM 在三种模态设置下做多选识别，从模态、长度、跨基准相关性等多维度做诊断；最后针对 LLM 和 MLLM 各自的短板提出 rationale 辅助微调、低分辨率 prompting 等增强手段。

flowchart TD
    A[在线画廊 + 已有数据集<br/>艺术家手绘 ASCII art] --> B[四阶段清洗]
    B --> B1[三层分类树<br/>7类/23组/359概念]
    B --> B2[归一化 + 去重<br/>edit distance/length<0.3 丢弃]
    B --> B3[人工过滤 + 删除art中文字<br/>防信息泄漏]
    B --> B4[同组采样负选项<br/>渲染为图像]
    B4 --> C[ASCIIEval 3526测试 / ASCIITune 11836训练]
    C --> D{三种推理设置}
    D --> D1[Text-only: LLM]
    D --> D2[Image-only: MLLM]
    D --> D3[Text-Image: MLLM]
    D1 --> E[Rationale 辅助微调]
    D2 --> F[低分辨率 prompting + 视觉骨干微调]

关键设计¶

1. 模态无关的识别任务形式化：用多选题把"视觉感知"从推理中剥离出来。 给定一份 ASCII art，其原始文本表示记为 \(x_{text}\)、对应渲染图像记为 \(x_{img}\)，模型需从候选概念集合 \(C=\{c_1,\dots,c_k\}\) 中选出正确者。三种设置分别对应只吃文本的 LLM \(\hat{y}_{text}=\mathrm{LLM}(x_{text},C)\)、只吃图像的 MLLM \(\hat{y}_{img}=\mathrm{MLLM}(x_{img},C)\)、以及同时吃两者的 \(\hat{y}_{multi}=\mathrm{MLLM}(x_{img},x_{text},C)\)。多选题的好处是答案客观、可用精确匹配自动判分，避免开放式生成评测的主观性；而把同一内容同时给出文本与图像，正是后续能干净比较三种模态、并定义"oracle 上界"（任一模态答对即算对）的基础。

2. 三层分类树 + 严格清洗：保证基准既有难度又无捷径可走。 作者参照 iOS emoji 分类设计了"概念→组→类"的三层树（7 大类、23 组、359 概念，灵感来自 Animals、Smileys & People、Food & Drink 等），把最细粒度的"概念"作为识别标签，负选项从同组其它概念中随机采样——这让干扰项语义相近、识别更具挑战。清洗环节有三道关键操作：归一化（去掉每行行首冗余空格与串尾空白，但不破坏视觉语义）；去重（计算两份 ASCII 串的编辑距离，若除以已有串长度后小于 0.3 即判为冗余丢弃，同时丢弃超过 100 行的样本）；以及人工删除 art 内部的文字，强制模型靠视觉结构而非读字识别，从根本上堵死信息泄漏。人类上界测试（三次各抽 100 样本，标注员准确率 100%/98%/97%）证明任务对人很简单，凸显模型差距源于真实能力缺失。

3. Rationale 辅助微调：用"分而治之"的推理链补 LLM 的二维感知短板。 作者发现直接在 ASCIITune 上微调 LLM（让它由多选题直接生成答案）完全无法提升视觉感知能力。受 GPT-5 在图像输入下表现优异、以及思维链能激发推理的启发，他们改用 GPT-5（同时给 \(x_{text}\) 与 \(x_{img}\)）合成富含局部 ASCII 特征解读的推理过程，验证后保留 6,309 条；微调时模型输入原始 \(x_{text}\)，目标输出是"推理过程 + 标准答案 \(y\)"的拼接。在 Qwen3-8B 上，零样本思考和普通微调分别只有 27.21%、26.23%，而 rationale 辅助微调把准确率从 28.28% 提升到 35.66%（相对增益 26.10%），跃居榜单第五。作者诚实指出这并非真正增强了 LLM 能力——其本质是 rationale 把复杂 art 拆解成一系列带描述的局部子串，让模型在推理时重组训练中记忆的碎片；真正瓶颈在于 tokenization 天然不适合保留二维空间信息（一条 dog 会被切成 13 个 token，相邻字符被任意拼接，破坏了垂直方向的连贯性）。

4. 低分辨率 prompting：反直觉地"模糊"图像，逼 MLLM 看整体而非读字符。 针对开源 MLLM"OCR 太强反而看不见整体"的诊断，作者提出测试时策略：故意降低输入分辨率以遮蔽单个字符细节，迫使模型感知全局视觉线索。在 Qwen2.5-VL-7B 上把最小像素设为 1、最大像素在 {16,32,64,128} 间变化，结果呈清晰反相关——最低分辨率 (1,16) 反而拿到最高的 52.32%，比默认设置高出 17.49%，直接挑战了"分辨率越高越好"的常识。配套的监督微调实验进一步表明，微调视觉骨干是性能提升的关键因素：仅对视觉骨干做 LoRA 即可达 75.48%，几乎追平全参微调的 75.83%，而只调文本骨干几乎无效（35.99%）。

实验关键数据¶

主实验表格¶

LLM（Text-only）与 MLLM（Image-only）的 Macro-Accuracy（%）头部对比，人类上界为 98.33%，随机基线 25%：

模态	领先专有模型	准确率	领先开源模型	准确率	专有-开源差距
Text-only (LLM)	GPT-5	55.90	DeepSeek-V3	35.94	19.96%
Image-only (MLLM)	GPT-5	87.81	CogVLM2-Llama3-19B	67.80	20.01%

数据集规模：ASCIIEval 3,526 样本 / 359 概念 / 23 组 / 7 类，平均每概念 9.82 件、行数 1–100；ASCIITune 11,836 样本 / 2,307 概念（更多样但质量略低）。

消融实验表格¶

Qwen2.5-VL-7B 在不同增强策略下的 Macro-Accuracy（%）：

策略	设置	准确率
低分辨率 prompting	default	34.83
	(1, 16)	52.32
	(1, 128)	38.81
监督微调	zero-shot	34.83
	全参微调	75.83
	LoRA(仅视觉骨干)	75.48
	LoRA(仅文本骨干)	35.99

LLM 微调（Qwen3-8B）：零样本思考 27.21% / 普通微调 26.23% / rationale 辅助微调 35.66%（相对 +26.10%）。

关键发现¶

LLM 确能从纯文本"看出"视觉语义：所有模型超过 25% 随机基线，且与 TableEval、SGP-Bench 强正相关（Pearson 0.78 / 0.85），说明这是一种跨任务共享的底层能力，但 ASCIIEval 把它从复杂推理中干净隔离出来。
开源 MLLM 出现"代际倒退"：新一代反而不如前代（如 Qwen-VL 同参数下从 52.32% 跌到 34.83%），根因是 ASCIIEval 与 OCRBench/TextVQA 呈强负相关——过度强化 OCR 会损害整体视觉感知，模型只"读字"不"看图"。
缩放律仅在单系列内成立：Gemma-3-27B 反超百亿级别的更大模型，说明轻量模型也能有强视觉感知。
双模态不增反降：性能层级始终是 Image-only > Text-Image > Text-only，加入文本最多让性能下降 12.23%，揭示当前 MLLM 无法动态融合一致的跨模态信号，反而互相干扰。
长度敏感且随模态而异：text-only 擅长短 art（局部密集特征如 ()';` 即可点题），image-only 擅长长 art（更接近真实图像/海报）。

亮点与洞察¶

"模态无关"这一选材洞察是全文最妙之处：ASCII art 让同一份内容在文本与图像下严格等价，从而第一次能够干净地横向比较 LLM 与 MLLM、并定义 oracle 上界来量化"双模态本应带来多少增益"。
诊断性极强且常常反直觉：开源 MLLM 的代际倒退、OCR 与整体感知的负相关、低分辨率反而更好、双模态不增反降——每一条都是对"更大/更高清/更多模态一定更好"的有力反例。
对 LLM 增强保持诚实：作者明确承认 rationale 微调只是"分而治之"地重组记忆碎片，并把真正瓶颈定位到 tokenization 破坏二维结构，而非夸大方法贡献。
安全意涵：用 ASCII art 表示"bomb"等敏感词可绕过安全防线已成为对抗攻击新漏洞，理解模型的视觉感知能力有助于主动防御。

局限与展望¶

增强手段均为 post-hoc：rationale 微调、低分辨率 prompting、视觉骨干微调都只是事后补丁，未从根本上让模型内在地平衡"细粒度文字识别"与"整体视觉感知"。
LLM 的根本瓶颈未解：tokenization 天然破坏二维空间连贯性，作者把"探索替代输入表示"列为关键未来方向但本文未实现。
跨模态融合机制缺失：双模态干扰暴露了 MLLM 缺乏动态融合架构，需要研究模态冲突的内部机制并设计能动态融合的架构。
数据存在类别不平衡：每概念样本数从 1 到 170 不等（平均 9.82），ASCIITune 虽更大但质量较低。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 以 ASCII art 的"模态无关"特性为支点构造文本/图像内容等价的视觉感知基准，视角独到，所揭示的 OCR-视觉权衡、双模态干扰等现象具有原创诊断价值。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 50+ 个 2023–2025 年 LLM/MLLM，三种模态、长度分桶、跨基准相关性、人类上界、多种增强消融一应俱全，论证扎实。
写作质量: ⭐⭐⭐⭐ 结构清晰、发现凝练，对自身方法局限保持诚实；个别图表（leaderboard 以 OCR 形式嵌入正文）在缓存中可读性一般，但论文本身组织得当。
价值: ⭐⭐⭐⭐⭐ 填补了"文本中视觉信息感知"这一长期被忽视的评测空白，对多模态对齐、安全防御、轻量模型设计均有现实意义，基准与训练集开源便于社区跟进。