跳转至

Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Vision-Language Models

会议: ICML 2026
arXiv: 2505.16416
代码: https://github.com/lose4578/CircleRoPE
领域: 多模态VLM
关键词: 位置编码, RoPE, 视觉语言模型, 跨模态解耦, 空间推理

一句话总结

提出 Circle-RoPE,将图像 token 的 2D 坐标映射到与文本位置轴正交的环面上,形成锥体几何结构,使每个文本 token 到所有图像 token 的 RoPE 距离相等(PTD=0),消除跨模态伪位置偏置,同时通过逐层交替编码(AGE)保留图像内部空间结构。

研究背景与动机

领域现状:RoPE(旋转位置编码)在大语言模型中广泛使用,扩展到视觉语言模型(VLM)时,主流做法包括三种:(1) 将图像 token 展平为 1D 序列与文本拼接后直接用 1D RoPE(LLaVA / InternLM-VL 等);(2) 给所有图像 token 分配相同位置索引(mPLUG-Owl3);(3) 保留 2D 空间索引再与文本拼接(Qwen2-VL 的 M-RoPE)。

现有痛点:上述方法都在共享索引空间中嵌入图像和文本 token,导致跨模态相对位置由拼接顺序而非语义关联决定。例如在 VQA 中,"high on the clock tower" 应对齐塔顶图像区域,但由于索引排列,距离最近的反而是无关 patch,产生语义错位和多 token 距离不一致两类问题。

核心矛盾:方案 (1)(3) 保留了图像空间信息但引入了跨模态耦合偏置;方案 (2) 消除了偏置但丢失了图像内部空间结构。没有方案能同时做到跨模态解耦与保留图像空间关系。

本文目标:设计一种位置编码,使每个文本 token 到所有图像 token 等距(消除跨模态偏置),同时保持图像 token 之间的相对空间结构。

切入角度:从几何第一原理出发——如果把文本 token 看作"观察者",图像 token 构成 2D 平面,那么观察者应该站在平面的法线方向上而非共面位置,这样才能避免"透视畸变"。

核心 idea:将图像 token 坐标映射到一个与文本位置轴正交的环面上,形成类似直圆锥的几何结构,使文本 token 位于锥顶到所有环面点等距,从而在 RoPE 索引空间中实现 PTD=0。

方法详解

整体框架

Circle-RoPE 在 M-RoPE 的基础上,对图像 token 的 \((w, h)\) 索引在送入 RoPE 旋转之前进行几何变换。输入是图像 token 的 2D 网格坐标和文本 token 的 1D 位置索引,输出是变换后的 3D 坐标(用于图像)和原始 1D 索引(用于文本)。整个方法分为两大模块:CIP(圆形图像 token 索引投影)和 AGE(交替几何编码)。

关键设计

  1. Per-Token Distance (PTD) 度量与理论保证:

    • 功能:量化跨模态位置解耦程度,为方法设计提供形式化目标
    • 核心思路:对每个文本 token \(t\),计算其到所有图像 token 的 RoPE 索引距离的方差。定义 \(\bar{D}_t = \frac{1}{N_{\text{image}}}\sum_{i \in I} d(t, i)\),则 \(\text{PTD} = \frac{1}{N_{\text{image}} N_{\text{text}}} \sum_{t \in T} \sum_{i \in I} |d(t,i) - \bar{D}_t|\)。PTD=0 意味着每个文本 token 到所有图像 token 等距,RoPE 引入的注意力偏置对所有图像 token 一致,不会产生基于位置的偏好。作者进一步证明 RoPE 注意力 logit 的偏置量被 PTD 上界控制
    • 设计动机:现有方法缺乏量化跨模态位置耦合的指标。Hard embedding PTD=2.22,Spatial embedding PTD=0.64,Unordered PTD=0 但丢失空间信息。PTD 提供了明确的优化目标:在保留图像空间结构前提下追求 PTD=0
  2. 圆形图像 Token 索引投影 (CIP):

    • 功能:将图像 token 的 2D 网格坐标变换到与文本位置轴正交的环面上,实现 PTD=0 同时保留图像内部空间结构
    • 核心思路:分三步完成。坐标中心化:将所有图像坐标平移使几何中心在原点。混合角度环形映射:将中心化坐标投影到 2D 环面,角度由空间极角(SA)和网格索引角(GA)加权混合 \(\theta^{\text{mix}}_{ij} = \alpha \cdot \theta^{\text{SA}}_{ij} + (1-\alpha) \cdot \theta^{\text{GA}}_{ij}\) 得到,半径 \(R\) 控制尺度。SA 保留空间结构但相近射线方向的 token 角度可能坍缩,GA 通过均匀分配角度保证分辨力。目标平面旋转:将 2D 环面扩展到 3D 后旋转,使环面法向量与文本位置方向 \(V_{\text{text}}\) 对齐,形成锥体几何。最优参数为 \(\alpha=0.5\)\(R=10\)
    • 设计动机:直接展平或共享索引都无法同时满足跨模态解耦和图像空间保持。环面几何天然满足"到法线上任意一点等距"的性质,通过正交旋转将此性质映射到文本-图像关系中
  3. 交替几何编码 (AGE):

    • 功能:逐层交替使用 Circle-RoPE 和 M-RoPE,融合两种互补的几何先验
    • 核心思路:定义层级调度 \(s(\ell) \in \{\text{Circle-RoPE}, \text{M-RoPE}\}\),奇数层用 Circle-RoPE 提供无偏跨模态对齐,偶数层用 M-RoPE 提供网格式局部空间感知。这种交替起到几何正则化的作用,防止模型过拟合到单一几何视角
    • 设计动机:纯 Circle-RoPE 虽然解耦了跨模态位置,但放松了图像内部的 2D 局部性先验,对图表阅读和细粒度布局理解不利。M-RoPE 有类似卷积的局部感应偏置,适合图像内部注意力。AGE 让不同层各司其职——解耦层负责语义定位、空间层负责视觉特征提取

实验关键数据

主实验

基于 Qwen2.5-VL-3B 做 SFT(MAmmoTH-VL-Sub 1M 数据),仅替换位置编码模块:

数据集 Qwen2.5-VL (SFT) Circle-RoPE 提升
MMMU (val) 51.56 52.11 +0.55
MMMU-Pro 28.01 28.44 +0.43
MathVista (mini) 62.40 63.40 +1.00
AI2D 79.22 81.80 +2.58
RealWorldQA 66.10 66.54 +0.44
平均 57.46 58.46 +1.00

在 TAM benchmark 上 Func-IoU 提升 +3.45(71.19→74.64),验证了跨模态解耦效果。

消融实验

配置 MMMU MMMU-Pro MathVista 平均
Baseline (M-RoPE) 50.22 27.92 62.40 46.85
CIP α=0, R=auto 52.38 28.12 61.70 47.40
CIP α=0.5, R=10 (最优) 52.11 28.44 63.40 47.98
CIP α=0.5, R=auto 50.04 26.64 62.20 46.29
Unordered (PTD=0) 48.55 25.50 59.50
Circle-RoPE (PTD=0) 51.11 27.94 62.40

关键发现

  • PTD=0 不等于好:Unordered embedding 也满足 PTD=0,但因丢失图像空间结构反而大幅下降(平均 54.67 vs M-RoPE 56.76),证明保留图像内部几何是必要条件
  • AGE 优于单一编码:全部用 Circle-RoPE(策略1)平均 58.33,仅上层/下层分别 58.42/58.44,AGE 交替达 58.46,说明两种几何先验互补
  • 跨架构泛化:在 LLaVA-0.5B 上直接复用 Qwen2.5-VL 的超参(α=0.5, R=10),无需调参即超越 1D-RoPE 和 M-RoPE
  • 固定半径优于自适应半径:R=10 固定值 >> R=auto,自适应半径反而损害性能,可能因为不同分辨率图像产生的 R 值差异过大

亮点与洞察

  • 几何第一原理驱动设计:从"观察者-画布正交"的直觉出发推导出锥体几何,PTD 度量提供了形式化验证框架,理论与工程紧密结合。这种从几何不变性出发设计位置编码的思路可迁移到音频-文本、3D-文本等其他跨模态场景
  • 混合角度映射的精巧权衡:SA 保空间结构但有角度坍缩风险,GA 保区分度但丢空间语义,50/50 混合兼得两者优势。这种"两个互补信号加权混合"的范式在特征工程中普遍适用
  • AGE 作为几何正则化器:不强迫一种几何服务所有需求,而是让不同层自然分工,思路类似 MoE 中不同专家处理不同模式

局限与展望

  • 实验仅在 3B 和 0.5B 规模验证,7B+ 模型上的效果未知;大规模预训练(而非仅 SFT)中 Circle-RoPE 的收益可能不同
  • 主实验提升幅度相对有限(平均 +1.0),在部分 benchmark 如 RealWorldQA 上提升仅 +0.44
  • 视频理解场景(多帧时序+空间)的适配未涉及,M-RoPE 原本支持时间维度索引,Circle-RoPE 如何扩展到 3D+时序值得探索
  • α 和 R 的选择依赖消融实验,缺少自适应学习机制

相关工作与启发

  • M-RoPE (Qwen2-VL) 保留 2D 空间索引但跨模态耦合——Circle-RoPE 在其基础上通过正交投影解耦
  • mPLUG-Owl3 用共享索引实现 PTD=0 但丢空间——本文证明"PTD=0 + 空间保持"缺一不可
  • 启发:位置编码设计应区分"模态内"和"模态间"两种需求,用不同几何先验分别服务而非一刀切