ID-Sim: An Identity-Focused Similarity Metric¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认（论文称有 project page，链接未在正文给出）
领域: 感知相似度度量 / 身份识别
关键词: 感知度量, 身份相似度, 选择性敏感, 对比学习, DINOv3

一句话总结¶

本文提出 ID-Sim——一个前馈式、专门衡量"身份一致性"的感知度量，它模仿人类的"选择性敏感"（对背景/姿态/光照等语境变化不敏感、却对细微的身份变化敏感）：在冻结的 DINOv3 ViT-L 上用真实+合成编辑数据训练 LoRA 与双头 MLP，配合全局 CLS 对比 + 局部 patch 最优传输对比双目标，在 7 个数据集、49 个评测设置里有 48 个超过现有度量，且用的标注数据少 100× 多、主干更小。

研究背景与动机¶

领域现状：感知度量的每次进步都推动了视觉研究——从信号层的 PSNR/SSIM 到学习型的 LPIPS、DISTS、DreamSim，让"图像相似度"越来越贴近人类判断。但这些度量优化的都是外观相似度，而不是身份一致性。

现有痛点：人类有一种"选择性敏感（selective sensitivity）"——既能跨视角/光照/姿态认出同一个体，又能对改变身份的细微差异保持高度警觉。视觉模型却很难兼顾这两端：① 通用感知度量（LPIPS/DreamSim）会被无关的语境变化（背景、光照）干扰，把"同一物体换姿态"和"两个相似但不同的物体"混为一谈；② 基础模型（DINOv3/CLIP）在中等变换下就认不出同一物体，或被背景这种表面特征误导；③ 专用系统（Re-ID、实例检索、个性化评测）只在窄域里管用，跨域就失效，且优化的是"判别间隔最大化"而非"对齐人类相似度判断"。

核心矛盾：身份聚焦类任务（尤其是个性化/主体驱动生成的评测）缺一个通用、跨域、与人类判断对齐的身份一致性度量。现有方法要么只测外观、要么只在单一域内判别，没有一个能稳定回答"某个变换究竟是保住了身份、还是改变了身份"。

本文目标：造一个前馈、确定性、跨域通用的身份度量，让"同一身份的多样外观聚得紧、不同身份分得开"，并与人类标注高度一致；同时给身份感知建一套统一基准来衡量进展。

切入角度：作者先给"视觉身份（一个物体内在视觉属性的唯一集合：形状/纹理/颜色）"和"实例（共享同一视觉身份的物体）"下了明确定义，把模糊的"identity/instance"收敛成可操作的判据；再发现没有现成数据同时提供"语境多样、身份多样、域多样"三种信号，于是用真实实例数据 + 生成式编辑来补齐。

核心 idea：用"真实实例 + 生成式可控编辑"curate 出带选择性敏感信号的三元组训练数据，在强基础模型上用全局+局部双对比目标轻量微调，得到一个专测身份一致性的感知度量。

方法详解¶

整体框架¶

ID-Sim 的流程分两段：数据 curation 与 度量训练。数据侧把真实实例数据集（Subset 1）和两类生成式编辑数据（Subset 2a 保身份的语境编辑、Subset 2b 改身份的实例编辑）拼成三元组 \((x_0, x^+, \{x_i^-\})\)——锚点与正样本是同一实例的两张图，硬负样本来自"改身份编辑"或"DINOv3 近邻挖到的真实近似实例"，其余负样本取自同 batch 的其他实例。训练侧把每张图过冻结的 ViT 主干 \(f_\theta\) 得到全局 CLS token \(c'\) 和 patch tokens \(Z'\)，再用双头 MLP 分别投影到两个嵌入空间，用全局 CLS 对比损失 + 局部 patch 对比损失联合优化（只训 LoRA + 投影头）。推理时直接用 \(D(x,y)=1-\mathrm{sim}(f_\theta(x), f_\theta(y))\) 算两图的身份距离。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实实例数据集 (Subset 1)<br/>+ 生成式编辑数据<br/>2a 保身份语境编辑 / 2b 改身份实例编辑"] --> B["三信号数据 curation<br/>组三元组：锚点·正样本·硬负样本<br/>语境/身份/域 三种多样性"]
    B --> C["冻结 DINOv3 ViT-L 主干<br/>过图得 CLS token + patch tokens"]
    C --> D["双头 MLP 投影<br/>CLS 头 → c；Patch 头 → Z"]
    D -->|全局| E["全局 CLS 对比<br/>InfoNCE on c"]
    D -->|局部| F["局部 patch 对比<br/>Sinkhorn OT on Z"]
    E -->|"L_total = L_CLS + λ·L_Patch"| G["更新 LoRA + 投影头"]
    F -->|"L_total = L_CLS + λ·L_Patch"| G
    G -->|推理| H["身份距离 D(x,y)=1−sim(f(x),f(y))"]

关键设计¶

1. 三信号数据 curation：用真实+生成式编辑同时灌入语境/身份/域三种多样性

针对"没有现成数据能同时支撑不变性与判别性"的痛点。作者把训练需要的信号拆成三类——语境多样性（支撑对背景/光照/视角的不变性）、视觉身份多样性（支撑对细微外观差异的敏感）、域多样性（支撑跨类别泛化），并指出没有任一现成数据集三者齐备。于是 curation 分两路：Subset 1 汇总 7 个真实实例级数据集（ILIAS/FORB/MET/GLDv2/Dogs/Cats/DF2，涵盖地标、平面物体、艺术品、动物、时尚）；Subset 2 用生成式编辑扩充——2a 对视频数据集（UCO3D/LASOT/YouTubeVIS/GOT10k）做保身份的语境编辑得到"语境多样的正样本对"，2b 做改身份的实例编辑得到"细粒度负样本"。最终训练集是 10k 三元组（约 30k 图、约 1 万实例、10 个数据集），并刻意做三等分：纯真实三元组 / 生成保身份正样本+真实负样本 / 真实正样本+改身份负样本。消融显示这套"平衡 + 过滤 + 编辑"的组合直接把验证分从 0.693 拉到 0.965，是 ID-Sim 表现的根基——正向编辑提升类内一致性、改身份编辑锐化类间判别。

2. 全局+局部双对比目标：CLS 管整体语义、patch 用最优传输管细粒度对应

针对"只看全局 token 会丢掉密集/局部判别线索"的问题。作者在监督对比框架下用联合目标 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{CLS}}+\lambda\,\mathcal{L}_{\text{Patch}}\)。全局项是投影后 CLS token 上的标准 InfoNCE：\(\mathcal{L}_{\text{CLS}}=-\log \frac{e^{s^+}}{e^{s^+}+\sum_{i=1}^N e^{s_i^-}}\)，其中 \(s^+=\mathrm{sim}(c_0,c^+)/\tau\)、\(s_i^-=\mathrm{sim}(c_0,c_i^-)/\tau\)，\(\mathrm{sim}\) 是余弦相似度。局部项的关键洞察是：跨视角/语境时 patch 的空间布局会错位，逐位置比对不可靠，于是把两图的 patch tokens 当成无序的局部描述子集合，用软对齐衡量相似——具体定义为负的熵正则最优传输（OT）距离 \(\mathrm{sim}_{\text{patch}}(A,B)=-S_\varepsilon(A,B)\)，\(S_\varepsilon\) 是用 GeomLoss 在 patch 上以均匀权重算的 Sinkhorn 距离，再把它代回 InfoNCE 得到 \(\mathcal{L}_{\text{Patch}}\)。与 DenseCL 用同一图增广视图建硬最近邻对应不同，这里是跨同一实例的不同图、通过一个软全局 OT plan 隐式学对应，因此能容忍真实的姿态/语境位移。Table 2b 显示 patch 监督把相对 DINOv3 的提升从 13%（仅 CLS）放大到 40%。

3. 冻结强主干 + LoRA + 双头投影的轻量微调：用极少标注撬动跨域身份对齐

针对"专用 Re-ID/检索模型要海量域内细标注、还不跨域"的痛点。作者选 DINOv3 ViT-L @ 448×448 作主干 \(f_\theta\)（在验证集上实例级表现最强），冻结主干，只微调两样东西：注意力与前馈层上 rank-16 的 LoRA 适配器、以及轻量 2 层双头 MLP 投影头 \(c=\mathrm{MLP}_{\text{CLS}}(c')\)、\(Z=\mathrm{MLP}_{\text{Patch}}(z')\)。硬负样本的来源也很省力——要么取 Subset 2b 的改身份编辑，要么在预训练 DINOv3 嵌入空间用最近邻挖"长得像但不同"的真实实例。这种设计让 ID-Sim 用比检索 SOTA（Universal Embedding，ViT-H + 百万级细标注）少约 100× 的标注、更小的主干，反而拿到更好的跨域综合表现，说明收益来自"身份聚焦的数据 + 双对比目标"而非堆参数堆标注。

实验关键数据¶

主干 DINOv3 ViT-L @ 448，冻结主干只训 LoRA(rank 16)+双头 MLP。对比 7 个 baseline（感知度量 DreamSim/LPIPS/DiffSim、基础模型 DINOv3/CLIP/OpenCLIP、检索模型 Universal Embedding[ViT-H]），在 7 个与训练集不相交的数据集、3 类任务（实例检索、概念保持、Re-ID）上评测。49 个评测设置中 ID-Sim 赢 48 个，所有 ViT 方法默认用全局 CLS token 算相似度。

主实验（与 MLLM 对比概念保持，Table 2a）¶

方法	模型	SUBJECTS2K (AP)	DreamBench++
ID-Sim（本文）	ViT-L	0.4063	0.697
GPT-4o（原 prompt）	GPT-4o	0.2901	0.748
GPT-5（受控 prompt）	GPT-5	0.3159	0.3554
Gemini（受控 prompt）	Gemini	0.3354	0.70

在更细粒度的 SUBJECTS2K 上 ID-Sim 超过所有 MLLM；DreamBench++ 上 MLLM 略高但对 prompt 极敏感（GPT-5 换成受控身份保持 prompt 后从 ~0.7 暴跌到 0.3554），而 ID-Sim 是确定性前馈、跨评测稳定且算力开销低得多。其中 SUBJECTS2K 是作者新标注的基准：对 Subjects200k 的子集补了 2k 条人工二元（同/异实例）标注以替代噪声较大的 GPT-4v 标签。

Patch 级嵌入跨任务对比（Table 2b，含 patch 监督消融）¶

数据集	指标	DINOv3	Ours（无 patch 监督）	Ours（完整）
DeepFashion2	mAP	0.4071	0.4765	0.7967
AerialCattle2017	mAP	0.4516	0.5471	0.6245
CUTE	Acc	0.6561	0.6439	0.8189
DreamBench++	Spearman	0.5479	0.5913	0.6834
PetFace	mAP	0.7849	0.8377	0.8446
PODS	mAP	0.5825	0.8181	0.7907
SUBJECTS2K	AP	0.2314	0.2348	0.3674

仅 CLS 监督已比 DINOv3 平均提升约 13%，加上显式 patch 监督放大到 40% 相对提升；唯一例外是 PODS，无 patch 监督版略高（0.8181 vs 0.7907）。

消融实验（数据组成与编辑策略，Table 3）¶

配置	平衡	过滤	正样本编辑	负样本编辑	比例	验证分
全部数据	✗	✗	✗	✗	–	0.693
全部数据	✓	✗	✗	✗	–	0.752
过滤后	✓	✓	✗	✗	–	0.890
过滤后	✓	✓	✓	✗	1:1	0.937
过滤后	✓	✓	✓	✓	1:1:1	0.965

个性化分割迁移（PerSAM on PODS，Table 2c）¶

方法	mAP	F1
PerSAM + DINOv3	0.153	0.18
PerSAM + Ours（无 patch 监督）	0.214	0.235
PerSAM + Ours（完整）	0.436	0.409

关键发现¶

数据质量与平衡比堆量更重要：平衡正负样本 + 过滤噪声实例把验证分从 0.693 推到 0.890，再加生成式正/负编辑推到 0.965——正向编辑提类内一致性、改身份负样本锐化类间判别。
patch 监督是细粒度任务的放大器：仅 CLS 已超 DINOv3 13%，显式 patch 对比把提升放大到 40%，并让 ID-Sim 的局部特征能直接插进 PerSAM，把分割 mAP 从 0.153 拉到 0.436。
最强收益出现在"跨语境识别"与"细微身份判别"两端：在 PODS、DeepFashion2 这类正样本明确换了语境的数据上，相对第二/第三名分别 +0.11、+0.30 mAP；在细粒度的 SUBJECTS2K 上比次优 +0.05 mAP。
敏感度分析印证选择性敏感：在 identity/background/viewpoint/lighting 四维度上，ID-Sim 取得"高身份敏感 + 低语境敏感"的最佳平衡——身份变化时相似度下降最大、语境变化时最稳；而 CLIP/OpenCLIP/LPIPS 身份敏感度最弱（更像测语义/图像级相似），DINOv3/Universal Embedding 对视角光照不变但对背景敏感。

亮点与洞察¶

"选择性敏感"这个问题定义本身就是贡献：把模糊的 identity/instance 收敛成"内在视觉属性唯一集合"的可操作判据，并据此把训练信号拆成语境/身份/域三类去 curate 数据——这个拆解思路可迁移到任何"要兼顾不变性与判别性"的度量学习。
用 Sinkhorn OT 做 patch 软对齐很巧：把"跨语境时空间错位导致逐位置比对失效"这个真实痛点，转成"无序局部描述子集合的最优传输距离"，既保留细粒度局部线索又容忍姿态/视角位移，且能直接迁移到分割等密集任务。
生成式编辑当可控数据增广：保身份编辑造正样本、改身份编辑造硬负样本，给度量学习提供了真实数据难以采集的"细粒度可控变化"，是这篇把验证分推到 0.965 的关键。
少标注小主干反超大模型：用比检索 SOTA 少约 100× 标注、ViT-L vs ViT-H，仍综合最优，说明"身份聚焦的数据与目标"比单纯堆规模更对路。

局限与展望¶

训练高度依赖生成式编辑质量：保身份/改身份编辑由扩散/编辑模型（Qwen-Edit、Flux 等）生成，编辑失真或身份泄漏会直接污染监督信号；论文未定量评估编辑错误率对度量的影响。⚠️ 编辑管线细节在补充材料，正文未展开。
代码/项目页缺失：正文写"Our project page id here"但未给出实际链接，可复现性待确认。⚠️ 以原文/项目页为准。
基准仍以静态图为主：虽用了视频数据集做编辑源，但身份一致性的时序维度（同一实例长时间演化）只在"猫长成大猫"这类定义层面提及，未系统评测。
PODS 上 patch 监督反而略降（0.8181→0.7907），说明 patch 对比并非对所有域都正向，何时该开 patch 监督缺乏判据。
依赖冻结的 DINOv3 主干：度量上限部分受限于主干的实例级表征，若主干在某域弱，LoRA 微调能否补足未充分验证。

评分¶

新颖性: ⭐⭐⭐⭐ "选择性敏感"问题定义 + 真实/生成编辑数据 + 全局-局部双对比组合新颖，但单个组件（LoRA、InfoNCE、Sinkhorn OT）均为已知部件的巧妙组装。
实验充分度: ⭐⭐⭐⭐⭐ 7 baseline × 7 数据集 × 3 类任务、49 设置、MLLM 对比、patch 消融、数据组成消融、四维敏感度分析与下游分割迁移，覆盖很全。
写作质量: ⭐⭐⭐⭐ 定义—数据—方法—实验逻辑清晰、动机讲透；项目页链接缺失、部分编辑细节压在补充材料。
价值: ⭐⭐⭐⭐⭐ 填补了"通用跨域身份一致性度量"的空白，并配套 SUBJECTS2K 基准，对个性化生成评测等身份聚焦任务有直接推动作用。