CVPR2026 其他论文解读论文笔记少样本学习对抗鲁棒联邦学习扩散模型对齐/RLHF 人脸/视线

📂 其他¶

📷 CVPR2026 · 105 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121) · 📹 ICCV2025 (33)

🔥 高频主题： 少样本学习 ×8 · 对抗鲁棒 ×5 · 联邦学习 ×3 · 扩散模型 ×2 · 对齐/RLHF ×2

A2GC: Asymmetric Aggregation with Geometric Constraints for Locally Aggregated Descriptors: 针对视觉地点识别（VPR）中"特征聚合靠对称 Sinkhorn"这一假设的失效，A2GC 把最优传输求解器改成非对称（行列归一化平均 + 源/目标边缘分别校准），再叠加一个几何约束分支（用可学习坐标嵌入让空间相邻的特征更倾向分到同一簇），在 Pitts30k 上把 Recall@1 推到 95.6%。
A Debiased Reconstruction-based Framework for Training-Free Detection of AI-Generated Images: 针对"基于重建误差的免训练 AI 生成图检测"会被简单背景/大范数隐变量带偏的问题，本文用旋转 + 低通滤波这类"保留偏置因子、破坏取证信息"的增强对重建误差做归一化去偏，在图像级和隐空间级各得到一个去偏分数，相乘融合成统一分数 RDD，在 GenImage、LSUN-Bedroom 等 18 个子基准上取得免训练 SOTA（平均 AUROC 0.981 / 0.940）。
A Difference-in-Difference Approach to Detecting AI-Generated Images: 针对"现代扩散模型生成的图像与真图越来越像、一阶重建误差失效"这一痛点，本文把重建做两次、用「重建误差之差」这个二阶差分来抵消重建本身引入的随机扰动、放大真假图之间的微弱信号，再把一阶与二阶误差各训一个分类器联合判定，在跨数据集/跨生成器场景下比最强基线提升约 20%–30%。
Adaptive Bayesian Early-Exit Networks for Efficient Non-Transferable Learning: ENL-DEE 把"非迁移学习（NTL）"重新设计成一个贝叶斯早退网络——冻结骨干、只训练若干早退分类头，用基于熵的路由让源域样本走到深层退出（保性能）、目标域样本在浅层就被踢出（非语义特征、精度接近随机），从而在大幅省训练/推理成本的同时强化模型版权保护。
Adaptive Data Augmentation with Multi-armed Bandit: Sample-Efficient Embedding Calibration for Implicit Pattern Recognition: ADAMAB 在冻结的预训练 embedding 模型之上训练一个轻量"校准器"，并用改造过的 UCB（多臂老虎机）算法按类自适应地决定该合成增强哪些数据，从而在每类只有 2–5 个初始样本的少样本长尾识别任务上把准确率提升最多约 40%，且有收敛性的理论保证。
AdaSFormer: Adaptive Serialized Transformers for Monocular Semantic Scene Completion from Indoor Environments: 提出AdaSFormer，一种针对室内单目语义场景补全(MSSC)的序列化Transformer框架，通过自适应序列化注意力(可学习偏移量)、中心相对位置编码和卷积调制层归一化三个核心设计，在NYUv2和Occ-ScanNet上达到SOTA。
ALLNet: Multi-task Dense Prediction for Degraded Images: ALLNet 把"先恢复、再做密集预测"的两阶段级联拆掉，用一个 U-Net 双解码器在每个尺度上让恢复流与预测流互相喂特征，靠一个退化自适应的专家混合模块（MaE）做去退化、再靠一个跨任务协同精修模块（TCR）做双向语义对齐，在退化版 NYUD-v2 / PASCAL-Context 上四个任务全面超过现有 SOTA。
Basis-Oriented Low-rank Transfer for Few-Shot and Test-Time Adaptation: BOLT 把一批已经微调好的源模型的"任务向量"做逐层 SVD 并正交化，得到一组共享的正交谱基底；面对全新任务时冻结这组基底，只训练每层极少的对角系数（约 8k 参数），从而在不做任何元训练的前提下，给少样本、OOD 和无标签测试时自适应提供一个强初始化与参数高效微调路径。
Beyond Euclidean Gossip: KL-Barycentric Consensus on Heterogeneous and Imbalanced Images: 针对完全去中心化训练在 non-i.i.d. 数据和客户端规模不均衡下崩坏的问题，本文把"邻居间平均模型参数"这个 Euclidean gossip 操作，换成在指数族期望参数空间里做线性混合——它恰好等价于一次曲率感知的 KL 重心共识（自然梯度步），无需构造或求逆 Fisher 矩阵就把单轮复杂度从 \(O(d^3)\) 降到 \(O(d)\)，并给出一个开销与 Adam 几乎相同的实现 KL-consensus Adam，在 CIFAR-100 上比 Euclidean 共识基线高出约 20% 准确率。
Bi-directional Autoregressive Diffusion for Large Complex Motion Interpolation: ARVFI 把视频插帧从"一次性生成所有中间帧"改成"从两端输入帧向中间逐帧自回归生成"，并用 DINOv3 特征替代光流作为运动表征，在大幅复杂运动下既显著提升插帧精度（FID 全面领先）又把采样步数压到 15 步、比 backbone Wan 快约 3 倍。
Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models: BISE 提出：一个在偏置数据上常规训练（vanilla）出来的有偏模型里，其实已经藏着一个相对无偏的子网络——只要冻结原参数、学一组结构化剪枝掩码，配合「重加权交叉熵 + 偏置互信息正则」把依赖捷径特征的神经元剪掉，就能在不重训、不需要额外无偏数据集的前提下抽出这个子网络，性能与 SOTA 去偏方法持平、再微调可反超，同时模型更小更快。
Bidirectional Query-Driven Generation of Parametric CAD Sketch: CADSketcher 把参数化 CAD 草图补全从"前缀→续写"的单向自回归改成"任意中间片段→向两侧外扩"的双向查询生成，靠双向查询学习 + 置信度门控 + 合法性编译器，在 SketchGraphs 上把草图级精度从 ~33% 拉到 45.6%、把非法率压到 0。
Bootstrapping Multi-view Learning for Test-time Noisy Correspondence: 针对部署时才出现的"视图错配"（Test-time Noisy Correspondence, TNC），BML 在干净训练集上就地自举注入可控错配并记录被污染的视图，用这份已知答案监督一个轻量可靠性估计器（同时吃视图内不确定性 + 视图间预测分歧），推理时直接用估计的可靠性权重加权融合压制坏视图，在 11 个基准上稳定超过现有 SOTA。
BrepVGAE: Variational Graph Autoencoder with Unified Latent Representation for B-rep: BrepVGAE 把 CAD 的 B-rep 模型里异质的「面」和「边」统一表示成同一张稀疏同构图的节点，用变分图自编码器压成一个全局 latent 向量，再用集合并行解码器一次性重建出全图的拓扑邻接和连续几何特征，在重建精度、拓扑有效率和生成多样性上都明显超过 BrepGen 等方法。
Bridging Domain Expertise and Generalization for Performance Estimation: 在没有标签的分布偏移测试集上估计模型精度时，本文不再只看被评估模型自己的输出，而是引入一个基础模型（CLIP/SigLIP）当"外部参照"，先用 JS 散度把它的预测校准到与被评估模型同一个置信度尺度，再按置信度加权融合成一个"伪真标签"分布，用被评估模型预测与这个分布的一致性来估计精度，平均 MAE 从次优的 6.72% 降到 6.53%。
CHIRP dataset: towards long-term, individual-level, behavioral monitoring of bird populations in the wild: 为了让计算机视觉真正服务于野外鸟类的长期个体级行为监测，本文用瑞典拉普兰一个跨 9 年（2014–2022）的西伯利亚松鸦野生种群构建了 CHIRP 数据集（同时覆盖重识别、动作识别、2D 关键点、检测、实例分割五类任务），提出了一套以「喂食率 / 共现率」等生物学指标为核心的「应用导向评测」范式，并给出基线方法 CORVID——一条靠识别鸟腿彩色脚环来做个体识别的流水线，在「territory 约束」下重识别 Top-1 超过动物重识别基础模型 MegaDescriptor。
Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization: COVec 把"明暗法（Clair-Obscur）"的光影对比思想引入图像矢量化，首次在向量域里做内禀图像分解——把一张真实照片拆成 albedo（反照率）、shade（阴影）、light（高光）三个语义连贯的 SVG 图层，靠区域级语义二值化初始化 + 两阶段可微渲染优化得到，既保真又把图层数压得很少，从而真正可编辑。
Coded-E2LF: Coded Aperture Light Field Imaging from Events: 首次证明仅用 event camera（无需传统 intensity 图像）即可重建像素级精度的 4D 光场，提出 Coded-E2LF 系统：通过编码光圈序列触发 events 并累积为 event images，利用全黑 pattern 建立 event-based 与 intensity-based coded aperture imaging 的数学等价性，结合端到端 deep optics 训练实现 8×8 视点光场重建。
Computer Vision with a Superpixelation Camera: 提出一种"超像素相机"SuperCam：传感器在片上直接以稀疏采样生成超像素图，根本不存储完整高分辨率图像，用比常规图像低一两个数量级的内存就能驱动分割/检测/深度估计，在同等内存预算下分割误差比受限版 SNIC 至少好一倍。
Confusion-Aware Spectral Regularizer for Long-Tailed Recognition: 本文先证明长尾场景下「最差类误差」可被频率加权混淆矩阵的谱范数紧致地上界控制，进而提出一个直接最小化该谱范数的正则项 CAR（配可微混淆矩阵替代式 + EMA 估计器），在 ImageNet-LT / CIFAR100-LT / iNaturalist 等基准上把最差类准确率提升 6%~10%、整体准确率超过此前 SOTA 2.4%~4.8%。
Consensus vs. Controversy: Mapping the Decision Space Where Architectures Diverge: 作者用 12 个预训练模型（CNN / ViT / MLP-Mixer 三大家族）在 ImageNet 上做"分歧取证"：发现尽管它们的整体准确率几乎一样（均值 79.9%），架构差异其实集中在最有争议的那 10% 图像上——这一小撮"争议图像"的分歧度是"共识图像"的约 4.5 倍，且同家族内部一致性显著高于跨家族，从而为模型选型和集成构建给出可操作的指导。
Convolutional Neural Networks Driven by Content Similarity: 通过对特征做"通道内排序"把相似度高的 token 排到位置上相邻，再用一维深度卷积聚合，让卷积获得类似自注意力的"按内容聚合"能力，得到的纯 CNN 模型 Ego 在分类/分割/检测上以更低算力超过同规模 Transformer 与先进 CNN。
Coupling Liquid Time-Constant Encoders with Modern Hopfield Memory: 给液态时间常数网络（LTC）外挂一个 Modern Hopfield 联想记忆模块，把"实时编码"和"长期记忆"从同一个隐状态里解耦出来，并从理论上证明这种耦合在保持有界稳定性的同时会收缩上游梯度、压低 Hessian 迹，从而让训练曲面更平滑，在 6 个时序基准上平均提升 2.3% 精度。
Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion: 提出闭环动态网络 CLDyN，让一个冻结的融合网络在不重训的前提下，通过一个仅 0.46M 参数的"需求驱动语义补偿（RSC）"模块接收下游任务（检测/分割/显著性）反馈的语义特征、动态定制卷积结构来做任务专属补偿，从而用一套模块同时适配多个任务，在 M3FD/FMB/VT5000 上既保住融合质量又取得领先的多任务适应性。
Dance Across Shifts: Forward-Facilitation Continual Test-Time Adaptation through Dynamic Style Bridging: 针对持续测试时适应(CTTA)里"监督信号又少又不可靠"的老大难，本文不再像以往那样把变化的测试数据硬拉回源域静态锚点(backward-alignment)，而是反过来——离线用扩散模型造一批语义纯净的类别样例，测试时把它们动态"染"上当前目标域的风格(输入/统计/表示三级桥接)，从而现场产出带真标签、又贴合当前分布的可靠监督，在 ImageNet-C / CIFAR100-C / CIFAR10-C 上把平均错误率分别降到 44.1% / 29.8% / 9.1%，且显存和延迟远低于扩散类方法。
Data-Centric Meta-Learning for Robust Few-Shot Generalization: 针对优化型元学习在跨域少样本场景下泛化崩塌的问题，本文把"可学习视觉提示"从测试期辅助件升格为贯穿整个元训练过程的核心机制——通过在数据空间对各任务输入做对齐，压低任务间梯度方向冲突，从而学到更通用的先验知识，并在测试期只更新提示和分类头即可高效适配。
Debiased Sample Selection for Learning with Noisy Labels: 本文指出主流噪声标签学习里"小损失即干净"(small-loss trick)的样本选择策略暗藏两类确认偏差——类级偏差（易学类被过度选中、难学类被忽略）和实例级偏差（伪低损失的错标样本被当作干净样本记忆），并提出两个即插即用模块 MDA（边缘分布调整）与 CCS（候选类别选择）分别消除这两类偏差，组合成 DSS，在 CIFAR-10/100 合成噪声及 CIFAR-N、Clothing1M、WebVision 真实噪声上稳定提升各类选择器与 SOTA 流水线。
Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis: 本文通过受控实验证明，即使给定完美的噪声转移矩阵 T，前向校正方法仍会在训练后期发生性能崩溃，并从宏观收敛状态、微观优化动力学、信息论三个层面系统诊断了这一失败的根本原因。
DF²-VB: Dual-level Fuzzy Fusion with View-specific Boosting for Multi-view Multi-label Classification: 针对多视图多标签分类（MVMLC）里"特征级融合表达力强但不用标签、决策级融合用标签但表征弱"这对此消彼长的矛盾，DF²-VB 把两级融合拧成一个统一框架——用模糊隶属函数在元素粒度上动态加权一致性特征（FDF），再用 Boosting 自适应衡量样本与各视图原子分类器的重要性（VB），让表达力与判别力互相补强，在 6 个公开数据集上全面刷新 SOTA。
DiffBMP: Differentiable Rendering with Bitmap Primitives: 提出 DiffBMP——首个面向位图图元的通用可微渲染引擎，通过自定义 CUDA 并行管线实现对数千张位图图元的位置、旋转、缩放、颜色和透明度的高效梯度优化，填补了 2D 可微渲染仅限矢量图形的空白。
Differentiable Stroke Planning with Dual Parameterization for Efficient and High-Fidelity Painting Creation: 把一根笔触同时表示成「离散折线」和「连续贝塞尔曲线」并让二者可微互转，用残差引导的离散搜索负责全局结构、用梯度优化负责像素级精修，再配一个高斯泼溅式的可微折线渲染器并行优化上千笔，从而在比现有方法少 30–50% 笔触、快 30–40% 的前提下把复杂纹理的 PSNR 抬高 4–5 dB。
DP-FedAdamW: An Efficient Optimizer for Differentially Private Federated Large Models: 这篇论文发现把 AdamW 直接搬到差分隐私联邦学习（DPFL）里会失灵，定位出"二阶矩方差放大、DP 引入的二阶矩偏置、客户端漂移加剧"三个病因，提出首个面向 DPFL 的 AdamW 优化器 DP-FedAdamW——用按块聚合二阶矩、显式扣掉 DP 噪声偏置、本地更新对齐全局方向三招对症下药，在 Tiny-ImageNet（Swin-Base, ε=1）上比 SOTA 高 5.83%。
Drainage: A Unifying Framework for Addressing Class Uncertainty: 在分类网络的输出层额外加一个"排水节点"(drainage node)并配一个从交叉熵推广出来的"排水损失",让歧义、异常或被错标的样本把概率质量倒进这个节点而不是被强行塞进某个错误类别,从而在高噪声场景下比一众鲁棒损失高出最多 10% 准确率,并能直接复用为开放集识别的拒识器。
DREAM: Document Recognition with Explicit Adaptive Memory: DREAM 给文档识别模型挂了一块「显式原型记忆」——把训练语料里反复出现的版面结构和书写风格（页边、斜排文字、表格线…）压缩成一组可检索的原型向量，区域特征用交叉注意力去稀疏地「读」这些原型、训练时再用 EMA「写」回去，作为非参数化的结构知识拼进视觉特征喂给解码器，在 Fox / DreamDoc / SCUT 手写数据集上以 0.6B 参数超过了数十倍体量的大模型。
Dual-Band Thermal Videography: Separating Time-Varying Reflection and Emission Near Ambient Conditions: 提出一种双波段长波红外视频分析框架，利用光谱线索（双波段发射率比恒定）和时间线索（物体辐射平滑变化、背景辐射突变）联合约束，首次实现近环境温度条件下动态场景中反射与发射分量的逐像素分离，并恢复物体发射率和温度场。
Evidential Deep Partial Label Learning to Quantify Disambiguation Uncertainty: 把证据深度学习（EDL）引入部分标签学习（PLL），用 Dirichlet 分布把候选标签集当作"证据"来建模消歧的可信度，并配上非候选标签抑制与类内冲突感知两个正则项，做到既能从模糊候选里挑出真标签、又能给出每个预测的不确定性，是一个可插拔到任意深度网络的损失函数。
EXOTIC: External Vision-driven Incomplete Multi-view Classification: EXOTIC 首次把"外部视觉知识库"引入不完整多视图分类（IMVC），用预训练视觉语言模型把一堆无标注图片转成语义先验，经过滤、纯化后去补全缺失视图，从而打破现有方法只靠"内部监督"的性能天花板——在高缺失率下相比 SOTA 提升尤其明显（LandUse21 在 MR=0.1 时 80.0% vs 次优 72.1%）。
FedSDR: Federated Graph Learning with Structural Noise Detection and Reconstruction: 针对子图联邦学习里"客户端图结构被随机加边/删边污染"这一被忽视的问题，FedSDR 用一个谱域结构保真度指标 \(S_{\text{ide}}\) 把被污染的客户端揪出来、在聚合时降权（SNAA），再借健康全局模型的特征相似度对本地受损图做"剪虚假边 + 补缺失边"的修复（RLSR），在 7 个数据集上显著超过 17 个联邦基线。
FedSST: Rethinking Fair Federated Graph Learning under Structural Shift: FedSST 用一张共享"探针图"探测各客户端 GNN 的结构偏好、压成一个标量信号并映射成"偏爱中间客户端"的公平权重，再用这个权重同时驱动差异化的本地训练轮数分配（SLTA）和两级自适应聚合（SSCA），在跨域图分类上同时提升平均精度与降低客户端间精度方差。
FlashVSR: Towards Real-time Diffusion-Based Streaming Video Super Resolution: FlashVSR 把基于扩散的视频超分（VSR）做成第一个「一步 + 流式」框架：用三阶段蒸馏把全注意力教师压成单步块稀疏因果学生、用局部约束稀疏注意力消除训练/推理分辨率鸿沟、再加一个吃 LR 帧做条件的微型解码器替掉占 70% 耗时的 VAE 解码，在单张 A100 上做到 768×1408 视频约 17 FPS、比最快的一步扩散 VSR 还快 11.8×，且能稳定泛化到 1440p。
FoleyDesigner: Immersive Stereo Foley Generation with Precise Spatio-Temporal Alignment for Film Clips: FoleyDesigner 模仿专业拟音师的工作流，把无声电影片段拆成分层声音事件、用从视觉追踪里提取的「深度+方位」时空线索驱动 DiT 扩散生成帧级对齐的立体声、再用多智能体后期混音并升混到 5.1 环绕声，在时空对齐与电影级拟音质量上全面超过现有 baseline。
GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents: 提出 GardenDesigner 框架，通过链式智能体（地形分布→道路生成→资产选择→布局优化）将江南园林的美学原则编码为可计算的约束，结合专家标注的 GardenVerse 数据集，实现非专业用户通过文本输入在一分钟内自动构建符合美学规范的江南园林。
Global Information Thresholding for Sufficient and Necessary Circuits: 针对自动电路发现普遍依赖"手工固定预算"（fixed top-k）这一痛点，本文不再事先定电路大小，而是先给边打分（带符号的 integrated gradients）、再用一个"保留多少原模型行为"的目标去自动搜出单一全局阈值 \(\tau\)，让电路大小成为"保留行为"的结果而非超参；在 MIB 基准上 CPR/CMD 整体最优或次优，并在 GPT-2 IOI 上同时改善了充分性与必要性诊断。
Global Underwater Geolocation from Time-Lapse Polarization Imagery: 一台水下偏振相机只需拍一段仰拍天空的延时序列加上 UTC 时间戳，本文就用「物理引导合成 280 万条训练序列 + 两段式 Transformer 先重建太阳高度角曲线再回归经纬度」把跨站点（未见过的水域）的定位中位误差从 SOTA 的约 3000 km 压到约 500 km，提升近 8 倍。
Graph Attention Prototypical Network for Robust Few-Shot Classification: 针对原型网络在支持集含错误标签时"原型漂移"导致精度骤降的问题，GAPNet 用"全局+局部双特征 → 伪标签引导建图 → 边感知图注意力 → 自适应抗噪原型生成"四步流水线显式建模类内/类间关系并动态压低噪声样本权重，在 4 个数据集 5-way 5-shot 任务上比 SOTA 高 3%~8%，且在 40% 标签噪声下衰减明显更慢。
Hearing the Room Through the Shape of the Drum: Modal-Guided Sound Recovery from Multi-Point Surface Vibrations: 针对响应差、强共振的"硬"物体（鼓面、笔记本、相框等），本文用散斑测振一次性采集物体表面 10×10 个点的双轴振动，推导一个把"场景声音 → 多点振动"联系起来的物理前向模型（以物体的振动模态为桥梁），再通过优化反演这个模型，把几十路含噪振动融合成一路去噪、去共振音色的声音，质量显著优于单点散斑测振和经典信号处理融合（平均、delay-and-sum）。
HierUQ: Hierarchical Uncertainty Quantification with Adaptive Granularity Reconciliation for Degraded Image Classification: HierUQ 针对退化（模糊/遮挡/噪声/低分辨率）图像的分层分类，用基于标签平滑 + 合理评分规则的分层不确定性量化（HUQ）给出可靠置信度，再用置信度感知的路径调整（CAPA）在不确定时自动从细粒度回退到更粗的层级，最后用自步多层联合优化（MLJO）协调多级目标，在退化遥感舰船与鸟类数据集上取得 SOTA。
Hyperbolic Defect Feature Synthesis for Few-Shot Defect Classification: 本文提出 HypDFS，把工业缺陷的特征合成从欧氏空间搬到双曲空间——用少量双曲缺陷原型建模缺陷分布、采样出合成特征，再配残差适配器和分层缺陷对比损失，利用双曲空间天然适合表达"树状层级"的特性，在 MVTec-FS 和 MTD 小样本基准上大幅超越欧氏基线。
HyperNAS: Enhancing Architecture Representation for NAS Predictor via Hypernetwork: HyperNAS 把"超网络生成架构权重"当作一个辅助任务挂在 NAS 性能预测器旁边，让两者共享同一个 GCN 编码器，再配上带偏好系数的自适应多任务损失，从而在标注样本极少时学到泛化更好的架构表示——CIFAR-10 上用至少 5 倍更少的样本就拿到 97.60% top-1。
HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition: 本文提出 HypeVPR，一个基于双曲空间层次化嵌入的视觉位置识别框架，专门解决透视图像（查询）与全景图像（数据库）之间的跨视场匹配问题，通过在 Poincaré 球中从局部到全局构建多级描述子，实现精度-效率-存储的灵活平衡，检索速度比滑窗基线快数倍且精度相当。
ImmerIris: A Large-Scale Dataset and Benchmark for Off-Axis and Unconstrained Iris Recognition in Immersive Applications: 为 XR/VR 头显场景下"离轴、非约束"虹膜识别造了一个 546 人、49.98 万张眼部图像的大规模数据集 ImmerIris，配套 8 套难度递增的评测协议，并指出传统两阶段方法卡在"归一化"上，提出一个直接吃裁剪眼部图、套人脸识别骨干的 NormFree 范式，简单却在多数协议上反超归一化 SOTA。
InstantRetouch: Efficient and High-Fidelity Instruction-Guided Image Retouching with Bilateral Space: InstantRetouch 把语言引导的照片修图从"直接编辑像素/latent"换成"在紧凑、内容解耦的双边空间里只预测一套仿射变换网格"，再用变分分数蒸馏把多步扩散教师蒸馏成单步生成器，从而在 4K 上做到 68ms 出图、比扩散基线快 70–900 倍，同时几乎不改动原图内容（无 content drift）。
Inter-Photon-Limited Videography: 本文提出"光子间隔受限（inter-photon-limited）"这一被忽视的成像速度极限——当场景变化快于光子到达时像素会"失明"，并用一个把时间重参数化为"每光子周期数 \(f_p\)"的统一框架来刻画其难度，再用一个无需预训练的神经通量场（Neural Flux Field, NFF）结合泊松统计与空间-时间先验，从极稀疏的单光子探测中重建出此前无法企及的动态视频。
InTrain: Intrinsic Trainability for Zero-Cost Neural Architecture Search: InTrain 把"一个架构能不能被训好"形式化成一个不依赖训练过程的内在不变量，用前向激活的几何容量（参与比）和反向梯度的优化韧性（梯度健康度）两个分量、再以尺度不变的乘性耦合合成单一打分，在 NAS-Bench-101/201 上达到与集成式代理相当、并超过所有单指标代理的排序相关性。
IrisFP: Adversarial-Example-based Model Fingerprinting with Enhanced Uniqueness and Robustness: 提出IrisFP模型指纹框架，通过将指纹放置在多类决策边界交叉点处、构建复合样本指纹、以及基于统计可分性的指纹筛选三项创新，同时增强指纹的唯一性和鲁棒性，在5个数据集上AUC一致超过SOTA方法。
Language Does Matter for Cross-Domain Few-Shot Visual Feature Enhancement: 针对跨域小样本任务里"纯视觉特征容易学到不可迁移的捷径模式"这一痛点，本文用图像描述模型 + 大语言模型为每张图生成「图像级 + 域级」语言属性，再用一个轻量残差交叉注意力把语言语义嵌进视觉特征，做成即插即用模块挂到分类/分割/检测基线上，在多个 CD-FSL 基准上稳定涨点。
Large-scale Robust Enhanced Ensemble Clustering via Outlier Decoupling: 针对锚点式集成聚类在数据含离群点时"重建被污染的基聚类→锚点有偏→相似度矩阵质量下降"的痛点，本文提出 RANGE：先用高阶模糊增强策略提升二部图可靠性，再在锚点空间把相似度矩阵显式拆成"干净结构 + 残差离群结构"并用正交惩罚和 \(\ell_{2,1}\) 范数约束把污染压到极少数锚点方向，从而得到无偏锚点；该残差结构还能顺手用于离群检测，做成线性复杂度、可扩到百万级样本的跨任务框架。
Learning Long-term Motion Embeddings for Efficient Kinematics Generation: 与其用视频生成模型逐像素同时建模"外观+运动"，本文直接学一个只编码运动、时间压缩 64× 的长时运动隐空间：先用轨迹 VAE 把稀疏跟踪轨迹压成稠密可查询的运动网格，再在这个空间里训一个条件流匹配模型按文本/戳点（poke）生成长时目标导向运动，比 SOTA 视频模型快一万倍以上、质量还更好。
Learning What Helps: Task-Aligned Context Selection for Vision Tasks: TACS 让判别式视觉模型（ViT）学会从候选池里挑出"真正能提升任务表现"的配对样本，而非"看起来最像"的近邻——通过可微采样路径 + 奖励驱动的策略优化路径联合训练一个选择器，把检索从静态预处理变成可学习的、由下游任务损失反向监督的环节，在 18 个数据集上稳定超越相似度检索。
Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning: 针对实例依赖偏标签学习 (ID-PLL) 中相似类别实例因特征和候选标签重叠导致的"实例纠缠"问题，提出 CAD 框架，通过类别特定增强的类内对齐和加权惩罚损失的类间分离，双管齐下缓解类混淆。
MMVIP: A Visible-infrared Paired Dataset for Multi-weather Marine Vision: MMVIP 是第一个大规模、真实采集的海事可见光-红外配对数据集——用多平台光电吊舱在 7 种恶劣海况下采集 12.8 万张严格时空对齐的图像对和 50 段视频，并配套一条"内外参标定 + 多场景自适应单应标定"的对齐流水线，同时在配准、融合、检测、跨模态生成四个任务上系统评测了 SOTA 方法，揭示现有算法在海面低纹理、强反光、低光照等条件下普遍掉点。
Modeling the Visual Ambiguity of Human Sketches: 这篇论文指出"一张草图能对应多张合理图像"的视觉歧义会把草图-图像匹配训练拖垮，提出用 CLIP 算出的 AmbiScore 量化每对草图-图像的歧义程度，再用 DisAmb 框架（弹性匹配按歧义动态调监督强度 + 提纯匹配用 Grounded SAM 掩码做形状拼图与纹理交换）显式建模并消解歧义，在 ZS-SBIR / FG-ZS-SBIR 上大幅刷新 SOTA，且不增加任何推理开销。
MooCap: A Multi-View Benchmark for Cow-Object-Human Interaction and Behavior Dynamics: MooCap 把经典动物行为学的"受控刺激实验"搬进计算机视觉，用 43 头奶牛、7 种标准化交互场景、42 小时同步多视角视频，配上 23 类细粒度行为 + 39 个关键点 + 4 个空间区 + 三组早期养育标签的密集标注，建立时序动作分割、骨架行为识别、纵向表型分类三个 benchmark——而 SOTA 模型只跑到 66.4% 帧准确率、0.39 mean F1，暴露出动物行为理解的巨大空间。
More Than Meets the Eye: A Unified Image Fusion Framework via Semantic-Pixel Entropy Trade-off for Zero-Shot Generalization: 把图像融合重新表述成自由能最小化问题——感知路径压低"语义熵"、重建路径抬高"像素熵"——只用红外-可见光这一种数据训练，就能零样本泛化到医学、多焦点、多曝光等没见过的融合任务，同时显著提升下游检测/分割性能。
MSPT: Efficient Large-Scale Physical Modeling via Parallelized Multi-Scale Attention: MSPT 把百万级点云切成 ball tree 分块，在每个分块内做局部自注意力、同时把每个分块池化成少量"超节点"做跨块全局通信，并把两者塞进同一个注意力算子里并行算出来，从而以近线性复杂度在单卡上求解工业级 PDE / 空气动力学问题，在多个基准上达到 SOTA 且显存和延迟显著更低。
MUFASA: A Multi-Layer Framework for Slot Attention: MUFASA 是一个即插即用的多层槽注意力框架：它不再只拿预训练 DINO ViT 最后一层的特征做槽注意力，而是同时在末尾若干层上各跑一套槽注意力、用匈牙利匹配把跨层的槽对齐后再融合成一组统一的对象中心表示，把 DINOSAUR/SPOT 等方法在 VOC/COCO/MOVi-C 上的无监督分割刷到新 SOTA，同时还显著加快了训练收敛、只带来很小的推理开销。
Multi-view Crowd Tracking Transformer with View-Ground Interactions Under Large Real-World Scenes: 首次把多视角人群跟踪从 Wildtrack/MultiviewX 这类几十帧小场景推进到上百米的大规模真实场景，提出一个完全基于 Transformer 的模型 MVTrackTrans（在地面 BEV 空间做跟踪 + 视图-地面交叉注意力补全外观信息），并配套发布两个大场景长序列数据集 MVCrowdTrack 与 CityTrack，在大数据集上 MOTA/IDF1 全面领先 CNN 方法。
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering: NAF 把"上采样视觉基础模型（VFM）的低分辨率特征"重新表述为一次只看高分辨率原图、不看 VFM 特征本身的邻域注意力滤波——训练一次就能零样本套到任意 VFM（包括 7B 大模型）、任意放大倍率上，在语义分割、深度估计、开放词汇分割、视频传播等多个下游任务上同时刷新 SOTA，速度还比同类方法快约 4 倍。
Negative Binomial Variational Autoencoders for Overdispersed Latent Modeling: 把 VAE 的离散脉冲隐变量从泊松分布换成负二项分布，引入一个色散参数让方差能超过均值，从而刻画真实神经脉冲的"过离散"，并配套设计了可训练的 KL 估计与重参数化采样，在四个数据集上把重建和生成质量同时拉到优于单层 VAE 基线。
Neural Collapse in Test-Time Adaptation: 将神经坍缩 (Neural Collapse) 理论从类级别扩展到样本级别，发现了NC3+现象（样本特征嵌入与对应分类器权重对齐），基于此揭示了分布偏移下性能退化的根本原因是样本级特征-分类器错位，并提出NCTTA方法通过几何邻近度与预测置信度的混合目标引导特征重新对齐，在ImageNet-C上比Tent提升14.52%。
Neural Mixture Density Processes: 针对经典神经过程（NP）因假设高斯似然而只能输出单峰预测分布的局限，本文提出神经混合密度过程（NMDP）：用单纯形上的 Dirichlet 隐变量去线性加权一组任务共享的密度专家，再用重要性加权的 EM/MM 式代理目标来训练，从而在异质、多峰的函数族上取得有竞争力的预测精度、更好的不确定性校准和可解释的任务表示。
NeuroRule: Bridging Vision and Logic with Differentiable Rule Induction: NeuroRule 把 Mask2Former 的像素级感知和一个可微的一阶逻辑规则归纳引擎接在一起，端到端地从图像里自动学出可解释的组合逻辑规则（如 riding(x,y) ∧ on(y,z) → travel-on(x,z)），既在 VG / PSG / Open-PSG 三个场景图基准上刷到 SOTA，又能给每条关系预测附上一条可审计的推理链。
NexusFlow: Unifying Disparate Tasks under Partial Supervision via Invertible Flow Networks: NexusFlow 用一组带可逆仿射耦合层的"代理网络"把结构上完全不同的任务（如稀疏目标跟踪 vs. 稠密地图重建）的中间特征映射到同一个标准潜空间并对齐其分布，在标注被按地理域切开、各任务只在不同城市有标签的极端部分监督场景下，做到几乎逼近全监督的性能，且是即插即用、不改原模型结构。
Optical Diffraction-based Convolution for Semiconductor Lithography: OptiCo 把瑞利-索末菲衍射积分推导成一次"复数卷积"，构造出编码光波相位变化的光学相位（OP）核直接嵌进 CNN，让网络在做光刻掩模优化时显式遵守衍射物理，在 LithoBench 的 OOD 子集上把 EPE 从同行的几十量级压到接近 0。
Order Matters: 3D Shape Generation from Sequential VR Sketches: 提出 VRSketch2Shape 框架，首次建模 VR 草图的笔画时序信息，通过序列感知的 BERT 编码器与基于扩散的 3D 生成器（SDFusion），从有序 VR 草图生成高保真 3D 形状，同时贡献了包含 20k 合成 + 900 真实草图的多类别数据集。
PAI-Bench: A Comprehensive Benchmark For Physical AI: PAI-Bench 把"物理 AI"拆成感知和预测两条能力线、再落到视频生成 / 条件视频生成 / 视频理解三个赛道，用 2,808 个真实世界样例配上任务对齐的物理合理性指标，系统评测了 15 个视频生成模型、4 个可控生成模型和 16 个多模态大模型，发现它们画面好看却普遍学不会物理规律、理解能力也远落后于人类。
PAUL: Uncertainty-Guided Partition and Augmentation for Robust Cross-View Geo-Localization under Noisy Correspondence: 针对无人机-卫星跨视角定位中 GPS 漂移导致的"半正样本"对齐噪声，PAUL 用 GMM 软划分干净/噪声对、证据深度学习做不确定性引导的区域掩码增强、再用双网络协同训练吸收噪声样本的有效信号，在不同噪声比下稳定超过现有噪声对应方法。
PhysSkin: Real-Time and Generalizable Physics-Based Skin Simulation: 提出 PhysSkin，一个泛化的物理信息框架——通过神经蒙皮场自编码器从静态 3D 几何体直接学习连续蒙皮权重场，配合物理信息自监督学习策略（能量最小化+平滑性+正交性约束），实现跨形状、跨离散化的实时物理动画，无需任何标注数据或仿真轨迹。
Plug-and-Play Incomplete Multi-View Clustering via Janus-Faced Affinity Learning with Topology Harmonization: PJFTH 提出一个无任何正则超参的即插即用不完整多视图聚类框架：用「双面（Janus-faced）亲和学习」把每个视图的私有杂质显式剥离出来再融合共识图，用「拓扑校准」把跨视图错乱的锚点顺序对齐，整套目标六步交替优化、复杂度对样本数 \(n\) 线性，在 6 个含缺失率数据集上达到有竞争力的聚类效果。
Progressive Neural Architecture Generation: PNAG 把神经架构"生成"重新建模成一个由简到繁的自回归过程——每一步用向量量化解码出一个完整可用的子架构，再逐步增加规模直到目标架构，并在每一步加一致性约束保证有效性，从而把单次生成时间相比扩散式方法压缩了 1300×，同时生成的架构精度还更高。
Prototype-based Causal Intervention for Multi-Label Image Classification: ProCI 把多标签分类里的"混杂上下文"建模成一组可学习的类别级原型，用一块动态记忆存它们、再用一个自适应模块在特征空间近似 Pearl 的后门调整，从而只靠图像级标签就能掰掉模型对虚假共现的依赖——在重度混杂的工业数据集 Sewer-ML 上把 F2CIW 刷高 +5.44 分。
RaUF: Learning the Spatial Uncertainty Field of Radar: RaUF 把"低保真雷达点云重建"重新表述成一个学习空间不确定性场的贝叶斯问题：用各向异性高斯刻画雷达"新月形"的方位/距离不确定性，把原本相互冲突的"特征→标签"监督转成可学习的置信度信号；同时用双向域注意力把多普勒一致性注入空间特征以压制鬼影，在 Coloradar / RaDelft / 自采数据上重建精度与下游任务可靠性都显著领先。
Region-Wise Correspondence Prediction between Manga Line Art Images: 这篇论文首次提出"直接从未标注的原始漫画线稿对中预测区域级对应关系"这一任务，用一个 ViT + Multiplex Transformer 联合学习图内结构与跨图相似度，再配一套边缘感知的后处理把 patch 相似度变成像素级区域分割和匹配，在手绘风格线稿上做到 78.4–84.4% 的区域级准确率。
Revisiting F-measure Optimization in Multi-Label Classification: A Sampling-based Approach: 针对多标签分类中 F-measure 的最优预测，本文把贝叶斯规则里 \(O(q^3)\) 的矩阵乘法用 Hankel 结构改写成卷积、再用 FFT 降到 \(O(q^2\log q)\)，并用「训 \(q\) 个二元估计器 + 自回归采样 + 蒙特卡洛积分」替代原来难训的 \(q\) 个多分类估计器，缓解稀疏分布问题，在六个数据集上一致超过过去十年的标准做法。
Revisiting Sparsity Constraint Under High-Rank Property in Partial Multi-Label Learning: 本文指出偏标记多标签学习（PML）里长期并用的「噪声标签稀疏 + 真实标签低秩」两个假设其实自相矛盾，证明稀疏扰动反而会保住预测标签矩阵的高秩性质，据此提出 Schirn——同时对噪声矩阵加稀疏约束、对预测矩阵加高秩（核范数）约束——在 11 个数据集上全面超过 9 个 SOTA。
RNN as Linear Transformer: A Closer Investigation into Representational Potentials of Visual Mamba Models: 本文把 Softmax 注意力、线性注意力、Mamba 统一写成同一个 token-mixing 矩阵 \(Y=MX\)，用秩分析证明 Mamba 是 Softmax 注意力的"低秩近似"、表达力严格夹在二者之间，并提出 Binary-AUC 指标把特征图质量从"肉眼看"变成可量化的 AUC，最终用 DINO 自监督训出的 Vision Mamba 在 ImageNet 线性探测达到 78.5%。
Scalable Multi-View Subspace Clustering with Tensorized Anchor Guidance: SMVS-TAG 把各视图学到的锚点拼成一个三阶张量、在频域上施加张量 Schatten p-范数低秩约束，从而在「锚点本身」这一层直接耦合跨视图的一致性与互补性，既提升了锚点质量、又让正则项与样本数 \(n\) 无关，在七个数据集上把大规模多视图聚类的 ACC 大幅刷新（部分数据集领先次优方法 30%+）。
Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation: 提出 FECO 框架，通过鞋款风格–内容随机化（对抗训练）和地面感知学习（像素高度图 + 地面法线），从单张 RGB 图像实现鲁棒的密集足部接触估计，在多个基准上显著超越现有方法。
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos: 提出 SimRecon 框架，通过"感知→生成→仿真"三阶段流水线，从真实视频自动构建仿真就绪的组合式 3D 场景，核心创新在于主动视角优化（AVO）为单物体生成寻找最优投影视角和场景图合成器（SGS）引导物理可信的层级化组装。
Spectral Conformal Risk Control: Distribution-Free Tail Guarantees via Bayesian Quadrature: 本文提出 BQ-SRC，把保形风险控制从「只管平均损失」推广到「管尾部高代价错误」的谱风险（如 CVaR），用贝叶斯求积视角构造分布无关的风险上包络，并用二项精确置信下界替代 DKW 充气把蒙特卡洛保守性砍掉约 3 倍，在合成回归、多标签分类、语义分割等任务上以更小的预测集维持有限样本的尾部风险保证。
TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size: 提出 TeamHOI 框架，通过基于 Transformer 的去中心化策略网络和掩码对抗运动先验（Masked AMP），使单一策略能够泛化到任意数量智能体的协作搬运任务，2-8 个仿人智能体协作搬桌子成功率达 97%+。
The Missing GAP: From Solving Square Jigsaw Puzzles to Handling Real World Archaeological Fragments: 针对"现有拼图求解器只会拼方块碎片、一碰真实考古碎片就崩"的鸿沟，本文同时给出两件东西：用 VAE 学真实考古碎片形状分布造出的不规则碎片拼图基准 GAP，以及一个用 ViT + 离散流匹配做排列学习的求解框架 PuzzleFlow——靠全片整体视觉关系而非边界匹配来拼，在 GAP 上显著超过经典与近期 SOTA。
The SA-FARI Dataset: Segment Anything in Footage of Animals for Recognition and Identification: SA-FARI 是迄今最大的野外多动物跟踪（MAT）数据集——汇集横跨 4 大洲、741 个站点、99 个物种、长达 10 年的 11,609 段相机陷阱视频，并首次提供大规模人工核验的时空分割 masklet（16,224 条个体轨迹、94 万个框/掩码），实验证明用它训练能让 SAM 3 在 HOTA 类指标上提升 20 点以上。
Towards Knowledge-augmented Bayesian Deep Learning For Computer Vision: 把领域知识同时塞进贝叶斯推断的「先验」和「似然」两端——先用知识约束预训练出一个信息先验 \(p(\theta\mid K)\)，再在主训练阶段用一个会自适应加码的「知识似然」\(p(K\mid\theta,D)\) 持续把约束摁住——在图像分类和单目 3D 手部重建上同时拿到更高精度、更稳的约束满足和更好的不确定性估计。
UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition: UniMERNet 把公式图像转 LaTeX 这件事重新做了一遍：它构造了百万级、覆盖四类真实场景的 UniMER-1M 数据集，并基于「解码器注意力天然呈光栅扫描（先横后纵）」这一观察，提出 Raster-Scan Attention 把二维注意力拆成水平、垂直两次一维计算，把复杂度从 \(O(NH^2W^2D)\) 降到 \(O(NHWD(H+W))\)，在 313M 参数下推理省 ~10× 显存、快 5×，同时四个真实场景的 CDM 全面超过 Texify、GOT 乃至 72B/78B 的多模态大模型。
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling: Upsample Anything 把经典联合双边上采样（JBU）和 2D 高斯泼溅统一成一个逐像素各向异性高斯核，靠每张图各跑 50 步「RGB 自重建」的测试时优化学出这套核，再把核原封不动搬到基础模型的低分辨率特征上做纯混合上采样——不需要任何数据集级训练、224×224 图只要约 0.419 秒，却在分割、深度、深度图/概率图上采样上全面达到或逼近 SOTA。
VideoMaMa: Mask-Guided Video Matting via Generative Prior: VideoMaMa 用预训练视频扩散模型（SVD）把粗糙的二值分割掩码"翻译"成像素级精确的 alpha matte，仅靠合成数据训练却能零样本泛化到真实视频，并借此把 SA-V 的分割标注自动转成 5 万多段真实视频的抠图数据集 MA-V，反过来把普通 SAM2 微调成更鲁棒的抠图模型 SAM2-Matte。
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos: VideoWorld 2 提出"动态增强潜在动态模型 (dLDM)"，用预训练视频扩散模型 (VDM) 接管外观重建、把潜码逼着只编码与任务相关的动作动态，从而第一次从原始真实世界视频里学到可迁移、可执行的长程任务知识，在分钟级手工折纸任务上 7 步连续成功率从 baseline 的 0% 提升到 68.8%，并能把 Open-X 上学到的操作知识迁移到 CALVIN。
ViT3: Unlocking Test-Time Training in Vision: 系统性探索Test-Time Training（TTT）在视觉任务中的设计空间，总结六条实用设计洞察，提出ViT3——一个线性复杂度的纯TTT视觉架构，在分类/生成/检测/分割任务中匹配或超越Mamba和线性注意力方法。
What Is the Optimal Ranking Score Between Precision and Recall? We Can Always Find It and It Is Rarely F₁: 本文从排名理论角度系统研究了 \(F_\beta\) 分数族作为 Precision 与 Recall 排名折中的性质，证明 \(F_\beta\) 诱导的排名构成 Precision 和 Recall 排名之间的测地线（最短路径），进而提出闭式公式来找到最优的 \(\beta\) 值，并证明常用的 \(F_1\) 和 skew-insensitive \(F_1\) 在大多数情况下都不是最优排名折中。
What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution: 系统分析了现有渲染合成数据在语料、字体、布局多样性上的不足，提出 UnionST 合成引擎和自演化学习框架（SEL），仅用合成数据即大幅超越传统合成集，结合 SEL 仅需 9% 真实标注即可逼近全监督性能。
When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse: 作者第一次系统测了主流音视频语音识别（AVSR）模型在真实视频会议（VC）里的表现，发现错误率从 0.93%/0.56% 暴涨到 33% 级别，进而造了首个面向 VC 的多模态数据集 MLD-VC（31 人、22.79 小时、4 平台、显式注入 Lombard 效应），并通过解构传输流水线揪出"语音增强算法把 F1/F2 共振峰整体抬高"才是性能崩塌的隐藏元凶；在 MLD-VC 上微调可平均降 17.5% CER。
Why Not Hyperparameter-Friendly Optimisation? A Monotonic Adaptive Norm Rescaling Approach For Long-Tailed Recognition: 针对长尾识别中"分类器范数重缩放严重依赖超参"的痛点，本文提出 SAMN——用 Pool Adjacent Violators 算法（PAVA）直接把各类权重范数强制成"从头类到尾类单调不减"，从而完全去掉正则化超参，在 CIFAR/ImageNet/iNaturalist 四个长尾基准上即插即用地把 CE/SLAS/GLMC 等方法刷到 SOTA。
WiTTA-Bench: Benchmarking Test-Time Adaptation for WiFi Sensing: WiTTA-Bench 是第一个系统评测「WiFi 感知测试时适应（TTA）」的基准：它把 WiFi 信道状态信息（CSI）的域偏移拆成跨环境、跨人、跨设备三类物理诱导偏移，在线（OTTA）与离线（TTDA）两套协议下统一跑了 20 个代表性 TTA 方法，并自采了一套配对的跨设备数据集 WiHAR-Dual，得出「CE < CS < CD 的难度分层、OTTA 与 TTDA 互补、视觉里好用的一致性方法在 WiFi 上反而失灵」等一批 WiFi 独有结论。
Zero-shot Detection of AI-Generated Image via RAW-RGB Alignment: 作者重新定义「合成图像」为没有物理世界来源、直接在数字空间生成的图像，并提出只用真实 RAW–RGB 数据对自监督学习一种叫 alignment trace 的取证特征——它刻画「这张 RGB 能不能反推出一个合法 RAW 来源」，从而在不接触任何生成模型先验的情况下达到零样本 SOTA（聚类 NMI 0.964、相似度 AUC 0.925）。