跳转至

🛰️ 遥感

📷 CVPR2026 · 63 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (11) · 🧪 ICML2026 (3) · 🤖 AAAI2026 (7) · 🧠 NeurIPS2025 (12) · 📹 ICCV2025 (11) · 🧪 ICML2025 (7)

🔥 高频主题: 遥感 ×30 · 多模态 ×10 · 语义分割 ×5 · 导航 ×3 · 扩散模型 ×3

ACPV-Net: All-Class Polygonal Vectorization for Seamless Vector Map Generation from Aerial Imagery

提出 ACPV-Net,首个从航空影像一次性生成拓扑一致的全类别多边形矢量地图的框架,通过语义监督条件化扩散模型生成顶点热图,并借助命题驱动的 PSLG 重建确保零间隙/零重叠。

APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation

APEX 把"无人机找目标物"这个空中目标导航任务拆成三个解耦模块——用 MLLM 动态构建 3D 时空语义地图当记忆、用 PPO 强化学习把地图翻译成动作、用开放词表检测器做最后的目标确认——再用异步并行框架让三者以不同频率同时跑,从而绕开大模型推理延迟,在 UAV-ON benchmark 上比之前 SOTA 提升 +4.2% SR 和 +2.8% SPL。

Asking like Socrates: Socrates helps VLMs understand remote sensing images

揭示遥感VLM中的"伪推理"现象(显式推理链反而导致性能下降),归因于"一瞥效应"(单次粗浅感知不足),提出RS-EoT(Evidence-of-Thought)迭代证据搜索范式,通过SocraticAgent自博弈合成推理轨迹做SFT冷启动,再用两阶段渐进RL(grounding→VQA)增强和泛化,RS-EoT-7B在多个遥感VQA和grounding基准上达SOTA。

AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network

AVION 提出一种知识蒸馏框架,通过 LLM 生成语义丰富的遥感文本原型作为 Teacher 监督、同时在 Student 的视觉和文本编码器中注入可学习 prompt,实现三维度对齐蒸馏,在少样本分类和跨模态检索上显著优于现有 PEFT 方法。

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

针对城市道路模型在荒野/越野场景里频繁断裂、连错的问题,本文提出"路径中心"(path-centric)的连通性推理:不再只看两个端点的局部特征,而是沿候选边的整条测地线采样多尺度道路证据来判断该不该连边,并配套发布了首个跨洲际的矢量越野道路数据集 WildRoad,在越野基准上达到 SOTA,同时泛化到城市数据集。

Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation

Bearing-UAV 抛弃"把无人机视图匹配到某个卫星瓦片"的范式,改用相邻 4 个卫星瓦片 + 1 个无人机视图直接回归无人机的绝对坐标与航向角,在 misalignment、特征稀疏、跨视角差异下都比检索/匹配类方法误差小一个量级(UAV 视角 MLE 从 ~30 m 降到 8.6 m),并把航向预测接进端到端导航。

Beyond Tie Points: Satellite Image Block Adjustment based on Dense Feature Consistency

针对卫星影像区域网平差(PBA)长期依赖稀疏连接点、在高楼等高视差区域误差累积的痛点,本文提出"Beyond Tie Points"范式:用预训练特征提取器抽取密集特征与置信度图,把平差直接重构成"最小化同名物方点的密集特征距离"的自监督优化问题,再配合网格化由粗到精求解,在北京/广州/圣何塞三地数据上把平均误差最多降低 75.43%。

ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing

提出ChangeBridge,首个遥感条件时空图像生成模型,基于漂移异步扩散桥实现从前事态图像+多模态条件(坐标文本/语义掩码/实例布局)生成后事态图像,同时建模前景事件驱动变化和背景时间演化,并可作为下游变化检测任务的数据引擎。

Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark

提出跨模态模糊对齐网络 CFAN,利用模糊逻辑量化 token 级可靠性实现精细对齐,并引入地面视图作为桥接代理缓解航拍图像与文本的语义鸿沟,同时构建了大规模文本-航拍行人检索基准 AERI-PEDES。

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

提出首个跨尺度全色锐化数据集PanScale和评测基准PanScale-Bench,以及ScaleFormer框架——将分辨率变化重新解释为序列长度变化,通过Scale-Aware Patchify分桶采样+解耦空间-序列建模+RoPE实现跨尺度泛化。

CrossEarth-Gate: Fisher-Guided Adaptive Tuning Engine for Efficient Adaptation of Cross-Domain Remote Sensing Semantic Segmentation

针对遥感影像里同时存在的空间、语义、频率三类域差异,CrossEarth-Gate 把对应的三种 PEFT 模块(LoRA / Adapter / Earth-Adapter)做成一个"工具箱"塞进 backbone 的每一层,再用 Fisher 信息周期性地度量每个模块对任务梯度流的贡献、只激活最关键的 Top-k 个,从而在仅 3~4M 可训参数下,在 18 个遥感跨域分割基准上拿下 16 个 SOTA。

Data Leakage Detection and De-duplication in Large Scale Geospatial Image Datasets

本文用感知哈希(perceptual hashing)对三个常用建筑物足迹遥感数据集做质量审计,发现 AICrowd Mapping Challenge 数据集存在严重的重复(约 89% 训练图为精确/增广重复)与跨切分泄漏(约 93% 验证图出现在训练集),并给出一条轻量、可复用的去重+泄漏检测流水线,揭示出大量"SOTA"方法实为过拟合到泄漏数据。

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction

首次将光谱压缩成像(SCI)从图像级推进到视频级重建,构建首个高质量动态高光谱数据集 DynaSpec(30 序列/300 帧),提出 PG-SVRT 通过空间-然后-时间注意力 + 桥接 token 实现 41.52dB PSNR 和最优时间一致性,且 FLOPs(28.18G)低于多个图像级 SOTA。

FUSAR-GPT: A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

FUSAR-GPT 在 Qwen2.5-VL-7B 上为 SAR(合成孔径雷达)图像定制了一个视觉语言模型:把全球遥感基座模型 AlphaEarth 的多源时空特征当作"世界知识"先验,通过"时空锚点"对齐后用 Token-wise 线性调制(TLM)注入视觉 backbone,以补偿 SAR 图像稀疏、信息极化的表征,再用"知识注入 / 任务执行"解耦的两阶段 SFT 训练,在计数、定位、分类、检测四类 SAR 解译任务上比主流 VLM 高出 10% 以上。

Geo2: Geometry-Guided Cross-view Geo-Localization and Image Synthesis

Geo2 借用几何基础模型(VGGT)的 3D 先验,把地面全景图和卫星图嵌进一个共享的几何感知潜空间,让跨视角地理定位(CVGL)与双向跨视角图像合成(CVIS)在同一框架里互相增强,且只训单方向就能做双向生成,在 CVUSA/CVACT/VIGOR 上定位与合成双双刷到 SOTA。

GeoBridge: A Semantic-Anchored Multi-View Foundation Model Bridging Images and Text for Geo-Localization

GeoBridge 用一段「位置感知的统一文本描述」当语义锚点,把无人机、街景全景、卫星三种视角的图像绑到同一个语义空间里,从而摆脱传统「以卫星为中心」的定位范式,既能做任意视角两两双向匹配,又能用文字检索图像;配套的 GeoLoc 数据集(36 国 5 万+ 三视角对齐三元组)让它在跨视角、跨模态检索上都刷到 SOTA。

GeoCoT: Towards Reliable Remote Sensing Reasoning with Manifold Perspective

GeoCoT 把遥感图像的"低维流形"先验显式建进 MoE:先用谱聚类+低秩压缩把冗余的视觉 token 投到低秩子空间,再用流形结构引导稀疏专家分工,配上"CPT→冷启动→RSV-GRPO 强化"的多阶段训练和自建的 RS-CoT-20k 数据集,让一个 12B 的遥感大模型在 5 类遥感任务上平均比 SOTA 高 5.27%。

GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding

GeoDiT 把遥感图像的文本生成从「自回归逐 token」改成「离散扩散并行迭代去噪」,用 SigLIP-2 视觉条件 + LLaDA-8B 双向 Transformer 一次性预测整句再低置信度重掩码精修,在多目标检测、视觉定位、图像描述等需要结构化输出的任务上刷出新 SOTA。

GeoFlow: Real-Time Fine-Grained Cross-View Geolocalization via Iterative Flow Prediction

提出 GeoFlow,一种受流匹配启发的轻量级跨视图精细地理定位框架,通过学习概率位移场结合迭代精化采样(IRS)算法,在连续空间内实现从地面图像到卫星图像的精确 2-DoF 定位,以 29 FPS 的实时速度达到了与 SOTA 可比的精度。

GeoMMBench and GeoMMAgent: Toward Expert-Level Multimodal Intelligence in Geoscience and Remote Sensing

提出 GeoMMBench(1053 道专家级地球科学多选题)和 GeoMMAgent(检索-感知-推理多智能体框架),系统评估 36 个 MLLM 在遥感领域的能力,揭示领域知识、感知接地和推理方面的系统性不足。

GeoSANE: Learning Geospatial Representations from Models, Not Data

GeoSANE 把 103 个现成遥感模型的权重本身当成训练数据,用一个权重空间自编码器学到所有模型共享的隐表示,然后按目标架构从隐空间采样、解码出"开箱即可微调"的新模型权重——把遥感预训练从"从卫星数据学"转成了"从模型学",生成的模型在分类/分割/检测十个数据集上稳超从头训练、匹敌甚至超过 SOTA 遥感基础模型。

GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding

GeoViS 把遥感视觉定位从"一步回归出框"改写成"先用奖励引导的树状视觉搜索找到最可能含目标的子区域、再以该子区域为视觉线索做条件定位"的两阶段过程,靠一个统一的 VisualRAG 模型同时提供奖励评估、动作引导和定位推理,在五个遥感 grounding 基准上把 [email protected] 等指标做到 SOTA。

IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence

IMAIA 把"桌面端看地图"和"到达目的地最后 100 米的实景导航"统一进一个由轻量多智能体编排器协调的框架:地图侧用 quadkey 网格把视口变成结构化视觉提示让 VLM 做视图条件推理(地点检测从 <43% 提到 ~90%),实景侧由编排器调度"地点理解 / 朝向导航 / 空间推理"三个专用 agent,其中蒸馏出的 Florence-2 空间推理模块以 84% 准确率换来比 agent 流水线 7.3× 的提速。

LNEM: Lunar Neural Elevation Model

首个把推扫式相机的严格传感器模型(RSM)显式嵌进神经体渲染的月面 DEM 重建框架,配套一套从原始轨道影像生成几何一致输入的 Lunar Studio 数据管线,在多传感器、多光照条件下重建出几何一致的高保真月面高程模型。

Local Precise Refinement: A Dual-Gated Mixture-of-Experts for Enhancing Foundation Model Generalization against Spectral Shifts

SpectralMoE 把冻结基础模型(DINOv3/DOFA)的每层特征送进一个双门控 MoE做逐空间位置的精细调制,并用从 RGB 波段估计出的深度结构先验通过 cross-attention 注入视觉特征,从而在七个跨传感器/跨区域/跨风格的光谱遥感域泛化分割基准上全部刷到 SOTA。

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

针对无人机空中视觉语言导航中"地标描述歧义大、全局场景图维护昂贵"的问题,LookasideVLN 提出"侧看(lookaside)"范式:用指令里天然带的方向线索(左转/右转/上升)构建一张轻量的自我中心地标图,把候选路径翻译成"类指令"文本交给 MLLM 做语义对齐,从而在零样本、单层前瞻下就超过需要全局序列前瞻的 SOTA(CityNavAgent)。

MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging

MetaSpectra+ 提出超表面-折射透镜混合光学范式,通过双层超表面独立控制4通道色散/曝光/偏振,实现250nm宽带、17mm最短光程的快照式高光谱+HDR/偏振多功能成像,在KAUST基准上PSNR达33.31dB全面超越现有快照高光谱系统。

MM-OVSeg: Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing

MM-OVSeg 把 SAR 引入遥感开放词汇分割,用对比蒸馏让 SAR 特征对齐到 RGB 视觉基础模型的表示空间(CMU),再用双编码器融合把 CLIP 全局语义和 DINO 密集结构特征与文本对齐(DEF),从而在多云/雾霾天气下依旧能按任意文本类别做像素级分割,六个基准平均 mIoU 51.7%,比此前最好的单模态方法高 6.1 个点。

MOGeo: Beyond One-to-One Cross-View Object Geo-localization

针对现有「跨视图目标地理定位(CVOGL)只能一张图定位单个目标」的不切实际假设,本文提出多目标版新任务 CVMOGL、配套 CMLocation 基准(25,520 对图像、63,888 个实例),并设计端到端方法 MOGeo——核心是用类 Dirac 脉冲的 one-hot 位置编码把每个查询目标钉成锐利的注意力峰,配合跨视图多特征融合与目标间相似度损失,在多目标场景下显著超过 DetGeo/VAGeo。

Multigrain-aware Semantic Prototype Scanning and Tri-Token Prompt Learning Embraced High-Order RWKV for Pan-Sharpening

针对全色锐化任务,本文把 Vision RWKV 的"语义无关的固定栅格扫描"换成由局部敏感哈希聚类驱动的语义原型扫描,再配上"全局 + 原型 + 寄存器"三类 token 的提示机制和一套可逆 Q-shift 高频增强,在 WorldView/GaoFen2 三个数据集上把 PSNR、SSIM、SAM、ERGAS 全面刷到新 SOTA。

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

NeighborMAE 把 MAE 从"重建单张遥感图"改成"联合重建一对地理上相邻的图像",靠相对位置编码、随 IoU 自适应的掩码比例和按可见性加权的重建损失,让模型显式学到相邻地物之间的空间依赖,在多个遥感分类/分割下游任务上稳定超过 SatMAE、ScaleMAE 等同类基线。

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

提出无监督在线视频稳定框架 LightStab,通过经典三阶段管线(运动估计→运动传播→运动补偿)搭配多线程异步缓冲,在 5 个基准数据集上首次让在线方法全面媲美离线 SOTA,并发布首个包含可见光和红外的多模态无人机航拍稳定测试集 UAV-Test。

Olbedo: An Albedo and Shading Aerial Dataset for Large-Scale Outdoor Environments

Olbedo 提出首个大规模真实航拍反照率-着色分解数据集(5664 张 UAV 图像、4 种地貌、跨年多光照),通过物理逆渲染管线生成多视图一致的伪真值标注,证明合成预训练+Olbedo LoRA 微调可以显著提升室外反照率预测并支持重光照/材质编辑/场景变化分析等下游应用。

OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

OlmoEarth 用一套专为地球观测设计的自监督配方(冻结随机投影做目标编码器的 Latent MIM Lite + 模态感知掩码 + 模态内对比损失),在潜空间里稳定地训练时空多模态基础模型,在 24 个嵌入任务里 15 个、29 个微调任务里 19 个超过其他 12 个基础模型,并落地成服务公益组织的端到端平台。

ORSATR-X: A Foundation Model based on Differential-and-Excitation Networks for Optical Remote Sensing Object Recognition

ORSATR-X 把冻结的 DINOv3 当骨干,在每个 Transformer block 旁挂一条侧适配器——用受韦伯定律启发的局部对比模块(WLA)放大低对比目标的边界、用多尺度聚合模块(MSAM)应对遥感物体的极端尺度差异,并用 DINOv3-L 蒸馏只训练这些适配器,在场景分类/检测/分割三类任务上达到单模态遥感基础模型 SOTA(DIOR-R 上 75.30% mAP50,超过用 21M 数据预训练的 SkySense V2)。

Orthogonal Spatial-Aware Multi-View Anchor Graph Clustering for Incomplete Remote Sensing Data

针对"某些视图存在缺失像素"的不完整遥感多视图聚类这一全新场景,OSMAGC 用超像素初始化多尺度空间感知锚图,再把多尺度锚图学习、结构对齐共识特征学习、正交空间感知正则三者统一进一个目标函数交替优化,在四个遥感数据集、各缺失比例下全面超越 SOTA 且速度最快。

PhenoYieldNet: Learning Crop-Aware Phenological Responses for Multi-Crop Yield Prediction

PhenoYieldNet 用一套统一模型做多作物县级产量预测:靠一个「作物物候库」给每种作物分配可学习的查询向量,再用「作物物候注意力」把时序特征分解成长期趋势与短期波动并注入到注意力偏置里,配合两阶段的时序对比自适应把遥感基础模型迁移到农业时序,在 CropNet / MODIS 上全面超过单作物与多作物 SOTA。

PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization

PiLoT 把"无人机自定位 + 任意目标地理定位"统一成「实时视频帧与带地理坐标的 3D 地图做像素到 3D 配准」这一个问题,用双线程引擎 + 百万级合成数据训练的轻量网络 + 神经引导随机梯度优化器(JNGO),在无 GNSS / IMU 的条件下做到 1.37 m 中位误差、Jetson Orin 上 25+ FPS。

Prompt-Free Unknown Label Generation for Open World Detection in Remote Sensing

HSGDet 让遥感检测器在部署时不靠任何文本提示,就能一边发现未知目标、一边借助"层次语义图 + 场景共现上下文"自动给它合成一个 CLIP 语义标签并把新类塞回词表,从而在 Known mAP 上比 SOTA 高 6.6 分、Unknown Recall 高 9.9 分、Wilderness Impact 降 36%。

QuCNet: Quantum Deep Learning Driven Multi-Circuit Network for Remote Sensing Image Classification

QuCNet 把一个极轻量的卷积编码器和 16 路并行的 4-qubit 可训练量子电路(TQC)缝在一起,用「混合循环权重共享(HCWS)」让 16 路电路只用 64 个独立参数,并以 KL 散度表达力分析挑选门序列来回避贫瘠高原,最终在 7 个遥感基准上用 8.7 万参数(比同类混合模型小 85×)跑出超过经典 CNN 的精度,还在真实 IBM 量子处理器上完成了硬件推理。

RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation

RAMEN 是一个"传感器无关、分辨率可调"的统一 Transformer 编码器:它把模态、空间分辨率(GSD)、时间分辨率都当作输入特征显式编码进共享潜空间,并把空间分辨率做成推理时可控的输出参数,让用户在精度与算力之间自由权衡;用一次掩码重建预训练在异质地球观测语料上,冻结编码器后在 PANGAEA 基准 8 个下游任务上以更轻的 ViT-Base 超越体量更大的 TerraMind-L 等 SOTA。

RECS4R: Bridging Semantics and Geometry for Referring Remote Sensing Interpretation

RECS4R 把遥感的指代检测(VG)和指代分割(RIS)统一成"解码一串语言条件下的多边形轮廓顶点"这一件事——轮廓的外接矩形当框、轮廓的填充区域当掩码——再叠加残差式由粗到细编码、通道隔离的多尺度融合和梯度域边界监督,在 RefDIOR、RRSIS-D、RefCOCO 系列等 6 个数据集上把 RECS 综合分数大幅刷到新高。

Regulating Rather than Constraining: Adaptive Guidance for Complex Spectral Reconstruction in Pansharpening

针对全色锐化中"光谱混合区"(地物边界、内部纹理)重建效果差的问题,本文提出一套架构无关的正则化框架:数据侧用 MixShuffle 跨样本+跨光谱通道做凸组合制造"难样本",损失侧用 HAL 在样本/通道/像素三级自适应放大难区梯度,并配套一个双尺度注意力网络 DANet 作骨干,在 WV3/GF2/QB 上取得 SOTA 且能即插即用地涨各类 baseline。

Remote Sensing Image Super-Resolution for Imbalanced Textures: A Texture-Aware Diffusion Framework

针对遥感图像"纹理全局随机、局部成团,导致纹理极度不均衡"这一与自然图像不同的特性,本文提出 TexADiff:先估计一张相对纹理密度图(RTDM)刻画纹理分布,再把它当作"空间条件 + 损失调制 + 采样调度"三管齐下地注入扩散超分流程,让模型在纹理丰富区生成更多真实高频细节、在纹理稀疏区抑制幻觉,从而在多数遥感基准上取得更优的感知指标。

Revisiting the Necessity of Full Accuracy: Weakly Supervised Object-Level Offset Correction for Misaligned Building Labels

针对 Google Earth 图像缺乏正射校正导致的建筑物足迹标签与屋顶位置错位问题,本文提出 OMAF 框架:先用边缘+方差约束的可微自对齐估出实例级偏移,再用极少量人工先验做贝叶斯置信度筛选,最后训练一个偏移回归网络把噪声伪标签蒸馏成干净的校正标签,使各类分割模型的 mIoU 最高提升 40.6%。

RHO: Robust Holistic OSM-Based Metric Cross-View Geo-Localization

提出首个面向恶劣天气和传感器噪声的OSM-based度量级跨视角定位基准CV-RHO(270万+ 图像),并设计双分支Pin-Pan架构RHO模型,结合全景去畸变(SUM)和位置-朝向融合(POF)机制,在多种退化条件下将定位性能提升高达20%。

RoadGIE: Towards A Global-Scale Aerial Benchmark for Generalizable Interactive Road Extraction

本文先造了 WorldRoadSeg-360K——一个覆盖 38 国 223 城、36.7 万张像素级标注的全球航拍路网分割基准,再基于它提出 RoadGIE:一个仅 3.7M 参数、支持点击/涂鸦"连通性感知"交互的实时路网提取框架,在分割精度和拓扑一致性上都刷到 SOTA,同时把人工标注时间砍掉约 79%。

Robust Remote Sensing Image–Text Retrieval with Noisy Correspondence

本文首次在遥感图文检索(RSITR)中揭示并研究「噪声对应」(Noisy Correspondence,图文对本身就配错了)问题,提出 RRSITR 框架:按对比损失把训练对分成干净 / 模糊 / 噪声三类,用多模态自步学习从易到难调度训练,再对噪声对施加动态软边界的鲁棒三元组损失,在三个数据集、尤其高噪声率下显著超过现有 SOTA。

SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

针对遥感场景里"小目标 + 多粒度 + 多目标 + 隐式指令"四类复杂语言引导分割需求,本文先造了第一个系统覆盖这四个维度的大规模数据集 LaSeRS(40k 掩码、122 类、30k QA 三元组),再提出仅 3B 参数的 MLLM 分割模型 SegEarth-R2,靠"空间注意力监督 + 灵活分割查询"两个机制在多个基准上超越 7B/8B 甚至 13B 大模型。

Semantic-Adaptive Diffusion for Dynamic Spatiotemporal Fusion

SA-STF 用一个由低分辨率观测约束、并经 Taylor 展开解耦残差与噪声的残差扩散框架,配合时序特征对齐(TFA)和语义自适应融合(SAF)两个模块,把 MODIS/Landsat 等多源卫星影像融合成高时空分辨率影像,尤其能恢复传统/数据驱动方法做不好的动态地物语义变化。

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo 用「双分支判别学习 + 课程学习」让一个模型同时适应任意朝向和任意 FoV 的跨视角地理定位,无需为不同 FoV 各训一个模型,在 CVUSA 极端窄视场(FoV=90°/70°)下首次把 R@1 推过 70%/50%,还能即插即用地提升 ViT/CNN/混合架构的鲁棒性。

SkySense-VITA: Towards Universal In-context Segmentation of Multi-modal Remote Sensing Imagery

SkySense-VITA 用一套「提示-预测解耦」架构把视觉提示、文本提示及二者融合统一进同一个免微调的 in-context 分割模型,同时原生支持光学和 SAR 影像,配合由粗到细的语义粒度退火预训练,在 18 个遥感数据集上平均 mIoU 领先 10% 以上。

Sparsely Timing the Change: A Spiking Temporal Framework for Remote Sensing Interpretation

针对遥感变化检测「只有两张时相图、难以建模稀疏时间演化」的痛点,本文提出 SpikeAdapter:用脑启发的「时间到首脉冲」机制把双时相辐射差异编码成稀疏脉冲序列(GSI-P),再用脉冲网络(SNN)抽时序线索、用 STSpikeFuse 把它与 ANN 主干的语义特征自适应融合,在 LEVIR-CD / CLCD / SYSU-CD 上 F1/IoU 全面超过 CNN、Transformer、Mamba 与伪视频方法。

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

SATtxt 通过「光谱表征蒸馏 + 指令增强 LLM 对齐」两阶段训练,把多光谱先验灌进一个只吃 RGB 的视觉编码器、再把它与冻结的 LLM 文本嵌入对齐,只训练几个轻量 projector,就在零样本分类、检索、开放词表分割、线性探测四类卫星任务上全面超过依赖多光谱输入的 SOTA。

TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis

TESSERA 把每个 10m 地表像素的多年 Sentinel-1/2 时间序列编码成一个 128 维 int8 嵌入向量,靠"对随机时间采样保持不变"的自监督目标学到鲁棒的物候表征,发布成覆盖全球的"嵌入即数据"产品,下游只需挂一个轻量 MLP/UNet 头就能在分类、分割、回归任务上达到 SOTA,且在极低标注下优势巨大。

TriSim: Tri-Dimensional Similarity Modeling with Extreme Value Theory for False-Negative Mitigation in Remote Sensing Image-Text Retrieval

针对遥感图文检索里"靠单一跨模态相似度阈值判假阴样本太脆弱"的问题,TriSim 把每对样本映射到 ⟨图-文, 图-图, 文-文⟩ 三维相似度空间,用马氏距离 + 极值理论(EVT)两条互补的尾部检测策略找出真正的假阴样本,再配一个 intra-modal 显著性引导的增益矩阵细化判别区域,在 RSICD / RSITMD 上 mR 分别超过最强基线 1.51% / 2.25%。

UniChange: Unifying Change Detection with Multimodal Large Language Model

UniChange 把二值变化检测(BCD)和语义变化检测(SCD)统一进一个基于 MLLM 的框架,靠 [T1][T2][CHANGE] 三个特殊 token 的嵌入作为"查询"去驱动分割解码器,用文本提示替代固定分类头,从而能在类别定义互相冲突的多源遥感数据集上联合训练,在 WHU-CD、S2Looking、LEVIR-CD+、SECOND 四个基准上 IoU 分别达 90.41 / 53.04 / 78.87 / 57.62,全面刷新 SOTA。

UniGeoRS: A Unified Benchmark for Tri-view Geo-Localization

UniGeoRS 构建了首个把卫星、无人机、地面三种视角统一在一起、且同时混合真实与合成影像的跨视角地理定位(CVGL)基准数据集(1154 个目标、约 14 万张图),并配套提出一个即插即用的二阶段重排模块 CAME,用 Rank Distance + 交叉注意力挖掘候选集内部的平台间/平台内关系,在多个主流 CVGL 模型上稳定提升 Recall@1 与 AP。

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

作者构建了首个百万级遥感指令分割数据集 GeoSeg-1M(590K 图、117 类、1.1M 三元组)与配套 benchmark GeoSeg-Bench,并提出统一框架 UniGeoSeg——用任务自适应文本增强(TATE)+ 潜在知识记忆(LKM)+ 渐进式任务调度(PTS)把 referring / interactive / reasoning 三类分割塞进一个模型,在 GeoSeg-Bench 与多个公开 benchmark 上全面 SOTA 且零样本泛化强。

WHU-MARS: A Multispectral Aerial-Ground Benchmark Towards Any-Scenario Person Re-Identification

论文提出"任意场景行人重识别"(AS-ReID)新任务——用单一模型在混合所有模态/视角的异构图库里做任意到任意检索,并构建了迄今最大的多光谱空地数据集 WHU-MARS(2,337 人、43 万张 RGB/近红外/热红外、地面+无人机),同时给出一个不需要多分支、不需要成对对齐的 UAD 框架,靠渐进式中心对齐 + 全局原型判别在 AS-ReID 上达到最佳且参数最省。

WRIVINDER: Towards Spatial Intelligence for Geo-locating Ground Images onto Satellite Imagery

Wrivinder 把一组地面照片用 SfM+3DGS 重建成 3D 场景、渲染出俯视(zenith)视图,再用一个测试时自监督的模板匹配器把它对齐到地理配准的卫星影像上,从而在完全零样本、无配对监督的条件下反推出每台地面相机的 GPS 坐标,在 MC-Sat 上达到亚 30 米级定位精度。

YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction

YieldSAT 把作物产量预测做成「逐像素回归」任务,构建了首个覆盖 4 国 4 种作物、含 2,173 块专家校验田、1,220 万个 10 米分辨率产量标签的多模态遥感基准,配套 Sentinel-2 时序影像与气象/土壤/地形辅助数据,并系统揭示了真实场景下产量分布偏移导致的模型崩溃、用 Deep Ensemble 给出缓解方案。

ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks

针对超高分辨率(UHR)遥感影像「整张喂进去信息冗余、缩小又丢细节」的死结,ZoomEarth 让一个 3B 的 VLM 像人一样先看全局再「放大」感兴趣区域:模型自己预测 ROI 框、从原始高清图裁出局部回喂细看,靠 SFT + GRPO 两阶段训练,并用一个新的「区域引导奖励」缓解 IoU 奖励在 UHR 上恒为零的稀疏问题,在自建基准 LRS-GRO 和三个公开 UHR 遥感基准上零样本拿下 SOTA。