堂堂一跑堂

VHM：让遥感视觉语言模型既\"能干\"又\"诚实\"的AAAI 2025力作

Tue, 02 Jun 2026 12:00:00 +0800

VHM：让遥感视觉语言模型既"能干"又"诚实"的AAAI 2025力作

论文解读 | AAAI 2025 | 2026-06-02

📄 论文信息

项目	内容
标题	VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
作者	Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He
机构	武汉大学、上海人工智能实验室、中山大学、商汤科技
会议	AAAI 2025
arXiv	https://arxiv.org/abs/2403.20213
GitHub	https://github.com/opendatalab/VHM
关键词	遥感视觉语言模型、多功能性、诚实性、大规模数据集、指令微调

📊 论文定位

论文类型：实验验证型
创新性评分：⭐⭐⭐⭐ (4分)
判断依据：本文不仅提出了一个新的遥感视觉语言模型，更重要的是构建了大规模高质量数据集VersaD（140万图像-文本对）和创新性的"诚实性"训练范式。在数据稀缺的遥感VLM领域，这种"数据+方法"的双重贡献具有显著价值。

🎯 解决的核心问题（第一层：表象层）

问题背景

遥感图像分析正从传统的"看图识物"向"理解对话"转变。想象一下，你对着一张卫星图像问：“这个区域有多少栋建筑？它们的用途是什么？周围有哪些配套设施？"——这就是遥感视觉语言模型（RS-VLM）要做的事。

现有方法的局限

然而，现有的遥感VLM面临两个致命问题：

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

Mon, 01 Jun 2026 12:00:00 +0800

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

论文解读 | CVPR 2025 Highlight | 2026-06-01

📄 论文信息

项目	内容
标题	AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities
作者	Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu
会议	CVPR 2025 (Highlight)
arXiv	https://arxiv.org/abs/2412.14123
GitHub	https://github.com/gastruc/AnySat (190 stars)
关键词	遥感基础模型、多模态、多分辨率、JEPA架构、自监督学习

🎯 解决的核心问题

问题背景

遥感数据天然具有多源异构的特点：

分辨率差异：从0.3米的无人机影像到30米的Sentinel-2，跨越100倍
通道数量不同：RGB（3通道）、多光谱（4-13通道）、SAR（2通道）
覆盖范围多样：小区域精细观测 vs 大范围宏观监测
传感器类型繁多：光学、SAR、高光谱等11种以上传感器

现有方法的局限

单模型单数据：每个数据集需要单独训练模型，无法共享知识
分辨率不兼容：不同分辨率的数据需要不同的网络架构
模态隔离：光学和SAR数据通常分开处理
扩展性差：新增传感器需要重新设计模型

核心问题提炼

如何用一个统一的模型处理任意分辨率、任意尺度、任意模态组合的遥感数据？

💡 解决方案

核心创新点1：Scale-Adaptive JEPA架构

设计动机：传统MAE需要固定输入尺寸，无法处理不同分辨率的图像。

具体实现：

采用Joint Embedding Predictive Architecture (JEPA)，不依赖像素级重建
引入尺度自适应机制，根据输入数据的GSD自动调整
使用分块嵌入策略，将不同分辨率的图像映射到统一的特征空间

关键细节：

ConInfer：无需训练，用上下文推理实现遥感开放词汇分割

Mon, 01 Jun 2026 12:00:00 +0800

ConInfer：无需训练，用上下文推理实现遥感开放词汇分割

论文解读 | CVPR 2026 Findings | 2026-06-01

📄 论文信息

项目	内容
标题	ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation
作者	详见论文
会议	CVPR 2026 Findings
arXiv	暂未公开
GitHub	https://github.com/Dog-Yang/ConInfer
关键词	开放词汇分割、遥感图像、免训练、上下文推理、CLIP、DINOv3

🎯 解决的核心问题

问题背景

遥感图像分割是地球观测领域的核心任务，广泛应用于城市规划、环境监测、灾害评估等场景。传统的语义分割方法依赖于封闭词汇表——模型只能识别训练时见过的固定类别（如建筑、道路、水体等）。然而，真实世界的遥感应用场景远比固定类别复杂：

灾害响应中需要识别"被洪水淹没的农田"
城市规划中需要识别"临时搭建的工棚"
环境监测中需要识别"入侵物种覆盖区域"

这些类别在标准训练数据集中几乎不存在，传统模型对此无能为力。

现有方法的局限

当前的开放词汇分割方法主要面临两个挑战：

训练成本高昂：大多数方法需要在大规模标注数据上进行微调，遥感图像的标注成本极高（需要专业知识，且图像尺度巨大）
领域迁移困难：CLIP等视觉-语言模型在自然图像上预训练，直接应用于遥感场景时存在严重的领域鸿沟——遥感图像的俯视视角、多光谱特性、尺度多样性等都与自然图像截然不同

核心问题提炼

能否在不进行任何训练的情况下，直接利用预训练视觉-语言模型实现高质量的遥感开放词汇分割？

💡 解决方案

核心创新点1：上下文感知推理（Context-Aware Inference）

设计动机：CLIP模型在图像级别进行预训练，其特征缺乏像素级的空间细节。直接将CLIP特征用于分割会导致边界模糊、类别混淆。

具体实现：ConInfer提出了一种上下文感知的推理机制，通过以下步骤增强CLIP的像素级理解能力：

多尺度特征提取：利用DINOv3和SimFeatUp获取高分辨率的细粒度视觉特征
上下文建模：通过高斯混合模型（GMM）对特征空间进行聚类，自动发现图像中的语义区域
上下文引导分类：利用发现的上下文信息来校准CLIP的分类结果，消除领域偏差

核心创新点2：免训练框架（Training-Free Framework）

设计动机：避免昂贵的微调过程，直接利用预训练模型的能力。

具体实现：

使用BLIP生成图像描述，提供文本级别的上下文
利用OpenCLIP的文本编码器计算开放词汇相似度
通过自适应的提示工程（Prompt Engineering）弥合领域差距

整体架构

Falcon：首个支持14个任务的遥感视觉语言基础模型

Mon, 01 Jun 2026 12:00:00 +0800

Falcon：首个支持14个任务的遥感视觉语言基础模型

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者	Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位	ZhejiangLab（之江实验室）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2503.11070
GitHub	https://github.com/TianHuiLab/Falcon (⭐372)
关键词	遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

🎯 解决的核心问题

问题背景

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

领域鸿沟：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面
任务碎片化：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力
数据集不足：缺乏大规模、高质量、多任务的遥感指令调优数据集

现有方法的局限

模型	参数量	支持任务数	主要局限
GeoChat	7B	7	不支持像素级任务（分割、变化检测）
LHRS-Bot	7B	6	缺乏区域级和像素级理解能力
EarthGPT	7B	9	参数量大，推理效率低
RSGPT	7B	5	任务覆盖范围有限

核心问题提炼

如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

Mon, 01 Jun 2026 12:00:00 +0800

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

论文解读 | ICML 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
作者	Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick
会议	ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)
arXiv	https://arxiv.org/abs/2502.09356
GitHub	https://github.com/nasaharvest/galileo (⭐ 177)
关键词	遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型

🎯 解决的核心问题

问题背景

遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

Mon, 01 Jun 2026 12:00:00 +0800

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoChat: Grounded Large Vision-Language Model for Remote Sensing
作者	Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abduljabbar Al-Khateri, Shoaib Jameel, Lars Petersson, Salman Khan, Fahad Shahbaz Khan
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2311.15826
GitHub	https://github.com/mbzuai-oryx/GeoChat
关键词	遥感、视觉语言模型、Grounding、多任务学习、区域级推理

🎯 解决的核心问题

问题背景

遥感图像分析是地球观测的核心任务，传统方法通常针对单一任务（如分类、检测、分割）设计专用模型。随着大型视觉语言模型（VLM）在通用领域的成功，研究者开始探索将其应用于遥感领域。

然而，现有方法面临三个关键挑战：

领域适配问题：通用VLM（如GPT-4V）在遥感场景下表现不佳，容易产生不准确或虚构的信息
缺乏区域级推理：现有遥感VLM主要支持图像级任务，无法对特定区域进行细粒度分析
多任务统一困难：不同遥感任务（分类、检测、描述等）通常需要独立模型，缺乏统一框架

现有方法的局限

方法	局限性
通用VLM（GPT-4V等）	缺乏遥感领域知识，对卫星图像理解能力有限
遥感专用模型	仅支持单一任务，无法进行多轮对话
现有遥感VLM	仅支持图像级推理，缺乏区域级grounding能力

核心问题提炼

如何构建一个既能理解遥感图像全局语义，又能对特定区域进行细粒度推理的统一视觉语言模型？

💡 解决方案

核心创新点1：多模态遥感指令数据集构建

设计动机：遥感领域缺乏大规模多模态指令调优数据集，直接使用通用数据集会导致领域偏移。

具体实现：

整合多个现有遥感数据集（LRBEN、NWPU-RESISC-45、SAMRS等）
利用Vicuna-v1.5和自动化管道生成318k指令数据
设计统一的图像-文本对格式，支持多种任务类型

关键细节：

GeoGround：统一遥感视觉Grounding的大型视觉语言模型

Mon, 01 Jun 2026 12:00:00 +0800

GeoGround：统一遥感视觉Grounding的大型视觉语言模型

论文解读 | arXiv 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding
作者	Yue Zhou et al.
会议	arXiv 2024 (v3: May 2025)
arXiv	https://arxiv.org/abs/2411.11904
GitHub	https://github.com/nicehuster/GeoGround
关键词	视觉Grounding、遥感大模型、多任务统一、Text-Mask技术、像素级定位

🎯 解决的核心问题

问题背景

在遥感图像解译中，视觉Grounding（视觉定位）是一项关键任务：给定一句自然语言描述，模型需要在遥感图像中找到对应的目标物体。这项任务对于人机交互式遥感解译系统至关重要。

然而，遥感领域的视觉Grounding面临一个尴尬的现状：不同类型的目标需要不同的定位输出形式。

现有方法的局限

水平边界框（HBB）：只能定位物体的位置，无法描述其朝向和形状
旋转边界框（OBB）：能描述物体的朝向，但无法刻画精确轮廓
分割掩码（Mask）：能精确描述物体形状，但计算复杂度高

现有方法的困境：

专用方法：针对单一任务设计，无法泛化到其他Grounding类型
大型视觉语言模型（VLM）：具有强大的多任务学习能力，但难以处理像素级密集预测任务（如分割）

核心问题提炼

如何在一个统一的框架中同时支持HBB、OBB和Mask三种遥感视觉Grounding任务，并允许用户灵活选择输出类型？

💡 解决方案

核心创新点1：统一的多任务Grounding框架

设计动机：传统方法为每种Grounding类型设计专门的模型，这不仅增加了系统复杂度，也限制了模型的泛化能力。GeoGround的目标是用一个模型支持所有Grounding类型。

具体实现： GeoGround采用标准的VLM架构（视觉编码器 + 语言解码器），但不修改VLM的核心架构。关键创新在于引入Text-Mask技术，使VLM能够优雅地支持像素级Grounding输出。

关键细节：

LSKNet：遥感场景下的大型选择性核网络，动态感受野助力小目标检测

Mon, 01 Jun 2026 12:00:00 +0800

LSKNet：遥感场景下的大型选择性核网络，动态感受野助力小目标检测

论文解读 | ICCV 2023 / IJCV 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	LSKNet: A Foundation Lightweight Backbone for Remote Sensing
作者	Yuxuan Li, Xiang Li, Yimian Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng, Jian Yang
会议	ICCV 2023 (会议版本) / IJCV 2024 (期刊扩展版)
arXiv	https://arxiv.org/abs/2303.14239
GitHub	https://github.com/zcablii/large-selective-kernel-network (⭐678)
关键词	遥感目标检测、选择性核、动态感受野、轻量级骨干网络

🎯 解决的核心问题

问题背景

遥感图像具有独特的特点：目标尺度变化大、小目标密集分布、背景复杂多样。传统的卷积神经网络使用固定大小的卷积核，其感受野是固定的，这在处理遥感图像时面临两个关键挑战：

小目标检测困难：遥感图像中的目标（如车辆、船只）往往只有几个像素大小，固定感受野可能无法捕获足够的上下文信息来准确识别这些小目标。
不同目标需要不同感受野：建筑物需要大范围上下文来理解其结构，而车辆则需要局部细节信息。固定感受野无法适应这种多样性。

现有方法的局限

CNN方法：受限于固定感受野，难以捕获长距离依赖
Transformer方法：虽然具有全局建模能力，但计算复杂度高，不适合实时应用
多尺度方法：如FPN，通过多尺度特征融合来缓解问题，但仍然是固定感受野

核心问题提炼

如何设计一个轻量级的骨干网络，能够根据遥感图像中不同目标的特点，动态调整其空间感受野？

💡 解决方案

核心创新点1：大型选择性核机制 (Large Selective Kernel)

设计动机：遥感图像中的目标具有高度多样性。例如，一条河流可能跨越数千像素，而一辆汽车可能只有几个像素。传统的固定大小卷积核无法适应这种变化。LSKNet的核心思想是：让网络能够根据输入内容，动态选择最合适的感受野大小。

M-CD：基于Mamba的孪生网络实现高效遥感变化检测

Mon, 01 Jun 2026 12:00:00 +0800

M-CD：基于Mamba的孪生网络实现高效遥感变化检测

论文解读 | arXiv 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	A Mamba-based Siamese Network for Remote Sensing Change Detection
作者	Jay N. Paranjape, Celso de Melo, Vishal M. Patel
会议	arXiv 2024 (arXiv:2407.06839)
arXiv	https://arxiv.org/abs/2407.06839
GitHub	https://github.com/JayParanjape/M-CD
关键词	遥感变化检测, Mamba架构, 孪生网络, 状态空间模型, 高效特征提取

🎯 解决的核心问题

问题背景

遥感变化检测是分析同一区域不同时相图像差异的关键技术，广泛应用于环境监测、城市规划、灾害评估等领域。传统方法依赖人工特征提取，深度学习方法（CNN、Transformer）虽取得显著进展，但存在固有局限：

CNN的局限性：感受野有限，难以捕捉长距离依赖关系
Transformer的瓶颈：自注意力机制计算复杂度为O(n²)，处理高分辨率遥感图像时计算开销巨大
实时性需求：实际应用中需要快速、准确的变化检测能力

现有方法的局限

基于CNN的方法（如SNUNet-CD）：局部特征提取能力强，但全局上下文建模不足
基于Transformer的方法（如ChangeFormer）：全局建模能力强，但计算复杂度高，推理速度慢
混合方法：结合CNN和Transformer，但架构复杂，难以平衡效率与性能

核心问题提炼

如何设计一个既能保持全局建模能力，又具有线性计算复杂度的高效变化检测架构？

💡 解决方案

核心创新点1：Mamba架构引入遥感变化检测

设计动机： Mamba是状态空间模型（SSM）的最新进展，具有以下优势：

线性时间复杂度O(n)，远优于Transformer的O(n²)
通过选择性机制实现动态特征筛选
硬件感知设计，实际运行效率高

具体实现：

MA3E：让遥感预训练\"看见\"角度——基于掩码角度感知自编码器的旋转不变表示学习

Mon, 01 Jun 2026 12:00:00 +0800

MA3E：让遥感预训练"看见"角度——基于掩码角度感知自编码器的旋转不变表示学习

论文解读 | ECCV 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	Masked Angle-Aware Autoencoder for Remote Sensing Images
作者	Benesaki Takam, et al.
会议	ECCV 2024
arXiv	-
GitHub	https://github.com/benesakitam/MA3E
关键词	自监督预训练、掩码自编码器、角度感知、旋转不变性、遥感图像

🎯 解决的核心问题

问题背景

遥感图像与自然图像存在本质差异：同一地物在不同拍摄角度下会呈现完全不同的视觉外观。例如，一栋建筑物从东南方向和西北方向拍摄，其外观可能截然不同。这种旋转变化是遥感图像的固有特性。

现有方法的局限

现有的自监督预训练方法（如MAE、SatMAE等）主要借鉴自然图像的预训练策略，忽略了遥感图像中普遍存在的角度变化问题：

MAE系列：直接重建被掩码的图像块，未考虑旋转带来的外观变化
对比学习方法：依赖数据增强，但未显式建模角度信息
现有遥感预训练：大多直接迁移自然图像方法，未针对遥感特性设计

核心问题提炼

如何在自监督预训练中显式地感知和学习遥感图像中的角度信息，从而获得旋转不变的特征表示？

💡 解决方案

核心创新点1：Scaling Center Crop（缩放中心裁剪）

设计动机：遥感图像中的地物可能以任意角度出现，需要模型能够感知并适应这种角度变化。

具体实现：