SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

WangTong included in category 遥感基础模型与多模态理解

2026-05-31 11:35:41 2026-05-31 11:35:41 171 words One minute

Contents

SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

论文信息

标题：SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling
作者：Qi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang, Dong Liu, Feng Zhao
会议：CVPR 2025
GitHub：https://github.com/zqcrafts/SkySense-O (265 stars)
关键词：开放世界解释、视觉语言模型、遥感图像、像素级分割、视觉中心建模

问题：从"封闭"到"开放"的鸿沟

遥感图像解释长期面临一个根本性矛盾：模型只能识别训练时见过的类别，但现实世界中的地物类别是无限且不断演变的。

传统遥感语义分割模型存在两个核心瓶颈：

语义类别覆盖不足：现有遥感数据集的类别标签极为有限，特别是像素级标注数据集。例如，常用的数据集可能只包含几十个类别，但实际地物类型远不止于此。
语言空间区分能力有限：遥感图像具有密集且复杂的空间分布，仅依靠文本描述难以精确区分不同的空间区域。例如，“建筑物"和"停车场"在语言描述上可能相似，但在视觉上差异显著。

作者敏锐地捕捉到了这一问题的本质：现有视觉语言模型（VLM）过度依赖文本提示，忽视了视觉特征本身的重要性。

解决方案：视觉中心的范式转变

SkySense-O的核心创新在于提出了视觉中心原则（Vision-Centric Principle），从根本上改变了遥感视觉语言建模的思路。

1. 构建高质量像素级数据集Sky-SA

作者首先解决了数据层面的瓶颈。Sky-SA数据集具有以下特点：

规模：183,375个高质量本地图像-文本对
类别覆盖：1,763个类别标签，远超现有数据集
标注质量：经过多轮人工标注和验证的全像素标注
语义密度：比现有数据集具有更丰富的语义和更高的密度

这一数据集的构建并非简单的类别扩充，而是对遥感地物的系统性语义建模。

2. 视觉中心的预训练策略

传统方法在预训练阶段主要关注图像-文本对齐，容易导致视觉表示能力退化。SkySense-O的创新在于：

引入视觉自监督范式：在图像-文本对齐的同时，保持视觉特征的判别能力
视觉相关知识图谱：构建跨开放类别文本的视觉相关知识图谱
视觉中心图像-文本对比损失：开发新型损失函数，强调视觉特征的主导作用

3. 从"文本驱动"到"视觉引导”

这一范式转变的关键在于：不是让视觉特征去适应文本描述，而是让文本描述去增强视觉理解。

具体实现包括：

在预训练阶段，视觉自监督学习与图像-文本对齐并行进行
利用视觉相关知识图谱建立类别间的视觉语义关联
通过视觉中心对比损失确保视觉特征的判别性

实验：全面的性能验证

评估设置

数据集：14个遥感数据集
任务类型：4个任务（分类、检测、分割、推理）
评估方式：零样本能力评估

关键结果

SkySense-O在多个评估指标上取得了显著优势：

超越SegEarth-OV：平均提升11.95%
超越GeoRSCLIP：平均提升8.04%
超越VHM：平均提升3.55%

这些提升并非来自简单的模型规模扩大，而是源于视觉中心建模策略的有效性。

零样本能力展示

SkySense-O展示了强大的零样本能力：

能够识别训练时未见过的类别
在开放世界场景下保持稳定的性能
支持像素级的精细解释

评估：创新点的深度剖析

核心创新的本质

SkySense-O的创新可以归结为一个核心洞察：在遥感领域，视觉特征比文本描述更具判别性。

这一洞察源于对遥感图像特殊性的理解：

遥感图像具有丰富的空间结构信息
地物之间的视觉差异往往比语言描述差异更显著
像素级任务需要精细的视觉特征，而非粗粒度的文本语义

技术贡献的层次性

作者从三个层面解决了问题：

数据层：构建Sky-SA数据集，提供高质量的像素级标注
模型层：提出视觉中心的预训练策略和对比损失
应用层：实现开放世界的零样本解释能力

局限性与未来方向

尽管SkySense-O取得了显著进展，但仍存在一些值得探讨的问题：

计算成本：视觉中心建模可能增加计算复杂度
数据依赖：高质量像素级标注的获取仍然困难
泛化能力：在不同地理区域和传感器条件下的表现有待验证

总结

SkySense-O的核心贡献在于提出了视觉中心的视觉语言建模范式，解决了遥感开放世界解释的关键瓶颈。作者从一个看似简单但深刻的洞察出发——视觉特征在遥感领域比文本描述更具判别性——构建了完整的解决方案，包括数据集、模型架构和训练策略。

这一工作启示我们：在遥感领域，过度依赖文本提示可能是一种误导；回归视觉本质，可能才是通往真正开放世界解释的正确路径。

参考文献：

@InProceedings{Zhu_2025_CVPR,
    author    = {Zhu, Qi and Lao, Jiangwei and Ji, Deyi and Luo, Junwei and Wu, Kang and Zhang, Yingying and Ru, Lixiang and Wang, Jian and Chen, Jingdong and Yang, Ming and Liu, Dong and Zhao, Feng},
    title     = {SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling},
    booktitle = {Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR)},
    month     = {June},
    year      = {2025},
    pages     = {14733-14744}
}

SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

论文信息

问题：从"封闭"到"开放"的鸿沟

解决方案：视觉中心的范式转变

1. 构建高质量像素级数据集Sky-SA

2. 视觉中心的预训练策略

3. 从"文本驱动"到"视觉引导”

实验：全面的性能验证

评估设置

关键结果

零样本能力展示

评估：创新点的深度剖析

核心创新的本质

技术贡献的层次性

局限性与未来方向

总结

评论