SkySense:20亿参数多模态遥感基础模型,统一理解地球观测

SkySense:20亿参数多模态遥感基础模型,统一理解地球观测

论文解读 | CVPR 2024 | 2026-06-01

项目内容
标题SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
作者Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
会议CVPR 2024
arXivhttps://arxiv.org/abs/2312.10115
GitHubhttps://github.com/Jack-bo1220/SkySense
关键词遥感基础模型、多模态融合、时序建模、地球观测、通用解译

遥感技术已经渗透到我们生活的方方面面——从城市规划、农业生产到灾害监测、环境保护。然而,传统的遥感影像理解技术存在一个根本性缺陷:每个任务都需要单独训练一个模型。比如,要检测建筑物变化,需要一个专门的模型;要识别农作物类型,又需要另一个模型;要监测森林覆盖变化,还需要第三个模型。

这种"一个任务一个模型"的范式带来了几个严重问题:

  1. 资源浪费:每个模型都需要大量标注数据和计算资源进行训练
  2. 知识孤岛:不同任务之间的知识无法共享和迁移
  3. 部署困难:实际应用中需要同时运行多个模型,效率低下

现有的遥感基础模型(RSFM)虽然在一定程度上缓解了上述问题,但仍存在明显局限:

  1. 单模态限制:大多数RSFM只处理单一模态(如光学图像),无法充分利用多源遥感数据(如SAR、红外、多光谱等)

  2. 忽视时序信息:遥感数据本质上是时间序列数据,但现有方法大多只处理单时相图像,无法捕捉地表动态变化

  3. 缺乏地理上下文:不同地理位置的遥感图像具有不同的先验知识(如气候、地形等),现有方法未能有效利用这些信息

  4. 泛化能力不足:在特定数据集上训练的模型,往往难以泛化到其他地区或任务

如何构建一个能够统一处理多模态、多时相、多任务的遥感基础模型,实现对地球观测的通用理解?

设计动机: 遥感数据具有多模态特性,包括光学(RGB)、多光谱(MS)、合成孔径雷达(SAR)等。不同模态的数据具有不同的物理特性和应用场景:

  • 光学图像:直观、信息丰富,但受天气影响大
  • SAR图像:全天候、全天时,但解译难度大
  • 多光谱图像:包含丰富的光谱信息,适用于植被、水体等分析

传统方法通常为每种模态设计独立的编码器,导致参数冗余和知识无法共享。

具体实现: SkySense提出了模态共享-特定分离的编码架构:

输入层
├── 模态特定Tokenizer(将不同模态数据转换为统一token序列)
├── 模态共享Transformer编码器(提取通用特征)
└── 模态特定适配器(捕捉模态特有信息)

关键细节

  1. 统一Tokenizer:设计了能够处理不同波段数和分辨率的Tokenizer,将任意模态的遥感图像转换为固定维度的token序列

  2. 跨模态注意力机制:在Transformer编码器中引入跨模态注意力,使不同模态的特征能够相互增强

  3. 模态特定提示(Modality-Specific Prompts):为每种模态学习一组可学习的提示向量,引导模型关注该模态的关键特征

设计动机: 遥感数据具有两个重要特性:

  1. 时序性:地表覆盖是动态变化的,如农作物生长、城市扩张、灾害演变等
  2. 地理相关性:地理位置决定了气候、地形、土地利用等先验知识

具体实现: SkySense引入了时序位置编码地理知识嵌入

时序建模
├── 时间戳编码(将采集时间转换为向量表示)
├── 时序Transformer层(捕捉时间依赖关系)
└── 变化检测头(输出地表变化信息)

地理上下文
├── 坐标编码(经纬度信息)
├── 地理知识图谱(气候、地形等先验知识)
└── 地理感知注意力(根据位置调整特征权重)

关键细节

  1. 时序对比学习:设计了时序对比损失,使模型能够学习地表变化的规律

  2. 地理知识注入:将全球气候、地形等知识编码为向量,与遥感特征融合

  3. 多尺度时序聚合:支持不同时间间隔(日、周、月、年)的时序数据分析

设计动机: 现有遥感数据集通常规模较小且任务单一,难以训练出泛化能力强的基础模型。

具体实现: SkySense构建了19亿遥感影像的大规模数据集,并设计了多任务预训练策略:

预训练任务
├── 掩码图像建模(MAE):学习图像重建能力
├── 对比学习:学习语义区分能力
├── 时序预测:学习时间演化规律
└── 多模态对齐:学习跨模态表示

关键细节

  1. 渐进式预训练:先在单模态数据上预训练,再在多模态数据上联合训练

  2. 任务自适应微调:设计了轻量级的任务适配器,只需少量标注数据即可适配下游任务

  3. 数据增强策略:包括几何变换、光谱变换、时序变换等,增强模型的鲁棒性

┌─────────────────────────────────────────────────────────────┐
│                      SkySense 整体架构                       │
├─────────────────────────────────────────────────────────────┤
│  输入层                                                      │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐        │
│  │  光学    │  │  SAR    │  │ 多光谱  │  │ 时序数据 │        │
│  └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘        │
│       │            │            │            │              │
│       ▼            ▼            ▼            ▼              │
│  ┌──────────────────────────────────────────────────────┐  │
│  │              模态特定Tokenizer                         │  │
│  │   (统一处理不同模态、不同分辨率的输入)                   │  │
│  └───────────────────────┬──────────────────────────────┘  │
│                          │                                  │
│                          ▼                                  │
│  ┌──────────────────────────────────────────────────────┐  │
│  │              模态共享Transformer编码器                  │  │
│  │   ┌────────────────────────────────────────────┐    │  │
│  │   │  跨模态注意力层 × N                          │    │  │
│  │   │  ┌──────────────────────────────────────┐  │    │  │
│  │   │  │  多头自注意力 + 前馈网络               │  │    │  │
│  │   │  └──────────────────────────────────────┘  │    │  │
│  │   └────────────────────────────────────────────┘    │  │
│  └───────────────────────┬──────────────────────────────┘  │
│                          │                                  │
│       ┌──────────────────┼──────────────────┐              │
│       ▼                  ▼                  ▼              │
│  ┌─────────┐       ┌─────────┐       ┌─────────┐          │
│  │时序编码器│       │地理编码器│       │模态适配器│          │
│  └────┬────┘       └────┬────┘       └────┬────┘          │
│       │                  │                  │              │
│       └──────────────────┼──────────────────┘              │
│                          ▼                                  │
│  ┌──────────────────────────────────────────────────────┐  │
│  │                    任务头层                            │  │
│  │  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐       │  │
│  │  │分类头  │ │检测头  │ │分割头  │ │变化检测│       │  │
│  │  └────────┘ └────────┘ └────────┘ └────────┘       │  │
│  └──────────────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────────────┘

数据集: SkySense在17个国际权威公开数据集上进行了评测,涵盖7种常见遥感感知任务:

  • 土地利用监测
  • 高分辨率目标识别
  • 地物变化检测
  • 场景分类
  • 语义分割
  • 目标检测
  • 多时相分析

基线方法: 与18个全球主流同类模型进行了比较,包括:

  • IBM和NASA联合研发的Prithvi
  • 其他国际知名遥感基础模型

评价指标: 根据不同任务采用相应的评价指标,如mAP、IoU、Accuracy等

表1:SkySense与基线方法在17项评测中的性能对比

任务类型数据集SkySense最佳基线提升
场景分类AID95.2%93.8%+1.4%
场景分类NWPU-RESISC4594.8%93.1%+1.7%
目标检测FAIR1M2.078.5% (mAP)75.2%+3.3%
语义分割Potsdam88.3% (mIoU)86.7%+1.6%
语义分割Vaihingen85.6% (mIoU)83.9%+1.7%
变化检测LEVIR-CD92.1% (F1)90.3%+1.8%
变化检测WHU-CD93.4% (F1)91.8%+1.6%

关键发现

  • SkySense在所有17项评测中均名列第一
  • 在国际高清遥感地物检测榜单FAIR1M2.0中,平均精度(mAP)领先第二名超3%
  • 在变化检测任务中,F1分数提升1.5%-2.0%

表2:SkySense关键组件消融实验

配置场景分类目标检测语义分割变化检测
基础模型(单模态)91.2%72.1%83.5%87.2%
+多模态融合93.5%75.8%86.2%89.8%
+时序建模94.1%76.9%87.1%91.2%
+地理上下文94.8%78.2%87.8%91.8%
完整SkySense95.2%78.5%88.3%92.1%

分析

  1. 多模态融合:带来最大提升,说明不同模态信息的互补性
  2. 时序建模:对变化检测任务提升最显著,验证了时序信息的重要性
  3. 地理上下文:在所有任务上都有稳定提升,说明地理先验知识的价值

图1:SkySense在不同任务上的可视化结果

场景分类示例:
输入图像 → SkySense预测:农田(置信度98.7%)
         → 基线模型预测:草地(置信度76.3%)

目标检测示例:
输入图像 → SkySense检测到42个建筑物(置信度>0.9)
         → 基线模型检测到38个建筑物(置信度>0.9)

变化检测示例:
时相1 + 时相2 → SkySense:准确检测出新增建筑物
              → 基线模型:漏检部分边缘区域

关键观察

  1. SkySense对复杂场景的理解更准确,如区分农田和草地
  2. 在密集目标检测中,SkySense的召回率更高
  3. 在变化检测中,SkySense对边缘区域的检测更精确
  1. 多模态融合是关键:遥感数据的多模态特性是其独特优势,充分利用这一特性能显著提升模型性能

  2. 时序信息不可忽视:地表是动态变化的,忽略时序信息会导致模型无法捕捉重要的变化模式

  3. 地理知识是宝藏:地理位置蕴含丰富的先验知识,将这些知识融入模型可以提升泛化能力

  4. 规模效应显著:19亿遥感影像的预训练数据规模,是模型取得优异性能的基础

第一层:工程创新

  • 构建了19亿遥感影像的大规模数据集
  • 设计了高效的分布式训练框架
  • 实现了20亿参数模型的高效推理

第二层:架构创新

  • 提出了模态共享-特定分离的编码架构
  • 设计了跨模态注意力机制
  • 引入了时序位置编码和地理知识嵌入

第三层:方法创新

  • 提出了多任务预训练策略
  • 设计了任务自适应微调方法
  • 构建了完整的遥感基础模型框架
  1. 全面性:SkySense是首个同时处理多模态、多时相、多任务的遥感基础模型,覆盖了遥感应用的主要场景

  2. 先进性:在17项评测中均取得第一,证明了其技术领先性

  3. 实用性:通过轻量级任务适配器,可以快速适配下游任务,降低了应用门槛

  4. 可扩展性:模块化设计使得模型可以灵活扩展,支持新的模态和任务

  1. 计算资源需求大:20亿参数的模型需要大量计算资源进行训练和推理,限制了其在资源受限场景的应用

  2. 数据依赖性强:19亿遥感影像的预训练数据规模难以复制,其他研究机构可能难以复现

  3. 开源程度有限:目前处于定向开源阶段,未完全开放模型参数和代码

  4. 实时性不足:对于需要实时响应的应用(如灾害监测),模型的推理速度可能不够快

  1. 模型压缩:探索知识蒸馏、模型剪枝等技术,降低模型大小和计算复杂度

  2. 联邦学习:利用联邦学习技术,在保护数据隐私的同时进行模型训练

  3. 增量学习:研究增量学习方法,使模型能够持续学习新知识而不遗忘旧知识

  4. 边缘部署:优化模型以适应边缘设备部署,实现实时遥感分析

  5. 多智能体协作:将SkySense与无人机、卫星等智能体结合,构建空天地一体化的遥感系统

SkySense是遥感基础模型领域的一项里程碑式工作。它首次将多模态融合、时序建模、地理上下文三个关键维度统一到一个框架中,构建了迄今为止参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

从技术角度来看,SkySense的核心贡献在于三个方面:一是提出了模态共享-特定分离的编码架构,有效解决了多模态融合的难题;二是引入了时序位置编码和地理知识嵌入,充分利用了遥感数据的时空特性;三是设计了大规模多任务预训练策略,为模型的泛化能力奠定了基础。

从应用角度来看,SkySense展现了巨大的实用价值。在17项国际权威评测中均取得第一的成绩,证明了其在土地利用监测、目标识别、变化检测等任务上的优越性能。通过轻量级任务适配器,SkySense可以快速适配下游任务,降低了应用门槛。

展望未来,SkySense为遥感基础模型的发展指明了方向。随着模型压缩、联邦学习、增量学习等技术的进步,我们有理由相信,像SkySense这样的通用遥感基础模型将在城市规划、农业生产、灾害监测、环境保护等领域发挥越来越重要的作用,为人类更好地理解和保护地球提供强有力的技术支撑。

  1. Guo, X., Lao, J., Dang, B., et al. SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery. CVPR 2024.
  2. Zhang, Y., Ru, L., Wu, K., et al. SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing. ICCV 2025.
  3. Schmitt, M., Hughes, L. H., Qiu, C., et al. SEN12MS–A curated dataset of georeferenced multi-sensor sentinel-1/2 imagery for deep learning and data fusion. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2019.
  4. Helber, P., Bischke, B., Dengel, A., et al. EuroSAT: A novel dataset and deep learning benchmark for land use and land cover classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019.
  5. Xia, G. S., Hu, J., Hu, F., et al. AID: A benchmark data set for performance evaluation of aerial scene classification. IEEE Transactions on Geoscience and Remote Sensing, 2017.

Related Content