一个模型吃透所有卫星传感器:Copernicus-FM如何统一地球观测基础模型

一个模型吃透所有卫星传感器:Copernicus-FM如何统一地球观测基础模型

论文解读 | ICCV 2025 Oral | 2026-05-31

项目内容
标题Towards a Unified Copernicus Foundation Model for Earth Vision
作者Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu
机构慕尼黑工业大学(TUM)、慕尼黑机器学习中心(MCML)、雅典国立技术大学(NTUA)、NVIDIA
会议ICCV 2025 Oral
arXivhttps://arxiv.org/abs/2503.11849
GitHubhttps://github.com/zhu-xlab/Copernicus-FM (141 ⭐)
HuggingFace模型/数据集/基准测试均已开源
关键词地球观测基础模型、多传感器统一、动态超网络、元数据编码、哥白尼计划

遥感卫星是人类观测地球的"天眼"。欧盟哥白尼计划(Copernicus Programme)运营着一组庞大的卫星群——从SAR雷达卫星(Sentinel-1)、光学多光谱卫星(Sentinel-2)、海洋陆地监测卫星(Sentinel-3)到大气成分监测卫星(Sentinel-5P)。这些传感器各有"方言":波段不同、分辨率不同、甚至数据类型完全不同(光谱 vs 非光谱)。

现有的遥感基础模型(如DOFA、SatMAE、SpectralGPT)已经取得了令人瞩目的进展,但它们面临三大根本性局限:

  1. 传感器局限:绝大多数模型只处理SAR和光学数据,忽略了Sentinel-3(300m分辨率)和Sentinel-5P(大气成分)这类"低分辨率但高时间频率"的传感器,而这些传感器对气候研究至关重要。

  2. 架构僵化:现有模型通常为特定传感器设计固定架构,无法动态适应新的波段或非光谱输入(如大气浓度、DEM高程)。即使DOFA支持任意波段,也只能处理光谱数据,无法处理CO₂、NO₂等大气变量。

  3. 评估片面:现有基准测试(如GEO-Bench、PANGAEA)聚焦于地表任务,完全忽略了大气层面的评估。

如何构建一个统一的基础模型,能够同时处理从地表到大气、从光谱到非光谱的所有哥白尼卫星传感器数据?

设计动机:现有数据集要么只包含SAR+光学(如SSL4EO-S12),要么数据规模有限。要训练真正的统一模型,需要一个覆盖所有主要传感器、空间对齐的大规模数据集。

具体实现

  • 将全球划分为约100万个0.25°×0.25°网格单元(与ERA5气象再分析数据一致),每个单元约28km×28km
  • 通过Google Earth Engine下载所有主要Sentinel卫星数据
  • 采用高斯采样策略围绕全球前10K人口城市采样,标准差50km,保证数据多样性
  • 额外覆盖4万个极地位置

关键细节

数据规模:18,713,054张图像
网格单元:~310K个(其中~220K个拥有全部模态)
8种模态:
  ├── Sentinel-1 GRD (SAR, 10m)     ~4.2M张
  ├── Sentinel-2 TOA (多光谱, 10m)   ~4.2M张
  ├── Sentinel-3 OLCI (多光谱, 300m) ~2.2M张
  ├── Sentinel-5P CO (一氧化碳, 1km) ~2.1M张
  ├── Sentinel-5P NO₂ (二氧化氮, 1km)~1.8M张
  ├── Sentinel-5P SO₂ (二氧化硫, 1km)~1.4M张
  ├── Sentinel-5P O₃ (臭氧, 1km)     ~2.6M张
  └── Copernicus DEM (高程, 30m)      ~30万张

与ERA5对齐的设计:每个网格单元的时间序列与ERA5气象再分析数据完全对齐,为后续连接遥感与气候研究奠定了基础。

设计动机:不同传感器的波段数量差异巨大(从1到21不等),分辨率跨度从10m到1km,更关键的是——Sentinel-5P和DEM根本没有"波长"概念。如何用一个模型处理所有这些?

整体架构流程

输入:一个网格单元内的8种模态图像
  ├── 光谱模态(S1/S2/S3)──→ 光谱超网络 ──→ 基于波长/带宽生成卷积核权重
  ├── 非光谱模态(S5P/DEM)──→ 变量超网络 ──→ 基于LLM编码变量名生成卷积核权重
  ├── 元数据(经纬度/时间/面积)──→ 统一傅里叶编码 ──→ 加到patch token上
  └── 动态Patch Embedding ──→ ViT编码器 ──→ 预训练目标

关键实现细节

(1)光谱超网络(Spectral Hypernetwork)

对每个光谱通道,利用其中心波长λ和带宽δ作为输入:

傅里叶编码:
FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)], 0 ≤ i < D/2
其中 ωᵢ = exp(log ω_min + i·(log ω_max - log ω_min)/(D/2-1))

光谱编码:V_spec = FE(λ) + FE(δ)  ∈ ℝ^(C×D)

通过MLP + 多头注意力变换为:
  权重向量 M_w ∈ ℝ^(C×p²D)
  偏置向量 M_b ∈ ℝ^(C×D)

重塑为卷积核:K_conv ∈ ℝ^(D×C×p×p)

核心洞察:波长和带宽的傅里叶编码赋予模型对未见过波段的泛化能力——即使训练时没见过某个波段,模型也能基于其物理属性生成合理的嵌入权重。

(2)变量超网络(Variable Hypernetwork)

对于CO₂、NO₂、DEM等非光谱数据,没有波长这个"通用语言"。作者的解决方案极其巧妙:

# 用冻结的LLM编码变量名(一次性预处理,零推理开销)
variable_names = ["nitrogen dioxide", "carbon monoxide", "elevation", ...]
V_var = frozen_LLM_encoder(variable_names)  # ∈ ℝ^(N×D)

# 与光谱超网络类似,通过MLP+Attention生成卷积核权重

为什么用LLM?因为LLM已经具备了关于这些物理变量的科学知识——它知道"臭氧"和"NO₂"都是大气污染物,“高程"是地形属性。这种语义先验使得模型能够为全新的变量类型(只要能用自然语言描述)生成合理的嵌入。

(3)元数据编码

经纬度、时间、观测面积等元数据通过统一的傅里叶编码(与波长编码相同的形式)嵌入,然后加到patch token上。实验证明,这种元数据集成对大气任务(如空气质量预测)的提升尤为显著。

(4)动态Patch Size

借鉴FlexiViT的思想,将卷积核权重动态重塑为适合每种模态的patch大小:

  • Sentinel-1/2:patch_size = 8(10m分辨率,264×264图像)
  • Sentinel-3:patch_size = 4(300m分辨率,96×96图像)
  • Sentinel-5P:patch_size = 2(1km分辨率,28×28图像)
  • DEM:patch_size = 16(30m分辨率,960×960图像)

设计动机:现有基准要么覆盖传感器有限,要么只关注地表任务。需要一个从"预处理"到"专业应用"的全面评估体系。

三级层次结构

Level 1 - 预处理级(数据质量)
  ├── Cloud-S2 (Sentinel-2云检测)
  └── Cloud-S3 (Sentinel-3云检测,新)

Level 2 - 基础应用级(地表分类)
  ├── EuroSAT-S1/S2 (土地利用分类)
  ├── BigEarthNet-S1/S2 (多标签土地覆盖)
  ├── LC100Cls-S3 (Sentinel-3分类,新)
  ├── DFC2020-S1/S2 (语义分割)
  └── LC100Seg-S3 (Sentinel-3分割,新)

Level 3 - 专业应用级(跨域任务)
  ├── Flood-S1 (洪水变化检测)
  ├── LCZ-S2 (局地气候区分类)
  ├── Biomass-S3 (生物量回归,新)
  ├── AQ-NO₂-S5P (空气质量回归,新)
  └── AQ-O₃-S5P (臭氧浓度回归,新)

15个任务中有6个是全新创建的,填补了Sentinel-3和Sentinel-5P评估的空白。

预训练目标:
  1. 掩码图像建模(MIM):对每种模态独立进行mask-and-reconstruct
  2. 持续蒸馏:从DINOv2教师模型蒸馏S1/S2或S2-RGB的表示

数据采样:每个batch从同一网格单元随机采样一种模态
优化器:AdamW,学习率1.5e-4,余弦退火
训练:200K迭代64A100 GPU

Copernicus-FM在15个下游任务上全面超越现有基础模型:

模型S1分类S2分类S3分类S5P回归平均
From scratch78.288.562.30.85-
DOFA82.191.268.5--
SatMAE80.590.165.2--
SpectralGPT81.891.867.9--
Copernicus-FM84.393.172.80.72-

关键发现:

  • 跨传感器迁移:在S1上预训练的模型迁移到S3任务时,Copernicus-FM比专用模型提升4.3%
  • 大气任务:在NO₂和O₃回归任务上,Copernicus-FM是唯一能工作的统一模型
  • 元数据贡献:加入元编码后,空气质量预测的MAE降低15%
组件S2分类S3分类S5P-NO₂
基线(仅MIM)91.268.5-
+光谱超网络92.170.3-
+变量超网络92.170.30.78
+元数据编码92.571.80.74
+持续蒸馏93.172.80.72

作者还发布了全球嵌入数据集Copernicus-Embed-025deg:

  • 分辨率:0.25°(与ERA5一致)
  • 尺寸:721×1440×768
  • 覆盖:全球陆地及近海
  • 压缩比:极高——将18.7M图像压缩为768维嵌入

这个嵌入数据集可以直接用于气候模型输入,为"遥感+气候"的交叉研究开辟了新路径。

  1. 从"为每个传感器建模型"到"一个模型处理所有传感器”:这是范式转变。之前的方法是"分而治之",Copernicus-FM证明了"统一而治"的可行性。

  2. LLM编码变量名的巧妙设计:这是本文最具启发性的创新。它将NLP领域的语义知识注入视觉模型,使得模型能够处理训练时从未见过的变量类型——只要能用自然语言描述。

  3. ERA5对齐的数据设计:这不是随意的空间网格,而是与气象再分析数据完全一致的0.25°网格,为后续连接EO与气候研究埋下了伏笔。

层次1(数据):Copernicus-Pretrain - 18.7M图像,8种模态,全球覆盖
层次2(模型):Copernicus-FM - 动态超网络 + 元数据编码
层次3(评估):Copernicus-Bench - 15个层次化任务
层次4(应用):Copernicus-Embed-025deg - 连接EO与气候

四个层次相互支撑,形成完整的技术闭环。

  1. 真正的统一性:不是简单的多编码器拼接,而是通过超网络实现从输入到输出的完全统一。任何新传感器(只要有波长或变量名描述)都能零适配接入。

  2. 大气任务的开创性:首次将大气成分(NO₂、CO、SO₂、O₃)纳入遥感基础模型评估,填补了EO与气候研究之间的鸿沟。

  3. 完整的开源生态:数据集、模型权重、基准测试、嵌入数据集全部在HuggingFace开源,可复现性极强。

  1. 计算成本高昂:预训练需要64张A100 GPU运行200K迭代,对于中小团队来说门槛较高。虽然提供了预训练权重,但微调大规模模型仍需显著算力。

  2. 时间序列利用不足:虽然数据集包含时间序列,但模型本身是单帧处理的,没有显式建模时序变化。对于变化检测等时序敏感任务,可能需要额外设计。

  3. Sentinel-3/5P的空间分辨率限制:300m和1km的分辨率在很多精细地表任务上可能不足。模型在这些粗分辨率传感器上的性能提升,部分可能来自于"免费"的跨传感器知识迁移,而非对粗分辨率数据本身的理解。

  1. 时序建模:将时间序列纳入超网络框架,实现真正的时空统一基础模型。
  2. 与气象/气候模型的深度融合:利用Copernicus-Embed-025deg作为气候模型的输入特征。
  3. 更多传感器扩展:将框架扩展到Landsat、MODIS等其他卫星系列。
  4. 轻量化部署:知识蒸馏或模型压缩,使统一模型能在边缘设备上运行。

Copernicus-FM是地球观测基础模型领域的一个重要里程碑。它首次证明了一个统一模型可以同时处理从地表到大气、从光谱到非光谱的所有主要哥白尼卫星传感器。其核心创新——动态超网络(用波长/带宽或LLM编码的变量名动态生成卷积核权重)——为解决遥感领域的"传感器异构性"问题提供了一个优雅的解决方案。

这项工作的深远意义在于它为连接遥感、气象和气候研究搭建了桥梁。通过将18.7M张多模态卫星图像压缩为与ERA5对齐的全球嵌入数据集,Copernicus-FM不仅是一个模型,更是一个连接地球观测与地球系统科学的基础设施。

对于遥感AI研究者,这篇论文提供了三个重要启示:(1)数据集的"设计"比"规模"更重要——与ERA5对齐的网格设计使得数据集天然适合气候应用;(2)LLM可以作为视觉模型的"知识接口"——用自然语言描述新变量,就能让模型零样本适应;(3)层次化的评估体系比单一任务的benchmark更能揭示模型的真实能力。

@misc{wang2025unifiedcopernicusfoundationmodel,
      title={Towards a Unified Copernicus Foundation Model for Earth Vision}, 
      author={Yi Wang and Zhitong Xiong and Chenying Liu and Adam J. Stewart and Thomas Dujardin and Nikolaos Ioannis Bountos and Angelos Zavras and Franziska Gerken and Ioannis Papoutsis and Laura Leal-Taixé and Xiao Xiang Zhu},
      year={2025},
      eprint={2503.11849},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11849}, 
}