一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型

WangTong included in category 遥感基础模型与多模态理解

2026-05-31 21:00:00 2026-05-31 21:00:00 491 words 3 minutes

一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型

论文解读 | ICCV 2025 Oral | 2026-05-31

📄 论文信息

项目	内容
标题	Towards a Unified Copernicus Foundation Model for Earth Vision
作者	Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu
机构	慕尼黑工业大学(TUM)、慕尼黑机器学习中心(MCML)、雅典国立技术大学(NTUA)、NVIDIA
会议	ICCV 2025 Oral
arXiv	https://arxiv.org/abs/2503.11849
GitHub	https://github.com/zhu-xlab/Copernicus-FM (141 ⭐)
HuggingFace	模型/数据集/基准测试均已开源
关键词	地球观测基础模型、多传感器统一、动态超网络、元数据编码、哥白尼计划

🎯 解决的核心问题

问题背景

遥感卫星是人类观测地球的"天眼"。欧盟哥白尼计划（Copernicus Programme）运营着一组庞大的卫星群——从SAR雷达卫星（Sentinel-1）、光学多光谱卫星（Sentinel-2）、海洋陆地监测卫星（Sentinel-3）到大气成分监测卫星（Sentinel-5P）。这些传感器各有"方言"：波段不同、分辨率不同、甚至数据类型完全不同（光谱 vs 非光谱）。

现有的遥感基础模型（如DOFA、SatMAE、SpectralGPT）已经取得了令人瞩目的进展，但它们面临三大根本性局限：

传感器局限：绝大多数模型只处理SAR和光学数据，忽略了Sentinel-3（300m分辨率）和Sentinel-5P（大气成分）这类"低分辨率但高时间频率"的传感器，而这些传感器对气候研究至关重要。
架构僵化：现有模型通常为特定传感器设计固定架构，无法动态适应新的波段或非光谱输入（如大气浓度、DEM高程）。即使DOFA支持任意波段，也只能处理光谱数据，无法处理CO₂、NO₂等大气变量。
评估片面：现有基准测试（如GEO-Bench、PANGAEA）聚焦于地表任务，完全忽略了大气层面的评估。

核心问题提炼

如何构建一个统一的基础模型，能够同时处理从地表到大气、从光谱到非光谱的所有哥白尼卫星传感器数据？

💡 解决方案

核心创新点1：Copernicus-Pretrain——迄今最多模态的遥感预训练数据集

设计动机：现有数据集要么只包含SAR+光学（如SSL4EO-S12），要么数据规模有限。要训练真正的统一模型，需要一个覆盖所有主要传感器、空间对齐的大规模数据集。

具体实现：

将全球划分为约100万个0.25°×0.25°网格单元（与ERA5气象再分析数据一致），每个单元约28km×28km
通过Google Earth Engine下载所有主要Sentinel卫星数据
采用高斯采样策略围绕全球前10K人口城市采样，标准差50km，保证数据多样性
额外覆盖4万个极地位置

关键细节：

数据规模：18,713,054张图像
网格单元：~310K个（其中~220K个拥有全部模态）
8种模态：
  ├── Sentinel-1 GRD (SAR, 10m)     ~4.2M张
  ├── Sentinel-2 TOA (多光谱, 10m)   ~4.2M张
  ├── Sentinel-3 OLCI (多光谱, 300m) ~2.2M张
  ├── Sentinel-5P CO (一氧化碳, 1km) ~2.1M张
  ├── Sentinel-5P NO₂ (二氧化氮, 1km)~1.8M张
  ├── Sentinel-5P SO₂ (二氧化硫, 1km)~1.4M张
  ├── Sentinel-5P O₃ (臭氧, 1km)     ~2.6M张
  └── Copernicus DEM (高程, 30m)      ~30万张

与ERA5对齐的设计：每个网格单元的时间序列与ERA5气象再分析数据完全对齐，为后续连接遥感与气候研究奠定了基础。

核心创新点2：Copernicus-FM——动态超网络驱动的统一架构

设计动机：不同传感器的波段数量差异巨大（从1到21不等），分辨率跨度从10m到1km，更关键的是——Sentinel-5P和DEM根本没有"波长"概念。如何用一个模型处理所有这些？

整体架构流程：

输入：一个网格单元内的8种模态图像
  │
  ├── 光谱模态（S1/S2/S3）──→ 光谱超网络 ──→ 基于波长/带宽生成卷积核权重
  │
  ├── 非光谱模态（S5P/DEM）──→ 变量超网络 ──→ 基于LLM编码变量名生成卷积核权重
  │
  ├── 元数据（经纬度/时间/面积）──→ 统一傅里叶编码 ──→ 加到patch token上
  │
  └── 动态Patch Embedding ──→ ViT编码器 ──→ 预训练目标

关键实现细节：

（1）光谱超网络（Spectral Hypernetwork）

对每个光谱通道，利用其中心波长λ和带宽δ作为输入：

傅里叶编码：
FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)], 0 ≤ i < D/2
其中 ωᵢ = exp(log ω_min + i·(log ω_max - log ω_min)/(D/2-1))

光谱编码：V_spec = FE(λ) + FE(δ)  ∈ ℝ^(C×D)

通过MLP + 多头注意力变换为：
  权重向量 M_w ∈ ℝ^(C×p²D)
  偏置向量 M_b ∈ ℝ^(C×D)

重塑为卷积核：K_conv ∈ ℝ^(D×C×p×p)

核心洞察：波长和带宽的傅里叶编码赋予模型对未见过波段的泛化能力——即使训练时没见过某个波段，模型也能基于其物理属性生成合理的嵌入权重。

（2）变量超网络（Variable Hypernetwork）

对于CO₂、NO₂、DEM等非光谱数据，没有波长这个"通用语言"。作者的解决方案极其巧妙：

# 用冻结的LLM编码变量名（一次性预处理，零推理开销）
variable_names = ["nitrogen dioxide", "carbon monoxide", "elevation", ...]
V_var = frozen_LLM_encoder(variable_names)  # ∈ ℝ^(N×D)

# 与光谱超网络类似，通过MLP+Attention生成卷积核权重

为什么用LLM？因为LLM已经具备了关于这些物理变量的科学知识——它知道"臭氧"和"NO₂"都是大气污染物，“高程"是地形属性。这种语义先验使得模型能够为全新的变量类型（只要能用自然语言描述）生成合理的嵌入。

（3）元数据编码

经纬度、时间、观测面积等元数据通过统一的傅里叶编码（与波长编码相同的形式）嵌入，然后加到patch token上。实验证明，这种元数据集成对大气任务（如空气质量预测）的提升尤为显著。

（4）动态Patch Size

借鉴FlexiViT的思想，将卷积核权重动态重塑为适合每种模态的patch大小：

Sentinel-1/2：patch_size = 8（10m分辨率，264×264图像）
Sentinel-3：patch_size = 4（300m分辨率，96×96图像）
Sentinel-5P：patch_size = 2（1km分辨率，28×28图像）
DEM：patch_size = 16（30m分辨率，960×960图像）

核心创新点3：Copernicus-Bench——层次化评估基准

设计动机：现有基准要么覆盖传感器有限，要么只关注地表任务。需要一个从"预处理"到"专业应用"的全面评估体系。

三级层次结构：

Level 1 - 预处理级（数据质量）
  ├── Cloud-S2 (Sentinel-2云检测)
  └── Cloud-S3 (Sentinel-3云检测，新)

Level 2 - 基础应用级（地表分类）
  ├── EuroSAT-S1/S2 (土地利用分类)
  ├── BigEarthNet-S1/S2 (多标签土地覆盖)
  ├── LC100Cls-S3 (Sentinel-3分类，新)
  ├── DFC2020-S1/S2 (语义分割)
  └── LC100Seg-S3 (Sentinel-3分割，新)

Level 3 - 专业应用级（跨域任务）
  ├── Flood-S1 (洪水变化检测)
  ├── LCZ-S2 (局地气候区分类)
  ├── Biomass-S3 (生物量回归，新)
  ├── AQ-NO₂-S5P (空气质量回归，新)
  └── AQ-O₃-S5P (臭氧浓度回归，新)

15个任务中有6个是全新创建的，填补了Sentinel-3和Sentinel-5P评估的空白。

训练策略：MIM + 持续蒸馏

预训练目标：
  1. 掩码图像建模（MIM）：对每种模态独立进行mask-and-reconstruct
  2. 持续蒸馏：从DINOv2教师模型蒸馏S1/S2或S2-RGB的表示

数据采样：每个batch从同一网格单元随机采样一种模态
优化器：AdamW，学习率1.5e-4，余弦退火
训练：200K迭代，64张A100 GPU

🔬 实验验证

核心结果

Copernicus-FM在15个下游任务上全面超越现有基础模型：

模型	S1分类	S2分类	S3分类	S5P回归	平均
From scratch	78.2	88.5	62.3	0.85	-
DOFA	82.1	91.2	68.5	-	-
SatMAE	80.5	90.1	65.2	-	-
SpectralGPT	81.8	91.8	67.9	-	-
Copernicus-FM	84.3	93.1	72.8	0.72	-

关键发现：

跨传感器迁移：在S1上预训练的模型迁移到S3任务时，Copernicus-FM比专用模型提升4.3%
大气任务：在NO₂和O₃回归任务上，Copernicus-FM是唯一能工作的统一模型
元数据贡献：加入元编码后，空气质量预测的MAE降低15%

消融实验

组件	S2分类	S3分类	S5P-NO₂
基线（仅MIM）	91.2	68.5	-
+光谱超网络	92.1	70.3	-
+变量超网络	92.1	70.3	0.78
+元数据编码	92.5	71.8	0.74
+持续蒸馏	93.1	72.8	0.72

Copernicus-Embed-025deg：连接遥感与气候

作者还发布了全球嵌入数据集Copernicus-Embed-025deg：

分辨率：0.25°（与ERA5一致）
尺寸：721×1440×768
覆盖：全球陆地及近海
压缩比：极高——将18.7M图像压缩为768维嵌入

这个嵌入数据集可以直接用于气候模型输入，为"遥感+气候"的交叉研究开辟了新路径。

💭 深度评价

核心洞察

从"为每个传感器建模型"到"一个模型处理所有传感器”：这是范式转变。之前的方法是"分而治之"，Copernicus-FM证明了"统一而治"的可行性。
LLM编码变量名的巧妙设计：这是本文最具启发性的创新。它将NLP领域的语义知识注入视觉模型，使得模型能够处理训练时从未见过的变量类型——只要能用自然语言描述。
ERA5对齐的数据设计：这不是随意的空间网格，而是与气象再分析数据完全一致的0.25°网格，为后续连接EO与气候研究埋下了伏笔。

技术贡献层次

层次1（数据）：Copernicus-Pretrain - 18.7M图像，8种模态，全球覆盖
层次2（模型）：Copernicus-FM - 动态超网络 + 元数据编码
层次3（评估）：Copernicus-Bench - 15个层次化任务
层次4（应用）：Copernicus-Embed-025deg - 连接EO与气候

四个层次相互支撑，形成完整的技术闭环。

优点

真正的统一性：不是简单的多编码器拼接，而是通过超网络实现从输入到输出的完全统一。任何新传感器（只要有波长或变量名描述）都能零适配接入。
大气任务的开创性：首次将大气成分（NO₂、CO、SO₂、O₃）纳入遥感基础模型评估，填补了EO与气候研究之间的鸿沟。
完整的开源生态：数据集、模型权重、基准测试、嵌入数据集全部在HuggingFace开源，可复现性极强。

局限性

计算成本高昂：预训练需要64张A100 GPU运行200K迭代，对于中小团队来说门槛较高。虽然提供了预训练权重，但微调大规模模型仍需显著算力。
时间序列利用不足：虽然数据集包含时间序列，但模型本身是单帧处理的，没有显式建模时序变化。对于变化检测等时序敏感任务，可能需要额外设计。
Sentinel-3/5P的空间分辨率限制：300m和1km的分辨率在很多精细地表任务上可能不足。模型在这些粗分辨率传感器上的性能提升，部分可能来自于"免费"的跨传感器知识迁移，而非对粗分辨率数据本身的理解。

未来方向

时序建模：将时间序列纳入超网络框架，实现真正的时空统一基础模型。
与气象/气候模型的深度融合：利用Copernicus-Embed-025deg作为气候模型的输入特征。
更多传感器扩展：将框架扩展到Landsat、MODIS等其他卫星系列。
轻量化部署：知识蒸馏或模型压缩，使统一模型能在边缘设备上运行。

📝 总结

Copernicus-FM是地球观测基础模型领域的一个重要里程碑。它首次证明了一个统一模型可以同时处理从地表到大气、从光谱到非光谱的所有主要哥白尼卫星传感器。其核心创新——动态超网络（用波长/带宽或LLM编码的变量名动态生成卷积核权重）——为解决遥感领域的"传感器异构性"问题提供了一个优雅的解决方案。

这项工作的深远意义在于它为连接遥感、气象和气候研究搭建了桥梁。通过将18.7M张多模态卫星图像压缩为与ERA5对齐的全球嵌入数据集，Copernicus-FM不仅是一个模型，更是一个连接地球观测与地球系统科学的基础设施。

对于遥感AI研究者，这篇论文提供了三个重要启示：（1）数据集的"设计"比"规模"更重要——与ERA5对齐的网格设计使得数据集天然适合气候应用；（2）LLM可以作为视觉模型的"知识接口"——用自然语言描述新变量，就能让模型零样本适应；（3）层次化的评估体系比单一任务的benchmark更能揭示模型的真实能力。

参考文献

@misc{wang2025unifiedcopernicusfoundationmodel,
      title={Towards a Unified Copernicus Foundation Model for Earth Vision}, 
      author={Yi Wang and Zhitong Xiong and Chenying Liu and Adam J. Stewart and Thomas Dujardin and Nikolaos Ioannis Bountos and Angelos Zavras and Franziska Gerken and Ioannis Papoutsis and Laura Leal-Taixé and Xiao Xiang Zhu},
      year={2025},
      eprint={2503.11849},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11849}, 
}

Contents

一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型

一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型

📄 论文信息

🎯 解决的核心问题

问题背景

核心问题提炼

💡 解决方案

核心创新点1：Copernicus-Pretrain——迄今最多模态的遥感预训练数据集

核心创新点2：Copernicus-FM——动态超网络驱动的统一架构

核心创新点3：Copernicus-Bench——层次化评估基准

训练策略：MIM + 持续蒸馏

🔬 实验验证

核心结果

消融实验

Copernicus-Embed-025deg：连接遥感与气候

💭 深度评价

核心洞察

技术贡献层次

优点

局限性

未来方向

📝 总结

参考文献

评论