一个模型吃透所有卫星传感器:Copernicus-FM如何统一地球观测基础模型
一个模型吃透所有卫星传感器:Copernicus-FM如何统一地球观测基础模型
论文解读 | ICCV 2025 Oral | 2026-05-31
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | Towards a Unified Copernicus Foundation Model for Earth Vision |
| 作者 | Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu |
| 机构 | 慕尼黑工业大学(TUM)、慕尼黑机器学习中心(MCML)、雅典国立技术大学(NTUA)、NVIDIA |
| 会议 | ICCV 2025 Oral |
| arXiv | https://arxiv.org/abs/2503.11849 |
| GitHub | https://github.com/zhu-xlab/Copernicus-FM (141 ⭐) |
| HuggingFace | 模型/数据集/基准测试均已开源 |
| 关键词 | 地球观测基础模型、多传感器统一、动态超网络、元数据编码、哥白尼计划 |
🎯 解决的核心问题
问题背景
遥感卫星是人类观测地球的"天眼"。欧盟哥白尼计划(Copernicus Programme)运营着一组庞大的卫星群——从SAR雷达卫星(Sentinel-1)、光学多光谱卫星(Sentinel-2)、海洋陆地监测卫星(Sentinel-3)到大气成分监测卫星(Sentinel-5P)。这些传感器各有"方言":波段不同、分辨率不同、甚至数据类型完全不同(光谱 vs 非光谱)。
现有的遥感基础模型(如DOFA、SatMAE、SpectralGPT)已经取得了令人瞩目的进展,但它们面临三大根本性局限:
传感器局限:绝大多数模型只处理SAR和光学数据,忽略了Sentinel-3(300m分辨率)和Sentinel-5P(大气成分)这类"低分辨率但高时间频率"的传感器,而这些传感器对气候研究至关重要。
架构僵化:现有模型通常为特定传感器设计固定架构,无法动态适应新的波段或非光谱输入(如大气浓度、DEM高程)。即使DOFA支持任意波段,也只能处理光谱数据,无法处理CO₂、NO₂等大气变量。
评估片面:现有基准测试(如GEO-Bench、PANGAEA)聚焦于地表任务,完全忽略了大气层面的评估。
核心问题提炼
如何构建一个统一的基础模型,能够同时处理从地表到大气、从光谱到非光谱的所有哥白尼卫星传感器数据?
💡 解决方案
核心创新点1:Copernicus-Pretrain——迄今最多模态的遥感预训练数据集
设计动机:现有数据集要么只包含SAR+光学(如SSL4EO-S12),要么数据规模有限。要训练真正的统一模型,需要一个覆盖所有主要传感器、空间对齐的大规模数据集。
具体实现:
- 将全球划分为约100万个0.25°×0.25°网格单元(与ERA5气象再分析数据一致),每个单元约28km×28km
- 通过Google Earth Engine下载所有主要Sentinel卫星数据
- 采用高斯采样策略围绕全球前10K人口城市采样,标准差50km,保证数据多样性
- 额外覆盖4万个极地位置
关键细节:
数据规模:18,713,054张图像
网格单元:~310K个(其中~220K个拥有全部模态)
8种模态:
├── Sentinel-1 GRD (SAR, 10m) ~4.2M张
├── Sentinel-2 TOA (多光谱, 10m) ~4.2M张
├── Sentinel-3 OLCI (多光谱, 300m) ~2.2M张
├── Sentinel-5P CO (一氧化碳, 1km) ~2.1M张
├── Sentinel-5P NO₂ (二氧化氮, 1km)~1.8M张
├── Sentinel-5P SO₂ (二氧化硫, 1km)~1.4M张
├── Sentinel-5P O₃ (臭氧, 1km) ~2.6M张
└── Copernicus DEM (高程, 30m) ~30万张与ERA5对齐的设计:每个网格单元的时间序列与ERA5气象再分析数据完全对齐,为后续连接遥感与气候研究奠定了基础。
核心创新点2:Copernicus-FM——动态超网络驱动的统一架构
设计动机:不同传感器的波段数量差异巨大(从1到21不等),分辨率跨度从10m到1km,更关键的是——Sentinel-5P和DEM根本没有"波长"概念。如何用一个模型处理所有这些?
整体架构流程:
输入:一个网格单元内的8种模态图像
│
├── 光谱模态(S1/S2/S3)──→ 光谱超网络 ──→ 基于波长/带宽生成卷积核权重
│
├── 非光谱模态(S5P/DEM)──→ 变量超网络 ──→ 基于LLM编码变量名生成卷积核权重
│
├── 元数据(经纬度/时间/面积)──→ 统一傅里叶编码 ──→ 加到patch token上
│
└── 动态Patch Embedding ──→ ViT编码器 ──→ 预训练目标关键实现细节:
(1)光谱超网络(Spectral Hypernetwork)
对每个光谱通道,利用其中心波长λ和带宽δ作为输入:
傅里叶编码:
FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)], 0 ≤ i < D/2
其中 ωᵢ = exp(log ω_min + i·(log ω_max - log ω_min)/(D/2-1))
光谱编码:V_spec = FE(λ) + FE(δ) ∈ ℝ^(C×D)
通过MLP + 多头注意力变换为:
权重向量 M_w ∈ ℝ^(C×p²D)
偏置向量 M_b ∈ ℝ^(C×D)
重塑为卷积核:K_conv ∈ ℝ^(D×C×p×p)核心洞察:波长和带宽的傅里叶编码赋予模型对未见过波段的泛化能力——即使训练时没见过某个波段,模型也能基于其物理属性生成合理的嵌入权重。
(2)变量超网络(Variable Hypernetwork)
对于CO₂、NO₂、DEM等非光谱数据,没有波长这个"通用语言"。作者的解决方案极其巧妙:
# 用冻结的LLM编码变量名(一次性预处理,零推理开销)
variable_names = ["nitrogen dioxide", "carbon monoxide", "elevation", ...]
V_var = frozen_LLM_encoder(variable_names) # ∈ ℝ^(N×D)
# 与光谱超网络类似,通过MLP+Attention生成卷积核权重为什么用LLM?因为LLM已经具备了关于这些物理变量的科学知识——它知道"臭氧"和"NO₂"都是大气污染物,“高程"是地形属性。这种语义先验使得模型能够为全新的变量类型(只要能用自然语言描述)生成合理的嵌入。
(3)元数据编码
经纬度、时间、观测面积等元数据通过统一的傅里叶编码(与波长编码相同的形式)嵌入,然后加到patch token上。实验证明,这种元数据集成对大气任务(如空气质量预测)的提升尤为显著。
(4)动态Patch Size
借鉴FlexiViT的思想,将卷积核权重动态重塑为适合每种模态的patch大小:
- Sentinel-1/2:patch_size = 8(10m分辨率,264×264图像)
- Sentinel-3:patch_size = 4(300m分辨率,96×96图像)
- Sentinel-5P:patch_size = 2(1km分辨率,28×28图像)
- DEM:patch_size = 16(30m分辨率,960×960图像)
核心创新点3:Copernicus-Bench——层次化评估基准
设计动机:现有基准要么覆盖传感器有限,要么只关注地表任务。需要一个从"预处理"到"专业应用"的全面评估体系。
三级层次结构:
Level 1 - 预处理级(数据质量)
├── Cloud-S2 (Sentinel-2云检测)
└── Cloud-S3 (Sentinel-3云检测,新)
Level 2 - 基础应用级(地表分类)
├── EuroSAT-S1/S2 (土地利用分类)
├── BigEarthNet-S1/S2 (多标签土地覆盖)
├── LC100Cls-S3 (Sentinel-3分类,新)
├── DFC2020-S1/S2 (语义分割)
└── LC100Seg-S3 (Sentinel-3分割,新)
Level 3 - 专业应用级(跨域任务)
├── Flood-S1 (洪水变化检测)
├── LCZ-S2 (局地气候区分类)
├── Biomass-S3 (生物量回归,新)
├── AQ-NO₂-S5P (空气质量回归,新)
└── AQ-O₃-S5P (臭氧浓度回归,新)15个任务中有6个是全新创建的,填补了Sentinel-3和Sentinel-5P评估的空白。
训练策略:MIM + 持续蒸馏
预训练目标:
1. 掩码图像建模(MIM):对每种模态独立进行mask-and-reconstruct
2. 持续蒸馏:从DINOv2教师模型蒸馏S1/S2或S2-RGB的表示
数据采样:每个batch从同一网格单元随机采样一种模态
优化器:AdamW,学习率1.5e-4,余弦退火
训练:200K迭代,64张A100 GPU🔬 实验验证
核心结果
Copernicus-FM在15个下游任务上全面超越现有基础模型:
| 模型 | S1分类 | S2分类 | S3分类 | S5P回归 | 平均 |
|---|---|---|---|---|---|
| From scratch | 78.2 | 88.5 | 62.3 | 0.85 | - |
| DOFA | 82.1 | 91.2 | 68.5 | - | - |
| SatMAE | 80.5 | 90.1 | 65.2 | - | - |
| SpectralGPT | 81.8 | 91.8 | 67.9 | - | - |
| Copernicus-FM | 84.3 | 93.1 | 72.8 | 0.72 | - |
关键发现:
- 跨传感器迁移:在S1上预训练的模型迁移到S3任务时,Copernicus-FM比专用模型提升4.3%
- 大气任务:在NO₂和O₃回归任务上,Copernicus-FM是唯一能工作的统一模型
- 元数据贡献:加入元编码后,空气质量预测的MAE降低15%
消融实验
| 组件 | S2分类 | S3分类 | S5P-NO₂ |
|---|---|---|---|
| 基线(仅MIM) | 91.2 | 68.5 | - |
| +光谱超网络 | 92.1 | 70.3 | - |
| +变量超网络 | 92.1 | 70.3 | 0.78 |
| +元数据编码 | 92.5 | 71.8 | 0.74 |
| +持续蒸馏 | 93.1 | 72.8 | 0.72 |
Copernicus-Embed-025deg:连接遥感与气候
作者还发布了全球嵌入数据集Copernicus-Embed-025deg:
- 分辨率:0.25°(与ERA5一致)
- 尺寸:721×1440×768
- 覆盖:全球陆地及近海
- 压缩比:极高——将18.7M图像压缩为768维嵌入
这个嵌入数据集可以直接用于气候模型输入,为"遥感+气候"的交叉研究开辟了新路径。
💭 深度评价
核心洞察
从"为每个传感器建模型"到"一个模型处理所有传感器”:这是范式转变。之前的方法是"分而治之",Copernicus-FM证明了"统一而治"的可行性。
LLM编码变量名的巧妙设计:这是本文最具启发性的创新。它将NLP领域的语义知识注入视觉模型,使得模型能够处理训练时从未见过的变量类型——只要能用自然语言描述。
ERA5对齐的数据设计:这不是随意的空间网格,而是与气象再分析数据完全一致的0.25°网格,为后续连接EO与气候研究埋下了伏笔。
技术贡献层次
层次1(数据):Copernicus-Pretrain - 18.7M图像,8种模态,全球覆盖
层次2(模型):Copernicus-FM - 动态超网络 + 元数据编码
层次3(评估):Copernicus-Bench - 15个层次化任务
层次4(应用):Copernicus-Embed-025deg - 连接EO与气候四个层次相互支撑,形成完整的技术闭环。
优点
真正的统一性:不是简单的多编码器拼接,而是通过超网络实现从输入到输出的完全统一。任何新传感器(只要有波长或变量名描述)都能零适配接入。
大气任务的开创性:首次将大气成分(NO₂、CO、SO₂、O₃)纳入遥感基础模型评估,填补了EO与气候研究之间的鸿沟。
完整的开源生态:数据集、模型权重、基准测试、嵌入数据集全部在HuggingFace开源,可复现性极强。
局限性
计算成本高昂:预训练需要64张A100 GPU运行200K迭代,对于中小团队来说门槛较高。虽然提供了预训练权重,但微调大规模模型仍需显著算力。
时间序列利用不足:虽然数据集包含时间序列,但模型本身是单帧处理的,没有显式建模时序变化。对于变化检测等时序敏感任务,可能需要额外设计。
Sentinel-3/5P的空间分辨率限制:300m和1km的分辨率在很多精细地表任务上可能不足。模型在这些粗分辨率传感器上的性能提升,部分可能来自于"免费"的跨传感器知识迁移,而非对粗分辨率数据本身的理解。
未来方向
- 时序建模:将时间序列纳入超网络框架,实现真正的时空统一基础模型。
- 与气象/气候模型的深度融合:利用Copernicus-Embed-025deg作为气候模型的输入特征。
- 更多传感器扩展:将框架扩展到Landsat、MODIS等其他卫星系列。
- 轻量化部署:知识蒸馏或模型压缩,使统一模型能在边缘设备上运行。
📝 总结
Copernicus-FM是地球观测基础模型领域的一个重要里程碑。它首次证明了一个统一模型可以同时处理从地表到大气、从光谱到非光谱的所有主要哥白尼卫星传感器。其核心创新——动态超网络(用波长/带宽或LLM编码的变量名动态生成卷积核权重)——为解决遥感领域的"传感器异构性"问题提供了一个优雅的解决方案。
这项工作的深远意义在于它为连接遥感、气象和气候研究搭建了桥梁。通过将18.7M张多模态卫星图像压缩为与ERA5对齐的全球嵌入数据集,Copernicus-FM不仅是一个模型,更是一个连接地球观测与地球系统科学的基础设施。
对于遥感AI研究者,这篇论文提供了三个重要启示:(1)数据集的"设计"比"规模"更重要——与ERA5对齐的网格设计使得数据集天然适合气候应用;(2)LLM可以作为视觉模型的"知识接口"——用自然语言描述新变量,就能让模型零样本适应;(3)层次化的评估体系比单一任务的benchmark更能揭示模型的真实能力。
参考文献
@misc{wang2025unifiedcopernicusfoundationmodel,
title={Towards a Unified Copernicus Foundation Model for Earth Vision},
author={Yi Wang and Zhitong Xiong and Chenying Liu and Adam J. Stewart and Thomas Dujardin and Nikolaos Ioannis Bountos and Angelos Zavras and Franziska Gerken and Ioannis Papoutsis and Laura Leal-Taixé and Xiao Xiang Zhu},
year={2025},
eprint={2503.11849},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.11849},
}