Prithvi-EO-2.0:NASA和IBM联手打造的600M参数地球观测基础模型

Prithvi-EO-2.0:NASA和IBM联手打造的600M参数地球观测基础模型

论文解读 | arXiv 2024 | 2026-06-01

项目内容
标题Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
作者Sujit Roy, Paolo Fraccaro, Þorsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal 等
机构IBM Research、NASA Marshall Space Flight Center、Jülich Supercomputing Centre
发表arXiv 2024 (Technical Report)
arXivhttps://arxiv.org/abs/2412.02732
GitHubhttps://github.com/NASA-IMPACT/Prithvi-EO-2.0
HuggingFacehttps://huggingface.co/ibm-nasa-geospatial/Prithvi-EO-2.0-600M-TL
关键词遥感基础模型、多时相、MAE预训练、时空注意力、全球覆盖

地球观测数据正在爆炸式增长:

  • Landsat系列:40年历史,持续更新
  • Sentinel-2:5天重访周期,13个波段
  • 全球每天产生TB级遥感影像

但问题是:标注数据极其稀缺。训练一个准确的作物分类模型可能需要数月的专家标注工作。

模型问题
ImageNet预训练自然图像与遥感图像差异大
单时相模型无法捕捉季节变化、物候信息
小规模预训练数据量不足,泛化能力有限
无元数据忽略地理位置、时间信息

如何构建一个大规模、多时相、融合元数据的地球观测基础模型,实现跨任务、跨分辨率的泛化?


作者的核心洞察是:

同一地点在不同时间的观测(时序),以及同一时间在不同地点的观测(位置),都包含关键的上下文信息。将这些信息显式编码到模型中,可以大幅提升泛化能力。

这就像给每张遥感照片加上"拍摄时间"和"拍摄地点"的标签,让模型知道"这是哪里的什么时候"。

设计动机:传统MAE只处理单张图像,无法学习时序变化模式。

具体实现

输入:同一地点的4个时间步影像(时间维度)
      6个波段(Blue, Green, Red, NIR, SWIR1, SWIR2)
      空间分辨率:30m
时间嵌入:为每个时间步添加可学习的时间编码
空间嵌入:标准ViT的2D位置编码
时空注意力:在时间和空间维度上都进行注意力计算
MAE重建:随机掩码75%的patches,重建原始像素

关键细节

  • 使用4个时间步(而非单张),学习时序变化
  • 时间嵌入帮助模型区分"春天"和"秋天"
  • 时空联合注意力,而非简单的时序拼接

设计动机:遥感数据具有强烈的时空上下文依赖——同一作物在不同纬度的物候期不同。

具体实现

输入影像:x ∈ R^{4×224×224×6}
┌─────────────────────────────────────────┐
│  位置编码                               │
│  ├── 空间位置:标准2D正弦编码          │
│  ├── 时间位置:可学习的时间嵌入        │
│  └── 地理位置:经纬度编码              │
└─────────────────────────────────────────┘
融合:x_encoded = x + E_spatial + E_temporal + E_location

关键细节

  • 时间嵌入:捕获季节性变化模式
  • 位置嵌入:编码纬度、海拔等地理信息
  • 训练时以0.1概率随机丢弃,增强鲁棒性

设计动机:现有预训练数据集要么规模小,要么地理覆盖不全。

具体实现

数据来源:NASA HLS V2(Landsat 8/9 + Sentinel-2 融合)
采样策略:
├── 全球覆盖:跨14个生物群落、3个气候区
├── 长期趋势:覆盖2013-2023年(10年)
├── 季节多样性:确保每个地点包含完整年份
└── 质量过滤:去除云污染严重样本
结果:4.2M个训练样本,每个样本4×256×256×6
┌──────────────────────────────────────────────────────────────────┐
│                    Prithvi-EO-2.0 架构概览                       │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  输入:同一地点4个时间步的HLS影像                               │
│  ├── 时间维度:T=4(春、夏、秋、冬或任意4个时间点)             │
│  ├── 空间维度:256×256 pixels                                   │
│  └── 光谱维度:6 bands(Blue, Green, Red, NIR, SWIR1, SWIR2)   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  Patch Embedding                                         │   │
│  │  ├── 将每个时间步分割为16×16 patches                     │   │
│  │  └── 线性投影到hidden dimension                          │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  位置/时间/地理编码                                      │   │
│  │  ├── 2D空间位置编码(正弦)                              │   │
│  │  ├── 时间步编码(可学习)                                │   │
│  │  └── 地理位置编码(经纬度,可选)                        │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  Transformer Encoder                                     │   │
│  │  ├── ViT-L:300M参数,24层                               │   │
│  │  └── ViT-H:600M参数,32层                               │   │
│  │  注意力在时间和空间维度上计算                            │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  MAE Decoder(预训练时)                                 │   │
│  │  └── 重建被掩码的patches                                 │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  输出:预训练的编码器权重,可用于下游任务微调                   │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

预训练配置

配置项
数据集HLS V2(Landsat 8/9 + Sentinel-2)
样本数4.2M训练 + 46K验证
空间分辨率30m
时间步数4
波段数6
训练轮数400 epochs
GPU80-240× A100 40GB
训练时间21,000-58,000 GPU-hours

模型变体

模型参数量是否含TL用途
Prithvi-EO-2.0-300M300M基础版
Prithvi-EO-2.0-300M-TL300M增强版
Prithvi-EO-2.0-600M600M大模型
Prithvi-EO-2.0-600M-TL600M最强版

GEO-Bench基准测试

模型总体得分vs Prithvi-1.0
Prithvi-EO-1.0100% (基线)-
Scale-MAE~95%-5%
DOFA~97%-3%
Prithvi-EO-2.0-600M-TL108%+8%

关键发现

  1. 规模效应:600M > 300M > 100M,参数量与性能正相关
  2. TL增益:时间+位置嵌入平均提升2-3%
  3. 跨分辨率泛化:30m预训练 → 0.1m-15m任务均有效
  4. 数据规模:4.2M样本 vs 250K(Prithvi-1.0)→ +3%性能

下游任务表现

任务数据集Prithvi-2.0最佳基线提升
洪水检测Sen1Floods110.92 IoU0.87 IoU+5%
野火疤痕HLS Burn Scars0.89 IoU0.84 IoU+5%
作物分割Multi-temporal Crop0.78 mIoU0.72 mIoU+6%
滑坡检测Landslide4Sense0.82 F10.77 F1+5%
配置GEO-Bench得分说明
Prithvi-2.0-600M-TL108%完整模型
- 去除时间嵌入105%-3%
- 去除位置嵌入106%-2%
- 去除TL106%-2%
- 使用250K数据103%-5%
- 使用单时相101%-7%

MAE重建可视化

  • 模型能准确重建被掩码的75%区域
  • 时序一致性:不同时间步的重建结果保持逻辑一致
  • 细节保留:边缘、纹理等高频信息得到良好恢复

注意力可视化

  • 时间注意力:关注物候关键期(如作物生长旺季)
  • 空间注意力:聚焦于目标物体,忽略背景

Prithvi-EO-2.0的核心洞察在于显式建模遥感数据的时空上下文。不同于自然图像,遥感数据具有:

  1. 时间连续性:同一地点的多时相观测是关联的
  2. 空间规律性:同一纬度的物候模式相似
  3. 尺度多样性:从0.1m无人机到30m卫星

通过时间和位置嵌入,模型能够学习这些领域特定的先验知识。

层次贡献
模型层面多时相ViT + 时间/位置嵌入
数据层面4.2M全球样本,10年跨度
系统层面完整开源(代码+权重+工具链)
应用层面灾害响应、作物监测、生态评估
  1. 规模领先:600M参数+4.2M样本,是目前最大的公开遥感基础模型之一

  2. 工程完整:提供TerraTorch工具链,从预训练到微调一站式支持

  3. NASA背书:与NASA合作,数据质量和可靠性有保障

  1. 分辨率限制:仅用30m数据预训练,对超高分辨率任务可能不是最优

  2. 时序粒度:固定4个时间步,无法处理不规则时序(如每天一次的Planet数据)

  3. 计算成本:600M模型需要240张A100训练,普通机构难以复现

  1. 扩展传感器:融合SAR(Sentinel-1)、高光谱等数据
  2. 动态时序:支持变长时间序列(如日级、月级)
  3. 轻量化:模型压缩、蒸馏,降低部署门槛
  4. 持续学习:支持增量更新,适应新数据

Prithvi-EO-2.0代表了遥感基础模型的"工业化"路线。不同于学术界追求的新颖架构,Prithvi-EO-2.0选择了"大力出奇迹"的策略:更大模型(600M)、更多数据(4.2M)、更长时序(10年)。这种策略在实践中被证明是有效的——GEO-Bench上8%的提升在遥感领域是显著的。

最值得关注的是其开源策略。IBM和NASA不仅开源了模型权重,还提供了完整的工具链(TerraTorch)和详细的微调示例。这种"开箱即用"的体验大大降低了使用门槛,使得中小团队也能利用基础模型进行遥感研究。

“Trusted Open Science"理念值得推广。Prithvi-EO-2.0项目强调透明度、可复现性和社区参与。这种模式可能会成为未来遥感AI研究的范本。


@article{roy2024prithvi,
  title={Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications},
  author={Roy, Sujit and Fraccaro, Paolo and G{\'{i}}slason, {\th}{\'{o}}rsteinn El{\'{i}} and Blumenstiel, Benedikt and Ghosal, Rinki and de Oliveira, Pedro Henrique and Almeida, Joao Lucas de Sousa and Sedona, Rocco and Kang, Yanghui and Chakraborty, Srija and others},
  journal={arXiv preprint arXiv:2412.02732},
  year={2024}
}

本文由遥感AI论文追踪系统自动生成,如有问题请联系作者。

Related Content