Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

WangTong included in category 遥感基础模型与多模态理解

2026-06-01 13:00:00 2026-06-01 13:00:00 569 words 3 minutes

Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

论文解读 | arXiv 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
作者	Sujit Roy, Paolo Fraccaro, Þorsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal 等
机构	IBM Research、NASA Marshall Space Flight Center、Jülich Supercomputing Centre
发表	arXiv 2024 (Technical Report)
arXiv	https://arxiv.org/abs/2412.02732
GitHub	https://github.com/NASA-IMPACT/Prithvi-EO-2.0
HuggingFace	https://huggingface.co/ibm-nasa-geospatial/Prithvi-EO-2.0-600M-TL
关键词	遥感基础模型、多时相、MAE预训练、时空注意力、全球覆盖

🎯 解决的核心问题

问题背景：地球观测的"数据丰富、标签稀缺"困境

地球观测数据正在爆炸式增长：

Landsat系列：40年历史，持续更新
Sentinel-2：5天重访周期，13个波段
全球每天产生TB级遥感影像

但问题是：标注数据极其稀缺。训练一个准确的作物分类模型可能需要数月的专家标注工作。

现有基础模型的局限

模型	问题
ImageNet预训练	自然图像与遥感图像差异大
单时相模型	无法捕捉季节变化、物候信息
小规模预训练	数据量不足，泛化能力有限
无元数据	忽略地理位置、时间信息

核心问题提炼

如何构建一个大规模、多时相、融合元数据的地球观测基础模型，实现跨任务、跨分辨率的泛化？

💡 解决方案

核心洞察：时序+位置信息是遥感的"身份证"

作者的核心洞察是：

同一地点在不同时间的观测（时序），以及同一时间在不同地点的观测（位置），都包含关键的上下文信息。将这些信息显式编码到模型中，可以大幅提升泛化能力。

这就像给每张遥感照片加上"拍摄时间"和"拍摄地点"的标签，让模型知道"这是哪里的什么时候"。

创新点1：多时相MAE预训练

设计动机：传统MAE只处理单张图像，无法学习时序变化模式。

具体实现：

输入：同一地点的4个时间步影像（时间维度）
      6个波段（Blue, Green, Red, NIR, SWIR1, SWIR2）
      空间分辨率：30m
         ↓
时间嵌入：为每个时间步添加可学习的时间编码
         ↓
空间嵌入：标准ViT的2D位置编码
         ↓
时空注意力：在时间和空间维度上都进行注意力计算
         ↓
MAE重建：随机掩码75%的patches，重建原始像素

关键细节：

使用4个时间步（而非单张），学习时序变化
时间嵌入帮助模型区分"春天"和"秋天"
时空联合注意力，而非简单的时序拼接

创新点2：时间和位置嵌入（TL版本）

设计动机：遥感数据具有强烈的时空上下文依赖——同一作物在不同纬度的物候期不同。

具体实现：

输入影像：x ∈ R^{4×224×224×6}
         ↓
┌─────────────────────────────────────────┐
│  位置编码                               │
│  ├── 空间位置：标准2D正弦编码          │
│  ├── 时间位置：可学习的时间嵌入        │
│  └── 地理位置：经纬度编码              │
└─────────────────────────────────────────┘
         ↓
融合：x_encoded = x + E_spatial + E_temporal + E_location

关键细节：

时间嵌入：捕获季节性变化模式
位置嵌入：编码纬度、海拔等地理信息
训练时以0.1概率随机丢弃，增强鲁棒性

创新点3：全球大规模采样策略

设计动机：现有预训练数据集要么规模小，要么地理覆盖不全。

具体实现：

数据来源：NASA HLS V2（Landsat 8/9 + Sentinel-2 融合）
         ↓
采样策略：
├── 全球覆盖：跨14个生物群落、3个气候区
├── 长期趋势：覆盖2013-2023年（10年）
├── 季节多样性：确保每个地点包含完整年份
└── 质量过滤：去除云污染严重样本
         ↓
结果：4.2M个训练样本，每个样本4×256×256×6

整体架构

┌──────────────────────────────────────────────────────────────────┐
│                    Prithvi-EO-2.0 架构概览                       │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  输入：同一地点4个时间步的HLS影像                               │
│  ├── 时间维度：T=4（春、夏、秋、冬或任意4个时间点）             │
│  ├── 空间维度：256×256 pixels                                   │
│  └── 光谱维度：6 bands（Blue, Green, Red, NIR, SWIR1, SWIR2）   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  Patch Embedding                                         │   │
│  │  ├── 将每个时间步分割为16×16 patches                     │   │
│  │  └── 线性投影到hidden dimension                          │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  位置/时间/地理编码                                      │   │
│  │  ├── 2D空间位置编码（正弦）                              │   │
│  │  ├── 时间步编码（可学习）                                │   │
│  │  └── 地理位置编码（经纬度，可选）                        │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  Transformer Encoder                                     │   │
│  │  ├── ViT-L：300M参数，24层                               │   │
│  │  └── ViT-H：600M参数，32层                               │   │
│  │  注意力在时间和空间维度上计算                            │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  MAE Decoder（预训练时）                                 │   │
│  │  └── 重建被掩码的patches                                 │   │
│  └──────────────────────────────────────────────────────────┘   │
│                         ↓                                        │
│  输出：预训练的编码器权重，可用于下游任务微调                   │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

🔬 实验验证

实验设置

预训练配置：

配置项	值
数据集	HLS V2（Landsat 8/9 + Sentinel-2）
样本数	4.2M训练 + 46K验证
空间分辨率	30m
时间步数	4
波段数	6
训练轮数	400 epochs
GPU	80-240× A100 40GB
训练时间	21,000-58,000 GPU-hours

模型变体：

模型	参数量	是否含TL	用途
Prithvi-EO-2.0-300M	300M	否	基础版
Prithvi-EO-2.0-300M-TL	300M	是	增强版
Prithvi-EO-2.0-600M	600M	否	大模型
Prithvi-EO-2.0-600M-TL	600M	是	最强版

核心结果

GEO-Bench基准测试：

模型	总体得分	vs Prithvi-1.0
Prithvi-EO-1.0	100% (基线)	-
Scale-MAE	~95%	-5%
DOFA	~97%	-3%
Prithvi-EO-2.0-600M-TL	108%	+8%

关键发现：

规模效应：600M > 300M > 100M，参数量与性能正相关
TL增益：时间+位置嵌入平均提升2-3%
跨分辨率泛化：30m预训练 → 0.1m-15m任务均有效
数据规模：4.2M样本 vs 250K（Prithvi-1.0）→ +3%性能

下游任务表现：

任务	数据集	Prithvi-2.0	最佳基线	提升
洪水检测	Sen1Floods11	0.92 IoU	0.87 IoU	+5%
野火疤痕	HLS Burn Scars	0.89 IoU	0.84 IoU	+5%
作物分割	Multi-temporal Crop	0.78 mIoU	0.72 mIoU	+6%
滑坡检测	Landslide4Sense	0.82 F1	0.77 F1	+5%

消融实验

配置	GEO-Bench得分	说明
Prithvi-2.0-600M-TL	108%	完整模型
- 去除时间嵌入	105%	-3%
- 去除位置嵌入	106%	-2%
- 去除TL	106%	-2%
- 使用250K数据	103%	-5%
- 使用单时相	101%	-7%

可视化分析

MAE重建可视化：

模型能准确重建被掩码的75%区域
时序一致性：不同时间步的重建结果保持逻辑一致
细节保留：边缘、纹理等高频信息得到良好恢复

注意力可视化：

时间注意力：关注物候关键期（如作物生长旺季）
空间注意力：聚焦于目标物体，忽略背景

💭 深度评价

核心洞察

Prithvi-EO-2.0的核心洞察在于显式建模遥感数据的时空上下文。不同于自然图像，遥感数据具有：

时间连续性：同一地点的多时相观测是关联的
空间规律性：同一纬度的物候模式相似
尺度多样性：从0.1m无人机到30m卫星

通过时间和位置嵌入，模型能够学习这些领域特定的先验知识。

技术贡献层次

层次	贡献
模型层面	多时相ViT + 时间/位置嵌入
数据层面	4.2M全球样本，10年跨度
系统层面	完整开源（代码+权重+工具链）
应用层面	灾害响应、作物监测、生态评估

优点（3个）

规模领先：600M参数+4.2M样本，是目前最大的公开遥感基础模型之一
工程完整：提供TerraTorch工具链，从预训练到微调一站式支持
NASA背书：与NASA合作，数据质量和可靠性有保障

局限性（3个）

分辨率限制：仅用30m数据预训练，对超高分辨率任务可能不是最优
时序粒度：固定4个时间步，无法处理不规则时序（如每天一次的Planet数据）
计算成本：600M模型需要240张A100训练，普通机构难以复现

未来方向

扩展传感器：融合SAR（Sentinel-1）、高光谱等数据
动态时序：支持变长时间序列（如日级、月级）
轻量化：模型压缩、蒸馏，降低部署门槛
持续学习：支持增量更新，适应新数据

📝 总结

Prithvi-EO-2.0代表了遥感基础模型的"工业化"路线。不同于学术界追求的新颖架构，Prithvi-EO-2.0选择了"大力出奇迹"的策略：更大模型（600M）、更多数据（4.2M）、更长时序（10年）。这种策略在实践中被证明是有效的——GEO-Bench上8%的提升在遥感领域是显著的。

最值得关注的是其开源策略。IBM和NASA不仅开源了模型权重，还提供了完整的工具链（TerraTorch）和详细的微调示例。这种"开箱即用"的体验大大降低了使用门槛，使得中小团队也能利用基础模型进行遥感研究。

“Trusted Open Science"理念值得推广。Prithvi-EO-2.0项目强调透明度、可复现性和社区参与。这种模式可能会成为未来遥感AI研究的范本。

参考文献

@article{roy2024prithvi,
  title={Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications},
  author={Roy, Sujit and Fraccaro, Paolo and G{\'{i}}slason, {\th}{\'{o}}rsteinn El{\'{i}} and Blumenstiel, Benedikt and Ghosal, Rinki and de Oliveira, Pedro Henrique and Almeida, Joao Lucas de Sousa and Sedona, Rocco and Kang, Yanghui and Chakraborty, Srija and others},
  journal={arXiv preprint arXiv:2412.02732},
  year={2024}
}

本文由遥感AI论文追踪系统自动生成，如有问题请联系作者。

Contents

Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

📄 论文信息

🎯 解决的核心问题

问题背景：地球观测的"数据丰富、标签稀缺"困境

现有基础模型的局限

核心问题提炼

💡 解决方案

核心洞察：时序+位置信息是遥感的"身份证"

创新点1：多时相MAE预训练

创新点2：时间和位置嵌入（TL版本）

创新点3：全球大规模采样策略

整体架构

🔬 实验验证

实验设置

核心结果

消融实验

可视化分析

💭 深度评价

核心洞察

技术贡献层次

优点（3个）

局限性（3个）

未来方向

📝 总结

参考文献

评论