# Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破


# Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

> **论文解读** | ICML 2025 | 2026-06-01

## 📄 论文信息

| 项目 | 内容 |
|------|------|
| **标题** | Galileo: Learning Global & Local Features of Many Remote Sensing Modalities |
| **作者** | Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick |
| **会议** | ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning) |
| **arXiv** | https://arxiv.org/abs/2502.09356 |
| **GitHub** | https://github.com/nasaharvest/galileo (⭐ 177) |
| **关键词** | 遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型 |

## 🎯 解决的核心问题

### 问题背景
遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：

1. **模态多样性**：遥感数据来源极其丰富——多光谱光学（Sentinel-2）、合成孔径雷达SAR（Sentinel-1）、高程数据（DEM）、天气数据（ERA5）、土地覆盖伪标签等。这些数据在物理意义上完全不同，如何在一个模型中统一处理？

2. **尺度极端性**：遥感目标的尺度差异巨大——从1-2像素的快速移动小船，到覆盖数千像素的缓慢变化冰川。如何让模型同时捕捉"细粒度局部特征"和"粗粒度全局语义"？

### 现有方法的局限

| 方法类型 | 局限性 |
|----------|--------|
| **图像专用模型**（SatMAE、CROMA） | 只能处理单时相图像，无法利用时序和多模态信息 |
| **像素时间序列专用模型**（Presto） | 专注于时间序列，图像任务表现不佳 |
| **通用模型**（AnySat） | 虽然支持多模态，但性能远低于专用模型 |
| **传统对比学习** | 只学习单一尺度特征，要么擅长分类（全局），要么擅长分割（局部） |

### 核心问题提炼
**如何设计一个"既灵活又强大"的遥感基础模型，能够统一处理多种模态、多种尺度的遥感数据，并在分类和分割任务上都达到SOTA？**

## 💡 解决方案

### 核心创新点1：双重全局-局部自监督学习算法

**设计动机**：传统自监督学习方法只能学习单一尺度的特征。全局对比损失（如DINO）擅长学习分类所需的粗粒度语义，但忽略局部细节；局部对比损失（如MAE）擅长学习分割所需的细粒度特征，但缺乏全局理解。

**具体实现**：Galileo提出双重损失交替训练策略：

```
┌─────────────────────────────────────────────────────────┐
│                    Galileo 预训练框架                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   输入: 多模态遥感数据 (光学+SAR+高程+天气+...)           │
│              ↓                                          │
│   ┌─────────────────────────────────────────────┐       │
│   │         Vision Transformer (ViT)            │       │
│   │    - 可变patch size (4, 8, 16)              │       │
│   │    - 灵活处理不同模态和分辨率                 │       │
│   └─────────────────────────────────────────────┘       │
│              ↓                                          │
│   ┌───────────────────┐    ┌───────────────────┐       │
│   │   全局损失 (L_global)│    │   局部损失 (L_local)│       │
│   │                   │    │                   │       │
│   │  目标: 深层表示     │    │  目标: 浅层像素投影  │       │
│   │  掩码: 结构化       │    │  掩码: 随机         │       │
│   │  功能: 学习语义     │    │  功能: 学习细节     │       │
│   └───────────────────┘    └───────────────────┘       │
│              ↓                      ↓                   │
│         交替训练，共享编码器参数                           │
│              ↓                                          │
│   输出: 同时具备全局语义和局部细节的表示                   │
└─────────────────────────────────────────────────────────┘
```

**关键细节**：
- **全局损失 (AllDisc)**：预测深层特征表示，使用结构化掩码（按空间和时间维度组织），学习粗粒度语义
- **局部损失 (PatchDisc)**：预测浅层像素投影，使用随机掩码，学习细粒度细节
- **交替训练**：每个训练步骤交替使用两种损失，共享编码器参数

### 核心创新点2：高度灵活的多模态架构

**设计动机**：不同遥感模态的维度、分辨率、时间步数都不同，传统方法需要为每种模态设计专用编码器。

**具体实现**：
```
输入模态处理:
┌─────────────────────────────────────────────────────────┐
│  多光谱光学 (Sentinel-2): 13波段, 10m分辨率             │
│  SAR数据 (Sentinel-1): 2波段, 10m分辨率                 │
│  高程数据 (SRTM DEM): 单波段, 30m分辨率                 │
│  天气数据 (ERA5): 多变量, 0.25°分辨率                   │
│  土地覆盖 (Dynamic World): 9类, 10m分辨率               │
│  人口密度 (LandScan): 单波段, 1km分辨率                  │
│  ...更多模态...                                         │
└─────────────────────────────────────────────────────────┘
         ↓ 统一处理
┌─────────────────────────────────────────────────────────┐
│  灵活的Patch Embedding                                  │
│  - 可变patch size (4, 8, 16像素)                        │
│  - 自动适应不同分辨率                                    │
│  - 支持任意时间步数                                      │
└─────────────────────────────────────────────────────────┘
         ↓
┌─────────────────────────────────────────────────────────┐
│  Vision Transformer (ViT)                               │
│  - 三种规模: Nano (10.9M), Tiny, Base                   │
│  - 统一处理所有模态                                      │
└─────────────────────────────────────────────────────────┘
```

### 核心创新点3：大规模多模态预训练数据集

**设计动机**：现有预训练数据集要么规模小，要么模态单一。

**具体实现**：
- 全球范围采样，覆盖多种地理区域
- 包含6+种遥感模态，时空对齐
- 专门为多任务学习设计，而非单一任务

## 🔬 实验验证

### 实验设置

**数据集覆盖**：
| 任务类型 | 数据集 | 模态 |
|----------|--------|------|
| 图像分类 | EuroSat, METER-ML, So2Sat, ... | 光学 |
| 图像分割 | MADOS, Sen1Floods11, ... | 光学, SAR |
| 时间序列分类 | CropHarvest, Breizhcrops | 光学+SAR+天气+地形 |
| 时间序列分割 | PASTIS | 光学时间序列 |

**对比方法**：16个SOTA预训练遥感模型，包括SatMAE、CROMA、AnySat、Presto等

### 核心结果

**综合排名（Table 1）**：

| 模型 | 图像任务排名 | 时间序列排名 | 总体排名 | 支持模态数 |
|------|-------------|-------------|----------|-----------|
| SatMAE | 5.2 | - | 5.2 | 1 |
| CROMA | 4.8 | - | 4.8 | 2 |
| Presto | - | 2.0 | 2.0 | 1 |
| AnySat | 7.5 | 3.0 | 5.3 | 多种 |
| **Galileo-Base** | **2.5** | **1.0** | **1.0** | **多种** |

**关键发现**：
1. **Galileo-Base在图像任务和时间序列任务上都排名第一**
2. 轻量级Galileo-Nano（10.9M参数）也优于许多更大的专用模型
3. Galileo在11个基准测试中全面超越SOTA

### 消融实验

**全局特征学习消融（Table 7）**：

| 掩码策略 | 目标空间 | 损失函数 | EuroSat (%) | CropHarvest (%) |
|----------|----------|----------|-------------|-----------------|
| 随机 | - | AllDisc | 17.40 | 82.12 |
| 结构化 | 空间+时间 | AllDisc | **89.50** | **88.72** |
| 结构化 | 空间+时间 | MSE | 87.20 | 86.02 |

**局部特征学习消融（Table 8）**：
- PatchDisc（预测像素空间）在分割任务上显著优于AllDisc（预测深层特征）

**组合策略消融（Table 9）**：
| 全局损失 | 局部损失 | 解码器 | MADOS mIoU | EuroSat OA |
|----------|----------|--------|------------|------------|
| AllDisc | PatchDisc | 无 | **67.88** | **89.30** |
| AllDisc | AllDisc | 无 | 63.54 | 89.30 |
| MSE | MSE | 全部 | 62.36 | 88.70 |

### 可视化分析

Galileo学习到的特征具有以下特点：
- **全局分支**：捕捉场景级语义（如"这是农田"、"这是城市"）
- **局部分支**：保留像素级细节（如田块边界、道路边缘）
- **多尺度融合**：在不同层同时保留粗粒度和细粒度信息

## 💭 深度评价

### 核心洞察

1. **"一个模型统治所有"的可行性**：Galileo证明了单一通用模型可以在多种遥感任务上超越专用模型，打破了"通用vs专用"的传统权衡

2. **多尺度特征学习的关键性**：遥感数据的尺度极端性要求模型必须同时学习全局语义和局部细节，单一尺度的学习策略必然失败

3. **模态统一的实用价值**：支持多种模态不仅是学术追求，更是实际应用的刚需——遥感从业者通常有多种数据源可用

### 技术贡献层次

| 层次 | 贡献 | 影响 |
|------|------|------|
| **算法层** | 双重全局-局部对比损失 | 解决多尺度特征学习问题 |
| **架构层** | 灵活的多模态ViT | 统一处理异构遥感数据 |
| **数据层** | 大规模多模态预训练数据 | 为通用模型提供训练基础 |
| **系统层** | 完整的模型家族 | 满足不同计算预算需求 |

### 优点（3个）

1. **真正的通用性**：不是"能处理多种数据但性能一般"，而是"能处理多种数据且性能最优"
2. **实用的灵活性**：可变patch size、多种模型规模、支持任意时间步数，满足实际部署需求
3. **扎实的实验**：16个基线模型、11个基准测试、数百次实验，结论可靠

### 局限性（3个）

1. **计算成本**：虽然有轻量级版本，但Base模型的预训练仍需大量计算资源
2. **数据依赖**：需要大规模、多模态、时空对齐的预训练数据，数据获取成本高
3. **模态限制**：虽然支持多种模态，但对超高光谱、激光雷达等模态的支持尚未验证

### 未来方向

1. **更多模态扩展**：将框架扩展到激光雷达、超高光谱、视频等模态
2. **下游任务适配**：探索更高效的微调策略，降低应用门槛
3. **可解释性增强**：理解模型如何融合不同模态和尺度的信息
4. **实时部署优化**：针对边缘设备进行模型压缩和加速

## 📝 总结

Galileo代表了遥感基础模型发展的重要里程碑。它不仅在技术上实现了多模态、多尺度特征学习的统一，更在实践上证明了"一个模型解决多种任务"的可行性。

**核心贡献**在于三个方面：（1）提出双重全局-局部自监督学习算法，巧妙解决了遥感数据的多尺度特性；（2）设计灵活的多模态架构，统一处理异构遥感数据；（3）构建大规模预训练数据集，为通用模型奠定基础。

**实际意义**在于，Galileo为遥感从业者提供了一个"开箱即用"的强大工具——无需为每个任务训练专用模型，一个Galileo就能处理从作物分类到洪水检测的多种应用。这种通用性对于资源有限的发展中国家尤其重要，因为它们可能无法为每个任务都训练专用模型。

**学术价值**在于，Galileo的双重损失设计为自监督学习提供了新思路——不同粒度的特征需要不同的学习策略，而不是"一刀切"的方法。这一洞察可能启发其他领域的多尺度表示学习研究。

## 参考文献

```bibtex
@inproceedings{pmlr-v267-tseng25a,
 title = {Galileo: Learning Global & Local Features of Many Remote Sensing Modalities},
 author = {Tseng, Gabriel and Fuller, Anthony and Reil, Marlena and Herzog, Henry and Beukema, Patrick and Bastani, Favyen and Green, James R and Shelhamer, Evan and Kerner, Hannah and Rolnick, David},
 booktitle = {Proceedings of the 42nd International Conference on Machine Learning},
 pages = {60280--60300},
 year = {2025},
 volume = {267},
 series = {Proceedings of Machine Research},
 publisher = {PMLR}
}
```