SatDINO：当DINO遇上遥感——对比学习在卫星图像预训练中的深度探索

Mon, 01 Jun 2026 12:00:00 +0800

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing
作者	Jakub Straka et al.
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2508.21402
GitHub	https://github.com/strakaj/SatDINO
关键词	自监督学习、DINO、对比学习、GSD编码、遥感预训练

遥感领域存在一个有趣的现象：MAE（掩码自编码器）几乎垄断了自监督预训练的天下。从SatMAE到Scale-MAE，几乎所有主流的遥感基础模型都采用MAE范式——遮住图像的一部分，让模型去重建。

但这里有个根本性的问题被忽视了：

遥感图像天生就是多尺度的。

同一场景在不同传感器下，GSD（地面采样距离）可以从0.3米到几十米不等。一个建筑物在高分辨率下是清晰的矩形，在低分辨率下可能只是一个模糊的像素点。

MAE的核心思路是重建被遮挡的像素。这个任务本质上是"填补缺失"，而不是"理解尺度"。具体来说：

能否用对比学习（DINO）替代MAE，让模型在预训练阶段就主动学习多尺度表示，而不依赖外部GSD元数据？

作者的核心洞察非常精妙：

DINO在训练时会生成多个不同尺度的视图（global views + local views），这些视图本身就是多尺度的。这与遥感图像的多尺度特性完美契合。

具体来说，DINO的标准训练流程是：

这意味着模型在训练过程中，天然就会看到同一场景在不同"缩放级别"下的样子——这不正是遥感图像多尺度特性的完美模拟吗？

设计动机：

现有的GSD编码方法（如Scale-MAE）将GSD作为位置编码的一部分注入模型。但这种方法有两个致命缺陷：

具体实现：

SatDINO提出了一种从图像本身学习GSD的优雅方案：