Panopticon: 任意传感器地球观测基础模型

Panopticon: 任意传感器地球观测基础模型

  • 标题: Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
  • 作者: Leonard Waldmann, Ando Shah, Yi Wang, Nils Lehmann, Adam Stewart, Zhitong Xiong, Xiao Xiang Zhu, Stefan Bauer, John Chuang
  • 会议: CVPR 2025 Workshops (EarthVision)
  • arXiv: 2503.10845
  • GitHub: Panopticon-FM/panopticon
  • 关键词: 任意传感器基础模型、地球观测、DINOv2、跨注意力机制、传感器无关

大领域: 地球观测 (Earth Observation, EO)
小领域: 传感器无关基础模型 (Any-Sensor Foundation Models)
技术路线: 基于DINOv2的自监督学习 + 跨传感器视图生成 + 跨注意力通道融合


地球观测数据具有高度异构性:不同卫星平台拥有不同的光谱波段、空间分辨率和成像模态(光学、SAR等)。现有基础模型通常针对特定传感器设计,无法处理任意传感器配置。

如何构建一个能够处理任意传感器配置(包括未见过的传感器组合)的基础模型,而不需要针对每个传感器进行专门适配?

作者从三个具体技术点入手:

  1. 视图生成问题: 如何将不同传感器的图像视为同一地理位置的增强视图?
  2. 光谱多样性问题: 如何在训练中增加光谱输入的多样性?
  3. 通道可变性问题: 如何处理不同传感器具有不同数量通道的情况?

Panopticon基于DINOv2框架,通过三个关键修改实现传感器无关性:

  • 传统方法: DINOv2在同一图像内进行空间增强
  • Panopticon创新: 将同一地理位置在不同传感器下的快照视为同一对象的增强视图
  • 技术细节: 通过地理配准,将不同传感器(如Sentinel-1 SAR、Sentinel-2多光谱)的图像对齐,形成跨传感器视图对
  • 优势: 自然地学习传感器间的不变性,包括通道特性、模态、时间戳和处理级别的变化
  • 传统方法: 仅使用空间增强(裁剪、翻转等)
  • Panopticon创新: 在空间增强基础上增加光谱增强
  • 技术细节: 在训练时随机丢弃部分光谱通道,模拟不同传感器配置
  • 实现: 对于多光谱、高光谱和SAR数据,随机选择通道子集作为输入
  • 优势: 增加训练数据的多样性,提高模型对不同光谱配置的泛化能力
  • 传统方法: 使用固定的卷积层作为patch embedding
  • Panopticon创新: 使用跨注意力机制处理可变数量的通道
  • 技术细节:
    • 将每个通道的波长和模态信息编码为位置嵌入
    • 使用可学习的查询向量通过跨注意力聚合通道信息
    • 生成统一的patch表示,不受通道数量限制
  • 优势: 灵活处理任意通道组合,包括未见过的传感器配置
  • 基础框架: DINOv2 (ViT-Base)
  • 输入处理: 支持任意数量的光谱通道
  • 位置编码: 添加波长和模态特定的位置嵌入
  • 训练策略: 自监督学习,无需标注数据

Panopticon在23个数据集上进行评估,涵盖:

  • 分类任务: 11个数据集
  • 分割任务: 7个数据集
  • 回归任务: 4个数据集
  • 传感器类型: 多光谱(MS)、高光谱(HS)、合成孔径雷达(SAR)
  • 线性探测 (Linear Probing): 冻结 backbone,训练线性分类器
  • k近邻 (kNN): 无需训练,直接使用特征进行分类
  • 传感器泛化: 测试对未见传感器配置的泛化能力

Panopticon在GEO-Bench上达到最先进性能,特别是在广泛使用的Sentinel-1和Sentinel-2传感器上:

  • 在多个分类和分割任务上超越现有方法
  • 在SAR和光学数据上均表现优异
  • 未见传感器测试: 使用光谱卷积模拟新传感器(如Planet SuperDove、MODIS Terra)
  • 结果: Panopticon在模拟传感器上显著优于固定传感器模型
  • 领域适应: 即使使用参数高效的patch embedding重训练,Panopticon仍保持优势
  • 固定传感器模型: 在训练传感器上表现良好,但在新传感器上性能下降
  • 任意传感器模型: Panopticon在所有测试配置下均达到最佳或竞争性能
  • DINOv2基线: 作为强基线,在某些RGB和多光谱任务上表现意外出色

作者对三个核心组件进行了消融研究:

  1. 跨传感器视图生成: 移除后性能显著下降
  2. 光谱子采样: 提高对不同光谱配置的鲁棒性
  3. 跨注意力嵌入: 关键于处理可变通道数量

  • 创新点: 首次将跨传感器视图生成与DINOv2结合,实现真正的传感器无关学习
  • 技术贡献: 跨注意力通道嵌入机制优雅地解决了可变通道输入问题
  • 局限性: 基于现有DINOv2框架,架构创新相对有限
  • 设计精妙: 将地理配准图像作为自然增强视图,概念简洁而强大
  • 实现细节: 光谱子采样与跨注意力的结合,技术实现优雅
  • 实验设计: 传感器泛化评估设置全面且有说服力
  • 部署友好: 基于标准ViT架构,易于集成到现有流程
  • 泛化能力: 能够处理未见传感器,对未来卫星任务具有重要价值
  • 代码开源: 提供完整代码和预训练模型
  1. 传感器无关性: 证明了通过适当的设计,单一模型可以处理多种传感器
  2. 自监督学习: 展示了自监督学习在跨传感器表示学习中的潜力
  3. 领域适应: 参数高效的patch embedding重训练是一种有效的领域适应策略
  • 扩展到更多传感器类型(如激光雷达、高光谱)
  • 探索时序变化建模
  • 与下游任务特定适配器结合

  1. DINOv2: 原始DINOv2论文,了解自监督视觉基础模型
  2. GEO-Bench: 地球观测基础模型评估基准
  3. Copernicus-FM: 另一个统一的地球观测基础模型
  4. TerraMind: 任意到任意的生成式多模态地球观测模型

本文解读基于论文原文和GitHub代码,注重技术细节和实现机制,旨在帮助读者深入理解传感器无关基础模型的核心思想和创新点。

Related Content