支持任意波段、任意分辨率!AOM:通用遥感基础模型

支持任意波段、任意分辨率!AOM:通用遥感基础模型

论文解读 | AAAI 2026 | 2026-06-01

项目内容
标题Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
作者Xuyang Li, Chenyu Li, Danfeng Hong
会议AAAI 2026
arXivhttps://arxiv.org/abs/2512.17224
GitHub暂未开源
关键词遥感基础模型、任意波段、任意分辨率、多尺度自适应、通道独立tokenizer

遥感图像与自然图像有本质区别:遥感图像通常包含多个光谱通道(如Sentinel-2有13个波段,Landsat-8有11个波段),且空间分辨率差异巨大(从0.1米到100米)。现有的遥感基础模型(RSFMs)通常在固定的波段配置和空间分辨率上预训练,这导致它们在实际应用中面临严重局限。

  1. 波段固定问题:现有模型(如SatMAE、SpectralGPT)将多光谱数据作为整体输入处理,当遇到波段缺失或新增波段时,性能严重下降。
  2. 跨传感器迁移困难:不同传感器(如Sentinel-2与Landsat)的波段配置不同,导致模型难以直接迁移。
  3. 尺度适应性差:现有模型采用单一尺度的patch embedding,无法同时捕获高分辨率的纹理细节和低分辨率的全局上下文。

如何构建一个能够适应任意波段组合任意传感器类型任意空间分辨率的通用遥感基础模型?

设计动机:传统方法将多光谱图像作为3D张量处理,波段维度与空间维度耦合,导致波段变化时需要重新训练。

具体实现

  • 对每个光谱通道独立进行tokenization
  • 为每个token添加channel index编码
  • 支持任意波段组合和缺失波段场景

关键细节

输入: 多光谱图像 [C, H, W] (C为波段数)
处理: 对每个通道独立分块 → [C, N, P, P] (N为patch数,P为patch大小)
编码: 添加channel index embedding
输出: 通道独立的token序列

设计动机:遥感图像分辨率跨度大(0.1m-100m),单一尺度的patch embedding无法同时捕获细粒度纹理和全局上下文。

具体实现

  • 维护多尺度卷积核库(如3×3, 5×5, 7×7等)
  • 通过伪逆调整动态适配不同分辨率
  • 实现0.1m-100m跨分辨率特征提取

关键细节

卷积核库: {K_1, K_2, ..., K_m} (不同尺度)
输入分辨率: r
选择策略: 根据r选择最合适的卷积核K_i
动态调整: 通过伪逆计算适配权重

设计动机:传统MAE对整个patch进行掩码,忽略了通道间的光谱关系。

具体实现

  • 采用75%掩码率的channel-wise MAE
  • 对每个通道独立进行掩码和重建
  • 捕获细粒度光谱-空间关系

关键细节

掩码策略: 对每个通道独立随机掩码75%
重建目标: 重建被掩码的通道token
损失函数: MSE损失
优势: 学习通道间的光谱相关性

设计动机:不同尺度的patch应具有语义一致性。

具体实现

  • 使用InfoNCE损失约束不同patch尺度的全局语义一致性
  • 增强跨尺度泛化能力

关键细节

输入: 同一图像的不同尺度patch
特征提取: 通过共享backbone提取特征
对齐损失: InfoNCE损失约束语义一致性
效果: 增强跨尺度泛化能力
输入: 多光谱图像 [C, H, W]
┌─────────────────────────────────────┐
│  Spectrum-independent Tokenizer     │
│  (SiTok)                            │
│  - 通道独立tokenization             │
│  - 添加channel index编码            │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  Multi-scale Adaptive Patch         │
│  Embedding (MAPE)                   │
│  - 多尺度卷积核库                   │
│  - 伪逆调整动态适配                 │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  通道级掩码重建预训练               │
│  - 75%掩码率                        │
│  - Channel-wise MAE                 │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│  多尺度语义对齐                     │
│  - InfoNCE损失                      │
│  - 跨尺度语义一致性                 │
└─────────────────────────────────────┘
输出: 通用遥感特征表示
  • 预训练数据:~1.56M张遥感图像
    • Sentinel-2: 1.004M张,10-60m分辨率
    • Landsat-8: 146K张,15-100m分辨率
    • 其他高分辨率数据
  • 下游任务:语义分割、目标检测、场景分类
  • 基线方法:SatMAE、SpectralGPT、Scale-MAE等
方法任意波段任意分辨率跨传感器
SatMAE
SpectralGPT
Scale-MAE
AOM
  1. SiTok的效果:在波段缺失场景下,性能提升5-8%
  2. MAPE的效果:在跨分辨率场景下,性能提升3-6%
  3. 通道级掩码:在光谱关系建模上,性能提升2-4%
  4. 多尺度对齐:在跨尺度泛化上,性能提升2-3%
  • 波段适应性:AOM在不同波段组合下保持稳定性能
  • 分辨率适应性:AOM在0.1m-100m分辨率范围内均有效
  • 跨传感器迁移:AOM可直接在不同传感器间迁移,无需微调

AOM的核心洞察在于:遥感图像的"任意性"(任意波段、任意分辨率)是遥感数据的本质特性,而非缺陷。传统方法试图通过固定配置来简化问题,但忽略了遥感数据的多样性和复杂性。AOM通过创新的tokenizer和patch embedding设计,将这种"任意性"转化为模型的优势。

  1. 架构层:SiTok和MAPE的设计,解决了波段和分辨率的任意性问题
  2. 训练层:通道级掩码预训练,捕获光谱-空间关系
  3. 对齐层:多尺度语义对齐,增强跨尺度泛化能力
  1. 通用性强:支持任意波段组合、任意分辨率、任意传感器
  2. 设计优雅:SiTok和MAPE的设计简洁而有效
  3. 实用价值高:可直接应用于实际遥感场景,无需针对特定传感器重新训练
  1. 计算复杂度:多尺度设计增加了计算开销
  2. 预训练数据规模:需要大规模多源遥感数据
  3. 开源状态:目前尚未开源,可复现性待验证
  1. 扩展至更多传感器:如SAR、高光谱等
  2. 优化计算效率:减少多尺度设计的计算开销
  3. 开源与社区建设:促进遥感基础模型的发展

AOM(Any-Optical-Model)是AAAI 2026的一篇重要论文,提出了一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型。该论文的核心创新在于Spectrum-independent Tokenizer(SiTok)和Multi-scale Adaptive Patch Embedding(MAPE)的设计,这两个模块分别解决了波段任意性和分辨率任意性的挑战。

从技术角度看,AOM的设计非常优雅:SiTok通过通道独立tokenization和channel index编码,实现了对任意波段组合的支持;MAPE通过多尺度卷积核库和伪逆调整,实现了对任意分辨率的适配。这两个模块的结合,使得AOM能够真正成为一个"通用"的遥感基础模型。

从实用角度看,AOM具有很高的应用价值。在实际遥感应用中,数据来源多样(不同传感器)、分辨率差异大、波段配置不一,AOM能够直接处理这些多样化的数据,无需针对特定传感器重新训练,大大降低了应用门槛。

总的来说,AOM为遥感基础模型的发展提供了一个新的思路:不是简化数据以适应模型,而是设计模型以适应数据的多样性。这一思路对于遥感AI的发展具有重要的启示意义。

  1. Li, X., Li, C., & Hong, D. (2026). Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing. AAAI 2026.
  2. Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
  3. Hong, D., et al. (2023). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI.
  4. Li, Z., et al. (2023). Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning. ICCV 2023.

Related Content