支持任意波段、任意分辨率！AOM：通用遥感基础模型

WangTong included in category 遥感基础模型与多模态理解

2026-06-01 05:22:13 2026-06-01 05:22:13 350 words 2 minutes

支持任意波段、任意分辨率！AOM：通用遥感基础模型

论文解读 | AAAI 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
作者	Xuyang Li, Chenyu Li, Danfeng Hong
会议	AAAI 2026
arXiv	https://arxiv.org/abs/2512.17224
GitHub	暂未开源
关键词	遥感基础模型、任意波段、任意分辨率、多尺度自适应、通道独立tokenizer

🎯 解决的核心问题

问题背景

遥感图像与自然图像有本质区别：遥感图像通常包含多个光谱通道（如Sentinel-2有13个波段，Landsat-8有11个波段），且空间分辨率差异巨大（从0.1米到100米）。现有的遥感基础模型（RSFMs）通常在固定的波段配置和空间分辨率上预训练，这导致它们在实际应用中面临严重局限。

现有方法的局限

波段固定问题：现有模型（如SatMAE、SpectralGPT）将多光谱数据作为整体输入处理，当遇到波段缺失或新增波段时，性能严重下降。
跨传感器迁移困难：不同传感器（如Sentinel-2与Landsat）的波段配置不同，导致模型难以直接迁移。
尺度适应性差：现有模型采用单一尺度的patch embedding，无法同时捕获高分辨率的纹理细节和低分辨率的全局上下文。

核心问题提炼

如何构建一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型？

💡 解决方案

核心创新点1：Spectrum-independent Tokenizer (SiTok)

设计动机：传统方法将多光谱图像作为3D张量处理，波段维度与空间维度耦合，导致波段变化时需要重新训练。

具体实现：

对每个光谱通道独立进行tokenization
为每个token添加channel index编码
支持任意波段组合和缺失波段场景

关键细节：

输入: 多光谱图像 [C, H, W] (C为波段数)
处理: 对每个通道独立分块 → [C, N, P, P] (N为patch数，P为patch大小)
编码: 添加channel index embedding
输出: 通道独立的token序列

核心创新点2：Multi-scale Adaptive Patch Embedding (MAPE)

设计动机：遥感图像分辨率跨度大（0.1m-100m），单一尺度的patch embedding无法同时捕获细粒度纹理和全局上下文。

具体实现：

维护多尺度卷积核库（如3×3, 5×5, 7×7等）
通过伪逆调整动态适配不同分辨率
实现0.1m-100m跨分辨率特征提取

关键细节：

卷积核库: {K_1, K_2, ..., K_m} (不同尺度)
输入分辨率: r
选择策略: 根据r选择最合适的卷积核K_i
动态调整: 通过伪逆计算适配权重

核心创新点3：通道级掩码重建预训练

设计动机：传统MAE对整个patch进行掩码，忽略了通道间的光谱关系。

具体实现：

采用75%掩码率的channel-wise MAE
对每个通道独立进行掩码和重建
捕获细粒度光谱-空间关系

关键细节：

掩码策略: 对每个通道独立随机掩码75%
重建目标: 重建被掩码的通道token
损失函数: MSE损失
优势: 学习通道间的光谱相关性

核心创新点4：多尺度语义对齐机制

设计动机：不同尺度的patch应具有语义一致性。

具体实现：

使用InfoNCE损失约束不同patch尺度的全局语义一致性
增强跨尺度泛化能力

关键细节：

输入: 同一图像的不同尺度patch
特征提取: 通过共享backbone提取特征
对齐损失: InfoNCE损失约束语义一致性
效果: 增强跨尺度泛化能力

整体架构图

输入: 多光谱图像 [C, H, W]
        ↓
┌─────────────────────────────────────┐
│  Spectrum-independent Tokenizer     │
│  (SiTok)                            │
│  - 通道独立tokenization             │
│  - 添加channel index编码            │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  Multi-scale Adaptive Patch         │
│  Embedding (MAPE)                   │
│  - 多尺度卷积核库                   │
│  - 伪逆调整动态适配                 │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  通道级掩码重建预训练               │
│  - 75%掩码率                        │
│  - Channel-wise MAE                 │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  多尺度语义对齐                     │
│  - InfoNCE损失                      │
│  - 跨尺度语义一致性                 │
└─────────────────────────────────────┘
        ↓
输出: 通用遥感特征表示

🔬 实验验证

实验设置

预训练数据：~1.56M张遥感图像
- Sentinel-2: 1.004M张，10-60m分辨率
- Landsat-8: 146K张，15-100m分辨率
- 其他高分辨率数据
下游任务：语义分割、目标检测、场景分类
基线方法：SatMAE、SpectralGPT、Scale-MAE等

核心结果

方法	任意波段	任意分辨率	跨传感器
SatMAE	✗	✗	✗
SpectralGPT	✗	✗	✗
Scale-MAE	✗	✓	✗
AOM	✓	✓	✓

消融实验

SiTok的效果：在波段缺失场景下，性能提升5-8%
MAPE的效果：在跨分辨率场景下，性能提升3-6%
通道级掩码：在光谱关系建模上，性能提升2-4%
多尺度对齐：在跨尺度泛化上，性能提升2-3%

可视化分析

波段适应性：AOM在不同波段组合下保持稳定性能
分辨率适应性：AOM在0.1m-100m分辨率范围内均有效
跨传感器迁移：AOM可直接在不同传感器间迁移，无需微调

💭 深度评价

核心洞察

AOM的核心洞察在于：遥感图像的"任意性"（任意波段、任意分辨率）是遥感数据的本质特性，而非缺陷。传统方法试图通过固定配置来简化问题，但忽略了遥感数据的多样性和复杂性。AOM通过创新的tokenizer和patch embedding设计，将这种"任意性"转化为模型的优势。

技术贡献层次

架构层：SiTok和MAPE的设计，解决了波段和分辨率的任意性问题
训练层：通道级掩码预训练，捕获光谱-空间关系
对齐层：多尺度语义对齐，增强跨尺度泛化能力

优点

通用性强：支持任意波段组合、任意分辨率、任意传感器
设计优雅：SiTok和MAPE的设计简洁而有效
实用价值高：可直接应用于实际遥感场景，无需针对特定传感器重新训练

局限性

计算复杂度：多尺度设计增加了计算开销
预训练数据规模：需要大规模多源遥感数据
开源状态：目前尚未开源，可复现性待验证

未来方向

扩展至更多传感器：如SAR、高光谱等
优化计算效率：减少多尺度设计的计算开销
开源与社区建设：促进遥感基础模型的发展

📝 总结

AOM（Any-Optical-Model）是AAAI 2026的一篇重要论文，提出了一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型。该论文的核心创新在于Spectrum-independent Tokenizer（SiTok）和Multi-scale Adaptive Patch Embedding（MAPE）的设计，这两个模块分别解决了波段任意性和分辨率任意性的挑战。

从技术角度看，AOM的设计非常优雅：SiTok通过通道独立tokenization和channel index编码，实现了对任意波段组合的支持；MAPE通过多尺度卷积核库和伪逆调整，实现了对任意分辨率的适配。这两个模块的结合，使得AOM能够真正成为一个"通用"的遥感基础模型。

从实用角度看，AOM具有很高的应用价值。在实际遥感应用中，数据来源多样（不同传感器）、分辨率差异大、波段配置不一，AOM能够直接处理这些多样化的数据，无需针对特定传感器重新训练，大大降低了应用门槛。

总的来说，AOM为遥感基础模型的发展提供了一个新的思路：不是简化数据以适应模型，而是设计模型以适应数据的多样性。这一思路对于遥感AI的发展具有重要的启示意义。

参考文献

Li, X., Li, C., & Hong, D. (2026). Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing. AAAI 2026.
Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
Hong, D., et al. (2023). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI.
Li, Z., et al. (2023). Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning. ICCV 2023.

Contents

支持任意波段、任意分辨率！AOM：通用遥感基础模型

支持任意波段、任意分辨率！AOM：通用遥感基础模型

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：Spectrum-independent Tokenizer (SiTok)

核心创新点2：Multi-scale Adaptive Patch Embedding (MAPE)

核心创新点3：通道级掩码重建预训练

核心创新点4：多尺度语义对齐机制

整体架构图

🔬 实验验证

实验设置

核心结果

消融实验

可视化分析

💭 深度评价

核心洞察

技术贡献层次

优点

局限性

未来方向

📝 总结

参考文献

评论