支持任意波段、任意分辨率!AOM:通用遥感基础模型
支持任意波段、任意分辨率!AOM:通用遥感基础模型
论文解读 | AAAI 2026 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing |
| 作者 | Xuyang Li, Chenyu Li, Danfeng Hong |
| 会议 | AAAI 2026 |
| arXiv | https://arxiv.org/abs/2512.17224 |
| GitHub | 暂未开源 |
| 关键词 | 遥感基础模型、任意波段、任意分辨率、多尺度自适应、通道独立tokenizer |
🎯 解决的核心问题
问题背景
遥感图像与自然图像有本质区别:遥感图像通常包含多个光谱通道(如Sentinel-2有13个波段,Landsat-8有11个波段),且空间分辨率差异巨大(从0.1米到100米)。现有的遥感基础模型(RSFMs)通常在固定的波段配置和空间分辨率上预训练,这导致它们在实际应用中面临严重局限。
现有方法的局限
- 波段固定问题:现有模型(如SatMAE、SpectralGPT)将多光谱数据作为整体输入处理,当遇到波段缺失或新增波段时,性能严重下降。
- 跨传感器迁移困难:不同传感器(如Sentinel-2与Landsat)的波段配置不同,导致模型难以直接迁移。
- 尺度适应性差:现有模型采用单一尺度的patch embedding,无法同时捕获高分辨率的纹理细节和低分辨率的全局上下文。
核心问题提炼
如何构建一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型?
💡 解决方案
核心创新点1:Spectrum-independent Tokenizer (SiTok)
设计动机:传统方法将多光谱图像作为3D张量处理,波段维度与空间维度耦合,导致波段变化时需要重新训练。
具体实现:
- 对每个光谱通道独立进行tokenization
- 为每个token添加channel index编码
- 支持任意波段组合和缺失波段场景
关键细节:
输入: 多光谱图像 [C, H, W] (C为波段数)
处理: 对每个通道独立分块 → [C, N, P, P] (N为patch数,P为patch大小)
编码: 添加channel index embedding
输出: 通道独立的token序列核心创新点2:Multi-scale Adaptive Patch Embedding (MAPE)
设计动机:遥感图像分辨率跨度大(0.1m-100m),单一尺度的patch embedding无法同时捕获细粒度纹理和全局上下文。
具体实现:
- 维护多尺度卷积核库(如3×3, 5×5, 7×7等)
- 通过伪逆调整动态适配不同分辨率
- 实现0.1m-100m跨分辨率特征提取
关键细节:
卷积核库: {K_1, K_2, ..., K_m} (不同尺度)
输入分辨率: r
选择策略: 根据r选择最合适的卷积核K_i
动态调整: 通过伪逆计算适配权重核心创新点3:通道级掩码重建预训练
设计动机:传统MAE对整个patch进行掩码,忽略了通道间的光谱关系。
具体实现:
- 采用75%掩码率的channel-wise MAE
- 对每个通道独立进行掩码和重建
- 捕获细粒度光谱-空间关系
关键细节:
掩码策略: 对每个通道独立随机掩码75%
重建目标: 重建被掩码的通道token
损失函数: MSE损失
优势: 学习通道间的光谱相关性核心创新点4:多尺度语义对齐机制
设计动机:不同尺度的patch应具有语义一致性。
具体实现:
- 使用InfoNCE损失约束不同patch尺度的全局语义一致性
- 增强跨尺度泛化能力
关键细节:
输入: 同一图像的不同尺度patch
特征提取: 通过共享backbone提取特征
对齐损失: InfoNCE损失约束语义一致性
效果: 增强跨尺度泛化能力整体架构图
输入: 多光谱图像 [C, H, W]
↓
┌─────────────────────────────────────┐
│ Spectrum-independent Tokenizer │
│ (SiTok) │
│ - 通道独立tokenization │
│ - 添加channel index编码 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ Multi-scale Adaptive Patch │
│ Embedding (MAPE) │
│ - 多尺度卷积核库 │
│ - 伪逆调整动态适配 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 通道级掩码重建预训练 │
│ - 75%掩码率 │
│ - Channel-wise MAE │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 多尺度语义对齐 │
│ - InfoNCE损失 │
│ - 跨尺度语义一致性 │
└─────────────────────────────────────┘
↓
输出: 通用遥感特征表示🔬 实验验证
实验设置
- 预训练数据:~1.56M张遥感图像
- Sentinel-2: 1.004M张,10-60m分辨率
- Landsat-8: 146K张,15-100m分辨率
- 其他高分辨率数据
- 下游任务:语义分割、目标检测、场景分类
- 基线方法:SatMAE、SpectralGPT、Scale-MAE等
核心结果
| 方法 | 任意波段 | 任意分辨率 | 跨传感器 |
|---|---|---|---|
| SatMAE | ✗ | ✗ | ✗ |
| SpectralGPT | ✗ | ✗ | ✗ |
| Scale-MAE | ✗ | ✓ | ✗ |
| AOM | ✓ | ✓ | ✓ |
消融实验
- SiTok的效果:在波段缺失场景下,性能提升5-8%
- MAPE的效果:在跨分辨率场景下,性能提升3-6%
- 通道级掩码:在光谱关系建模上,性能提升2-4%
- 多尺度对齐:在跨尺度泛化上,性能提升2-3%
可视化分析
- 波段适应性:AOM在不同波段组合下保持稳定性能
- 分辨率适应性:AOM在0.1m-100m分辨率范围内均有效
- 跨传感器迁移:AOM可直接在不同传感器间迁移,无需微调
💭 深度评价
核心洞察
AOM的核心洞察在于:遥感图像的"任意性"(任意波段、任意分辨率)是遥感数据的本质特性,而非缺陷。传统方法试图通过固定配置来简化问题,但忽略了遥感数据的多样性和复杂性。AOM通过创新的tokenizer和patch embedding设计,将这种"任意性"转化为模型的优势。
技术贡献层次
- 架构层:SiTok和MAPE的设计,解决了波段和分辨率的任意性问题
- 训练层:通道级掩码预训练,捕获光谱-空间关系
- 对齐层:多尺度语义对齐,增强跨尺度泛化能力
优点
- 通用性强:支持任意波段组合、任意分辨率、任意传感器
- 设计优雅:SiTok和MAPE的设计简洁而有效
- 实用价值高:可直接应用于实际遥感场景,无需针对特定传感器重新训练
局限性
- 计算复杂度:多尺度设计增加了计算开销
- 预训练数据规模:需要大规模多源遥感数据
- 开源状态:目前尚未开源,可复现性待验证
未来方向
- 扩展至更多传感器:如SAR、高光谱等
- 优化计算效率:减少多尺度设计的计算开销
- 开源与社区建设:促进遥感基础模型的发展
📝 总结
AOM(Any-Optical-Model)是AAAI 2026的一篇重要论文,提出了一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型。该论文的核心创新在于Spectrum-independent Tokenizer(SiTok)和Multi-scale Adaptive Patch Embedding(MAPE)的设计,这两个模块分别解决了波段任意性和分辨率任意性的挑战。
从技术角度看,AOM的设计非常优雅:SiTok通过通道独立tokenization和channel index编码,实现了对任意波段组合的支持;MAPE通过多尺度卷积核库和伪逆调整,实现了对任意分辨率的适配。这两个模块的结合,使得AOM能够真正成为一个"通用"的遥感基础模型。
从实用角度看,AOM具有很高的应用价值。在实际遥感应用中,数据来源多样(不同传感器)、分辨率差异大、波段配置不一,AOM能够直接处理这些多样化的数据,无需针对特定传感器重新训练,大大降低了应用门槛。
总的来说,AOM为遥感基础模型的发展提供了一个新的思路:不是简化数据以适应模型,而是设计模型以适应数据的多样性。这一思路对于遥感AI的发展具有重要的启示意义。
参考文献
- Li, X., Li, C., & Hong, D. (2026). Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing. AAAI 2026.
- Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
- Hong, D., et al. (2023). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI.
- Li, Z., et al. (2023). Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning. ICCV 2023.