RoMA: 首个基于Mamba架构的遥感自监督预训练框架
RoMA: 首个基于Mamba架构的遥感自监督预训练框架
论文解读 | 发布时间: 2026-05-31 | 关键词: 遥感基础模型, Mamba, 自监督预训练, 旋转不变性, 多尺度预测
一、论文基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing |
| 发表会议 | NeurIPS 2025 (顶级会议) |
| arXiv链接 | https://arxiv.org/abs/2503.10392 |
| 代码仓库 | https://github.com/MiliLab/RoMA |
| 研究团队 | 国防科技大学、清华大学、武汉大学、北京邮电大学 |
| 研究方向 | 遥感图像分割、基础模型、自监督学习 |
二、研究问题:遥感基础模型的核心挑战
2.1 遥感图像的特殊性
遥感图像与自然图像存在本质差异,这些差异给深度学习模型带来了独特的挑战:
- 任意方向目标:遥感图像中的建筑物、车辆、飞机等目标可能以任意角度出现,不像自然图像中的目标通常具有"直立"的先验
- 尺度差异巨大:同一场景中,小型车辆和大型建筑物的尺度可能相差数十倍
- 数据标注成本高昂:遥感图像的标注需要专业知识,标注成本远高于自然图像
2.2 现有方法的局限
当前遥感基础模型主要面临两个核心问题:
- Transformer的计算瓶颈:基于ViT的预训练方法(如MAE)在处理高分辨率遥感图像时,自注意力机制的二次复杂度导致计算成本极高
- 缺乏旋转感知能力:传统预训练方法未充分考虑遥感目标的任意方向特性,导致预训练特征对旋转变化不够鲁棒
核心问题:如何设计一个既能高效处理高分辨率遥感图像、又能捕获旋转不变特征的自监督预训练框架?
三、解决方案:RoMA框架详解
RoMA的核心创新在于将Mamba架构引入遥感自监督预训练,并设计了两个关键机制来解决遥感图像的特殊挑战。
3.1 整体架构
RoMA采用自回归预训练范式,不同于MAE的重建范式:
输入图像 → 图像分块 → 自适应旋转编码 → Mamba编码器 → 多尺度预测头 → 预测下一个token3.2 核心创新一:自适应旋转编码(Adaptive Rotation Encoding)
这是RoMA最关键的创新点,解决遥感目标任意方向的问题:
设计动机:传统数据增强对图像进行随机旋转,但模型并不知道旋转了多少角度。RoMA通过引入角度嵌入,让模型显式感知旋转信息。
具体实现:
- 高信息区域选择:使用LBP(局部二值模式)等传统特征计算每个patch的信息量,选择信息最丰富的区域
- 旋转增强:对选定区域进行随机旋转增强
- 角度嵌入注入:将旋转角度编码为嵌入向量,与视觉token拼接,使模型能感知并适应旋转变化
旋转后token = 视觉token ⊕ 角度嵌入(θ)这种设计的精妙之处在于:模型不仅学会了识别目标,还学会了理解目标的方向,从而获得真正的旋转不变性。
3.3 核心创新二:多尺度预测目标(Multi-scale Token Prediction)
设计动机:遥感图像中目标尺度差异巨大,单一尺度的预测目标难以捕获多尺度语义信息。
具体实现:
- 在自回归预测中,不仅预测下一个token,还同时预测多个未来尺度的token
- 通过多尺度预测头,迫使模型在不同尺度上建立语义理解
- 小尺度预测关注局部细节,大尺度预测关注全局结构
损失函数 = Σ(不同尺度的预测损失)3.4 Mamba架构的优势
相比Transformer,Mamba在遥感场景中具有天然优势:
| 特性 | Transformer | Mamba |
|---|---|---|
| 计算复杂度 | O(n²) | O(n) |
| 长序列处理 | 受限于显存 | 线性扩展 |
| 感受野 | 需要多层堆叠 | 天然长距离依赖 |
这使得RoMA能够高效处理高分辨率遥感图像(如2048×2048),而无需像ViT那样进行激进的下采样。
四、实验评估
4.1 实验设置
- 预训练数据集:大规模遥感图像数据集
- 下游任务:语义分割、变化检测、目标检测
- 基线方法:MAE、SatMAE、Scale-MAE等遥感预训练方法
4.2 主要结果
RoMA在多个下游任务上取得了SOTA性能:
语义分割任务:
- 在Potsdam、Vaihingen等数据集上,RoMA显著优于MAE-based方法
- 相比SatMAE,mIoU提升约2-3%
关键发现:
- 旋转编码的有效性:消融实验证明,自适应旋转编码带来约1.5%的性能提升
- 多尺度预测的增益:多尺度预测目标进一步提升约1%的分割精度
- 计算效率:相比ViT-based方法,RoMA在处理高分辨率图像时效率提升约40%
4.3 可视化分析
论文展示了RoMA学习到的特征可视化:
- RoMA能更好地捕获任意方向的目标边界
- 在复杂背景(如密集城区、植被覆盖区域)中表现更鲁棒
- 多尺度特征融合使模型同时关注大目标和小目标
五、核心洞察与启发
5.1 从"一个点"到"一篇文章"
RoMA的成功在于精准识别问题本质:
- 问题点:遥感目标的任意方向性被忽视
- 切入点:在预训练阶段注入旋转感知能力
- 扩展面:结合Mamba的效率优势,构建完整的预训练框架
这启示我们:好的研究往往源于对单一痛点的深刻理解,然后围绕这个点构建系统性解决方案。
5.2 技术创新的层次
RoMA的技术贡献可以分为三个层次:
- 架构层:引入Mamba替代ViT,解决计算效率问题
- 机制层:设计旋转编码和多尺度预测,解决遥感特性问题
- 范式层:采用自回归预训练,提供更灵活的预训练目标
5.3 对后续研究的启示
- Mamba在遥感中的潜力:RoMA证明了Mamba架构在遥感领域的巨大潜力,未来可能出现更多Mamba-based遥感模型
- 领域特异性设计:通用预训练方法(如MAE)需要针对遥感特性进行定制化改进
- 传统特征与深度学习的融合:LBP等传统特征在RoMA中发挥了重要作用,表明传统方法仍有价值
六、总结
RoMA作为首个基于Mamba的遥感自监督预训练框架,通过自适应旋转编码和多尺度预测目标,有效解决了遥感图像的任意方向性和尺度多样性问题。该工作不仅在多个下游任务上取得了SOTA性能,更为遥感基础模型的发展提供了新的技术路线。
论文亮点:
- ✅ 首次将自回归预训练引入Mamba架构用于遥感
- ✅ 创新的旋转感知机制,显式建模目标方向
- ✅ 多尺度预测目标适应遥感尺度特性
- ✅ 高效处理高分辨率遥感图像
代码开源:https://github.com/MiliLab/RoMA
参考文献
- RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing. NeurIPS 2025.
- Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
- He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.