# RoMA: 首个基于Mamba架构的遥感自监督预训练框架


# RoMA: 首个基于Mamba架构的遥感自监督预训练框架

> **论文解读** | 发布时间: 2026-05-31 | 关键词: 遥感基础模型, Mamba, 自监督预训练, 旋转不变性, 多尺度预测

---

## 一、论文基本信息

| 项目 | 内容 |
|------|------|
| **论文标题** | RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing |
| **发表会议** | NeurIPS 2025 (顶级会议) |
| **arXiv链接** | https://arxiv.org/abs/2503.10392 |
| **代码仓库** | https://github.com/MiliLab/RoMA |
| **研究团队** | 国防科技大学、清华大学、武汉大学、北京邮电大学 |
| **研究方向** | 遥感图像分割、基础模型、自监督学习 |

---

## 二、研究问题：遥感基础模型的核心挑战

### 2.1 遥感图像的特殊性

遥感图像与自然图像存在本质差异，这些差异给深度学习模型带来了独特的挑战：

- **任意方向目标**：遥感图像中的建筑物、车辆、飞机等目标可能以任意角度出现，不像自然图像中的目标通常具有"直立"的先验
- **尺度差异巨大**：同一场景中，小型车辆和大型建筑物的尺度可能相差数十倍
- **数据标注成本高昂**：遥感图像的标注需要专业知识，标注成本远高于自然图像

### 2.2 现有方法的局限

当前遥感基础模型主要面临两个核心问题：

1. **Transformer的计算瓶颈**：基于ViT的预训练方法（如MAE）在处理高分辨率遥感图像时，自注意力机制的二次复杂度导致计算成本极高
2. **缺乏旋转感知能力**：传统预训练方法未充分考虑遥感目标的任意方向特性，导致预训练特征对旋转变化不够鲁棒

**核心问题**：如何设计一个既能高效处理高分辨率遥感图像、又能捕获旋转不变特征的自监督预训练框架？

---

## 三、解决方案：RoMA框架详解

RoMA的核心创新在于将**Mamba架构**引入遥感自监督预训练，并设计了两个关键机制来解决遥感图像的特殊挑战。

### 3.1 整体架构

RoMA采用**自回归预训练范式**，不同于MAE的重建范式：

```
输入图像 → 图像分块 → 自适应旋转编码 → Mamba编码器 → 多尺度预测头 → 预测下一个token
```

### 3.2 核心创新一：自适应旋转编码（Adaptive Rotation Encoding）

这是RoMA最关键的创新点，解决遥感目标任意方向的问题：

**设计动机**：传统数据增强对图像进行随机旋转，但模型并不知道旋转了多少角度。RoMA通过引入**角度嵌入**，让模型显式感知旋转信息。

**具体实现**：
1. **高信息区域选择**：使用LBP（局部二值模式）等传统特征计算每个patch的信息量，选择信息最丰富的区域
2. **旋转增强**：对选定区域进行随机旋转增强
3. **角度嵌入注入**：将旋转角度编码为嵌入向量，与视觉token拼接，使模型能感知并适应旋转变化

```
旋转后token = 视觉token ⊕ 角度嵌入(θ)
```

这种设计的精妙之处在于：模型不仅学会了识别目标，还学会了**理解目标的方向**，从而获得真正的旋转不变性。

### 3.3 核心创新二：多尺度预测目标（Multi-scale Token Prediction）

**设计动机**：遥感图像中目标尺度差异巨大，单一尺度的预测目标难以捕获多尺度语义信息。

**具体实现**：
- 在自回归预测中，不仅预测下一个token，还同时预测**多个未来尺度**的token
- 通过多尺度预测头，迫使模型在不同尺度上建立语义理解
- 小尺度预测关注局部细节，大尺度预测关注全局结构

```
损失函数 = Σ(不同尺度的预测损失)
```

### 3.4 Mamba架构的优势

相比Transformer，Mamba在遥感场景中具有天然优势：

| 特性 | Transformer | Mamba |
|------|-------------|-------|
| 计算复杂度 | O(n²) | O(n) |
| 长序列处理 | 受限于显存 | 线性扩展 |
| 感受野 | 需要多层堆叠 | 天然长距离依赖 |

这使得RoMA能够高效处理**高分辨率遥感图像**（如2048×2048），而无需像ViT那样进行激进的下采样。

---

## 四、实验评估

### 4.1 实验设置

- **预训练数据集**：大规模遥感图像数据集
- **下游任务**：语义分割、变化检测、目标检测
- **基线方法**：MAE、SatMAE、Scale-MAE等遥感预训练方法

### 4.2 主要结果

RoMA在多个下游任务上取得了SOTA性能：

**语义分割任务**：
- 在Potsdam、Vaihingen等数据集上，RoMA显著优于MAE-based方法
- 相比SatMAE，mIoU提升约2-3%

**关键发现**：
1. **旋转编码的有效性**：消融实验证明，自适应旋转编码带来约1.5%的性能提升
2. **多尺度预测的增益**：多尺度预测目标进一步提升约1%的分割精度
3. **计算效率**：相比ViT-based方法，RoMA在处理高分辨率图像时效率提升约40%

### 4.3 可视化分析

论文展示了RoMA学习到的特征可视化：
- RoMA能更好地捕获**任意方向**的目标边界
- 在复杂背景（如密集城区、植被覆盖区域）中表现更鲁棒
- 多尺度特征融合使模型同时关注大目标和小目标

---

## 五、核心洞察与启发

### 5.1 从"一个点"到"一篇文章"

RoMA的成功在于**精准识别问题本质**：

1. **问题点**：遥感目标的任意方向性被忽视
2. **切入点**：在预训练阶段注入旋转感知能力
3. **扩展面**：结合Mamba的效率优势，构建完整的预训练框架

这启示我们：好的研究往往源于对**单一痛点**的深刻理解，然后围绕这个点构建系统性解决方案。

### 5.2 技术创新的层次

RoMA的技术贡献可以分为三个层次：
- **架构层**：引入Mamba替代ViT，解决计算效率问题
- **机制层**：设计旋转编码和多尺度预测，解决遥感特性问题
- **范式层**：采用自回归预训练，提供更灵活的预训练目标

### 5.3 对后续研究的启示

1. **Mamba在遥感中的潜力**：RoMA证明了Mamba架构在遥感领域的巨大潜力，未来可能出现更多Mamba-based遥感模型
2. **领域特异性设计**：通用预训练方法（如MAE）需要针对遥感特性进行定制化改进
3. **传统特征与深度学习的融合**：LBP等传统特征在RoMA中发挥了重要作用，表明传统方法仍有价值

---

## 六、总结

RoMA作为**首个基于Mamba的遥感自监督预训练框架**，通过自适应旋转编码和多尺度预测目标，有效解决了遥感图像的任意方向性和尺度多样性问题。该工作不仅在多个下游任务上取得了SOTA性能，更为遥感基础模型的发展提供了新的技术路线。

**论文亮点**：
- ✅ 首次将自回归预训练引入Mamba架构用于遥感
- ✅ 创新的旋转感知机制，显式建模目标方向
- ✅ 多尺度预测目标适应遥感尺度特性
- ✅ 高效处理高分辨率遥感图像

**代码开源**：https://github.com/MiliLab/RoMA

---

## 参考文献

1. RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing. NeurIPS 2025.
2. Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
3. He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.