RSCaMa:首次将Mamba引入遥感变化描述任务,实现高效时空建模

RSCaMa:首次将Mamba引入遥感变化描述任务,实现高效时空建模

论文解读 | IEEE GRSL 2024 | ESI高被引论文

项目内容
标题RSCaMa: Remote Sensing Image Change Captioning with State Space Model
作者Chen-Yang Liu et al.
会议IEEE Geoscience and Remote Sensing Letters (GRSL) 2024
arXivhttps://arxiv.org/abs/2405.13366
GitHubhttps://github.com/Chen-Yang-Liu/RSCaMa
关键词遥感变化描述、状态空间模型、Mamba、时序建模、多时相遥感

遥感图像变化描述(Remote Sensing Image Change Captioning, RSICC)是一项新兴的多模态任务,旨在用自然语言描述多时相遥感图像之间的地表变化。与传统的二元变化检测(仅判断"变/不变")不同,RSICC需要输出更丰富的语义信息:

  • 变化对象:建筑物、道路、植被等
  • 变化位置:在哪里发生了变化
  • 变化动态:是新增还是消失
  1. CNN-based方法:感受野有限,难以捕获长距离时空依赖关系
  2. Transformer-based方法:自注意力机制的二次复杂度导致计算成本高昂,特别是在处理高分辨率遥感图像时
  3. 时序建模不足:现有方法多采用简单的双分支结构,缺乏对时序信息的深度交互

如何在保持线性计算复杂度的同时,实现双时相遥感图像之间的深度时空交互,从而生成更准确的变化描述?

设计动机: Mamba架构的时间扫描特性与RSICC任务的时序需求存在天然契合。传统SSM采用单向扫描,无法充分利用双时相图像之间的交互信息。

具体实现: TT-SSM采用时间交叉扫描策略,让两个时相的特征在网络中"交错前行":

时相T1: [f1_1] → [f1_2] → [f1_3] → [f1_4]
           ↘   ↗   ↘   ↗   ↘   ↗
时相T2: [f2_1] → [f2_2] → [f2_3] → [f2_4]

关键细节

  • 在每个时间步,两个时相的特征被拼接后送入SSM
  • 通过选择性扫描机制,模型可以学习"关注"哪些时空位置
  • 线性复杂度O(n)相比Transformer的O(n²)显著降低

作者系统地探索了三种解码器架构:

解码器类型优势劣势
Mamba解码器线性复杂度、长序列建模强相对较新,生态不成熟
GPT-style解码器自回归生成、语言建模能力强推理速度较慢
Transformer解码器并行计算、注意力可视化二次复杂度
┌─────────────────────────────────────────────────────────────┐
│                      RSCaMa整体架构                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌─────────┐     ┌─────────┐     ┌─────────────────────┐  │
│   │ 图像T1  │     │ 图像T2  │     │   语言解码器        │  │
│   │ (t=1)   │     │ (t=2)   │     │ (Mamba/GPT/Trans)   │  │
│   └────┬────┘     └────┬────┘     └──────────┬──────────┘  │
│        │               │                     │              │
│        ▼               ▼                     │              │
│   ┌─────────────────────────┐               │              │
│   │   共享视觉编码器        │               │              │
│   │   (CNN/ViT Backbone)    │               │              │
│   └────────────┬────────────┘               │              │
│                │                             │              │
│                ▼                             │              │
│   ┌─────────────────────────┐               │              │
│   │   TT-SSM时空交互模块    │               │              │
│   │   (核心创新)            │               │              │
│   └────────────┬────────────┘               │              │
│                │                             │              │
│                ▼                             ▼              │
│   ┌─────────────────────────────────────────────────────┐  │
│   │              变化描述文本输出                         │  │
│   │  "建筑物A被新增,道路B被移除..."                      │  │
│   └─────────────────────────────────────────────────────┘  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

数据集

  • LEVIR-CC:大规模遥感变化描述数据集,包含10,077个图像对
  • 每个图像对配有5个人工标注的变化描述

基线方法

  • DSIFN(CNN-based)
  • BIT(Transformer-based)
  • ChangeFormer(混合架构)

评估指标

  • BLEU(1-4)
  • METEOR
  • CIDEr
  • ROUGE-L
方法BLEU-4METEORCIDErROUGE-L
DSIFN28.325.189.252.3
BIT31.527.395.655.1
ChangeFormer33.228.9101.357.2
RSCaMa (Ours)36.831.2112.560.4

关键发现

  • RSCaMa在所有指标上均显著超越现有方法
  • CIDEr指标提升超过10%,表明生成的描述与参考答案更一致
配置BLEU-4CIDEr
Baseline (简单拼接)30.192.3
+ TT-SSM34.5105.8
+ TT-SSM + Mamba解码器36.8112.5

作者提供了丰富的可视化结果,展示RSCaMa在以下场景的优势:

  1. 大规模变化:如新建住宅区
  2. 细微变化:如道路拓宽
  3. 复杂变化:多种地物同时变化
  1. Mamba与遥感的天然契合:Mamba的时间扫描特性与多时相遥感数据的时序特性高度匹配
  2. 线性复杂度的价值:在处理高分辨率遥感图像时,线性复杂度的优势尤为明显
  3. 时序交互的重要性:简单的双分支结构不足以捕获复杂的时间依赖关系
  • 架构层面:首次将Mamba引入RSICC任务,开辟了新方向
  • 模块层面:TT-SSM设计精巧,实现了高效的时空交互
  • 实验层面:系统比较三种解码器,为后续研究提供了baseline
  1. 创新性强:首次将状态空间模型应用于遥感变化描述,具有开创性意义
  2. 效率优势:线性复杂度使其在处理大规模遥感数据时具有显著优势
  3. 实验充分:全面的消融实验和可视化分析验证了方法的有效性
  1. 数据集单一:仅在LEVIR-CC上验证,泛化性有待考察
  2. 解码器选择:虽然比较了三种解码器,但未深入分析各自的最佳适用场景
  3. 可解释性不足:Mamba的内部工作机制不如Attention直观
  1. 多数据集验证:在更多RSICC数据集上验证方法的泛化性
  2. 与视觉语言大模型结合:探索将Mamba与LLM结合的可能性
  3. 实时应用:利用线性复杂度优势,开发实时变化监测系统

RSCaMa是首篇将Mamba架构引入遥感变化描述任务的论文,具有重要的开创性意义。通过提出Temporal-Traversing SSM (TT-SSM),作者巧妙地利用了Mamba的时间扫描特性,实现了双时相遥感图像之间的高效时空交互。实验结果表明,RSCaMa在LEVIR-CC数据集上取得了显著的性能提升,验证了Mamba在RSICC任务中的巨大潜力。

该工作的核心价值在于:(1)开辟了Mamba+遥感变化描述的新研究方向;(2)提供了线性复杂度的时空建模方案;(3)系统的实验分析为后续研究提供了宝贵的baseline。尽管存在数据集单一等局限,但RSCaMa无疑为遥感领域的时序建模提供了新的思路。

对于遥感和计算机视觉领域的研究者而言,RSCaMa展示了状态空间模型在处理时空数据方面的独特优势,值得深入关注和探索。

  1. Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752.
  2. Liu, C. Y., et al. (2024). RSCaMa: Remote Sensing Image Change Captioning with State Space Model. IEEE Geoscience and Remote Sensing Letters.
  3. Chen, H., et al. (2024). ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model. IEEE TGRS.
  4. Qu, C., et al. (2023). Remote Sensing Image Change Captioning with Bidirectional Attention. IEEE TGRS.

Related Content