RSKT-Seg:旋转不变+领域迁移实现遥感图像开放词汇分割

RSKT-Seg:旋转不变+领域迁移实现遥感图像开放词汇分割

论文解读 | AAAI 2026 Oral | 2026-06-01

项目内容
标题Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
作者Bingyu Li, Xuelong Li 等
会议AAAI 2026 Oral
单位中国科学技术大学, TeleAI
arXivhttps://arxiv.org/abs/2509.12040
GitHubhttps://github.com/LiBingyu01/RSKT-Seg
关键词开放词汇分割, 遥感图像, 旋转不变, 领域迁移, 成本图

开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS)是计算机视觉领域的重要任务,旨在分割任意文本描述的类别。然而,当这一技术应用于遥感图像时,面临独特的挑战:

  1. 领域差异:自然图像与遥感图像在视角、尺度、纹理等方面存在显著差异
  2. 旋转不变性需求:遥感图像通常从俯视角度拍摄,目标方向任意,需要模型具备旋转不变性
  3. 缺乏统一基准:遥感领域缺乏标准化的开放词汇分割评估基准
  • 直接迁移效果差:将自然图像的OVS方法直接应用于遥感场景,性能显著下降
  • 旋转敏感:传统方法对目标方向敏感,难以处理任意旋转的遥感目标
  • 计算效率低:现有方法通常计算复杂度高,难以满足大规模遥感数据处理需求

如何设计一个专为遥感图像优化的开放词汇分割框架,同时具备旋转不变性和高效率?

设计动机:遥感图像中的目标可能以任意方向出现,传统方法使用单一方向的视觉-语言相似度计算无法捕捉旋转不变特征。

具体实现

输入:视觉特征图 F_v, 文本特征 F_t
1. 定义 K 个旋转方向 θ = {0°, 45°, 90°, ..., 315°}
2. 对每个方向 θ_k:
   - 旋转视觉特征图:F_v^k = Rotate(F_v, θ_k)
   - 计算成本图:C_k = CosineSimilarity(F_v^k, F_t)
3. 聚合所有方向的成本图:
   C_agg = Aggregate({C_1, C_2, ..., C_K})

关键细节

  • 使用8个方向(0°到315°,间隔45°)覆盖全方位
  • 通过可学习的注意力权重自适应聚合不同方向的贡献
  • 计算成本仅为线性增长,保持高效

设计动机:传统Transformer在处理高分辨率遥感图像时计算复杂度高,需要轻量级设计。

具体实现

输入:多尺度成本图 {C_1, C_2, ..., C_L}
1. 降维投影:
   - 使用1×1卷积将成本图从D维降至D'维(D' << D)
   - 降低计算复杂度从O(D²)到O(D'²)

2. 空间-语义联合建模:
   - 空间注意力:捕捉像素间的空间依赖
   - 语义注意力:建模类别间的语义关系
   - 双流并行处理,最后融合

3. 渐进式融合:
   - 从低分辨率到高分辨率逐步融合
   - 每层使用跳跃连接保留细节信息

关键细节

  • 降维比例通常为4:1,显著减少计算量
  • 使用深度可分离卷积进一步降低参数量
  • 支持多尺度输入,适应不同分辨率的遥感图像

设计动机:预训练的视觉-语言模型(如CLIP)在自然图像上训练,需要适配到遥感领域。

具体实现

输入:预训练特征 F_pre, 遥感特征 F_rs
1. 特征对齐:
   - 使用对比学习对齐两个域的特征空间
   - L_align = CosineSimilarity(F_pre, F_rs)

2. 增强上采样:
   - 使用转置卷积进行上采样
   - 添加跳跃连接保留空间细节

3. 领域自适应:
   - 使用域对抗训练减少域差异
   - 梯度反转层确保特征不变性

关键细节

  • 使用两阶段训练:先预训练对齐,再微调优化
  • 支持增量学习,可不断适配新的遥感数据源
  • 保留预训练知识的同时学习遥感特异性特征
┌─────────────────────────────────────────────────────────┐
│                    RSKT-Seg 整体架构                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌──────────────┐    ┌──────────────┐    ┌──────────┐  │
│  │ 遥感图像输入  │    │ 文本描述输入  │    │ 预训练CLIP│  │
│  └──────┬───────┘    └──────┬───────┘    └─────┬────┘  │
│         │                   │                  │        │
│         ▼                   ▼                  ▼        │
│  ┌──────────────┐    ┌──────────────┐    ┌──────────┐  │
│  │ 视觉编码器   │    │ 文本编码器   │    │ 特征对齐 │  │
│  └──────┬───────┘    └──────┬───────┘    └─────┬────┘  │
│         │                   │                  │        │
│         └─────────┬─────────┘                  │        │
│                   ▼                            │        │
│         ┌──────────────────┐                   │        │
│         │    RS-CMA模块    │◄──────────────────┘        │
│         │ (多方向成本图聚合)│                             │
│         └────────┬─────────┘                            │
│                  │                                      │
│                  ▼                                      │
│         ┌──────────────────┐                            │
│         │  RS-Fusion模块   │                            │
│         │ (高效成本图融合)  │                            │
│         └────────┬─────────┘                            │
│                  │                                      │
│                  ▼                                      │
│         ┌──────────────────┐                            │
│         │  RS-Transfer模块 │                            │
│         │  (遥感知识迁移)   │                            │
│         └────────┬─────────┘                            │
│                  │                                      │
│                  ▼                                      │
│         ┌──────────────────┐                            │
│         │    分割头输出     │                            │
│         └──────────────────┘                            │
│                                                         │
└─────────────────────────────────────────────────────────┘

数据集

  • 构建了OVRSISBench基准,基于多个广泛使用的遥感分割数据集
  • 包括不同场景:城市、农田、水域、森林等
  • 支持多种分割粒度:语义分割、实例分割

基线方法

  • CAT-Seg:基于成本图微调的开放词汇分割
  • SED:简单编码器-解码器架构
  • ODISE:基于扩散模型的开放词汇分割
  • OVSeg:开放词汇语义分割

评估指标

  • mIoU(平均交并比)
  • mACC(平均准确率)
  • 推理速度(FPS)
方法mIoUmACCFPS参数量
CAT-Seg42.358.712.5386M
SED44.161.218.2312M
ODISE45.662.88.3452M
OVSeg43.860.515.7398M
RSKT-Seg48.467.125.6285M

关键发现

  • mIoU提升3.8%(相比次优方法)
  • mACC提升5.9%
  • 推理速度提升2倍
  • 参数量减少10%
组件mIoUmACCFPS
基线(无RS-CMA)44.261.532.1
+RS-CMA46.864.328.3
+RS-Fusion47.966.226.1
+RS-Transfer48.467.125.6

消融分析

  • RS-CMA贡献最大,提升mIoU 2.6%
  • RS-Fusion在保持效率的同时提升性能
  • RS-Transfer进一步优化领域适配

旋转不变性验证

  • 测试图像旋转0°、90°、180°、270°
  • 分割结果保持一致性,IoU变化<1%
  • 证明RS-CMA模块的有效性

开放词汇能力

  • 成功分割训练中未见的类别
  • 如"太阳能板"、“风力发电机"等新兴地物
  • 展示强大的泛化能力
  1. 旋转不变性是遥感分割的关键:遥感图像的俯视特性使得目标方向任意,传统方法难以应对。RS-CMA模块通过多方向聚合优雅地解决了这一问题。

  2. 效率与性能可以兼得:通过轻量级降维设计,RS-Fusion在保持高性能的同时显著降低计算成本。

  3. 领域迁移需要渐进式策略:RS-Transfer的两阶段设计避免了直接微调导致的灾难性遗忘。

层次贡献创新性
模块级RS-CMA、RS-Fusion、RS-Transfer
架构级三模块协同设计中高
系统级OVRSISBench基准
  1. 旋转不变性设计精妙:通过多方向成本图聚合,优雅地解决了遥感图像的方向任意性问题,比传统数据增强更高效。

  2. 效率优化显著:轻量级降维策略使推理速度提升2倍,适合大规模遥感数据处理。

  3. 领域适配策略合理:渐进式迁移避免了预训练知识的丢失,同时有效适配遥感领域。

  1. 方向离散化:使用8个离散方向可能无法完全覆盖连续旋转,存在信息损失。

  2. 文本描述依赖:开放词汇分割依赖于文本描述的质量,对模糊或不准确的描述敏感。

  3. 计算资源需求:虽然效率提升,但仍需要GPU支持,难以在边缘设备部署。

  1. 连续旋转建模:探索连续旋转空间的建模方法,避免离散化损失。

  2. 多模态融合:结合SAR、高光谱等多模态数据,提升分割精度。

  3. 轻量化部署:进一步压缩模型,支持边缘设备和实时处理。

  4. 增量学习:支持新类别的持续学习,无需重新训练整个模型。

RSKT-Seg是一篇针对遥感图像开放词汇分割的优秀工作,其核心贡献在于提出了三个精心设计的模块来解决遥感领域的独特挑战。

RS-CMA模块通过多方向成本图聚合实现了旋转不变性,这是遥感图像处理的关键需求。该设计不仅有效,而且计算高效,仅需线性复杂度增长。

RS-Fusion模块通过轻量级降维策略,在保持高性能的同时显著提升了推理速度。这种效率优化对于大规模遥感数据处理至关重要。

RS-Transfer模块通过渐进式领域迁移,成功将预训练的视觉-语言模型适配到遥感领域,避免了灾难性遗忘。

实验结果表明,RSKT-Seg在mIoU、mACC和推理速度三个关键指标上均优于现有方法,证明了其有效性和实用性。该工作不仅推进了遥感图像分割的技术前沿,也为开放词汇分割在垂直领域的应用提供了有价值的参考。

作为AAAI 2026 Oral论文,RSKT-Seg展示了中国学者在遥感AI领域的创新能力,对于推动遥感图像智能解译具有重要意义。

  1. Li, B., Li, X., et al. “Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing.” arXiv preprint arXiv:2509.12040 (2025).
  2. OpenAI. “Learning transferable visual models from natural language supervision.” ICML 2021.
  3. Cho, J., et al. “CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation.” CVPR 2024.
  4. Xu, J., et al. “SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation.” CVPR 2024.
  5. Xu, J., et al. “ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models.” CVPR 2023.
  6. Liang, F., et al. “Open-Vocabulary Semantic Segmentation with Mask-Adapted CLIP.” CVPR 2023.

Related Content