ROS-SAM:遥感视频中运动目标的高质量交互式分割

ROS-SAM:遥感视频中运动目标的高质量交互式分割

论文解读 | CVPR 2025 | 2026-06-01

项目内容
标题ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
作者Zhe Shan, Yang Liu, Lei Zhou, Cheng Yan, Heng Wang, Xia Xie
会议CVPR 2025
arXivhttps://openaccess.thecvf.com/content/CVPR2025/html/Shan_ROS-SAM_High-Quality_Interactive_Segmentation_for_Remote_Sensing_Moving_Object_CVPR_2025_paper.html
GitHubhttps://github.com/ShanZard/ROS-SAM
关键词遥感视频分割、交互式分割、SAM、LoRA微调、运动目标

遥感视频数据的普及为动态目标监测带来了新的机遇与挑战。与静态遥感图像不同,视频数据包含时间维度信息,能够捕捉运动目标的动态变化。然而,现有方法在处理遥感视频分割时面临三大难题:

  1. 目标尺寸小:遥感图像中的运动目标通常占据很小的像素比例,难以准确识别
  2. 特征模糊:小目标的语义特征不明显,容易与其他地物混淆
  3. 泛化能力不足:针对特定场景训练的模型难以迁移到其他遥感数据

SAM(Segment Anything Model) 虽然在通用图像分割领域表现出色,但直接应用于遥感视频时存在以下问题:

  • 领域差异:SAM在自然图像上预训练,对遥感图像的特殊性(俯视视角、多尺度目标)适应不足
  • 时序信息缺失:SAM是单帧分割模型,无法充分利用视频的时序连续性
  • 细节丢失:SAM的编码器对深层特征的处理不够精细,导致分割边界模糊

如何在保持SAM强大泛化能力的同时,实现遥感视频中运动目标的高质量交互式分割?

设计动机:直接全参数微调SAM会破坏其在大规模数据上学到的通用表示能力,导致过拟合到遥感领域。

具体实现

# LoRA微调SAM编码器
class LoRAAdapter(nn.Module):
    def __init__(self, in_dim, rank=4):
        super().__init__()
        self.lora_A = nn.Linear(in_dim, rank, bias=False)
        self.lora_B = nn.Linear(rank, in_dim, bias=False)
        nn.init.kaiming_uniform_(self.lora_A.weight)
        nn.init.zeros_(self.lora_B.weight)
    
    def forward(self, x):
        return x + self.lora_B(self.lora_A(x))

关键细节

  • 仅对ViT编码器的注意力层添加LoRA适配器
  • rank设置为4,在参数效率和性能间取得平衡
  • 冻结原始SAM权重,仅训练LoRA参数(约0.1%的总参数量)

设计动机:SAM的编码器在深层逐渐丢失空间细节,导致小目标的特征表示不充分。

具体实现

class DeepEnhancementModule(nn.Module):
    def __init__(self, dim=256):
        super().__init__()
        self.conv1 = nn.Conv2d(dim, dim, 3, padding=1)
        self.conv2 = nn.Conv2d(dim, dim, 3, padding=1)
        self.norm = nn.BatchNorm2d(dim)
        self.relu = nn.ReLU(inplace=True)
    
    def forward(self, x):
        residual = x
        x = self.conv1(x)
        x = self.norm(x)
        x = self.relu(x)
        x = self.conv2(x)
        return x + residual  # 残差连接

关键细节

  • 在SAM编码器的第4、6、8层后插入增强模块
  • 使用残差连接保持梯度流
  • 通过卷积操作增强局部空间特征

设计动机:全局上下文有助于理解场景语义,局部细节对精确边界至关重要。

具体实现

class GlobalLocalFusion(nn.Module):
    def __init__(self, dim=256):
        super().__init__()
        self.global_pool = nn.AdaptiveAvgPool2d(1)
        self.local_conv = nn.Conv2d(dim, dim, 3, padding=1)
        self.fusion = nn.Conv2d(dim*2, dim, 1)
    
    def forward(self, x):
        # 全局特征
        global_feat = self.global_pool(x)
        global_feat = global_feat.expand_as(x)
        
        # 局部特征
        local_feat = self.local_conv(x)
        
        # 融合
        fused = torch.cat([global_feat, local_feat], dim=1)
        return self.fusion(fused)

关键细节

  • 全局分支使用自适应平均池化提取场景级语义
  • 局部分支使用3×3卷积捕获边界细节
  • 通过1×1卷积融合两个分支的特征
输入:遥感视频帧 + 用户点击提示
┌─────────────────────────────────────┐
│         SAM图像编码器(LoRA微调)      │
│  ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐   │
│  │Layer1│ │Layer2│ │Layer3│ │Layer4│   │
│  └─────┘ └─────┘ └─────┘ └──┬──┘   │
│                              ↓      │
│                    深层增强模块       │
│                              ↓      │
│                    全局-局部融合      │
└─────────────────────────────────────┘
┌─────────────────────────────────────┐
│          SAM掩码解码器              │
│    ┌─────────────────────────┐     │
│    │  交叉注意力 + 上采样      │     │
│    └─────────────────────────┘     │
└─────────────────────────────────────┘
输出:高质量分割掩码

训练阶段

  • 多尺度目标增强:随机缩放0.5x-2.0x
  • 运动模糊模拟:模拟遥感平台抖动
  • 时序一致性约束:相邻帧目标位置平滑

推理阶段

  • 自适应提示框生成
  • 多帧投票机制
  • 边界后处理优化

数据集

  • VISO:遥感视频目标分割数据集
  • DAVIS:视频分割基准(迁移测试)
  • YouTube-VOS:大规模视频分割数据集

基线方法

  • SAM(原版)
  • SAM + LoRA(无增强)
  • VideoSAM
  • XMem++
  • Cutie

评估指标

  • IoU:交并比
  • Boundary IoU:边界精度
  • F1-Score:精确率与召回率的调和平均
方法VISO IoUVISO B-IoUDAVIS IoU参数量(M)
SAM(原版)65.258.372.1636
SAM + LoRA71.864.575.3636 + 0.6
VideoSAM73.466.276.8680
XMem++74.167.878.2450
Cutie75.669.179.5480
ROS-SAM78.974.381.2636 + 0.6

关键发现

  • ROS-SAM在VISO数据集上IoU提升3.3%,Boundary IoU提升5.2%
  • 参数量仅增加0.1%,保持高效推理
  • 在DAVIS上也展现出强泛化能力
配置IoUB-IoU提升
基线(SAM + LoRA)71.864.5-
+ 深层增强75.269.8+3.4 / +5.3
+ 全局-局部融合77.172.1+5.3 / +7.6
+ 数据管道优化78.974.3+7.1 / +9.8

分析

  • 深层增强模块对边界精度提升最显著(+5.3 B-IoU)
  • 全局-局部融合对整体IoU贡献最大(+1.9 IoU)
  • 数据管道优化带来额外1.8 IoU提升

案例1:小型车辆检测

  • 原版SAM:漏检率高,边界模糊
  • ROS-SAM:准确检测,边界清晰

案例2:船只跟踪

  • 原版SAM:在波浪干扰下失效
  • ROS-SAM:稳定跟踪,抗干扰能力强

案例3:建筑变化检测

  • 原版SAM:无法区分相似建筑
  • ROS-SAM:结合时序信息,准确识别变化区域

“保持泛化,增强细节” 是ROS-SAM的核心设计哲学。通过LoRA微调保持SAM的通用能力,再通过轻量级模块增强遥感特异性,这种"冻结+适配"的策略值得借鉴。

  1. 架构层面:提出LoRA+增强模块的混合微调范式
  2. 算法层面:设计全局-局部特征融合机制
  3. 工程层面:重设计数据管道适配遥感场景
  1. 高效性:仅增加0.1%参数,训练成本低
  2. 通用性:可迁移到其他遥感分割任务
  3. 实用性:支持交互式提示,便于人机协同
  1. 时序建模不足:当前方法仍以单帧为主,未充分利用视频时序信息
  2. 计算开销:全局注意力机制在高分辨率视频上计算量大
  3. 数据依赖:需要大量标注的遥感视频数据进行训练
  1. 引入时序Transformer:使用Temporal Attention建模帧间关系
  2. 轻量化设计:探索知识蒸馏或模型剪枝
  3. 自监督预训练:利用无标注遥感视频进行预训练
  4. 多模态融合:结合SAR、多光谱等多源数据

ROS-SAM是首个针对遥感视频运动目标的高质量交互式分割方法。通过创新的LoRA微调策略、深层网络增强和全局-局部特征融合,在保持SAM强大泛化能力的同时,显著提升了遥感场景下的分割精度。

实验表明,ROS-SAM在VISO数据集上IoU达到78.9%,Boundary IoU达到74.3%,相比原版SAM分别提升13.7%和16.0%。更重要的是,该方法仅增加0.1%的参数量,训练高效,易于部署。

ROS-SAM的成功证明了"保持泛化,增强细节"的设计理念的有效性。对于遥感视频分析领域,这种轻量级适配策略具有重要的参考价值。未来工作可在此基础上进一步探索时序建模和多模态融合,推动遥感视频理解技术的发展。

  1. Kirillov, A., et al. “Segment anything.” ICCV 2023.
  2. Hu, E.J., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR 2022.
  3. Shan, Z., et al. “ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object.” CVPR 2025.
  4. Oh, S.W., et al. “Video object segmentation using space-time memory networks.” ICCV 2019.
  5. Cheng, H.K., et al. “XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model.” ECCV 2022.
  6. Liu, Y., et al. “Cutie: Putting CLIP in Context for Vision-Language Models.” CVPR 2024.

Related Content