ROS-SAM：遥感视频中运动目标的高质量交互式分割

Mon, 01 Jun 2026 12:00:00 +0800

ROS-SAM：遥感视频中运动目标的高质量交互式分割

论文解读 | CVPR 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
作者	Zhe Shan, Yang Liu, Lei Zhou, Cheng Yan, Heng Wang, Xia Xie
会议	CVPR 2025
arXiv	https://openaccess.thecvf.com/content/CVPR2025/html/Shan_ROS-SAM_High-Quality_Interactive_Segmentation_for_Remote_Sensing_Moving_Object_CVPR_2025_paper.html
GitHub	https://github.com/ShanZard/ROS-SAM
关键词	遥感视频分割、交互式分割、SAM、LoRA微调、运动目标

🎯 解决的核心问题

问题背景

遥感视频数据的普及为动态目标监测带来了新的机遇与挑战。与静态遥感图像不同，视频数据包含时间维度信息，能够捕捉运动目标的动态变化。然而，现有方法在处理遥感视频分割时面临三大难题：

目标尺寸小：遥感图像中的运动目标通常占据很小的像素比例，难以准确识别
特征模糊：小目标的语义特征不明显，容易与其他地物混淆
泛化能力不足：针对特定场景训练的模型难以迁移到其他遥感数据

现有方法的局限

SAM（Segment Anything Model） 虽然在通用图像分割领域表现出色，但直接应用于遥感视频时存在以下问题：

领域差异：SAM在自然图像上预训练，对遥感图像的特殊性（俯视视角、多尺度目标）适应不足
时序信息缺失：SAM是单帧分割模型，无法充分利用视频的时序连续性
细节丢失：SAM的编码器对深层特征的处理不够精细，导致分割边界模糊

核心问题提炼

如何在保持SAM强大泛化能力的同时，实现遥感视频中运动目标的高质量交互式分割？

💡 解决方案

核心创新点1：LoRA微调策略

设计动机：直接全参数微调SAM会破坏其在大规模数据上学到的通用表示能力，导致过拟合到遥感领域。

具体实现：

RSRefSeg：用CLIP+SAM双剑合璧，让遥感图像\"听懂\"自然语言描述

Mon, 01 Jun 2026 12:00:00 +0800

RSRefSeg：用CLIP+SAM双剑合璧，让遥感图像"听懂"自然语言描述

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models
作者	Keyan Chen, Jiafan Zhang, Chenyang Liu, Zhengxia Zou, Zhenwei Shi
机构	未明确标注（从作者信息推断为国内高校）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2501.06809
GitHub	https://github.com/KyanChen/RSRefSeg
关键词	引用式分割、遥感图像、CLIP、SAM、基础模型、多模态对齐

🎯 解决的核心问题

问题背景

在遥感图像分析中，我们经常需要根据自然语言描述来定位和分割特定的物体或区域。例如，给定一句话"图像左上角的红色建筑物"，系统需要自动找到并分割出对应的建筑物。这种任务被称为引用式遥感图像分割（Referring Remote Sensing Image Segmentation, RRSIS）。

现有方法的局限

当前主流方法通常采用以下流程：

使用预训练语言模型（如BERT）编码文本描述
使用视觉编码器（如ResNet）提取图像特征
通过简单的拼接或注意力机制进行多模态融合
使用分割头生成最终掩膜

核心问题：这些方法在细粒度语义对齐上存在严重缺陷：

文本编码器和视觉编码器是独立训练的，缺乏内在的跨模态关联
简单的特征拼接难以捕捉细粒度语义概念（如颜色、形状、位置等）
导致文本和视觉信息之间的表示不一致，影响分割精度

核心问题提炼

如何利用现有的视觉-语言基础模型（CLIP）和图像分割基础模型（SAM），构建一个能够精确理解自然语言描述并进行细粒度分割的遥感图像分析系统？

💡 解决方案

核心创新点1：基于CLIP的语义编码与对齐

设计动机：CLIP是一个经过大规模图文对比学习训练的视觉-语言模型，天然具备强大的跨模态对齐能力。与其从头训练一个跨模态融合模块，不如直接利用CLIP的语义空间。

具体实现：

SAM - Tag - 堂堂一跑堂

ROS-SAM：遥感视频中运动目标的高质量交互式分割

ROS-SAM：遥感视频中运动目标的高质量交互式分割

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：LoRA微调策略

RSRefSeg：用CLIP+SAM双剑合璧，让遥感图像\"听懂\"自然语言描述

RSRefSeg：用CLIP+SAM双剑合璧，让遥感图像"听懂"自然语言描述

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：基于CLIP的语义编码与对齐