SAM 3赋能遥感开放词汇分割:SegEarth-OV3的免训练新范式

SAM 3赋能遥感开放词汇分割:SegEarth-OV3的免训练新范式

论文解读 | arXiv 2025 | 2026-06-01

项目内容
标题SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
作者详见论文
会议/期刊arXiv 2025 (arXiv:2512.08730)
arXiv链接https://arxiv.org/abs/2512.08730
GitHubhttps://github.com/earth-insights/SegEarth-OV-3
关键词开放词汇分割、SAM 3、遥感图像、免训练、变化检测

遥感图像语义分割是地球观测的核心任务,但传统方法受限于闭集假设——只能识别训练集中预定义的类别。在实际应用中,遥感场景包含无数未知类别,手动标注成本高昂且不切实际。

  1. CLIP基方法的困境:现有的免训练开放词汇分割方法主要基于CLIP,但在遥感场景中面临精确定位困难,尤其是处理密集小目标时表现不佳。

  2. 复杂流水线问题:一些方法需要复杂的模块组合来分别处理语义和实例信息,增加了系统复杂度。

  3. 大词汇量挑战:地理空间场景中词汇量庞大,patch级处理容易产生大量误报。

如何利用最新的SAM 3模型,在遥感图像中实现高效、免训练的开放词汇语义分割,并扩展到变化检测等更多任务?

设计动机:SAM 3同时具备语义分割头(semantic head)和Transformer解码器(instance head),两者各有优势:

  • 语义分割头:擅长土地覆盖分类
  • 实例头:擅长目标实例识别

具体实现

输入图像 → SAM 3编码器 → 特征提取
    ┌──────────┴──────────┐
    ↓                      ↓
语义分割头            实例头(Transformer解码器)
    ↓                      ↓
语义logits            实例logits
    └──────────┬──────────┘
          Mask融合
         最终分割结果

关键细节:融合策略不是简单平均,而是利用两个头的互补性,实现更全面的土地覆盖识别。

设计动机:遥感场景词汇量大,很多类别在特定场景中根本不存在,但模型可能产生虚假响应。

具体实现

  • 利用SAM 3的presence head输出的presence score
  • 过滤掉场景中不存在的类别
  • 显著减少由大词汇量引起的误报
# 伪代码示意
presence_scores = sam3.presence_head(features)  # 获取各类别存在概率
valid_categories = presence_scores > threshold  # 过滤不存在的类别
final_logits = fused_logits * valid_categories  # 应用过滤

设计动机:开放词汇分割能力可以自然扩展到变化检测任务。

具体实现

  • 基于融合后的logits构建联合实例级和像素级验证策略
  • 实例级:检测目标的出现/消失
  • 像素级:精确定位变化区域
┌─────────────────────────────────────────────────────────┐
│                    SegEarth-OV3                         │
├─────────────────────────────────────────────────────────┤
│  输入: 遥感图像 + 文本词汇表                             │
│                    ↓                                     │
│  ┌─────────────────────────────────────┐                │
│  │         SAM 3 编码器                │                │
│  └─────────────────────────────────────┘                │
│                    ↓                                     │
│  ┌───────────────┴───────────────┐                      │
│  ↓                               ↓                      │
│ 语义分割头                   实例头                       │
│  ↓                               ↓                      │
│  └───────────────┬───────────────┘                      │
│                  ↓                                       │
│  ┌─────────────────────────────────┐                    │
│  │      Mask融合 + Presence过滤    │                    │
│  └─────────────────────────────────┘                    │
│                  ↓                                       │
│  ┌───────────┬───────────┐                              │
│  ↓           ↓           ↓                              │
│ 2D分割   变化检测     3D分割                             │
└─────────────────────────────────────────────────────────┘

评估任务

  • 2D语义分割:20个数据集
  • 变化检测:3个数据集
  • 3D语义分割:1个数据集

基线方法

  • SCAN (CVPR2024)
  • SAN (CVPR2024)
  • SED (CVPR2024)
  • Cat-Seg (CVPR2024)
  • SkySense-O (CVPR2025)
  • GEM (CVPR2024)
  • ClearCLIP (ECCV2024)

开放词汇语义分割性能对比(mIoU %)

方法OpenEarthMapLoveDAiSAIDPotsdamVaihingenUAVidUDD5VDD平均
SCAN-23.244.327.515.220.334.129.2-
SAN-25.349.637.339.223.235.8--
SED-24.651.229.439.021.335.732.5-
Cat-Seg-28.653.335.842.325.740.239.1-
SkySense-O40.838.343.954.151.6----
GEM33.931.617.739.136.433.441.239.532.3
ClearCLIP31.032.418.242.036.236.241.839.333.4
SegEarth-OV345.241.555.858.354.738.947.644.248.3

关键发现

  • SegEarth-OV3在所有数据集上均取得最佳性能
  • 平均mIoU达到48.3%,显著超越现有方法
  • 在密集小目标场景(如iSAID)中提升尤为明显
配置平均mIoU说明
仅语义头42.1基准
仅实例头44.5+2.4%
Mask融合46.8+4.7%
+ Presence过滤48.3+6.2%

分析

  • Mask融合带来2.3%提升,证明两个头的互补性
  • Presence过滤进一步提升1.5%,有效减少误报

论文展示了丰富的可视化结果,包括:

  1. 城市场景中的建筑物、道路分割
  2. 农田、森林等土地覆盖分类
  3. 水体、湿地等自然地貌识别
  4. 变化检测中的新增/消失目标定位
  1. SAM 3的潜力被低估:SAM 3不仅是一个分割模型,其内部的多头设计天然适合开放词汇任务。

  2. 免训练的可行性:通过巧妙利用预训练模型的内部组件,可以在不进行任何微调的情况下实现高质量开放词汇分割。

  3. 任务统一的可能性:同一框架可以同时处理2D分割、变化检测和3D分割,展示了基础模型的通用性。

层次贡献影响
方法论提出Mask融合和Presence过滤策略建立免训练OVSS新范式
工程实践无需训练即可部署大幅降低应用门槛
任务拓展扩展到变化检测和3D分割展示方法通用性
  1. 真正免训练:不需要任何遥感数据的微调,直接利用SAM 3预训练权重,部署成本极低。

  2. 多任务统一:同一框架支持2D分割、变化检测、3D分割,避免为每个任务单独设计模型。

  3. 性能领先:在20+数据集上全面超越现有方法,平均mIoU提升显著(48.3% vs 33.4%)。

  1. 依赖SAM 3:性能上限受限于SAM 3的预训练质量,对于SAM 3未见过的遥感特定目标可能表现不佳。

  2. 计算开销:SAM 3本身计算量较大,在资源受限的边缘设备上部署可能存在挑战。

  1. 与遥感专用VLM结合:将SAM 3与遥感领域的大语言模型结合,进一步提升语义理解能力。

  2. 时序扩展:利用多时相遥感数据,实现动态变化监测。

  3. 轻量化部署:探索模型压缩和加速技术,支持实时遥感分析。

SegEarth-OV3是一篇具有重要实践价值的论文。它首次系统性地探索了SAM 3在遥感开放词汇分割中的应用,提出了简单而有效的Mask融合和Presence过滤策略,实现了真正免训练的开放词汇语义分割。

该方法的核心优势在于其简洁性和通用性:不需要复杂的模块设计,不需要昂贵的数据标注,只需要巧妙利用SAM 3的内部组件就能达到SOTA性能。这种"站在巨人肩膀上"的研究思路值得借鉴。

从更宏观的角度看,SegEarth-OV3展示了基础模型在遥感领域的巨大潜力。随着SAM、CLIP等通用视觉模型的不断发展,遥感图像分析正在从"专用模型"向"通用模型+领域适配"的范式转变。SegEarth-OV3正是这一趋势的典型代表。

  1. SAM 3: Segment Anything Model 3
  2. CLIP: Learning Transferable Visual Models From Natural Language Supervision
  3. SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images (CVPR 2025)
  4. SkySense-O: Towards Open-World Remote Sensing Interpretation (CVPR 2025)

Related Content