SAM 3赋能遥感开放词汇分割:SegEarth-OV3的免训练新范式
SAM 3赋能遥感开放词汇分割:SegEarth-OV3的免训练新范式
论文解读 | arXiv 2025 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images |
| 作者 | 详见论文 |
| 会议/期刊 | arXiv 2025 (arXiv:2512.08730) |
| arXiv链接 | https://arxiv.org/abs/2512.08730 |
| GitHub | https://github.com/earth-insights/SegEarth-OV-3 |
| 关键词 | 开放词汇分割、SAM 3、遥感图像、免训练、变化检测 |
🎯 解决的核心问题
问题背景
遥感图像语义分割是地球观测的核心任务,但传统方法受限于闭集假设——只能识别训练集中预定义的类别。在实际应用中,遥感场景包含无数未知类别,手动标注成本高昂且不切实际。
现有方法的局限
CLIP基方法的困境:现有的免训练开放词汇分割方法主要基于CLIP,但在遥感场景中面临精确定位困难,尤其是处理密集小目标时表现不佳。
复杂流水线问题:一些方法需要复杂的模块组合来分别处理语义和实例信息,增加了系统复杂度。
大词汇量挑战:地理空间场景中词汇量庞大,patch级处理容易产生大量误报。
核心问题提炼
如何利用最新的SAM 3模型,在遥感图像中实现高效、免训练的开放词汇语义分割,并扩展到变化检测等更多任务?
💡 解决方案
核心创新点1:Mask融合策略
设计动机:SAM 3同时具备语义分割头(semantic head)和Transformer解码器(instance head),两者各有优势:
- 语义分割头:擅长土地覆盖分类
- 实例头:擅长目标实例识别
具体实现:
输入图像 → SAM 3编码器 → 特征提取
↓
┌──────────┴──────────┐
↓ ↓
语义分割头 实例头(Transformer解码器)
↓ ↓
语义logits 实例logits
└──────────┬──────────┘
↓
Mask融合
↓
最终分割结果关键细节:融合策略不是简单平均,而是利用两个头的互补性,实现更全面的土地覆盖识别。
核心创新点2:Presence Score过滤
设计动机:遥感场景词汇量大,很多类别在特定场景中根本不存在,但模型可能产生虚假响应。
具体实现:
- 利用SAM 3的presence head输出的presence score
- 过滤掉场景中不存在的类别
- 显著减少由大词汇量引起的误报
# 伪代码示意
presence_scores = sam3.presence_head(features) # 获取各类别存在概率
valid_categories = presence_scores > threshold # 过滤不存在的类别
final_logits = fused_logits * valid_categories # 应用过滤核心创新点3:扩展到变化检测
设计动机:开放词汇分割能力可以自然扩展到变化检测任务。
具体实现:
- 基于融合后的logits构建联合实例级和像素级验证策略
- 实例级:检测目标的出现/消失
- 像素级:精确定位变化区域
整体架构
┌─────────────────────────────────────────────────────────┐
│ SegEarth-OV3 │
├─────────────────────────────────────────────────────────┤
│ 输入: 遥感图像 + 文本词汇表 │
│ ↓ │
│ ┌─────────────────────────────────────┐ │
│ │ SAM 3 编码器 │ │
│ └─────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────┴───────────────┐ │
│ ↓ ↓ │
│ 语义分割头 实例头 │
│ ↓ ↓ │
│ └───────────────┬───────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────┐ │
│ │ Mask融合 + Presence过滤 │ │
│ └─────────────────────────────────┘ │
│ ↓ │
│ ┌───────────┬───────────┐ │
│ ↓ ↓ ↓ │
│ 2D分割 变化检测 3D分割 │
└─────────────────────────────────────────────────────────┘🔬 实验验证
实验设置
评估任务:
- 2D语义分割:20个数据集
- 变化检测:3个数据集
- 3D语义分割:1个数据集
基线方法:
- SCAN (CVPR2024)
- SAN (CVPR2024)
- SED (CVPR2024)
- Cat-Seg (CVPR2024)
- SkySense-O (CVPR2025)
- GEM (CVPR2024)
- ClearCLIP (ECCV2024)
核心结果
开放词汇语义分割性能对比(mIoU %):
| 方法 | OpenEarthMap | LoveDA | iSAID | Potsdam | Vaihingen | UAVid | UDD5 | VDD | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| SCAN | - | 23.2 | 44.3 | 27.5 | 15.2 | 20.3 | 34.1 | 29.2 | - |
| SAN | - | 25.3 | 49.6 | 37.3 | 39.2 | 23.2 | 35.8 | - | - |
| SED | - | 24.6 | 51.2 | 29.4 | 39.0 | 21.3 | 35.7 | 32.5 | - |
| Cat-Seg | - | 28.6 | 53.3 | 35.8 | 42.3 | 25.7 | 40.2 | 39.1 | - |
| SkySense-O | 40.8 | 38.3 | 43.9 | 54.1 | 51.6 | - | - | - | - |
| GEM | 33.9 | 31.6 | 17.7 | 39.1 | 36.4 | 33.4 | 41.2 | 39.5 | 32.3 |
| ClearCLIP | 31.0 | 32.4 | 18.2 | 42.0 | 36.2 | 36.2 | 41.8 | 39.3 | 33.4 |
| SegEarth-OV3 | 45.2 | 41.5 | 55.8 | 58.3 | 54.7 | 38.9 | 47.6 | 44.2 | 48.3 |
关键发现:
- SegEarth-OV3在所有数据集上均取得最佳性能
- 平均mIoU达到48.3%,显著超越现有方法
- 在密集小目标场景(如iSAID)中提升尤为明显
消融实验
| 配置 | 平均mIoU | 说明 |
|---|---|---|
| 仅语义头 | 42.1 | 基准 |
| 仅实例头 | 44.5 | +2.4% |
| Mask融合 | 46.8 | +4.7% |
| + Presence过滤 | 48.3 | +6.2% |
分析:
- Mask融合带来2.3%提升,证明两个头的互补性
- Presence过滤进一步提升1.5%,有效减少误报
可视化分析
论文展示了丰富的可视化结果,包括:
- 城市场景中的建筑物、道路分割
- 农田、森林等土地覆盖分类
- 水体、湿地等自然地貌识别
- 变化检测中的新增/消失目标定位
💭 深度评价
核心洞察
SAM 3的潜力被低估:SAM 3不仅是一个分割模型,其内部的多头设计天然适合开放词汇任务。
免训练的可行性:通过巧妙利用预训练模型的内部组件,可以在不进行任何微调的情况下实现高质量开放词汇分割。
任务统一的可能性:同一框架可以同时处理2D分割、变化检测和3D分割,展示了基础模型的通用性。
技术贡献层次
| 层次 | 贡献 | 影响 |
|---|---|---|
| 方法论 | 提出Mask融合和Presence过滤策略 | 建立免训练OVSS新范式 |
| 工程实践 | 无需训练即可部署 | 大幅降低应用门槛 |
| 任务拓展 | 扩展到变化检测和3D分割 | 展示方法通用性 |
优点(3个)
真正免训练:不需要任何遥感数据的微调,直接利用SAM 3预训练权重,部署成本极低。
多任务统一:同一框架支持2D分割、变化检测、3D分割,避免为每个任务单独设计模型。
性能领先:在20+数据集上全面超越现有方法,平均mIoU提升显著(48.3% vs 33.4%)。
局限性(2个)
依赖SAM 3:性能上限受限于SAM 3的预训练质量,对于SAM 3未见过的遥感特定目标可能表现不佳。
计算开销:SAM 3本身计算量较大,在资源受限的边缘设备上部署可能存在挑战。
未来方向
与遥感专用VLM结合:将SAM 3与遥感领域的大语言模型结合,进一步提升语义理解能力。
时序扩展:利用多时相遥感数据,实现动态变化监测。
轻量化部署:探索模型压缩和加速技术,支持实时遥感分析。
📝 总结
SegEarth-OV3是一篇具有重要实践价值的论文。它首次系统性地探索了SAM 3在遥感开放词汇分割中的应用,提出了简单而有效的Mask融合和Presence过滤策略,实现了真正免训练的开放词汇语义分割。
该方法的核心优势在于其简洁性和通用性:不需要复杂的模块设计,不需要昂贵的数据标注,只需要巧妙利用SAM 3的内部组件就能达到SOTA性能。这种"站在巨人肩膀上"的研究思路值得借鉴。
从更宏观的角度看,SegEarth-OV3展示了基础模型在遥感领域的巨大潜力。随着SAM、CLIP等通用视觉模型的不断发展,遥感图像分析正在从"专用模型"向"通用模型+领域适配"的范式转变。SegEarth-OV3正是这一趋势的典型代表。
参考文献
- SAM 3: Segment Anything Model 3
- CLIP: Learning Transferable Visual Models From Natural Language Supervision
- SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images (CVPR 2025)
- SkySense-O: Towards Open-World Remote Sensing Interpretation (CVPR 2025)