UniGeoSeg:百万级数据集驱动的统一开放世界遥感分割框架
UniGeoSeg:百万级数据集驱动的统一开放世界遥感分割框架
论文解读 | CVPR 2026 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes |
| 作者 | Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang |
| 单位 | 北京理工大学、武汉大学、中关村学院、香港理工大学 |
| 会议 | CVPR 2026 |
| arXiv | https://arxiv.org/abs/2511.23332 |
| GitHub | https://github.com/MiliLab/UniGeoSeg |
| 关键词 | 指令驱动分割、开放世界分割、GeoSeg-1M数据集、统一框架、多任务学习 |
🎯 解决的核心问题
问题背景
在遥感图像分析中,指令驱动分割(Instruction-Driven Segmentation)是一种新兴的范式,用户可以通过自然语言指令来指定需要分割的目标区域。这种交互方式极大地提升了遥感图像分析的可访问性和通用性,在城市规划、环境监测、灾害评估等领域具有广泛的应用前景。
现有方法的局限
然而,当前的指令驱动分割方法面临三个核心挑战:
任务碎片化:现有方法通常只针对单一任务(如引用分割或交互分割)进行设计,缺乏统一的框架来处理多种指令类型。这导致模型难以利用不同任务之间的互补性,限制了跨任务的迁移能力。
数据规模不足:当前的遥感指令分割数据集规模有限,且在视觉和文本领域的多样性不足。例如,RefSegRS仅有285张图像和4.4K样本,RRSIS-D也只有17K样本。这种数据稀缺性严重制约了模型的泛化能力。
推理能力薄弱:现有方法在处理需要复杂上下文理解和推理的指令时表现不佳。例如,当指令涉及空间关系、属性约束或因果推理时,模型往往无法准确理解用户意图。
核心问题提炼
如何构建一个统一的、具备强大推理能力的指令驱动分割框架,以应对遥感图像中多样化的分割需求?
💡 解决方案
核心创新点1:GeoSeg-1M百万级数据集
设计动机:现有数据集规模小、任务单一,无法支撑统一框架的训练。需要构建一个大规模、多任务、高质量的指令分割数据集。
具体实现:
数据来源整合:整合了18个公开的遥感分割数据集,包括SkyScapes、DIOR、DOTA、LoveDA、Potsdam等,涵盖0.05m到153m的空间分辨率。
自动化构建流水线:
原始数据集 → 掩码过滤 → 指令生成 → 质量控制 → GeoSeg-1M掩码过滤机制:
- 将掩码分解为连通区域
- 移除不可靠区域(碎片化、边界不精确)
- 使用InternVL3自动评估掩码质量
- 仅保留高质量掩码
指令生成策略:
- 引用分割(336K样本):使用GPT-4o生成强调空间和上下文定位的引用表达
- 交互分割(481K样本):从掩码几何生成固定格式的文本指令(点或框)
- 推理分割(105K样本):生成需要属性推理或上下文推理的问题
关键细节:
- 数据集规模:590K图像,117个类别,1.1M图像-掩码-指令三元组
- 平均文本长度:引用12.05词,交互9.80词,推理23.93词
- 使用GPT-4o生成指令,InternVL3-78B和QwenVL2-72B交叉评估质量
核心创新点2:UniGeoSeg统一框架
设计动机:需要一个能够处理多种指令类型的统一框架,同时保持强大的推理能力。
整体架构:
输入图像 + 文本指令
↓
[层次化视觉编码器] → 多尺度空间特征
↓
[任务自适应文本增强] → 增强的文本嵌入
↓
[大语言模型] → 语义理解
↓
[潜在知识记忆] → 跨任务知识共享
↓
[像素级解码器] → 分割掩码任务自适应文本增强(TATE)
核心洞察:不同类型的分割指令需要不同的语义聚焦和视觉对齐方式。
三种增强路径:
交互分割增强:
- 将用户提供的空间线索(点击点或边界框)编码到文本嵌入空间
- 公式:$\tilde{\mathbf{E}}{\text{int}} = \mathrm{Fusion}(\mathbf{E}{t}, \mathbf{Proj}(\mathbf{C}_{t}))$
- 显式注入坐标感知的空间线索
引用分割增强:
- 使用单个可学习查询向量通过注意力机制增强token嵌入
- 公式:$\tilde{\mathbf{E}}{\text{ref}} = \mathrm{softmax}(\frac{\mathbf{q} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}_{t}$
- 选择性地强调关键词和对象相关线索
推理分割增强:
- 使用多查询注意力捕获多维度推理模式
- 公式:$\mathbf{E}{\text{res}} = \frac{1}{h} \sum{i=1}^{h} \mathrm{softmax}(\frac{\mathbf{q}{i} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}{t} + \mathbf{E}{t} \mathbf{W}_{G}$
- 融合全局聚合信息,支持长文本推理
潜在知识记忆(LKM)
设计动机:多任务训练中,每个任务往往学习孤立的表示,限制了跨任务的语义迁移。
实现机制:
- 维护$N$个可学习的记忆槽${\mathbf{M}{n}}{n=1}^{N}$
- 通过注意力机制从记忆中检索潜在知识: $$\mathbf{Z} = \sum_{n=1}^{N} \mathrm{softmax}(\mathbf{H} \mathbf{M}{n}^{\top}) \mathbf{M}{n}$$
- 通过加权方案融合检索的知识与原始嵌入: $$\tilde{\mathbf{H}} = (1 - \lambda) \mathbf{H} + \lambda \mathbf{Z}$$
- 超参数$\lambda$控制记忆的影响程度
渐进式任务调度(PTS)
核心思想:不同任务具有不同的难度和数据量,需要动态调整训练策略。
具体实现:
- 交互分割:相对简单且数据丰富,逐步降低采样权重
- 引用分割:中等难度,保持稳定
- 推理分割:最困难且数据稀缺,逐步增加采样权重
训练策略:
- 早期强调交互任务,帮助模型获取基本空间推理能力
- 后期减少交互任务权重,避免过拟合,鼓励关注更困难的推理任务
- 类似于课程学习,从简单到困难平滑过渡
🔬 实验验证
实验设置
数据集:
- 训练:GeoSeg-1M
- 评估:GeoSeg-Bench、RRSIS-D、EarthReason
- 零样本:SIOR(交互分割)、DIOR-RSVG(视觉定位)
基线方法:
- 通用模型:LISA、PixelLM、PSALM
- 遥感专用模型:Geopixel、Geopix、RemoteSAM、Earthmind、LISAT、Segearth-R1
评估指标:
- gIoU(全局IoU):每个样本的平均IoU,作为主要指标
- cIoU(累积IoU):所有像素的加权IoU,作为补充指标
核心结果
表1:GeoSeg-Bench结果
| 方法 | 交互分割 | 引用分割 | 推理分割 |
|---|---|---|---|
| cIoU / gIoU | cIoU / gIoU | cIoU / gIoU | |
| 未微调 | |||
| LISA | 2.52 / 3.12 | 3.53 / 4.56 | 7.09 / 5.77 |
| PSALM | 6.35 / 10.83 | 31.77 / 18.91 | 11.88 / 9.27 |
| Geopixel | 17.21 / 18.71 | 37.34 / 40.14 | 27.36 / 26.71 |
| Earthmind | 16.38 / 16.57 | 44.53 / 46.48 | 31.01 / 28.80 |
| 微调后 | |||
| PSALM | 70.78 / 74.10 | 68.70 / 71.15 | 47.53 / 49.59 |
| Segearth-R1 | 72.09 / 75.00 | 70.76 / 72.98 | 53.31 / 51.56 |
| UniGeoSeg | 74.44 / 76.37 | 72.60 / 74.25 | 58.20 / 52.96 |
关键发现:
- UniGeoSeg在所有三个任务上都达到了最优性能
- 未微调的模型在GeoSeg-Bench上表现很差,说明现有模型缺乏上下文理解和推理能力
- 微调后性能显著提升,但仍落后于UniGeoSeg
表2:EarthReason和RRSIS-D结果
| 方法 | EarthReason (Test) | RRSIS-D |
|---|---|---|
| cIoU / gIoU | cIoU / gIoU | |
| LISA | 61.04 / 60.88 | 27.84 / 26.78 |
| Geopixel | 53.90 / 52.53 | 83.33 / 67.30 |
| Segearth-R1 | 68.60 / 70.75 | 67.56 / 66.40 |
| UniGeoSeg | 75.67 / 73.12 | 81.35 / 72.23 |
关键发现:
- 在EarthReason测试集上,UniGeoSeg比之前的最优方法高出6.65和2.16个百分点
- 在RRSIS-D上也表现出色,展示了框架的通用性
表3:零样本交互分割结果(SIOR)
| 方法 | Box | Point | Average |
|---|---|---|---|
| cIoU / gIoU | cIoU / gIoU | cIoU / gIoU | |
| SAM2 | 91.23 / 92.27 | 71.47 / 76.45 | 80.34 / 84.36 |
| RemoteSAM | 12.02 / 21.89 | 12.32 / 20.45 | 12.18 / 21.17 |
| PSALM | 48.09 / 57.36 | 40.60 / 51.08 | 44.01 / 51.95 |
| UniGeoSeg | 90.60 / 90.94 | 84.61 / 86.60 | 87.42 / 88.77 |
关键发现:
- UniGeoSeg在零样本交互分割上表现出色,接近SAM2的性能
- 在点提示场景下显著优于其他方法
表4:零样本视觉定位结果(DIOR-RSVG)
| 方法 | cIoU | gIoU | PR@0.3 | PR@0.5 | PR@0.7 |
|---|---|---|---|---|---|
| LISA | - | 27.78 | - | 25.80 | - |
| GeoChat | - | 32.53 | - | 27.61 | - |
| Qwen2.5-VL | - | 31.93 | - | 30.35 | - |
| UniGeoSeg | 70.82 | 59.67 | 74.94 | 67.84 | 55.11 |
关键发现:
- UniGeoSeg在视觉定位任务上大幅领先所有基线方法
- cIoU达到70.82,比之前的最优方法高出39.54个百分点
消融实验
表5:TATE和LKM模块消融
| TATE | LKM | 交互分割 | 引用分割 | 推理分割 |
|---|---|---|---|---|
| ✓ | 84.61 (+2.10) | 64.70 (+0.08) | 35.64 (+2.76) | |
| ✓ | 81.97 (-0.54) | 65.21 (+0.59) | 33.85 (+0.97) | |
| ✓ | ✓ | 84.84 (+2.33) | 66.37 (+1.75) | 37.06 (+4.18) |
关键发现:
- TATE和LKM模块都对性能有贡献
- 两者结合效果最佳,推理分割提升4.18个百分点
表6:TATE分支消融
| 配置 | 交互分割 | 引用分割 | 推理分割 |
|---|---|---|---|
| 无TATE | 81.97 | 65.21 | 33.85 |
| 全部使用引用分支 | 81.29 (-0.68) | 65.44 (+0.23) | 33.88 (+0.03) |
| 完整TATE | 84.84 | 66.37 | 37.06 |
关键发现:
- 任务特定的增强路径比统一路径更有效
- 完整的TATE设计在所有任务上都表现最佳
可视化分析
论文提供了丰富的可视化案例,展示了UniGeoSeg在不同场景下的分割效果:
- 引用分割:能够准确理解复杂的引用表达,如"the building to the left of the park"
- 交互分割:能够根据点击点或边界框生成精确的分割掩码
- 推理分割:能够处理需要上下文推理的指令,如"the area that is likely to flood"
💭 深度评价
核心洞察
任务统一的价值:通过统一框架处理多种指令类型,可以利用任务之间的互补性,提升整体性能。这比为每个任务单独设计模型更有效。
数据规模的重要性:百万级数据集GeoSeg-1M的构建是成功的关键。大规模、高质量的数据支撑了统一框架的训练。
任务特定增强的必要性:不同类型的指令需要不同的语义聚焦方式。TATE的设计体现了对任务差异的深刻理解。
技术贡献层次
数据层贡献:GeoSeg-1M是首个百万级遥感指令分割数据集,具有里程碑意义。
方法层贡献:
- TATE:任务自适应的文本增强机制
- LKM:跨任务知识共享的记忆模块
- PTS:渐进式任务调度策略
系统层贡献:提供了一个完整的、可复现的统一框架,包括数据、模型、评估基准。
优点(3个)
数据集规模和质量:GeoSeg-1M的规模(590K图像、1.1M样本)和多样性(117个类别、0.05m-153m分辨率)在遥感领域是前所未有的。自动化构建流水线确保了数据质量。
统一框架设计:UniGeoSeg通过TATE、LKM、PTS三个模块,优雅地解决了多任务学习中的关键挑战。框架设计模块化,易于扩展。
全面的实验验证:论文在多个基准上进行了广泛的实验,包括有监督和零样本设置,充分验证了方法的有效性。
局限性(3个)
计算资源需求:模型需要8个NVIDIA A800 GPU进行训练,对资源有限的研究团队可能构成门槛。
推理分割性能仍有提升空间:虽然推理分割取得了最优性能(58.20 cIoU),但与交互分割(74.44 cIoU)和引用分割(72.60 cIoU)相比仍有较大差距,说明复杂推理仍是挑战。
数据集构建依赖商业模型:指令生成依赖GPT-4o等商业模型,可能带来成本和可访问性问题。
未来方向
扩展指令类型:可以探索更多类型的指令,如视频分割、3D分割、时序变化检测等。
提升推理能力:可以引入更强大的推理机制,如链式思考(Chain-of-Thought)或外部知识库。
降低资源需求:可以探索模型压缩、知识蒸馏等技术,降低训练和推理的资源需求。
多模态融合:可以融合更多模态的信息,如SAR、高光谱、LiDAR等,提升模型的感知能力。
📝 总结
UniGeoSeg是遥感指令驱动分割领域的一项重要工作。它通过构建百万级数据集GeoSeg-1M和提出统一框架UniGeoSeg,解决了现有方法面临的任务碎片化、数据不足和推理能力薄弱三大挑战。
论文的核心贡献在于:
- 数据集层面:GeoSeg-1M是首个百万级遥感指令分割数据集,涵盖了引用、交互和推理三种任务类型,为统一框架的训练提供了坚实基础。
- 方法层面:UniGeoSeg通过TATE、LKM、PTS三个创新模块,优雅地解决了多任务学习中的关键挑战,实现了强大的性能。
- 系统层面:论文提供了完整的开源实现,包括数据、模型、评估基准,为后续研究提供了便利。
实验结果表明,UniGeoSeg在多个基准上都达到了最优性能,特别是在零样本视觉定位任务上大幅领先所有基线方法。这证明了统一框架和大规模数据的价值。
尽管存在一些局限性,如计算资源需求较高、推理分割性能仍有提升空间等,但UniGeoSeg为遥感指令分割领域树立了新的标杆,为未来的研究指明了方向。
参考文献
- Kirillov, A., et al. “Segment anything.” ICCV 2023.
- Lai, X., et al. “LISA: Reasoning segmentation via large language model.” CVPR 2024.
- Zhang, Y., et al. “PSALM: Pixelwise segmentatIon with large multimodal model.” CVPR 2024.
- Shabbir, A., et al. “GeoPixel: Pixel grounding large multimodal model in remote sensing.” ICML 2025.
- Ou, Y., et al. “Geopix: Multi-modal large vision model for remote sensing.” 2025.
- Yao, Y., et al. “RemoteSAM: Towards segment anything for earth observation.” 2025.
- Shu, M., et al. “Earthmind: Multi-modal large language model for remote sensing.” 2025.
- Quenum, T., et al. “LISAT: Language-instructed segmentation for remote sensing.” 2025.
- Li, Z., et al. “Segearth-R1: Geospatial pixel reasoning.” 2025.
- Liu, Y., et al. “RRSIS-D: Referring remote sensing image segmentation.” 2024.