UniGeoSeg:百万级数据集驱动的统一开放世界遥感分割框架

UniGeoSeg:百万级数据集驱动的统一开放世界遥感分割框架

论文解读 | CVPR 2026 | 2026-06-01

项目内容
标题UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
作者Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang
单位北京理工大学、武汉大学、中关村学院、香港理工大学
会议CVPR 2026
arXivhttps://arxiv.org/abs/2511.23332
GitHubhttps://github.com/MiliLab/UniGeoSeg
关键词指令驱动分割、开放世界分割、GeoSeg-1M数据集、统一框架、多任务学习

在遥感图像分析中,指令驱动分割(Instruction-Driven Segmentation)是一种新兴的范式,用户可以通过自然语言指令来指定需要分割的目标区域。这种交互方式极大地提升了遥感图像分析的可访问性通用性,在城市规划、环境监测、灾害评估等领域具有广泛的应用前景。

然而,当前的指令驱动分割方法面临三个核心挑战:

  1. 任务碎片化:现有方法通常只针对单一任务(如引用分割或交互分割)进行设计,缺乏统一的框架来处理多种指令类型。这导致模型难以利用不同任务之间的互补性,限制了跨任务的迁移能力。

  2. 数据规模不足:当前的遥感指令分割数据集规模有限,且在视觉和文本领域的多样性不足。例如,RefSegRS仅有285张图像和4.4K样本,RRSIS-D也只有17K样本。这种数据稀缺性严重制约了模型的泛化能力。

  3. 推理能力薄弱:现有方法在处理需要复杂上下文理解和推理的指令时表现不佳。例如,当指令涉及空间关系、属性约束或因果推理时,模型往往无法准确理解用户意图。

如何构建一个统一的、具备强大推理能力的指令驱动分割框架,以应对遥感图像中多样化的分割需求?

设计动机:现有数据集规模小、任务单一,无法支撑统一框架的训练。需要构建一个大规模、多任务、高质量的指令分割数据集。

具体实现

  1. 数据来源整合:整合了18个公开的遥感分割数据集,包括SkyScapes、DIOR、DOTA、LoveDA、Potsdam等,涵盖0.05m到153m的空间分辨率。

  2. 自动化构建流水线

    原始数据集 → 掩码过滤 → 指令生成 → 质量控制 → GeoSeg-1M
  3. 掩码过滤机制

    • 将掩码分解为连通区域
    • 移除不可靠区域(碎片化、边界不精确)
    • 使用InternVL3自动评估掩码质量
    • 仅保留高质量掩码
  4. 指令生成策略

    • 引用分割(336K样本):使用GPT-4o生成强调空间和上下文定位的引用表达
    • 交互分割(481K样本):从掩码几何生成固定格式的文本指令(点或框)
    • 推理分割(105K样本):生成需要属性推理或上下文推理的问题

关键细节

  • 数据集规模:590K图像,117个类别,1.1M图像-掩码-指令三元组
  • 平均文本长度:引用12.05词,交互9.80词,推理23.93词
  • 使用GPT-4o生成指令,InternVL3-78B和QwenVL2-72B交叉评估质量

设计动机:需要一个能够处理多种指令类型的统一框架,同时保持强大的推理能力。

整体架构

输入图像 + 文本指令
[层次化视觉编码器] → 多尺度空间特征
[任务自适应文本增强] → 增强的文本嵌入
[大语言模型] → 语义理解
[潜在知识记忆] → 跨任务知识共享
[像素级解码器] → 分割掩码

核心洞察:不同类型的分割指令需要不同的语义聚焦和视觉对齐方式。

三种增强路径

  1. 交互分割增强

    • 将用户提供的空间线索(点击点或边界框)编码到文本嵌入空间
    • 公式:$\tilde{\mathbf{E}}{\text{int}} = \mathrm{Fusion}(\mathbf{E}{t}, \mathbf{Proj}(\mathbf{C}_{t}))$
    • 显式注入坐标感知的空间线索
  2. 引用分割增强

    • 使用单个可学习查询向量通过注意力机制增强token嵌入
    • 公式:$\tilde{\mathbf{E}}{\text{ref}} = \mathrm{softmax}(\frac{\mathbf{q} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}_{t}$
    • 选择性地强调关键词和对象相关线索
  3. 推理分割增强

    • 使用多查询注意力捕获多维度推理模式
    • 公式:$\mathbf{E}{\text{res}} = \frac{1}{h} \sum{i=1}^{h} \mathrm{softmax}(\frac{\mathbf{q}{i} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}{t} + \mathbf{E}{t} \mathbf{W}_{G}$
    • 融合全局聚合信息,支持长文本推理

设计动机:多任务训练中,每个任务往往学习孤立的表示,限制了跨任务的语义迁移。

实现机制

  • 维护$N$个可学习的记忆槽${\mathbf{M}{n}}{n=1}^{N}$
  • 通过注意力机制从记忆中检索潜在知识: $$\mathbf{Z} = \sum_{n=1}^{N} \mathrm{softmax}(\mathbf{H} \mathbf{M}{n}^{\top}) \mathbf{M}{n}$$
  • 通过加权方案融合检索的知识与原始嵌入: $$\tilde{\mathbf{H}} = (1 - \lambda) \mathbf{H} + \lambda \mathbf{Z}$$
  • 超参数$\lambda$控制记忆的影响程度

核心思想:不同任务具有不同的难度和数据量,需要动态调整训练策略。

具体实现

  • 交互分割:相对简单且数据丰富,逐步降低采样权重
  • 引用分割:中等难度,保持稳定
  • 推理分割:最困难且数据稀缺,逐步增加采样权重

训练策略

  • 早期强调交互任务,帮助模型获取基本空间推理能力
  • 后期减少交互任务权重,避免过拟合,鼓励关注更困难的推理任务
  • 类似于课程学习,从简单到困难平滑过渡

数据集

  • 训练:GeoSeg-1M
  • 评估:GeoSeg-Bench、RRSIS-D、EarthReason
  • 零样本:SIOR(交互分割)、DIOR-RSVG(视觉定位)

基线方法

  • 通用模型:LISA、PixelLM、PSALM
  • 遥感专用模型:Geopixel、Geopix、RemoteSAM、Earthmind、LISAT、Segearth-R1

评估指标

  • gIoU(全局IoU):每个样本的平均IoU,作为主要指标
  • cIoU(累积IoU):所有像素的加权IoU,作为补充指标

表1:GeoSeg-Bench结果

方法交互分割引用分割推理分割
cIoU / gIoUcIoU / gIoUcIoU / gIoU
未微调
LISA2.52 / 3.123.53 / 4.567.09 / 5.77
PSALM6.35 / 10.8331.77 / 18.9111.88 / 9.27
Geopixel17.21 / 18.7137.34 / 40.1427.36 / 26.71
Earthmind16.38 / 16.5744.53 / 46.4831.01 / 28.80
微调后
PSALM70.78 / 74.1068.70 / 71.1547.53 / 49.59
Segearth-R172.09 / 75.0070.76 / 72.9853.31 / 51.56
UniGeoSeg74.44 / 76.3772.60 / 74.2558.20 / 52.96

关键发现

  • UniGeoSeg在所有三个任务上都达到了最优性能
  • 未微调的模型在GeoSeg-Bench上表现很差,说明现有模型缺乏上下文理解和推理能力
  • 微调后性能显著提升,但仍落后于UniGeoSeg

表2:EarthReason和RRSIS-D结果

方法EarthReason (Test)RRSIS-D
cIoU / gIoUcIoU / gIoU
LISA61.04 / 60.8827.84 / 26.78
Geopixel53.90 / 52.5383.33 / 67.30
Segearth-R168.60 / 70.7567.56 / 66.40
UniGeoSeg75.67 / 73.1281.35 / 72.23

关键发现

  • 在EarthReason测试集上,UniGeoSeg比之前的最优方法高出6.65和2.16个百分点
  • 在RRSIS-D上也表现出色,展示了框架的通用性

表3:零样本交互分割结果(SIOR)

方法BoxPointAverage
cIoU / gIoUcIoU / gIoUcIoU / gIoU
SAM291.23 / 92.2771.47 / 76.4580.34 / 84.36
RemoteSAM12.02 / 21.8912.32 / 20.4512.18 / 21.17
PSALM48.09 / 57.3640.60 / 51.0844.01 / 51.95
UniGeoSeg90.60 / 90.9484.61 / 86.6087.42 / 88.77

关键发现

  • UniGeoSeg在零样本交互分割上表现出色,接近SAM2的性能
  • 在点提示场景下显著优于其他方法

表4:零样本视觉定位结果(DIOR-RSVG)

方法cIoUgIoUPR@0.3PR@0.5PR@0.7
LISA-27.78-25.80-
GeoChat-32.53-27.61-
Qwen2.5-VL-31.93-30.35-
UniGeoSeg70.8259.6774.9467.8455.11

关键发现

  • UniGeoSeg在视觉定位任务上大幅领先所有基线方法
  • cIoU达到70.82,比之前的最优方法高出39.54个百分点

表5:TATE和LKM模块消融

TATELKM交互分割引用分割推理分割
84.61 (+2.10)64.70 (+0.08)35.64 (+2.76)
81.97 (-0.54)65.21 (+0.59)33.85 (+0.97)
84.84 (+2.33)66.37 (+1.75)37.06 (+4.18)

关键发现

  • TATE和LKM模块都对性能有贡献
  • 两者结合效果最佳,推理分割提升4.18个百分点

表6:TATE分支消融

配置交互分割引用分割推理分割
无TATE81.9765.2133.85
全部使用引用分支81.29 (-0.68)65.44 (+0.23)33.88 (+0.03)
完整TATE84.8466.3737.06

关键发现

  • 任务特定的增强路径比统一路径更有效
  • 完整的TATE设计在所有任务上都表现最佳

论文提供了丰富的可视化案例,展示了UniGeoSeg在不同场景下的分割效果:

  1. 引用分割:能够准确理解复杂的引用表达,如"the building to the left of the park"
  2. 交互分割:能够根据点击点或边界框生成精确的分割掩码
  3. 推理分割:能够处理需要上下文推理的指令,如"the area that is likely to flood"
  1. 任务统一的价值:通过统一框架处理多种指令类型,可以利用任务之间的互补性,提升整体性能。这比为每个任务单独设计模型更有效。

  2. 数据规模的重要性:百万级数据集GeoSeg-1M的构建是成功的关键。大规模、高质量的数据支撑了统一框架的训练。

  3. 任务特定增强的必要性:不同类型的指令需要不同的语义聚焦方式。TATE的设计体现了对任务差异的深刻理解。

  1. 数据层贡献:GeoSeg-1M是首个百万级遥感指令分割数据集,具有里程碑意义。

  2. 方法层贡献

    • TATE:任务自适应的文本增强机制
    • LKM:跨任务知识共享的记忆模块
    • PTS:渐进式任务调度策略
  3. 系统层贡献:提供了一个完整的、可复现的统一框架,包括数据、模型、评估基准。

  1. 数据集规模和质量:GeoSeg-1M的规模(590K图像、1.1M样本)和多样性(117个类别、0.05m-153m分辨率)在遥感领域是前所未有的。自动化构建流水线确保了数据质量。

  2. 统一框架设计:UniGeoSeg通过TATE、LKM、PTS三个模块,优雅地解决了多任务学习中的关键挑战。框架设计模块化,易于扩展。

  3. 全面的实验验证:论文在多个基准上进行了广泛的实验,包括有监督和零样本设置,充分验证了方法的有效性。

  1. 计算资源需求:模型需要8个NVIDIA A800 GPU进行训练,对资源有限的研究团队可能构成门槛。

  2. 推理分割性能仍有提升空间:虽然推理分割取得了最优性能(58.20 cIoU),但与交互分割(74.44 cIoU)和引用分割(72.60 cIoU)相比仍有较大差距,说明复杂推理仍是挑战。

  3. 数据集构建依赖商业模型:指令生成依赖GPT-4o等商业模型,可能带来成本和可访问性问题。

  1. 扩展指令类型:可以探索更多类型的指令,如视频分割、3D分割、时序变化检测等。

  2. 提升推理能力:可以引入更强大的推理机制,如链式思考(Chain-of-Thought)或外部知识库。

  3. 降低资源需求:可以探索模型压缩、知识蒸馏等技术,降低训练和推理的资源需求。

  4. 多模态融合:可以融合更多模态的信息,如SAR、高光谱、LiDAR等,提升模型的感知能力。

UniGeoSeg是遥感指令驱动分割领域的一项重要工作。它通过构建百万级数据集GeoSeg-1M和提出统一框架UniGeoSeg,解决了现有方法面临的任务碎片化、数据不足和推理能力薄弱三大挑战。

论文的核心贡献在于:

  1. 数据集层面:GeoSeg-1M是首个百万级遥感指令分割数据集,涵盖了引用、交互和推理三种任务类型,为统一框架的训练提供了坚实基础。
  2. 方法层面:UniGeoSeg通过TATE、LKM、PTS三个创新模块,优雅地解决了多任务学习中的关键挑战,实现了强大的性能。
  3. 系统层面:论文提供了完整的开源实现,包括数据、模型、评估基准,为后续研究提供了便利。

实验结果表明,UniGeoSeg在多个基准上都达到了最优性能,特别是在零样本视觉定位任务上大幅领先所有基线方法。这证明了统一框架和大规模数据的价值。

尽管存在一些局限性,如计算资源需求较高、推理分割性能仍有提升空间等,但UniGeoSeg为遥感指令分割领域树立了新的标杆,为未来的研究指明了方向。

  1. Kirillov, A., et al. “Segment anything.” ICCV 2023.
  2. Lai, X., et al. “LISA: Reasoning segmentation via large language model.” CVPR 2024.
  3. Zhang, Y., et al. “PSALM: Pixelwise segmentatIon with large multimodal model.” CVPR 2024.
  4. Shabbir, A., et al. “GeoPixel: Pixel grounding large multimodal model in remote sensing.” ICML 2025.
  5. Ou, Y., et al. “Geopix: Multi-modal large vision model for remote sensing.” 2025.
  6. Yao, Y., et al. “RemoteSAM: Towards segment anything for earth observation.” 2025.
  7. Shu, M., et al. “Earthmind: Multi-modal large language model for remote sensing.” 2025.
  8. Quenum, T., et al. “LISAT: Language-instructed segmentation for remote sensing.” 2025.
  9. Li, Z., et al. “Segearth-R1: Geospatial pixel reasoning.” 2025.
  10. Liu, Y., et al. “RRSIS-D: Referring remote sensing image segmentation.” 2024.

Related Content