UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

WangTong included in category

2026-06-01 12:00:00 2026-06-01 12:00:00 634 words 3 minutes

UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

论文解读 | CVPR 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
作者	Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang
单位	北京理工大学、武汉大学、中关村学院、香港理工大学
会议	CVPR 2026
arXiv	https://arxiv.org/abs/2511.23332
GitHub	https://github.com/MiliLab/UniGeoSeg
关键词	指令驱动分割、开放世界分割、GeoSeg-1M数据集、统一框架、多任务学习

🎯 解决的核心问题

问题背景

在遥感图像分析中，指令驱动分割（Instruction-Driven Segmentation）是一种新兴的范式，用户可以通过自然语言指令来指定需要分割的目标区域。这种交互方式极大地提升了遥感图像分析的可访问性和通用性，在城市规划、环境监测、灾害评估等领域具有广泛的应用前景。

现有方法的局限

然而，当前的指令驱动分割方法面临三个核心挑战：

任务碎片化：现有方法通常只针对单一任务（如引用分割或交互分割）进行设计，缺乏统一的框架来处理多种指令类型。这导致模型难以利用不同任务之间的互补性，限制了跨任务的迁移能力。
数据规模不足：当前的遥感指令分割数据集规模有限，且在视觉和文本领域的多样性不足。例如，RefSegRS仅有285张图像和4.4K样本，RRSIS-D也只有17K样本。这种数据稀缺性严重制约了模型的泛化能力。
推理能力薄弱：现有方法在处理需要复杂上下文理解和推理的指令时表现不佳。例如，当指令涉及空间关系、属性约束或因果推理时，模型往往无法准确理解用户意图。

核心问题提炼

如何构建一个统一的、具备强大推理能力的指令驱动分割框架，以应对遥感图像中多样化的分割需求？

💡 解决方案

核心创新点1：GeoSeg-1M百万级数据集

设计动机：现有数据集规模小、任务单一，无法支撑统一框架的训练。需要构建一个大规模、多任务、高质量的指令分割数据集。

具体实现：

数据来源整合：整合了18个公开的遥感分割数据集，包括SkyScapes、DIOR、DOTA、LoveDA、Potsdam等，涵盖0.05m到153m的空间分辨率。

自动化构建流水线：

原始数据集 → 掩码过滤 → 指令生成 → 质量控制 → GeoSeg-1M

掩码过滤机制：
- 将掩码分解为连通区域
- 移除不可靠区域（碎片化、边界不精确）
- 使用InternVL3自动评估掩码质量
- 仅保留高质量掩码
指令生成策略：
- 引用分割（336K样本）：使用GPT-4o生成强调空间和上下文定位的引用表达
- 交互分割（481K样本）：从掩码几何生成固定格式的文本指令（点或框）
- 推理分割（105K样本）：生成需要属性推理或上下文推理的问题

关键细节：

数据集规模：590K图像，117个类别，1.1M图像-掩码-指令三元组
平均文本长度：引用12.05词，交互9.80词，推理23.93词
使用GPT-4o生成指令，InternVL3-78B和QwenVL2-72B交叉评估质量

核心创新点2：UniGeoSeg统一框架

设计动机：需要一个能够处理多种指令类型的统一框架，同时保持强大的推理能力。

整体架构：

输入图像 + 文本指令
        ↓
[层次化视觉编码器] → 多尺度空间特征
        ↓
[任务自适应文本增强] → 增强的文本嵌入
        ↓
[大语言模型] → 语义理解
        ↓
[潜在知识记忆] → 跨任务知识共享
        ↓
[像素级解码器] → 分割掩码

任务自适应文本增强（TATE）

核心洞察：不同类型的分割指令需要不同的语义聚焦和视觉对齐方式。

三种增强路径：

交互分割增强：
- 将用户提供的空间线索（点击点或边界框）编码到文本嵌入空间
- 公式：$\tilde{\mathbf{E}}{\text{int}} = \mathrm{Fusion}(\mathbf{E}{t}, \mathbf{Proj}(\mathbf{C}_{t}))$
- 显式注入坐标感知的空间线索
引用分割增强：
- 使用单个可学习查询向量通过注意力机制增强token嵌入
- 公式：$\tilde{\mathbf{E}}{\text{ref}} = \mathrm{softmax}(\frac{\mathbf{q} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}_{t}$
- 选择性地强调关键词和对象相关线索
推理分割增强：
- 使用多查询注意力捕获多维度推理模式
- 公式：$\mathbf{E}{\text{res}} = \frac{1}{h} \sum{i=1}^{h} \mathrm{softmax}(\frac{\mathbf{q}{i} \cdot \mathbf{E}{t}^{\top}}{\sqrt{d}}) \mathbf{E}{t} + \mathbf{E}{t} \mathbf{W}_{G}$
- 融合全局聚合信息，支持长文本推理

潜在知识记忆（LKM）

设计动机：多任务训练中，每个任务往往学习孤立的表示，限制了跨任务的语义迁移。

实现机制：

维护$N$个可学习的记忆槽${\mathbf{M}{n}}{n=1}^{N}$
通过注意力机制从记忆中检索潜在知识： $$\mathbf{Z} = \sum_{n=1}^{N} \mathrm{softmax}(\mathbf{H} \mathbf{M}{n}^{\top}) \mathbf{M}{n}$$
通过加权方案融合检索的知识与原始嵌入： $$\tilde{\mathbf{H}} = (1 - \lambda) \mathbf{H} + \lambda \mathbf{Z}$$
超参数$\lambda$控制记忆的影响程度

渐进式任务调度（PTS）

核心思想：不同任务具有不同的难度和数据量，需要动态调整训练策略。

具体实现：

交互分割：相对简单且数据丰富，逐步降低采样权重
引用分割：中等难度，保持稳定
推理分割：最困难且数据稀缺，逐步增加采样权重

训练策略：

早期强调交互任务，帮助模型获取基本空间推理能力
后期减少交互任务权重，避免过拟合，鼓励关注更困难的推理任务
类似于课程学习，从简单到困难平滑过渡

🔬 实验验证

实验设置

数据集：

训练：GeoSeg-1M
评估：GeoSeg-Bench、RRSIS-D、EarthReason
零样本：SIOR（交互分割）、DIOR-RSVG（视觉定位）

基线方法：

通用模型：LISA、PixelLM、PSALM
遥感专用模型：Geopixel、Geopix、RemoteSAM、Earthmind、LISAT、Segearth-R1

评估指标：

gIoU（全局IoU）：每个样本的平均IoU，作为主要指标
cIoU（累积IoU）：所有像素的加权IoU，作为补充指标

核心结果

表1：GeoSeg-Bench结果

方法	交互分割	引用分割	推理分割
	cIoU / gIoU	cIoU / gIoU	cIoU / gIoU
未微调
LISA	2.52 / 3.12	3.53 / 4.56	7.09 / 5.77
PSALM	6.35 / 10.83	31.77 / 18.91	11.88 / 9.27
Geopixel	17.21 / 18.71	37.34 / 40.14	27.36 / 26.71
Earthmind	16.38 / 16.57	44.53 / 46.48	31.01 / 28.80
微调后
PSALM	70.78 / 74.10	68.70 / 71.15	47.53 / 49.59
Segearth-R1	72.09 / 75.00	70.76 / 72.98	53.31 / 51.56
UniGeoSeg	74.44 / 76.37	72.60 / 74.25	58.20 / 52.96

关键发现：

UniGeoSeg在所有三个任务上都达到了最优性能
未微调的模型在GeoSeg-Bench上表现很差，说明现有模型缺乏上下文理解和推理能力
微调后性能显著提升，但仍落后于UniGeoSeg

表2：EarthReason和RRSIS-D结果

方法	EarthReason (Test)	RRSIS-D
	cIoU / gIoU	cIoU / gIoU
LISA	61.04 / 60.88	27.84 / 26.78
Geopixel	53.90 / 52.53	83.33 / 67.30
Segearth-R1	68.60 / 70.75	67.56 / 66.40
UniGeoSeg	75.67 / 73.12	81.35 / 72.23

关键发现：

在EarthReason测试集上，UniGeoSeg比之前的最优方法高出6.65和2.16个百分点
在RRSIS-D上也表现出色，展示了框架的通用性

表3：零样本交互分割结果（SIOR）

方法	Box	Point	Average
	cIoU / gIoU	cIoU / gIoU	cIoU / gIoU
SAM2	91.23 / 92.27	71.47 / 76.45	80.34 / 84.36
RemoteSAM	12.02 / 21.89	12.32 / 20.45	12.18 / 21.17
PSALM	48.09 / 57.36	40.60 / 51.08	44.01 / 51.95
UniGeoSeg	90.60 / 90.94	84.61 / 86.60	87.42 / 88.77

关键发现：

UniGeoSeg在零样本交互分割上表现出色，接近SAM2的性能
在点提示场景下显著优于其他方法

表4：零样本视觉定位结果（DIOR-RSVG）

方法	cIoU	gIoU	PR@0.3	PR@0.5	PR@0.7
LISA	-	27.78	-	25.80	-
GeoChat	-	32.53	-	27.61	-
Qwen2.5-VL	-	31.93	-	30.35	-
UniGeoSeg	70.82	59.67	74.94	67.84	55.11

关键发现：

UniGeoSeg在视觉定位任务上大幅领先所有基线方法
cIoU达到70.82，比之前的最优方法高出39.54个百分点

消融实验

表5：TATE和LKM模块消融

TATE	LKM	交互分割	引用分割	推理分割
✓		84.61 (+2.10)	64.70 (+0.08)	35.64 (+2.76)
	✓	81.97 (-0.54)	65.21 (+0.59)	33.85 (+0.97)
✓	✓	84.84 (+2.33)	66.37 (+1.75)	37.06 (+4.18)

关键发现：

TATE和LKM模块都对性能有贡献
两者结合效果最佳，推理分割提升4.18个百分点

表6：TATE分支消融

配置	交互分割	引用分割	推理分割
无TATE	81.97	65.21	33.85
全部使用引用分支	81.29 (-0.68)	65.44 (+0.23)	33.88 (+0.03)
完整TATE	84.84	66.37	37.06

关键发现：

任务特定的增强路径比统一路径更有效
完整的TATE设计在所有任务上都表现最佳

可视化分析

论文提供了丰富的可视化案例，展示了UniGeoSeg在不同场景下的分割效果：

引用分割：能够准确理解复杂的引用表达，如"the building to the left of the park"
交互分割：能够根据点击点或边界框生成精确的分割掩码
推理分割：能够处理需要上下文推理的指令，如"the area that is likely to flood"

💭 深度评价

核心洞察

任务统一的价值：通过统一框架处理多种指令类型，可以利用任务之间的互补性，提升整体性能。这比为每个任务单独设计模型更有效。
数据规模的重要性：百万级数据集GeoSeg-1M的构建是成功的关键。大规模、高质量的数据支撑了统一框架的训练。
任务特定增强的必要性：不同类型的指令需要不同的语义聚焦方式。TATE的设计体现了对任务差异的深刻理解。

技术贡献层次

数据层贡献：GeoSeg-1M是首个百万级遥感指令分割数据集，具有里程碑意义。
方法层贡献：
- TATE：任务自适应的文本增强机制
- LKM：跨任务知识共享的记忆模块
- PTS：渐进式任务调度策略
系统层贡献：提供了一个完整的、可复现的统一框架，包括数据、模型、评估基准。

优点（3个）

数据集规模和质量：GeoSeg-1M的规模（590K图像、1.1M样本）和多样性（117个类别、0.05m-153m分辨率）在遥感领域是前所未有的。自动化构建流水线确保了数据质量。
统一框架设计：UniGeoSeg通过TATE、LKM、PTS三个模块，优雅地解决了多任务学习中的关键挑战。框架设计模块化，易于扩展。
全面的实验验证：论文在多个基准上进行了广泛的实验，包括有监督和零样本设置，充分验证了方法的有效性。

局限性（3个）

计算资源需求：模型需要8个NVIDIA A800 GPU进行训练，对资源有限的研究团队可能构成门槛。
推理分割性能仍有提升空间：虽然推理分割取得了最优性能（58.20 cIoU），但与交互分割（74.44 cIoU）和引用分割（72.60 cIoU）相比仍有较大差距，说明复杂推理仍是挑战。
数据集构建依赖商业模型：指令生成依赖GPT-4o等商业模型，可能带来成本和可访问性问题。

未来方向

扩展指令类型：可以探索更多类型的指令，如视频分割、3D分割、时序变化检测等。
提升推理能力：可以引入更强大的推理机制，如链式思考（Chain-of-Thought）或外部知识库。
降低资源需求：可以探索模型压缩、知识蒸馏等技术，降低训练和推理的资源需求。
多模态融合：可以融合更多模态的信息，如SAR、高光谱、LiDAR等，提升模型的感知能力。

📝 总结

UniGeoSeg是遥感指令驱动分割领域的一项重要工作。它通过构建百万级数据集GeoSeg-1M和提出统一框架UniGeoSeg，解决了现有方法面临的任务碎片化、数据不足和推理能力薄弱三大挑战。

论文的核心贡献在于：

数据集层面：GeoSeg-1M是首个百万级遥感指令分割数据集，涵盖了引用、交互和推理三种任务类型，为统一框架的训练提供了坚实基础。
方法层面：UniGeoSeg通过TATE、LKM、PTS三个创新模块，优雅地解决了多任务学习中的关键挑战，实现了强大的性能。
系统层面：论文提供了完整的开源实现，包括数据、模型、评估基准，为后续研究提供了便利。

实验结果表明，UniGeoSeg在多个基准上都达到了最优性能，特别是在零样本视觉定位任务上大幅领先所有基线方法。这证明了统一框架和大规模数据的价值。

尽管存在一些局限性，如计算资源需求较高、推理分割性能仍有提升空间等，但UniGeoSeg为遥感指令分割领域树立了新的标杆，为未来的研究指明了方向。

参考文献

Kirillov, A., et al. “Segment anything.” ICCV 2023.
Lai, X., et al. “LISA: Reasoning segmentation via large language model.” CVPR 2024.
Zhang, Y., et al. “PSALM: Pixelwise segmentatIon with large multimodal model.” CVPR 2024.
Shabbir, A., et al. “GeoPixel: Pixel grounding large multimodal model in remote sensing.” ICML 2025.
Ou, Y., et al. “Geopix: Multi-modal large vision model for remote sensing.” 2025.
Yao, Y., et al. “RemoteSAM: Towards segment anything for earth observation.” 2025.
Shu, M., et al. “Earthmind: Multi-modal large language model for remote sensing.” 2025.
Quenum, T., et al. “LISAT: Language-instructed segmentation for remote sensing.” 2025.
Li, Z., et al. “Segearth-R1: Geospatial pixel reasoning.” 2025.
Liu, Y., et al. “RRSIS-D: Referring remote sensing image segmentation.” 2024.

Contents

UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：GeoSeg-1M百万级数据集

核心创新点2：UniGeoSeg统一框架

任务自适应文本增强（TATE）

潜在知识记忆（LKM）

渐进式任务调度（PTS）

🔬 实验验证

实验设置

核心结果

消融实验

可视化分析

💭 深度评价

核心洞察

技术贡献层次

优点（3个）

局限性（3个）

未来方向

📝 总结

参考文献

评论