语义分割 - Tag - 堂堂一跑堂

GeoLink：用OpenStreetMap数据赋能遥感基础模型

Sun, 31 May 2026 12:00:00 +0800

GeoLink：用OpenStreetMap数据赋能遥感基础模型

📅 发表时间：2025年 🏛️ 会议：NeurIPS 2025 👥 作者：Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du 🔗 GitHub：https://github.com/bailubin/GeoLink_NeurIPS2025 📄 arXiv：https://arxiv.org/abs/2509.26016

📌 论文信息

标题：GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

关键词：遥感基础模型、OpenStreetMap、多模态融合、图神经网络、语义分割

研究领域：遥感图像理解、地理空间人工智能、多模态学习

🔍 问题背景：遥感数据的"单模态困境"

核心问题

传统遥感基础模型存在一个根本性局限：只关注图像数据，忽略了其他地理空间数据源的互补信息。

问题细节

作者观察到一个关键现象：遥感图像和OpenStreetMap（OSM）数据提供了互补但异构的信息：

遥感图像：提供丰富的视觉特征（光谱、纹理、形状），但缺乏语义标注
OSM数据：提供精确的语义信息（道路网络、建筑物轮廓、土地利用类型），但缺乏视觉细节

具体挑战

作者从三个维度分析了这个"模态鸿沟"：

数据结构异构性：

遥感图像：规则的网格结构（pixel grid）
OSM数据：不规则的图结构（nodes, ways, relations）

语义粒度差异：

遥感图像：像素级特征，需要后处理才能获得语义
OSM数据：对象级语义，直接带有类别标签

时空覆盖不一致：

遥感图像：定期更新，但可能有云遮挡
OSM数据：众包更新，覆盖不均匀

💡 解决方案：GeoLink的"三阶段"融合框架

核心思想

作者没有简单地将OSM数据作为额外输入通道，而是设计了一个层次化的多模态融合框架，在不同阶段整合两种模态的信息。

技术细节

阶段1：OSM数据的图结构编码

关键创新：将OSM数据转换为异构图（Heterogeneous Graph）

REST：全景遥感影像端到端语义分割的整体学习框架

Sun, 31 May 2026 12:00:00 +0800

REST：全景遥感影像端到端语义分割的整体学习框架

关键词：语义分割、全景遥感影像、端到端学习、空间并行交互机制、大规模图像处理

1. 论文信息

标题：REST: Holistic Learning for End-to-End Semantic Segmentation of Whole-Scene Remote Sensing Imagery
作者：Wei Chen, Lorenzo Bruzzone, Bo Dang, Yuan Gao, Youming Deng, Jin-Gang Yu, Liangqi Yuan, Yansheng Li
机构：武汉大学、特伦托大学、康奈尔大学、华南理工大学、普渡大学
发表：IEEE TPAMI 2025
代码：https://github.com/weichenrs/REST_code

2. 问题：全景遥感影像分割的GPU内存瓶颈

2.1 核心挑战

全景遥感影像（Whole-scene Remote Sensing Imagery, WRI）通常具有极大的尺寸（如10000×10000像素以上），这给深度学习方法带来了严峻的挑战：

GPU内存限制：标准深度学习模型无法一次性处理如此大的影像
现有解决方案的缺陷：
- 裁剪策略：将大影像切割成小块处理，但损失了全局上下文信息
- 融合策略：分别处理后融合结果，但引入了边界伪影和不一致性
性能下降：这两种策略都会导致分割精度显著下降

2.2 现有方法的局限

裁剪-based方法：

优点：实现简单，内存需求低
缺点：丢失全局上下文，边界区域分割质量差
性能损失：通常下降3-5% mIoU

融合-based方法：

优点：保留了部分全局信息
缺点：计算开销大，边界处理复杂
性能损失：通常下降1-3% mIoU

基础模型（如SkySense）：

通常只能处理2048×2048的裁剪块
无法直接处理全景影像
需要额外的后处理步骤

3. 解决方案：REST的空间并行交互机制

3.1 核心思想

REST的核心创新在于：首次提出真正的端到端框架，通过空间并行交互机制（SPIM），在GPU内存限制下实现全景遥感影像的整体分割。

3.2 关键技术细节

3.2.1 空间并行交互机制（SPIM）

SPIM结合了并行计算和分治策略：

传统并行方法的局限：

开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别

Sun, 31 May 2026 12:00:00 +0800

开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别

📌 论文信息

标题: Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
作者: Chengyang Ye, Yunzhi Zhuge, Pingping Zhang
会议: AAAI 2025 (39th Annual AAAI Conference on Artificial Intelligence)
论文: https://arxiv.org/abs/2412.19492
代码: https://github.com/yecy749/gsnet
关键词: 开放词汇、语义分割、遥感图像、CLIP、双流编码器

❓ 研究问题：遥感分割的"类别牢笼"

问题来源

遥感图像语义分割（RSISS）是地球观测的核心任务，但现有方法存在一个根本性限制：只能识别预定义的类别。

核心问题细节

传统方法的困境:

类别固定: 训练时定义了多少类，就只能识别多少类
标注成本高: 每增加一个新类别，需要大量像素级标注
模型重训: 适应新类别需要重新训练整个模型
场景受限: 不同应用场景需要不同的类别集合

实际案例:

城市规划需要识别"建筑、道路、绿地"
灾害评估需要识别"积水、废墟、救援通道"
农业监测需要识别"作物类型、病虫害区域"

每次任务切换都需要重新标注数据和训练模型，成本极高。

问题本质

现有方法将遥感分割视为"闭集"问题，而现实世界是"开集"的——你永远无法预知未来需要识别什么类别。

💡 解决方案：GSNet的双流融合架构

核心创新点

GSNet（Generalist and Specialist Network）提出了一个精妙的解决方案：融合通用视觉语言模型的开放能力和遥感领域模型的专业知识。

技术细节拆解

1. 双流图像编码器（Dual-Stream Image Encoder, DSIE）

设计理念: 两条并行的特征提取流，分别捕获通用语义和领域知识。

通用流（Generalist Stream）:

使用CLIP的视觉编码器
通过大规模图像-文本对预训练
擅长识别新目标和新语义
提供开放词汇能力

专业流（Specialist Stream）:

使用RSIB（Remote Sensing Image Backbone）
通过自监督学习在遥感数据上预训练
捕获遥感特有的空间和光谱特征
提供领域专业知识

技术细节: