REST:全景遥感影像端到端语义分割的整体学习框架

REST:全景遥感影像端到端语义分割的整体学习框架

关键词:语义分割、全景遥感影像、端到端学习、空间并行交互机制、大规模图像处理


  • 标题:REST: Holistic Learning for End-to-End Semantic Segmentation of Whole-Scene Remote Sensing Imagery
  • 作者:Wei Chen, Lorenzo Bruzzone, Bo Dang, Yuan Gao, Youming Deng, Jin-Gang Yu, Liangqi Yuan, Yansheng Li
  • 机构:武汉大学、特伦托大学、康奈尔大学、华南理工大学、普渡大学
  • 发表:IEEE TPAMI 2025
  • 代码:https://github.com/weichenrs/REST_code

全景遥感影像(Whole-scene Remote Sensing Imagery, WRI)通常具有极大的尺寸(如10000×10000像素以上),这给深度学习方法带来了严峻的挑战:

  1. GPU内存限制:标准深度学习模型无法一次性处理如此大的影像
  2. 现有解决方案的缺陷
    • 裁剪策略:将大影像切割成小块处理,但损失了全局上下文信息
    • 融合策略:分别处理后融合结果,但引入了边界伪影和不一致性
  3. 性能下降:这两种策略都会导致分割精度显著下降

裁剪-based方法

  • 优点:实现简单,内存需求低
  • 缺点:丢失全局上下文,边界区域分割质量差
  • 性能损失:通常下降3-5% mIoU

融合-based方法

  • 优点:保留了部分全局信息
  • 缺点:计算开销大,边界处理复杂
  • 性能损失:通常下降1-3% mIoU

基础模型(如SkySense)

  • 通常只能处理2048×2048的裁剪块
  • 无法直接处理全景影像
  • 需要额外的后处理步骤

REST的核心创新在于:首次提出真正的端到端框架,通过空间并行交互机制(SPIM),在GPU内存限制下实现全景遥感影像的整体分割。

SPIM结合了并行计算分治策略

传统并行方法的局限

  • 简单的并行分割会导致上下文信息丢失
  • 需要复杂的通信机制来同步特征

SPIM的创新设计

  1. 分块处理:将全景影像分割成多个重叠的块
  2. 并行编码:每个块独立进行编码
  3. 交互解码:在解码阶段实现跨块的信息交互
  4. 全局聚合:最终聚合所有块的特征

关键优势

  • 近线性扩展:随着GPU数量增加,吞吐量近线性增长
  • 内存高效:每个GPU只需处理部分影像
  • 全局感知:通过交互机制保持全局上下文信息

REST采用插件式设计,兼容主流的编码器和解码器:

支持的编码器

  • Swin Transformer(Swin-T, Swin-B, Swin-L, Swin-H)
  • ConvNeXt
  • VMamba(Vision State Space Model)
  • 遥感基础模型(SkySense等)

支持的解码器

  • UPerNet
  • DeepLabV3+
  • SegFormer
  • 其他主流解码器

即插即用特性

  • 无需修改原有模型结构
  • 只需添加SPIM模块
  • 保持原有训练流程

重叠分块

  • 块之间有重叠区域,确保边界信息完整
  • 重叠比例可调(通常10-20%)

梯度检查点

  • 在编码阶段使用梯度检查点,减少内存占用
  • 牺牲部分计算时间换取内存效率

混合精度训练

  • 使用bfloat16精度
  • 减少内存占用,加速计算

吞吐量扩展性

  • 理论上,使用N个GPU时,吞吐量应为单GPU的N倍
  • 实验验证:8个GPU时,吞吐量为单GPU的7.2倍(90%效率)

内存复杂度

  • 传统方法:O(H × W × C),其中H、W为影像尺寸
  • REST:O(H/N × W × C),其中N为GPU数量

数据集

  1. GLH-Water:水体分割数据集,影像尺寸10000×10000
  2. Five-Billion-Pixels:大规模土地覆盖分类数据集,50亿像素
  3. WHU-OHS:高光谱影像数据集
  4. UAVid:无人机影像数据集

评估指标

  • mIoU(平均交并比)
  • 推理时间
  • GPU内存占用

基线方法

  • 裁剪-based方法(直接裁剪后预测)
  • 融合-based方法(滑动窗口+融合)
  • 基础模型(SkySense等)

GLH-Water数据集

方法mIoU推理时间内存占用
裁剪 (512×512)78.3%12.3s8GB
裁剪 (1024×1024)80.1%18.7s16GB
融合81.5%25.4s24GB
REST (8 GPU)85.2%3.8s4GB/GPU

关键发现

  • REST在mIoU上比最佳基线提升3.7%
  • 推理时间减少85%
  • 每个GPU的内存占用降低83%

Five-Billion-Pixels数据集

方法mIoU类别混淆
裁剪69.68%高(河流/湖泊混淆)
融合71.25%
REST72.95%

关键发现

  • REST在细粒度类别(如河流、湖泊、池塘)上的区分能力显著提升
  • 类别混淆矩阵显示错误分类减少30%

SkySense + REST

配置mIoU参数增加GPU需求
SkySense (裁剪)71.2%-4×A100
SkySense + REST74.8%+0.5%4×A100

关键发现

  • REST能够进一步提升基础模型的性能
  • 参数增加极少(<1%)
  • 保持相同的硬件需求

SPIM组件分析

配置mIoU推理时间
基线(裁剪)69.68%18.7s
+ 并行编码70.85%5.2s
+ 交互解码72.12%5.8s
+ 全局聚合72.95%6.1s

关键发现

  • 交互解码贡献最大(+1.27%)
  • 全局聚合进一步提升(+0.83%)
  • 推理时间仅增加17%

重叠比例影响

重叠比例mIoU边界质量
0%71.8%
10%72.5%
20%72.95%
30%72.9%

关键发现

  • 20%重叠是最佳平衡点
  • 过小的重叠导致边界伪影
  • 过大的重叠增加计算开销

特征图可视化

  • REST能够利用整个空间区域的特征
  • 裁剪方法在边界处出现特征断裂

t-SNE可视化

  • REST的特征具有更清晰的分类边界
  • 类内聚集更紧密,类间分离更明显

混淆矩阵

  • REST的错误分类减少30%
  • 细粒度类别(如河流vs湖泊)的混淆显著降低

  1. 首个真正的端到端框架:首次实现全景遥感影像的整体分割
  2. 空间并行交互机制:创新性地结合并行计算和分治策略
  3. 插件式设计:兼容主流编码器/解码器,易于集成
  4. 近线性扩展:随着GPU增加,性能近线性提升
  1. 大规模土地调查:国家级/区域级土地覆盖分类
  2. 城市规划:城市用地精细分类
  3. 环境监测:水体、植被、不透水面等要素提取
  4. 灾害评估:大面积灾害影响范围评估
  5. 农业监测:农田边界精确划分

当前局限

  • 需要多GPU支持(至少2个GPU)
  • 重叠区域增加了计算开销
  • 对超大影像(>100000×100000)仍需进一步优化

未来方向

  1. 单GPU版本:通过更高效的内存管理,支持单GPU处理
  2. 动态分块:根据影像内容自适应调整分块策略
  3. 多任务扩展:扩展到目标检测、变化检测等任务
  4. 医学影像:将技术迁移到大规模医学影像分割

REST通过创新的空间并行交互机制,成功解决了全景遥感影像分割的GPU内存瓶颈问题。其核心贡献在于:

  1. 首次实现真正的端到端分割:避免裁剪和融合带来的性能损失
  2. 插件式架构设计:兼容主流模型,易于部署和使用
  3. 近线性扩展能力:支持大规模并行处理
  4. 显著的性能提升:在多个基准数据集上达到SOTA

这项工作为大规模遥感影像处理提供了新的范式,展示了端到端学习在遥感领域的巨大潜力。其插件式设计使得现有模型能够轻松升级到全景处理能力,具有广泛的应用前景。


@article{rest2025,
  title={REST: Holistic Learning for End-to-End Semantic Segmentation of Whole-Scene Remote Sensing Imagery},
  author={Chen, Wei and Bruzzone, Lorenzo and Dang, Bo and Gao, Yuan and Deng, Youming and Yu, Jin-Gang and Yuan, Liangqi and Li, Yansheng},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2025},
  volume={},
  number={},
  pages={1-18},
  publisher={IEEE},
  doi={10.1109/TPAMI.2025.3609767}}

文章生成时间:2026年5月31日 数据来源:IEEE TPAMI、GitHub、项目主页 字典文件已更新:d:\auores\articles\seen_papers.json

Related Content