当遥感图像学会\"思考\"：SegEarth-R1用LLM实现地理空间像素推理

Mon, 01 Jun 2026 12:00:00 +0800

当遥感图像学会"思考"：SegEarth-R1用LLM实现地理空间像素推理

论文解读 | arXiv 2025 | 2026-06-01

项目	内容
标题	SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model
作者	Kaiyu Li, Zepeng Xin, Li Pang, Chao Pang, Yupeng Deng, Jing Yao, Guisong Xia, Deyu Meng, Zhi Wang, Xiangyong Cao
单位	西安电子科技大学、西安交通大学
arXiv	https://arxiv.org/abs/2504.09644
GitHub	https://github.com/earth-insights/SegEarth-R1
关键词	地理空间像素推理、大语言模型、遥感分割、视觉推理、EarthReason数据集

想象你是一个灾害响应分析师，面对一张地震后的卫星图像。你不会问"请标记所有建筑物"，而是会问：“哪些区域是潜在的地震疏散区？"——这个问题需要模型理解道路网络、建筑物密度、空地分布，并推理出哪些区域能作为疏散场所。

这就是传统遥感分割方法的痛点：它们只能处理显式指令（“分割建筑物”），无法处理隐式推理（“找出疏散区”）。

传统分割方法：只能识别预定义类别，无法理解复杂语义
现有VLM方法（如LISA、PixelLM）：
- 在自然图像上表现良好，但在遥感图像上严重退化
- 无法处理遥感图像的超高分辨率（通常4000×4000像素以上）
- 缺乏地理空间推理能力
核心矛盾：遥感图像需要像素级精度+语义级推理，现有方法只能兼顾其一

如何让模型像人类专家一样，根据隐式指令在遥感图像中推理并精确定位目标区域？

设计动机：传统遥感分割是"给标签→分像素”，但实际应用中，用户的需求往往是推理式的。

任务定义：

与传统任务的区别：