多任务学习 - Tag - 堂堂一跑堂

Falcon：首个支持14个任务的遥感视觉语言基础模型

Mon, 01 Jun 2026 12:00:00 +0800

Falcon：首个支持14个任务的遥感视觉语言基础模型

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者	Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位	ZhejiangLab（之江实验室）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2503.11070
GitHub	https://github.com/TianHuiLab/Falcon (⭐372)
关键词	遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

🎯 解决的核心问题

问题背景

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

领域鸿沟：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面
任务碎片化：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力
数据集不足：缺乏大规模、高质量、多任务的遥感指令调优数据集

现有方法的局限

模型	参数量	支持任务数	主要局限
GeoChat	7B	7	不支持像素级任务（分割、变化检测）
LHRS-Bot	7B	6	缺乏区域级和像素级理解能力
EarthGPT	7B	9	参数量大，推理效率低
RSGPT	7B	5	任务覆盖范围有限

核心问题提炼

如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

Mon, 01 Jun 2026 12:00:00 +0800

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoChat: Grounded Large Vision-Language Model for Remote Sensing
作者	Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abduljabbar Al-Khateri, Shoaib Jameel, Lars Petersson, Salman Khan, Fahad Shahbaz Khan
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2311.15826
GitHub	https://github.com/mbzuai-oryx/GeoChat
关键词	遥感、视觉语言模型、Grounding、多任务学习、区域级推理

🎯 解决的核心问题

问题背景

遥感图像分析是地球观测的核心任务，传统方法通常针对单一任务（如分类、检测、分割）设计专用模型。随着大型视觉语言模型（VLM）在通用领域的成功，研究者开始探索将其应用于遥感领域。

然而，现有方法面临三个关键挑战：

领域适配问题：通用VLM（如GPT-4V）在遥感场景下表现不佳，容易产生不准确或虚构的信息
缺乏区域级推理：现有遥感VLM主要支持图像级任务，无法对特定区域进行细粒度分析
多任务统一困难：不同遥感任务（分类、检测、描述等）通常需要独立模型，缺乏统一框架

现有方法的局限

方法	局限性
通用VLM（GPT-4V等）	缺乏遥感领域知识，对卫星图像理解能力有限
遥感专用模型	仅支持单一任务，无法进行多轮对话
现有遥感VLM	仅支持图像级推理，缺乏区域级grounding能力

核心问题提炼

如何构建一个既能理解遥感图像全局语义，又能对特定区域进行细粒度推理的统一视觉语言模型？

💡 解决方案

核心创新点1：多模态遥感指令数据集构建

设计动机：遥感领域缺乏大规模多模态指令调优数据集，直接使用通用数据集会导致领域偏移。

具体实现：

整合多个现有遥感数据集（LRBEN、NWPU-RESISC-45、SAMRS等）
利用Vicuna-v1.5和自动化管道生成318k指令数据
设计统一的图像-文本对格式，支持多种任务类型

关键细节：

UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

Mon, 01 Jun 2026 12:00:00 +0800

UniGeoSeg：百万级数据集驱动的统一开放世界遥感分割框架

论文解读 | CVPR 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
作者	Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang
单位	北京理工大学、武汉大学、中关村学院、香港理工大学
会议	CVPR 2026
arXiv	https://arxiv.org/abs/2511.23332
GitHub	https://github.com/MiliLab/UniGeoSeg
关键词	指令驱动分割、开放世界分割、GeoSeg-1M数据集、统一框架、多任务学习

🎯 解决的核心问题

问题背景

在遥感图像分析中，指令驱动分割（Instruction-Driven Segmentation）是一种新兴的范式，用户可以通过自然语言指令来指定需要分割的目标区域。这种交互方式极大地提升了遥感图像分析的可访问性和通用性，在城市规划、环境监测、灾害评估等领域具有广泛的应用前景。

现有方法的局限

然而，当前的指令驱动分割方法面临三个核心挑战：

任务碎片化：现有方法通常只针对单一任务（如引用分割或交互分割）进行设计，缺乏统一的框架来处理多种指令类型。这导致模型难以利用不同任务之间的互补性，限制了跨任务的迁移能力。
数据规模不足：当前的遥感指令分割数据集规模有限，且在视觉和文本领域的多样性不足。例如，RefSegRS仅有285张图像和4.4K样本，RRSIS-D也只有17K样本。这种数据稀缺性严重制约了模型的泛化能力。
推理能力薄弱：现有方法在处理需要复杂上下文理解和推理的指令时表现不佳。例如，当指令涉及空间关系、属性约束或因果推理时，模型往往无法准确理解用户意图。

核心问题提炼

如何构建一个统一的、具备强大推理能力的指令驱动分割框架，以应对遥感图像中多样化的分割需求？

💡 解决方案

核心创新点1：GeoSeg-1M百万级数据集

设计动机：现有数据集规模小、任务单一，无法支撑统一框架的训练。需要构建一个大规模、多任务、高质量的指令分割数据集。

具体实现：

数据来源整合：整合了18个公开的遥感分割数据集，包括SkyScapes、DIOR、DOTA、LoveDA、Potsdam等，涵盖0.05m到153m的空间分辨率。
自动化构建流水线：