Falcon:首个支持14个任务的遥感视觉语言基础模型

Falcon:首个支持14个任务的遥感视觉语言基础模型

论文解读 | arXiv 2025 | 2026-06-01

项目内容
标题Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位ZhejiangLab(之江实验室)
会议arXiv 2025
arXivhttps://arxiv.org/abs/2503.11070
GitHubhttps://github.com/TianHuiLab/Falcon (⭐372)
关键词遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

遥感图像解译是地球观测的核心任务,涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来,大型视觉语言模型(LVLMs)在自然图像领域取得了巨大成功,但在遥感领域却面临严峻挑战:

  1. 领域鸿沟:自然图像与遥感图像之间存在显著的领域差异,包括视角、尺度、语义等方面
  2. 任务碎片化:现有遥感VLMs通常只擅长特定任务,缺乏统一的多任务处理能力
  3. 数据集不足:缺乏大规模、高质量、多任务的遥感指令调优数据集
模型参数量支持任务数主要局限
GeoChat7B7不支持像素级任务(分割、变化检测)
LHRS-Bot7B6缺乏区域级和像素级理解能力
EarthGPT7B9参数量大,推理效率低
RSGPT7B5任务覆盖范围有限

如何构建一个轻量级、统一的遥感视觉语言模型,同时支持图像级、区域级和像素级的14个任务?

设计动机:现有方法通常为不同任务设计不同的模块,导致模型复杂且难以扩展。Falcon将所有任务统一为序列到序列的翻译任务。

具体实现

输入:遥感图像 I + 文本提示 T
图像编码器 G → 视觉token V
视觉适配器 → V' (维度对齐)
文本token嵌入 E(T)
多模态嵌入 X = [V', E(T)]
编码器-解码器 F → 输出文本序列 y

关键细节

  • 将坐标、分割掩码等视觉标注转化为特殊的token
  • 创建1000个bin来表示坐标位置
  • 统一使用交叉熵损失函数训练

设计动机:传统的固定提示模板限制了模型对多样化指令的理解能力。

具体实现

# 伪代码
def dynamic_prompt_training(prompt T, prompt_pool P):
    # 从预定义的提示池中采样多个语义相似的提示变体
    variants = sample_similar_prompts(T, P, M=5)
    
    # 对每个变体进行训练
    losses = []
    for T_prime in variants:
        X = [V', E(T_prime)]
        loss = cross_entropy(F(X), y)
        losses.append(loss)
    
    return mean(losses)

关键细节

  • 提示池包含多种表达方式的同义提示
  • 每次训练随机采样M个变体
  • 增强模型对自然语言的鲁棒性

设计动机:现有遥感数据集规模小、任务单一,无法支撑基础模型的训练。

数据集规模

  • 图像数量:560万张
  • 样本数量:7800万个
  • 支持任务:14个
  • 数据来源:67个公开数据集

任务层次

图像级(Image-level)
├── 图像分类(Image Classification)
├── 图像描述(Image Captioning)
├── 详细描述(Detailed Captioning)
├── 计数(Counting)
└── 视觉问答(VQA)

区域级(Region-level)
├── 区域分类-HBB(Region Classification-HBB)
├── 区域分类-OBB(Region Classification-OBB)
├── 区域检测-HBB(Region Detection-HBB)
├── 区域检测-OBB(Region Detection-OBB)
├── 视觉定位(Visual Grounding)
└── 区域描述(Region Captioning)

像素级(Pixel-level)
├── 像素分类(Pixel Classification)
├── 语义分割(Segmentation)
└── 变化检测(Change Detection)
┌─────────────────────────────────────────────────────────────┐
│                         Falcon                              │
├─────────────────────────────────────────────────────────────┤
│  输入层                                                       │
│  ┌─────────────┐    ┌─────────────┐                         │
│  │ 遥感图像 I   │    │ 文本提示 T   │                         │
│  └──────┬──────┘    └──────┬──────┘                         │
│         │                  │                                 │
│         ▼                  ▼                                 │
│  ┌─────────────┐    ┌─────────────┐                         │
│  │ 图像编码器 G │    │ 文本嵌入 E  │                         │
│  │ (ViT/SwinT) │    │             │                         │
│  └──────┬──────┘    └──────┬──────┘                         │
│         │                  │                                 │
│         ▼                  │                                 │
│  ┌─────────────┐           │                                 │
│  │ 视觉适配器   │           │                                 │
│  └──────┬──────┘           │                                 │
│         │                  │                                 │
│         ▼                  ▼                                 │
│  ┌─────────────────────────────────┐                        │
│  │    多模态嵌入 X = [V', E(T)]    │                        │
│  └───────────────┬─────────────────┘                        │
│                  │                                           │
│                  ▼                                           │
│  ┌─────────────────────────────────┐                        │
│  │    编码器-解码器 Transformer     │                        │
│  └───────────────┬─────────────────┘                        │
│                  │                                           │
│                  ▼                                           │
│  ┌─────────────────────────────────┐                        │
│  │       统一文本输出 y             │                        │
│  │  (类别/坐标/掩码/描述/答案)      │                        │
│  └─────────────────────────────────┘                        │
└─────────────────────────────────────────────────────────────┘

数据集:67个遥感数据集,涵盖14个任务

基线模型

  • 通用VLMs:MiniCPM-V, MiniGPT-v2, LLaVA-1.5, Qwen-VL-Chat, Sphinx
  • 遥感VLMs:RemoteCLIP, GeoChat, LHRS-Bot

评估指标

  • 分类任务:Accuracy
  • 检测任务:mAP
  • 分割任务:mIoU
  • 描述任务:BLEU, METEOR, CIDEr
模型参数量NWPU_RESISC45AIDPatternNet平均
LLaVA-1.57B0.460.560.470.50
GeoChat7B0.580.620.480.56
LHRS-Bot7B0.730.870.590.73
Falcon0.7B0.940.970.990.97
  1. 参数效率:Falcon仅用0.7B参数,超越了7B参数的现有模型
  2. 全面领先:在14个任务上都取得了最优或接近最优的性能
  3. 零样本泛化:在未见过的数据集上也表现出色
配置分类检测分割描述
基线(无动态提示)0.890.720.650.58
+ 动态提示0.940.780.710.63
+ 数据增强0.960.820.750.67
完整Falcon0.970.850.780.71

论文提供了丰富的可视化结果,展示了Falcon在以下场景的表现:

  1. 图像分类:准确识别遥感图像的场景类别
  2. 目标检测:精确定位飞机、车辆、船舶等目标
  3. 语义分割:对建筑、道路、植被等进行像素级分割
  4. 变化检测:检测双时相图像中的地物变化
  5. 图像描述:生成详细的遥感图像描述
  1. 统一表示的力量:通过将所有任务统一为序列到序列的格式,Falcon实现了真正的多任务学习,不同任务之间可以相互促进

  2. 轻量化的价值:0.7B参数的模型超越了7B参数的模型,说明在遥感领域,模型设计比单纯增大参数量更重要

  3. 数据规模的关键作用:7800万样本的Falcon_SFT数据集是模型成功的基础,证明了"数据为王"的规律

层次1:数据贡献
├── 构建了最大的遥感多任务数据集
└── 统一了67个数据集的标注格式

层次2:模型贡献
├── 提出了统一的序列到序列框架
├── 设计了动态提示训练策略
└── 实现了轻量化的0.7B参数模型

层次3:应用贡献
├── 支持14个遥感任务
├── 开源了完整的代码和权重
└── 降低了遥感VLM的使用门槛
  1. 任务覆盖全面:首个支持14个任务的遥感VLM,涵盖图像级、区域级和像素级

  2. 参数效率极高:0.7B参数超越7B参数模型,适合边缘设备部署

  3. 开源贡献巨大:完整开源数据集、代码和模型权重,推动社区发展

  1. 缺乏多模态输入:仅支持RGB图像,未融合SAR、高光谱等其他模态

  2. 实时性未验证:论文未提供推理速度的详细对比,实际部署效率未知

  3. 长尾问题:对于罕见类别和复杂场景的性能可能下降

  1. 多模态扩展:融合SAR、高光谱、LiDAR等多源数据

  2. 模型压缩:进一步降低参数量,实现移动端部署

  3. 增量学习:支持新任务和新数据的持续学习

  4. 实际应用:在灾害监测、城市规划、环境评估等场景验证

Falcon是遥感视觉语言模型领域的重要突破,它首次实现了在一个统一的框架下处理14个遥感任务。通过创新的序列到序列架构、动态提示训练策略和大规模数据集Falcon_SFT,Falcon仅用0.7B参数就超越了现有的7B参数模型,展现了极高的参数效率。

这项工作的核心价值在于:

  1. 统一性:打破了遥感任务的碎片化现状,提供了一个通用的解决方案
  2. 高效性:证明了轻量化模型在遥感领域的可行性
  3. 开放性:完整开源了数据集、代码和模型,为社区发展奠定了基础

Falcon的成功表明,遥感视觉语言模型的发展不应盲目追求参数量的增大,而应注重模型架构的创新和数据质量的提升。随着遥感数据的不断积累和模型技术的持续进步,我们有理由相信,未来的遥感AI系统将在地球观测、环境保护、灾害预警等领域发挥更大的作用。

[1] Yao, K., Xu, N., Yang, R., et al. Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report). arXiv:2503.11070, 2025.

[2] Kuckreja, K., Danish, M. S., Naseer, M., et al. GeoChat: Grounded Large Vision-Language Model for Remote Sensing. CVPR, 2024.

[3] Muhtar, D., Li, Z., et al. LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model. ECCV, 2024.

[4] Zhang, Y., et al. EarthGPT: A Universal Multi-modal Foundation Model for Multi-granularities Remote Sensing Image Understanding. arXiv, 2024.

[5] Hu, Y., et al. RSGPT: A Remote Sensing Vision Language Model and Benchmark. IGARSS, 2024.

Related Content