# Falcon：首个支持14个任务的遥感视觉语言基础模型


# Falcon：首个支持14个任务的遥感视觉语言基础模型

> **论文解读** | arXiv 2025 | 2026-06-01

## 📄 论文信息

| 项目 | 内容 |
|------|------|
| **标题** | Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report) |
| **作者** | Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li |
| **单位** | ZhejiangLab（之江实验室） |
| **会议** | arXiv 2025 |
| **arXiv** | https://arxiv.org/abs/2503.11070 |
| **GitHub** | https://github.com/TianHuiLab/Falcon (⭐372) |
| **关键词** | 遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示 |

## 🎯 解决的核心问题

### 问题背景

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

1. **领域鸿沟**：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面
2. **任务碎片化**：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力
3. **数据集不足**：缺乏大规模、高质量、多任务的遥感指令调优数据集

### 现有方法的局限

| 模型 | 参数量 | 支持任务数 | 主要局限 |
|------|--------|------------|----------|
| GeoChat | 7B | 7 | 不支持像素级任务（分割、变化检测） |
| LHRS-Bot | 7B | 6 | 缺乏区域级和像素级理解能力 |
| EarthGPT | 7B | 9 | 参数量大，推理效率低 |
| RSGPT | 7B | 5 | 任务覆盖范围有限 |

### 核心问题提炼

**如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？**

## 💡 解决方案

### 核心创新点1：统一的序列到序列框架

**设计动机**：现有方法通常为不同任务设计不同的模块，导致模型复杂且难以扩展。Falcon将所有任务统一为序列到序列的翻译任务。

**具体实现**：

```
输入：遥感图像 I + 文本提示 T
      ↓
图像编码器 G → 视觉token V
      ↓
视觉适配器 → V' (维度对齐)
      ↓
文本token嵌入 E(T)
      ↓
多模态嵌入 X = [V', E(T)]
      ↓
编码器-解码器 F → 输出文本序列 y
```

**关键细节**：
- 将坐标、分割掩码等视觉标注转化为特殊的token
- 创建1000个bin来表示坐标位置
- 统一使用交叉熵损失函数训练

### 核心创新点2：动态提示训练策略

**设计动机**：传统的固定提示模板限制了模型对多样化指令的理解能力。

**具体实现**：

```python
# 伪代码
def dynamic_prompt_training(prompt T, prompt_pool P):
    # 从预定义的提示池中采样多个语义相似的提示变体
    variants = sample_similar_prompts(T, P, M=5)
    
    # 对每个变体进行训练
    losses = []
    for T_prime in variants:
        X = [V', E(T_prime)]
        loss = cross_entropy(F(X), y)
        losses.append(loss)
    
    return mean(losses)
```

**关键细节**：
- 提示池包含多种表达方式的同义提示
- 每次训练随机采样M个变体
- 增强模型对自然语言的鲁棒性

### 核心创新点3：大规模多任务数据集Falcon_SFT

**设计动机**：现有遥感数据集规模小、任务单一，无法支撑基础模型的训练。

**数据集规模**：
- 图像数量：560万张
- 样本数量：7800万个
- 支持任务：14个
- 数据来源：67个公开数据集

**任务层次**：

```
图像级（Image-level）
├── 图像分类（Image Classification）
├── 图像描述（Image Captioning）
├── 详细描述（Detailed Captioning）
├── 计数（Counting）
└── 视觉问答（VQA）

区域级（Region-level）
├── 区域分类-HBB（Region Classification-HBB）
├── 区域分类-OBB（Region Classification-OBB）
├── 区域检测-HBB（Region Detection-HBB）
├── 区域检测-OBB（Region Detection-OBB）
├── 视觉定位（Visual Grounding）
└── 区域描述（Region Captioning）

像素级（Pixel-level）
├── 像素分类（Pixel Classification）
├── 语义分割（Segmentation）
└── 变化检测（Change Detection）
```

### 整体架构图

```
┌─────────────────────────────────────────────────────────────┐
│                         Falcon                              │
├─────────────────────────────────────────────────────────────┤
│  输入层                                                       │
│  ┌─────────────┐    ┌─────────────┐                         │
│  │ 遥感图像 I   │    │ 文本提示 T   │                         │
│  └──────┬──────┘    └──────┬──────┘                         │
│         │                  │                                 │
│         ▼                  ▼                                 │
│  ┌─────────────┐    ┌─────────────┐                         │
│  │ 图像编码器 G │    │ 文本嵌入 E  │                         │
│  │ (ViT/SwinT) │    │             │                         │
│  └──────┬──────┘    └──────┬──────┘                         │
│         │                  │                                 │
│         ▼                  │                                 │
│  ┌─────────────┐           │                                 │
│  │ 视觉适配器   │           │                                 │
│  └──────┬──────┘           │                                 │
│         │                  │                                 │
│         ▼                  ▼                                 │
│  ┌─────────────────────────────────┐                        │
│  │    多模态嵌入 X = [V', E(T)]    │                        │
│  └───────────────┬─────────────────┘                        │
│                  │                                           │
│                  ▼                                           │
│  ┌─────────────────────────────────┐                        │
│  │    编码器-解码器 Transformer     │                        │
│  └───────────────┬─────────────────┘                        │
│                  │                                           │
│                  ▼                                           │
│  ┌─────────────────────────────────┐                        │
│  │       统一文本输出 y             │                        │
│  │  (类别/坐标/掩码/描述/答案)      │                        │
│  └─────────────────────────────────┘                        │
└─────────────────────────────────────────────────────────────┘
```

## 🔬 实验验证

### 实验设置

**数据集**：67个遥感数据集，涵盖14个任务

**基线模型**：
- 通用VLMs：MiniCPM-V, MiniGPT-v2, LLaVA-1.5, Qwen-VL-Chat, Sphinx
- 遥感VLMs：RemoteCLIP, GeoChat, LHRS-Bot

**评估指标**：
- 分类任务：Accuracy
- 检测任务：mAP
- 分割任务：mIoU
- 描述任务：BLEU, METEOR, CIDEr

### 核心结果

#### 图像分类性能（部分数据集）

| 模型 | 参数量 | NWPU_RESISC45 | AID | PatternNet | 平均 |
|------|--------|---------------|-----|------------|------|
| LLaVA-1.5 | 7B | 0.46 | 0.56 | 0.47 | 0.50 |
| GeoChat | 7B | 0.58 | 0.62 | 0.48 | 0.56 |
| LHRS-Bot | 7B | 0.73 | 0.87 | 0.59 | 0.73 |
| **Falcon** | **0.7B** | **0.94** | **0.97** | **0.99** | **0.97** |

#### 关键发现

1. **参数效率**：Falcon仅用0.7B参数，超越了7B参数的现有模型
2. **全面领先**：在14个任务上都取得了最优或接近最优的性能
3. **零样本泛化**：在未见过的数据集上也表现出色

### 消融实验

| 配置 | 分类 | 检测 | 分割 | 描述 |
|------|------|------|------|------|
| 基线（无动态提示） | 0.89 | 0.72 | 0.65 | 0.58 |
| + 动态提示 | 0.94 | 0.78 | 0.71 | 0.63 |
| + 数据增强 | 0.96 | 0.82 | 0.75 | 0.67 |
| **完整Falcon** | **0.97** | **0.85** | **0.78** | **0.71** |

### 可视化分析

论文提供了丰富的可视化结果，展示了Falcon在以下场景的表现：

1. **图像分类**：准确识别遥感图像的场景类别
2. **目标检测**：精确定位飞机、车辆、船舶等目标
3. **语义分割**：对建筑、道路、植被等进行像素级分割
4. **变化检测**：检测双时相图像中的地物变化
5. **图像描述**：生成详细的遥感图像描述

## 💭 深度评价

### 核心洞察

1. **统一表示的力量**：通过将所有任务统一为序列到序列的格式，Falcon实现了真正的多任务学习，不同任务之间可以相互促进

2. **轻量化的价值**：0.7B参数的模型超越了7B参数的模型，说明在遥感领域，模型设计比单纯增大参数量更重要

3. **数据规模的关键作用**：7800万样本的Falcon_SFT数据集是模型成功的基础，证明了"数据为王"的规律

### 技术贡献层次

```
层次1：数据贡献
├── 构建了最大的遥感多任务数据集
└── 统一了67个数据集的标注格式

层次2：模型贡献
├── 提出了统一的序列到序列框架
├── 设计了动态提示训练策略
└── 实现了轻量化的0.7B参数模型

层次3：应用贡献
├── 支持14个遥感任务
├── 开源了完整的代码和权重
└── 降低了遥感VLM的使用门槛
```

### 优点（3个）

1. **任务覆盖全面**：首个支持14个任务的遥感VLM，涵盖图像级、区域级和像素级

2. **参数效率极高**：0.7B参数超越7B参数模型，适合边缘设备部署

3. **开源贡献巨大**：完整开源数据集、代码和模型权重，推动社区发展

### 局限性（3个）

1. **缺乏多模态输入**：仅支持RGB图像，未融合SAR、高光谱等其他模态

2. **实时性未验证**：论文未提供推理速度的详细对比，实际部署效率未知

3. **长尾问题**：对于罕见类别和复杂场景的性能可能下降

### 未来方向

1. **多模态扩展**：融合SAR、高光谱、LiDAR等多源数据

2. **模型压缩**：进一步降低参数量，实现移动端部署

3. **增量学习**：支持新任务和新数据的持续学习

4. **实际应用**：在灾害监测、城市规划、环境评估等场景验证

## 📝 总结

Falcon是遥感视觉语言模型领域的重要突破，它首次实现了在一个统一的框架下处理14个遥感任务。通过创新的序列到序列架构、动态提示训练策略和大规模数据集Falcon_SFT，Falcon仅用0.7B参数就超越了现有的7B参数模型，展现了极高的参数效率。

这项工作的核心价值在于：
1. **统一性**：打破了遥感任务的碎片化现状，提供了一个通用的解决方案
2. **高效性**：证明了轻量化模型在遥感领域的可行性
3. **开放性**：完整开源了数据集、代码和模型，为社区发展奠定了基础

Falcon的成功表明，遥感视觉语言模型的发展不应盲目追求参数量的增大，而应注重模型架构的创新和数据质量的提升。随着遥感数据的不断积累和模型技术的持续进步，我们有理由相信，未来的遥感AI系统将在地球观测、环境保护、灾害预警等领域发挥更大的作用。

## 参考文献

[1] Yao, K., Xu, N., Yang, R., et al. Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report). arXiv:2503.11070, 2025.

[2] Kuckreja, K., Danish, M. S., Naseer, M., et al. GeoChat: Grounded Large Vision-Language Model for Remote Sensing. CVPR, 2024.

[3] Muhtar, D., Li, Z., et al. LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model. ECCV, 2024.

[4] Zhang, Y., et al. EarthGPT: A Universal Multi-modal Foundation Model for Multi-granularities Remote Sensing Image Understanding. arXiv, 2024.

[5] Hu, Y., et al. RSGPT: A Remote Sensing Vision Language Model and Benchmark. IGARSS, 2024.