Falcon:首个支持14个任务的遥感视觉语言基础模型
Falcon:首个支持14个任务的遥感视觉语言基础模型
论文解读 | arXiv 2025 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report) |
| 作者 | Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li |
| 单位 | ZhejiangLab(之江实验室) |
| 会议 | arXiv 2025 |
| arXiv | https://arxiv.org/abs/2503.11070 |
| GitHub | https://github.com/TianHuiLab/Falcon (⭐372) |
| 关键词 | 遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示 |
🎯 解决的核心问题
问题背景
遥感图像解译是地球观测的核心任务,涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来,大型视觉语言模型(LVLMs)在自然图像领域取得了巨大成功,但在遥感领域却面临严峻挑战:
- 领域鸿沟:自然图像与遥感图像之间存在显著的领域差异,包括视角、尺度、语义等方面
- 任务碎片化:现有遥感VLMs通常只擅长特定任务,缺乏统一的多任务处理能力
- 数据集不足:缺乏大规模、高质量、多任务的遥感指令调优数据集
现有方法的局限
| 模型 | 参数量 | 支持任务数 | 主要局限 |
|---|---|---|---|
| GeoChat | 7B | 7 | 不支持像素级任务(分割、变化检测) |
| LHRS-Bot | 7B | 6 | 缺乏区域级和像素级理解能力 |
| EarthGPT | 7B | 9 | 参数量大,推理效率低 |
| RSGPT | 7B | 5 | 任务覆盖范围有限 |
核心问题提炼
如何构建一个轻量级、统一的遥感视觉语言模型,同时支持图像级、区域级和像素级的14个任务?
💡 解决方案
核心创新点1:统一的序列到序列框架
设计动机:现有方法通常为不同任务设计不同的模块,导致模型复杂且难以扩展。Falcon将所有任务统一为序列到序列的翻译任务。
具体实现:
输入:遥感图像 I + 文本提示 T
↓
图像编码器 G → 视觉token V
↓
视觉适配器 → V' (维度对齐)
↓
文本token嵌入 E(T)
↓
多模态嵌入 X = [V', E(T)]
↓
编码器-解码器 F → 输出文本序列 y关键细节:
- 将坐标、分割掩码等视觉标注转化为特殊的token
- 创建1000个bin来表示坐标位置
- 统一使用交叉熵损失函数训练
核心创新点2:动态提示训练策略
设计动机:传统的固定提示模板限制了模型对多样化指令的理解能力。
具体实现:
# 伪代码
def dynamic_prompt_training(prompt T, prompt_pool P):
# 从预定义的提示池中采样多个语义相似的提示变体
variants = sample_similar_prompts(T, P, M=5)
# 对每个变体进行训练
losses = []
for T_prime in variants:
X = [V', E(T_prime)]
loss = cross_entropy(F(X), y)
losses.append(loss)
return mean(losses)关键细节:
- 提示池包含多种表达方式的同义提示
- 每次训练随机采样M个变体
- 增强模型对自然语言的鲁棒性
核心创新点3:大规模多任务数据集Falcon_SFT
设计动机:现有遥感数据集规模小、任务单一,无法支撑基础模型的训练。
数据集规模:
- 图像数量:560万张
- 样本数量:7800万个
- 支持任务:14个
- 数据来源:67个公开数据集
任务层次:
图像级(Image-level)
├── 图像分类(Image Classification)
├── 图像描述(Image Captioning)
├── 详细描述(Detailed Captioning)
├── 计数(Counting)
└── 视觉问答(VQA)
区域级(Region-level)
├── 区域分类-HBB(Region Classification-HBB)
├── 区域分类-OBB(Region Classification-OBB)
├── 区域检测-HBB(Region Detection-HBB)
├── 区域检测-OBB(Region Detection-OBB)
├── 视觉定位(Visual Grounding)
└── 区域描述(Region Captioning)
像素级(Pixel-level)
├── 像素分类(Pixel Classification)
├── 语义分割(Segmentation)
└── 变化检测(Change Detection)整体架构图
┌─────────────────────────────────────────────────────────────┐
│ Falcon │
├─────────────────────────────────────────────────────────────┤
│ 输入层 │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 遥感图像 I │ │ 文本提示 T │ │
│ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 图像编码器 G │ │ 文本嵌入 E │ │
│ │ (ViT/SwinT) │ │ │ │
│ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │
│ ▼ │ │
│ ┌─────────────┐ │ │
│ │ 视觉适配器 │ │ │
│ └──────┬──────┘ │ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ 多模态嵌入 X = [V', E(T)] │ │
│ └───────────────┬─────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ 编码器-解码器 Transformer │ │
│ └───────────────┬─────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ 统一文本输出 y │ │
│ │ (类别/坐标/掩码/描述/答案) │ │
│ └─────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘🔬 实验验证
实验设置
数据集:67个遥感数据集,涵盖14个任务
基线模型:
- 通用VLMs:MiniCPM-V, MiniGPT-v2, LLaVA-1.5, Qwen-VL-Chat, Sphinx
- 遥感VLMs:RemoteCLIP, GeoChat, LHRS-Bot
评估指标:
- 分类任务:Accuracy
- 检测任务:mAP
- 分割任务:mIoU
- 描述任务:BLEU, METEOR, CIDEr
核心结果
图像分类性能(部分数据集)
| 模型 | 参数量 | NWPU_RESISC45 | AID | PatternNet | 平均 |
|---|---|---|---|---|---|
| LLaVA-1.5 | 7B | 0.46 | 0.56 | 0.47 | 0.50 |
| GeoChat | 7B | 0.58 | 0.62 | 0.48 | 0.56 |
| LHRS-Bot | 7B | 0.73 | 0.87 | 0.59 | 0.73 |
| Falcon | 0.7B | 0.94 | 0.97 | 0.99 | 0.97 |
关键发现
- 参数效率:Falcon仅用0.7B参数,超越了7B参数的现有模型
- 全面领先:在14个任务上都取得了最优或接近最优的性能
- 零样本泛化:在未见过的数据集上也表现出色
消融实验
| 配置 | 分类 | 检测 | 分割 | 描述 |
|---|---|---|---|---|
| 基线(无动态提示) | 0.89 | 0.72 | 0.65 | 0.58 |
| + 动态提示 | 0.94 | 0.78 | 0.71 | 0.63 |
| + 数据增强 | 0.96 | 0.82 | 0.75 | 0.67 |
| 完整Falcon | 0.97 | 0.85 | 0.78 | 0.71 |
可视化分析
论文提供了丰富的可视化结果,展示了Falcon在以下场景的表现:
- 图像分类:准确识别遥感图像的场景类别
- 目标检测:精确定位飞机、车辆、船舶等目标
- 语义分割:对建筑、道路、植被等进行像素级分割
- 变化检测:检测双时相图像中的地物变化
- 图像描述:生成详细的遥感图像描述
💭 深度评价
核心洞察
统一表示的力量:通过将所有任务统一为序列到序列的格式,Falcon实现了真正的多任务学习,不同任务之间可以相互促进
轻量化的价值:0.7B参数的模型超越了7B参数的模型,说明在遥感领域,模型设计比单纯增大参数量更重要
数据规模的关键作用:7800万样本的Falcon_SFT数据集是模型成功的基础,证明了"数据为王"的规律
技术贡献层次
层次1:数据贡献
├── 构建了最大的遥感多任务数据集
└── 统一了67个数据集的标注格式
层次2:模型贡献
├── 提出了统一的序列到序列框架
├── 设计了动态提示训练策略
└── 实现了轻量化的0.7B参数模型
层次3:应用贡献
├── 支持14个遥感任务
├── 开源了完整的代码和权重
└── 降低了遥感VLM的使用门槛优点(3个)
任务覆盖全面:首个支持14个任务的遥感VLM,涵盖图像级、区域级和像素级
参数效率极高:0.7B参数超越7B参数模型,适合边缘设备部署
开源贡献巨大:完整开源数据集、代码和模型权重,推动社区发展
局限性(3个)
缺乏多模态输入:仅支持RGB图像,未融合SAR、高光谱等其他模态
实时性未验证:论文未提供推理速度的详细对比,实际部署效率未知
长尾问题:对于罕见类别和复杂场景的性能可能下降
未来方向
多模态扩展:融合SAR、高光谱、LiDAR等多源数据
模型压缩:进一步降低参数量,实现移动端部署
增量学习:支持新任务和新数据的持续学习
实际应用:在灾害监测、城市规划、环境评估等场景验证
📝 总结
Falcon是遥感视觉语言模型领域的重要突破,它首次实现了在一个统一的框架下处理14个遥感任务。通过创新的序列到序列架构、动态提示训练策略和大规模数据集Falcon_SFT,Falcon仅用0.7B参数就超越了现有的7B参数模型,展现了极高的参数效率。
这项工作的核心价值在于:
- 统一性:打破了遥感任务的碎片化现状,提供了一个通用的解决方案
- 高效性:证明了轻量化模型在遥感领域的可行性
- 开放性:完整开源了数据集、代码和模型,为社区发展奠定了基础
Falcon的成功表明,遥感视觉语言模型的发展不应盲目追求参数量的增大,而应注重模型架构的创新和数据质量的提升。随着遥感数据的不断积累和模型技术的持续进步,我们有理由相信,未来的遥感AI系统将在地球观测、环境保护、灾害预警等领域发挥更大的作用。
参考文献
[1] Yao, K., Xu, N., Yang, R., et al. Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report). arXiv:2503.11070, 2025.
[2] Kuckreja, K., Danish, M. S., Naseer, M., et al. GeoChat: Grounded Large Vision-Language Model for Remote Sensing. CVPR, 2024.
[3] Muhtar, D., Li, Z., et al. LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model. ECCV, 2024.
[4] Zhang, Y., et al. EarthGPT: A Universal Multi-modal Foundation Model for Multi-granularities Remote Sensing Image Understanding. arXiv, 2024.
[5] Hu, Y., et al. RSGPT: A Remote Sensing Vision Language Model and Benchmark. IGARSS, 2024.