从模型权重中学习:GeoSANE开创遥感基础模型新范式

从模型权重中学习:GeoSANE开创遥感基础模型新范式

论文解读 | CVPR 2026 | 2026-06-01

项目内容
标题GeoSANE: Learning Geospatial Representations from Models, Not Data
作者Joelle Hanna, Damian Falk, Stella X. Yu, Damian Borth
机构HSG-AIML (University of St. Gallen)
会议CVPR 2026
arXivhttps://arxiv.org/abs/2603.23408
GitHubhttps://github.com/HSG-AIML/GeoSANE (11 stars)
关键词模型权重空间、遥感基础模型、元学习、模型生成、权重空间学习

遥感领域近年来涌现了大量基础模型(Foundation Models),包括SatMAE、CROMA、SpectralGPT、DOFA、SkySense、Prithvi等。这些模型通过在大规模遥感数据上进行自监督预训练,学习到了强大的特征表示能力。

然而,一个根本性的问题始终存在:我们能否不依赖训练数据,直接从这些已有的模型中学习?

  1. 数据依赖性强:传统基础模型需要大量遥感数据进行预训练,数据收集和处理成本高昂
  2. 计算资源消耗大:训练一个大规模基础模型需要大量GPU资源和时间
  3. 模型孤立性:现有模型各自独立训练,缺乏模型间的知识共享机制
  4. 组合困难:如何将多个模型的优势整合到一个新模型中是一个开放问题

能否直接在模型权重空间中学习一个通用表示,从而生成针对特定任务优化的新模型?

设计动机

传统方法从数据中学习表示,而GeoSANE提出了一个全新的范式:从模型权重中学习表示

具体实现

  1. 模型集合构建:收集103个预训练的遥感基础模型,总计约380亿参数
  2. 权重空间编码:使用Sequential Autoencoder学习这些模型权重的共享潜在表示
  3. 模型生成:从学习到的潜在空间中采样,生成新的模型候选

关键细节

输入:103个预训练模型的权重 {W₁, W₂, ..., W₁₀₃}
处理:Sequential Autoencoder学习共享潜在表示 z
输出:可以从z生成新的模型权重 W_new

这种范式的核心洞察是:模型权重本身包含了丰富的知识,可以直接从中学习通用表示

设计动机

模型权重是高维数据(数十亿参数),直接处理非常困难。需要一种有效的方法来压缩和重建这些权重。

具体实现

  1. 编码器:将模型权重序列化并编码到低维潜在空间
  2. 解码器:从潜在表示重建模型权重
  3. 序列处理:由于权重规模巨大,采用顺序处理策略

关键细节

# 伪代码示意
class GeoSANE:
    def __init__(self):
        self.encoder = SequentialEncoder()  # 编码模型权重
        self.decoder = SequentialDecoder()  # 解码生成新权重
    
    def encode(self, model_weights):
        # 将模型权重编码为潜在表示
        z = self.encoder(model_weights)
        return z
    
    def decode(self, z, target_architecture):
        # 从潜在表示生成目标架构的模型权重
        new_weights = self.decoder(z, target_architecture)
        return new_weights

设计动机

学习到的潜在表示应该能够生成适用于不同下游任务的模型。

具体实现

  1. 任务特定采样:根据下游任务需求,从潜在空间中采样合适的表示
  2. 架构适配:将生成的权重适配到目标架构
  3. 微调优化:在下游任务数据上进行微调
┌─────────────────────────────────────────────────────────────┐
│                    GeoSANE 框架                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐    │
│  │  预训练模型1  │    │  预训练模型2  │    │  预训练模型N  │    │
│  │  (权重W₁)   │    │  (权重W₂)   │    │  (权重Wₙ)   │    │
│  └──────┬──────┘    └──────┬──────┘    └──────┬──────┘    │
│         │                  │                  │            │
│         └──────────────────┼──────────────────┘            │
│                            ▼                               │
│              ┌─────────────────────────┐                   │
│              │  Sequential Autoencoder │                   │
│              │  ┌─────────┐ ┌───────┐ │                   │
│              │  │ Encoder │→│Decoder│ │                   │
│              │  └─────────┘ └───────┘ │                   │
│              └───────────┬─────────────┘                   │
│                          ▼                                 │
│              ┌─────────────────────────┐                   │
│              │   潜在表示空间 z         │                   │
│              │   (共享语义表示)         │                   │
│              └───────────┬─────────────┘                   │
│                          ▼                                 │
│              ┌─────────────────────────┐                   │
│              │   模型生成与微调         │                   │
│              │   任务特定优化           │                   │
│              └─────────────────────────┘                   │
│                                                             │
└─────────────────────────────────────────────────────────────┘
  • 预训练模型集合:103个遥感基础模型,包括SatMAE、CROMA、SpectralGPT、DOFA等
  • 下游任务:Sen1Floods11洪水检测分割任务
  • 评估指标:IoU、F1-score、准确率等

GeoSANE在Sen1Floods11数据集上展示了其有效性:

  1. 生成模型质量:从潜在空间生成的模型在微调后能够达到有竞争力的性能
  2. 数据效率:相比从头训练,生成的模型需要更少的标注数据进行微调
  3. 泛化能力:学习到的表示能够迁移到不同的下游任务

论文进行了以下消融研究:

  1. 模型数量影响:分析了使用不同数量预训练模型对学习效果的影响
  2. 潜在空间维度:研究了潜在表示维度对生成质量的影响
  3. 架构适配性:验证了方法对不同目标架构的适应性

论文提供了潜在空间的可视化,展示了:

  1. 模型聚类:不同类型的遥感模型在潜在空间中的分布
  2. 插值效果:在潜在空间中插值生成的模型的性能变化
  3. 任务特异性:不同任务对应的最优潜在表示区域

GeoSANE的核心洞察是模型即数据(Models as Data):

  1. 范式转换:从"从数据学习"转向"从模型学习",开辟了新的研究方向
  2. 知识压缩:将多个模型的知识压缩到一个共享的潜在表示中
  3. 元学习视角:本质上是一种元学习方法,学习如何生成好的模型
  1. 概念层面:首次提出在遥感领域从模型权重空间学习表示
  2. 方法层面:设计了Sequential Autoencoder来处理大规模模型权重
  3. 应用层面:展示了生成的模型在下游任务中的有效性
  1. 创新性极强:开创了遥感基础模型的新范式,不再依赖训练数据
  2. 计算效率:生成新模型比从头训练更高效
  3. 知识整合:能够整合多个模型的优势,生成更强大的模型
  1. 模型质量依赖:生成模型的质量受限于输入的预训练模型质量
  2. 架构限制:需要预先定义目标模型架构,灵活性有限
  3. 规模挑战:处理数十亿参数的模型权重仍然是一个技术挑战
  1. 更大规模模型集合:扩展到更多、更大规模的预训练模型
  2. 动态架构生成:不仅生成权重,还能生成最优架构
  3. 跨域迁移:探索从遥感模型迁移到其他领域的可能性
  4. 在线学习:支持持续学习,不断整合新模型的知识

GeoSANE提出了一种革命性的方法:直接从模型权重空间中学习表示,而不是从训练数据中学习。这种方法收集了103个预训练的遥感基础模型(约380亿参数),使用Sequential Autoencoder学习它们的共享潜在表示,然后可以从这个表示空间中生成新的、针对特定任务优化的模型。

这项工作的核心价值在于它开辟了一个全新的研究范式。传统上,我们认为"数据是知识的来源",但GeoSANE告诉我们"模型本身也是知识的载体"。通过学习模型权重的结构和模式,我们可以:

  1. 避免重复训练:不需要每次都从头训练新模型
  2. 知识复用:充分利用已有模型的知识
  3. 快速适应:快速生成针对新任务优化的模型

虽然这项工作目前还处于早期阶段,但它为遥感基础模型的发展指明了一个有趣的方向。未来,我们可能会看到更多"模型工厂"式的系统,能够根据需求自动生成最优的遥感模型。

对于遥感领域的研究者和从业者来说,GeoSANE提供了一个重要的启示:不要只关注数据,也要关注模型本身的价值。在模型规模不断增长的今天,如何有效地利用和整合已有模型的知识,将成为一个越来越重要的研究课题。

  1. Hanna, J., Falk, D., Yu, S. X., & Borth, D. (2026). GeoSANE: Learning Geospatial Representations from Models, Not Data. CVPR 2026.
  2. Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
  3. Fuller, A., et al. (2024). CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders. NeurIPS 2024.
  4. Hong, D., et al. (2024). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI.
  5. Xiong, Z., et al. (2024). DOFA: A One-Size-Fits-All Foundation Model for Earth Observation Data. NeurIPS 2024.
  6. Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv.
  7. He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.

Related Content