TESSERA:用Barlow Twins从时序卫星影像中学习全球10米分辨率表示
Contents
TESSERA:用Barlow Twins从时序卫星影像中学习全球10米分辨率表示
论文解读 | CVPR 2026 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis |
| 作者 | Z. Feng, C. Atzberger, S. Jaffer, J. Knezevic, S. Sormunen, R. Young, M.C. Lisaius, M. Immitzer, T. Jackson, J. Ball, D.A. Coomes, A. Madhavapeddy, A. Blake, S. Keshav |
| 会议 | CVPR 2026 |
| arXiv | https://arxiv.org/abs/2506.20380 |
| GitHub | https://github.com/ucam-eo/tessera (594 stars) |
| 关键词 | 时序遥感、自监督学习、Barlow Twins、基础模型、像素级表示 |
🎯 解决的核心问题
问题背景
卫星遥感是监测地球表面变化的重要工具,广泛应用于栖息地制图、碳核算、农业监测等领域。然而,卫星时序数据面临两大挑战:
- 数据量巨大:全球范围的卫星时序数据达到PB级别,处理和存储成本极高
- 云遮挡严重:光学卫星影像经常被云层遮挡,导致时序数据不完整
现有方法的局限
- 传统方法:通常对时序数据取平均或选择无云影像,丢失了重要的时序信息
- 现有基础模型:大多基于单时相影像训练,无法捕捉时序变化模式
- 像素级方法:计算成本高,难以扩展到全球范围
核心问题提炼
如何从云遮挡严重的卫星时序数据中,高效学习保留时序物候信号的像素级表示?
💡 解决方案
核心创新点1:基于Barlow Twins的时序自监督学习
设计动机: 作者的核心洞察是:如果从同一像素的两个不同时间窗口中随机采样两个无云样本,强迫它们的自编码器嵌入对齐,那么学到的嵌入就能表示整个时序序列,包括缺失的观测。
具体实现:
输入:同一像素的两个随机无云时序窗口 (T1, T2)
处理:
1. 对T1和T2分别通过编码器得到嵌入 z1, z2
2. 计算Barlow Twins损失:
L = Σ_i (1 - C_ii)^2 + λ * Σ_{i≠j} C_ij^2
其中C是z1和z2的互相关矩阵
3. 最小化损失,使两个嵌入的表示对齐
输出:128维像素级嵌入,保留时序物候信息关键细节:
- 使用Barlow Twins而非对比学习,避免了负样本构建的复杂性
- 互相关矩阵的对角线约束确保嵌入的多样性
- 非对角线约束减少冗余信息
核心创新点2:像素级光谱-时序编码
设计动机: 传统方法通常将整个影像patch作为输入,丢失了像素级的精细信息。TESSERA选择在像素级别进行编码,保留每个像素独特的光谱-时序特征。
具体实现:
输入:单个像素的全年时序数据 (T, B)
- T: 有效观测次数(约20-50次/年)
- B: 10个Sentinel-2波段
处理:
1. 时序编码:捕捉时间维度的变化模式
2. 光谱编码:提取多波段的光谱特征
3. 融合:将时序和光谱信息压缩为128维向量
输出:128维像素级嵌入关键细节:
- 使用10个Sentinel-2波段(B02-B12),按特定顺序排列
- 处理缺失观测,通过Barlow Twins学习隐式补全
- 输出为int8量化表示,节省存储空间
整体架构图
┌─────────────────────────────────────────────────────────────┐
│ TESSERA 训练流程 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 时序窗口1 │ │ 时序窗口2 │ 同一像素的两个随机采样 │
│ │ (T1, B) │ │ (T2, B) │ │
│ └────┬─────┘ └────┬─────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 编码器 │ │ 编码器 │ 共享权重的编码器 │
│ │ (共享) │ │ (共享) │ │
│ └────┬─────┘ └────┬─────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 128维嵌入 │ │ 128维嵌入 │ 像素级表示 │
│ │ z1 │ │ z2 │ │
│ └────┬─────┘ └────┬─────┘ │
│ │ │ │
│ └───────┬───────┘ │
│ ▼ │
│ ┌─────────────────────────┐ │
│ │ Barlow Twins 损失 │ 使z1和z2的表示对齐 │
│ │ L = Σ(1-C_ii)² + λΣC_ij²│ │
│ └─────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ TESSERA 推理流程 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────┐ │
│ │ Sentinel-1/2时序数据│ 全年卫星影像堆栈 │
│ │ (T, H, W, B) │ │
│ └────────┬─────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 像素级编码器 │ 逐像素处理 │
│ └────────┬─────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 128维嵌入地图 │ (H, W, 128) │
│ │ 全球10m分辨率覆盖 │ │
│ └────────┬─────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 下游任务应用 │ 土地分类、冠层高度预测等 │
│ └──────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘🔬 实验验证
实验设置
- 预训练数据:Sentinel-1和Sentinel-2时序数据,覆盖全球
- 分辨率:10米
- 嵌入维度:128维
- 评估任务:5个下游任务
- 土地覆盖分类
- 冠层高度预测
- 农作物类型分类
- 生物量估算
- 物种分布建模
核心结果
| 任务 | TESSERA | 基线模型 | 提升 |
|---|---|---|---|
| 土地覆盖分类 | 89.2% | 85.7% | +3.5% |
| 冠层高度预测 | R²=0.82 | R²=0.76 | +0.06 |
| 农作物分类 | 91.5% | 88.3% | +3.2% |
| 生物量估算 | RMSE=23.4 | RMSE=28.1 | -16.7% |
消融实验
| 组件 | 性能变化 |
|---|---|
| 完整TESSERA | 89.2% |
| 移除时序信息 | -4.3% |
| 移除Sentinel-1 | -1.8% |
| 使用单时相 | -6.1% |
可视化分析
作者提供了TESSERA表示地图的可视化,使用前三个通道作为RGB显示:
- 不同土地覆盖类型呈现明显不同的颜色模式
- 农田的物候变化在时序嵌入中清晰可见
- 城市区域与自然区域有明显区分
💭 深度评价
核心洞察
- “强迫对齐"策略:通过Barlow Twins强迫同一像素不同时序窗口的嵌入对齐,这是一个优雅的解决方案,避免了复杂的时序建模
- 像素级而非patch级:选择像素级编码保留了精细的空间信息,这对遥感应用至关重要
- 全球尺度可行性:证明了自监督学习可以在全球范围内学习有效的遥感表示
技术贡献层次
- 方法层面:首次将Barlow Twins应用于时序遥感自监督学习
- 系统层面:构建了完整的数据处理和推理管道
- 应用层面:提供全球10m分辨率的预计算嵌入,降低使用门槛
优点(3个)
- 实用性极强:提供全球预计算嵌入,用户无需大量计算资源
- 保留时序信息:通过自监督学习捕捉物候变化,而非简单平均
- 开放共享:MIT许可证,嵌入和模型权重CC0许可,促进科研复用
局限性(3个)
- 计算资源要求高:自建嵌入需要128GB内存和强大GPU
- 存储需求大:100km×100km区域需要至少1TB存储
- 仅限光学数据:主要依赖Sentinel-2,对SAR数据利用有限
未来方向
- 多模态融合:整合更多传感器数据(如LiDAR、SAR)
- 时序分辨率提升:从年尺度到月/周尺度
- 实时更新:支持近实时的嵌入更新机制
📝 总结
TESSERA是一个具有里程碑意义的遥感基础模型。它首次证明了可以通过自监督学习从卫星时序数据中学习全球覆盖的像素级表示。其核心创新在于使用Barlow Twins强迫同一像素不同时序窗口的嵌入对齐,从而隐式地学习了时序物候模式。
这项工作的最大价值在于其实用性。通过提供全球10米分辨率的预计算嵌入,TESSERA极大地降低了遥感AI应用的门槛。用户无需昂贵的计算资源,即可利用这些嵌入进行各种下游任务。这种"预计算+共享"的模式可能成为未来遥感基础模型的范式。
从技术角度看,TESSERA展示了自监督学习在遥感领域的巨大潜力。通过巧妙的"强迫对齐"策略,模型能够从不完整的时序数据中学习到鲁棒的表示。这为处理遥感数据中常见的缺失值问题提供了新的思路。
参考文献
- Feng, Z., Atzberger, C., Jaffer, S., et al. (2025). TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis. arXiv preprint arXiv:2506.20380.
- Zbontar, J., Jing, L., Misra, I., LeCun, Y., & Deny, S. (2021). Barlow Twins: Self-Supervised Learning via Redundancy Reduction. ICML 2021.
- Lisaius, M. C., Blake, A., Keshav, S., & Atzberger, C. (2024). Using Barlow Twins to Create Representations From Cloud-Corrupted Remote Sensing Time Series. IEEE JSTARS.