<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>自监督预训练 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E8%87%AA%E7%9B%91%E7%9D%A3%E9%A2%84%E8%AE%AD%E7%BB%83/</link><description>自监督预训练 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 01 Jun 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E8%87%AA%E7%9B%91%E7%9D%A3%E9%A2%84%E8%AE%AD%E7%BB%83/" rel="self" type="application/rss+xml"/><item><title>MA3E：让遥感预训练\"看见\"角度——基于掩码角度感知自编码器的旋转不变表示学习</title><link>https://spacetop.win/2026/06/20260601_223000_ma3e_angle_aware/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_223000_ma3e_angle_aware/</guid><description><![CDATA[<h1 id="ma3e让遥感预训练看见角度基于掩码角度感知自编码器的旋转不变表示学习" class="headerLink">
    <a href="#ma3e%e8%ae%a9%e9%81%a5%e6%84%9f%e9%a2%84%e8%ae%ad%e7%bb%83%e7%9c%8b%e8%a7%81%e8%a7%92%e5%ba%a6%e5%9f%ba%e4%ba%8e%e6%8e%a9%e7%a0%81%e8%a7%92%e5%ba%a6%e6%84%9f%e7%9f%a5%e8%87%aa%e7%bc%96%e7%a0%81%e5%99%a8%e7%9a%84%e6%97%8b%e8%bd%ac%e4%b8%8d%e5%8f%98%e8%a1%a8%e7%a4%ba%e5%ad%a6%e4%b9%a0" class="header-mark"></a>MA3E：让遥感预训练&quot;看见&quot;角度——基于掩码角度感知自编码器的旋转不变表示学习</h1><blockquote>
  <p><strong>论文解读</strong> | ECCV 2024 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>Masked Angle-Aware Autoencoder for Remote Sensing Images</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Benesaki Takam, et al.</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>ECCV 2024</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td>-</td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/benesakitam/MA3E" target="_blank" rel="noopener noreferrer">https://github.com/benesakitam/MA3E</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>自监督预训练、掩码自编码器、角度感知、旋转不变性、遥感图像</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感图像与自然图像存在本质差异：<strong>同一地物在不同拍摄角度下会呈现完全不同的视觉外观</strong>。例如，一栋建筑物从东南方向和西北方向拍摄，其外观可能截然不同。这种<strong>旋转变化</strong>是遥感图像的固有特性。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><p>现有的自监督预训练方法（如MAE、SatMAE等）主要借鉴自然图像的预训练策略，<strong>忽略了遥感图像中普遍存在的角度变化问题</strong>：</p>
<ol>
<li><strong>MAE系列</strong>：直接重建被掩码的图像块，未考虑旋转带来的外观变化</li>
<li><strong>对比学习方法</strong>：依赖数据增强，但未显式建模角度信息</li>
<li><strong>现有遥感预训练</strong>：大多直接迁移自然图像方法，未针对遥感特性设计</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><blockquote>
  <p><strong>如何在自监督预训练中显式地感知和学习遥感图像中的角度信息，从而获得旋转不变的特征表示？</strong></p>
</blockquote><h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1scaling-center-crop缩放中心裁剪" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91scaling-center-crop%e7%bc%a9%e6%94%be%e4%b8%ad%e5%bf%83%e8%a3%81%e5%89%aa" class="header-mark"></a>核心创新点1：Scaling Center Crop（缩放中心裁剪）</h3><p><strong>设计动机</strong>：遥感图像中的地物可能以任意角度出现，需要模型能够感知并适应这种角度变化。</p>
<p><strong>具体实现</strong>：</p>
<div class="code-block highlight is-closed show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>全球首个十亿级高光谱基础模型：HyperSIGMA如何统一高层与底层视觉任务？</title><link>https://spacetop.win/2026/06/20260601_210000_hypersigma_hyperspectral/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_210000_hypersigma_hyperspectral/</guid><description><![CDATA[<h1 id="全球首个十亿级高光谱基础模型hypersigma如何统一高层与底层视觉任务" class="headerLink">
    <a href="#%e5%85%a8%e7%90%83%e9%a6%96%e4%b8%aa%e5%8d%81%e4%ba%bf%e7%ba%a7%e9%ab%98%e5%85%89%e8%b0%b1%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8bhypersigma%e5%a6%82%e4%bd%95%e7%bb%9f%e4%b8%80%e9%ab%98%e5%b1%82%e4%b8%8e%e5%ba%95%e5%b1%82%e8%a7%86%e8%a7%89%e4%bb%bb%e5%8a%a1" class="header-mark"></a>全球首个十亿级高光谱基础模型：HyperSIGMA如何统一高层与底层视觉任务？</h1><blockquote>
  <p><strong>论文解读</strong> | IEEE TPAMI 2025 (IF=20.8) | ESI高被引论文</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Di Wang*, Meiqi Hu*, Yao Jin*, Yuchun Miao*, Jiaqi Yang*, Yichu Xu* 等（武汉大学、重庆大学、东京大学、南洋理工大学）</td>
      </tr>
      <tr>
          <td><strong>会议/期刊</strong></td>
          <td>IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2406.11519" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2406.11519</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/WHU-Sigma/HyperSIGMA" target="_blank" rel="noopener noreferrer">https://github.com/WHU-Sigma/HyperSIGMA</a> (⭐366)</td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>高光谱图像、基础模型、Vision Transformer、稀疏采样注意力、自监督预训练</td>
      </tr>
  </tbody>
</table>
<h2 id="-论文定位" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e5%ae%9a%e4%bd%8d" class="header-mark"></a>📊 论文定位</h2><ul>
<li><strong>论文类型</strong>：理论突破型</li>
<li><strong>创新性评分</strong>：⭐⭐⭐⭐ (4分)</li>
<li><strong>判断依据</strong>：
<ol>
<li><strong>首创性</strong>：全球首个专门为高光谱图像设计的十亿级基础模型，填补了该领域的空白</li>
<li><strong>技术贡献</strong>：提出稀疏采样注意力（SSA）机制，针对性解决高光谱数据的冗余问题</li>
<li><strong>数据贡献</strong>：构建全球最大高光谱预训练数据集HyperGlobal-450K（2000万+图像）</li>
<li><strong>荣誉认可</strong>：入选ESI Hot Paper和Highly Cited Paper，证明学术影响力</li>
</ol>
</li>
</ul>
<h2 id="-解决的核心问题第一层表象层" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e7%ac%ac%e4%b8%80%e5%b1%82%e8%a1%a8%e8%b1%a1%e5%b1%82" class="header-mark"></a>🎯 解决的核心问题（第一层：表象层）</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>高光谱图像（Hyperspectral Image, HSI）是遥感领域的重要数据类型，能够捕获数百个连续光谱波段的信息，在矿物勘探、农业监测、环境评估等领域有广泛应用。然而，与普通RGB图像相比，高光谱图像面临独特的挑战：</p>]]></description></item><item><title>扩散模型赋能遥感变化检测：DDPM-CD的创新之路</title><link>https://spacetop.win/2026/06/20260601_210000_ddpm_cd_change_detection/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_210000_ddpm_cd_change_detection/</guid><description><![CDATA[<h1 id="扩散模型赋能遥感变化检测ddpm-cd的创新之路" class="headerLink">
    <a href="#%e6%89%a9%e6%95%a3%e6%a8%a1%e5%9e%8b%e8%b5%8b%e8%83%bd%e9%81%a5%e6%84%9f%e5%8f%98%e5%8c%96%e6%a3%80%e6%b5%8bddpm-cd%e7%9a%84%e5%88%9b%e6%96%b0%e4%b9%8b%e8%b7%af" class="header-mark"></a>扩散模型赋能遥感变化检测：DDPM-CD的创新之路</h1><blockquote>
  <p><strong>论文解读</strong> | WACV 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Wele Gedara Chaminda Bandara, Nithin Gopalakrishnan Nair, Vishal M. Patel</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2025</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2405.17641" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2405.17641</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/wgcban/ddpm-cd" target="_blank" rel="noopener noreferrer">https://github.com/wgcban/ddpm-cd</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感变化检测、扩散模型、自监督预训练、特征提取、DDPM</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感变化检测（Change Detection, CD）是地球观测的核心任务之一，旨在从不同时相的遥感图像中识别地表变化。这项任务在城市规划、环境监测、灾害评估等领域有着广泛应用。</p>
<p>然而，现有的变化检测方法面临一个关键瓶颈：<strong>高质量标注数据的稀缺性</strong>。标注遥感图像的变化区域需要专业知识和大量时间，这限制了深度学习模型的性能提升。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><ol>
<li><strong>监督学习方法的困境</strong>：传统的CNN和Transformer方法依赖大量标注数据，但在遥感领域获取标注成本极高</li>
<li><strong>特征提取的局限性</strong>：现有方法通常从头训练模型，无法充分利用海量无标注遥感数据中蕴含的语义信息</li>
<li><strong>泛化能力不足</strong>：在小数据集上训练的模型容易过拟合，泛化到新场景的能力有限</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><blockquote>
  <p><strong>如何利用海量无标注遥感图像提升变化检测模型的特征表示能力？</strong></p>
</blockquote><h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1扩散模型作为特征提取器" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91%e6%89%a9%e6%95%a3%e6%a8%a1%e5%9e%8b%e4%bd%9c%e4%b8%ba%e7%89%b9%e5%be%81%e6%8f%90%e5%8f%96%e5%99%a8" class="header-mark"></a>核心创新点1：扩散模型作为特征提取器</h3><p><strong>设计动机</strong>：
扩散模型（DDPM）在图像生成任务中展现出强大的语义理解能力。作者观察到，预训练的扩散模型在去噪过程中学习到了丰富的图像语义特征，这些特征可以迁移到变化检测任务中。</p>
<p><strong>具体实现</strong>：</p>
<div class="code-block highlight is-closed show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">python</p>]]></description></item></channel></rss>