<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>开放词汇分割 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E8%AF%8D%E6%B1%87%E5%88%86%E5%89%B2/</link><description>开放词汇分割 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 01 Jun 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E8%AF%8D%E6%B1%87%E5%88%86%E5%89%B2/" rel="self" type="application/rss+xml"/><item><title>ConInfer：无需训练，用上下文推理实现遥感开放词汇分割</title><link>https://spacetop.win/2026/06/20260601_034035_coninfer_open_vocabulary/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_034035_coninfer_open_vocabulary/</guid><description><![CDATA[<h1 id="coninfer无需训练用上下文推理实现遥感开放词汇分割" class="headerLink">
    <a href="#coninfer%e6%97%a0%e9%9c%80%e8%ae%ad%e7%bb%83%e7%94%a8%e4%b8%8a%e4%b8%8b%e6%96%87%e6%8e%a8%e7%90%86%e5%ae%9e%e7%8e%b0%e9%81%a5%e6%84%9f%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87%e5%88%86%e5%89%b2" class="header-mark"></a>ConInfer：无需训练，用上下文推理实现遥感开放词汇分割</h1><blockquote>
  <p><strong>论文解读</strong> | CVPR 2026 Findings | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>详见论文</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>CVPR 2026 Findings</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td>暂未公开</td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/Dog-Yang/ConInfer" target="_blank" rel="noopener noreferrer">https://github.com/Dog-Yang/ConInfer</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>开放词汇分割、遥感图像、免训练、上下文推理、CLIP、DINOv3</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感图像分割是地球观测领域的核心任务，广泛应用于城市规划、环境监测、灾害评估等场景。传统的语义分割方法依赖于<strong>封闭词汇表</strong>——模型只能识别训练时见过的固定类别（如建筑、道路、水体等）。然而，真实世界的遥感应用场景远比固定类别复杂：</p>
<ul>
<li>灾害响应中需要识别&quot;被洪水淹没的农田&quot;</li>
<li>城市规划中需要识别&quot;临时搭建的工棚&quot;</li>
<li>环境监测中需要识别&quot;入侵物种覆盖区域&quot;</li>
</ul>
<p>这些类别在标准训练数据集中几乎不存在，传统模型对此无能为力。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><p>当前的开放词汇分割方法主要面临两个挑战：</p>
<ol>
<li><strong>训练成本高昂</strong>：大多数方法需要在大规模标注数据上进行微调，遥感图像的标注成本极高（需要专业知识，且图像尺度巨大）</li>
<li><strong>领域迁移困难</strong>：CLIP等视觉-语言模型在自然图像上预训练，直接应用于遥感场景时存在严重的<strong>领域鸿沟</strong>——遥感图像的俯视视角、多光谱特性、尺度多样性等都与自然图像截然不同</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><blockquote>
  <p><strong>能否在不进行任何训练的情况下，直接利用预训练视觉-语言模型实现高质量的遥感开放词汇分割？</strong></p>
</blockquote><h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1上下文感知推理context-aware-inference" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91%e4%b8%8a%e4%b8%8b%e6%96%87%e6%84%9f%e7%9f%a5%e6%8e%a8%e7%90%86context-aware-inference" class="header-mark"></a>核心创新点1：上下文感知推理（Context-Aware Inference）</h3><p><strong>设计动机</strong>：CLIP模型在图像级别进行预训练，其特征缺乏像素级的空间细节。直接将CLIP特征用于分割会导致边界模糊、类别混淆。</p>
<p><strong>具体实现</strong>：ConInfer提出了一种<strong>上下文感知的推理机制</strong>，通过以下步骤增强CLIP的像素级理解能力：</p>
<ol>
<li><strong>多尺度特征提取</strong>：利用DINOv3和SimFeatUp获取高分辨率的细粒度视觉特征</li>
<li><strong>上下文建模</strong>：通过高斯混合模型（GMM）对特征空间进行聚类，自动发现图像中的语义区域</li>
<li><strong>上下文引导分类</strong>：利用发现的上下文信息来校准CLIP的分类结果，消除领域偏差</li>
</ol>
<h3 id="核心创新点2免训练框架training-free-framework" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b92%e5%85%8d%e8%ae%ad%e7%bb%83%e6%a1%86%e6%9e%b6training-free-framework" class="header-mark"></a>核心创新点2：免训练框架（Training-Free Framework）</h3><p><strong>设计动机</strong>：避免昂贵的微调过程，直接利用预训练模型的能力。</p>
<p><strong>具体实现</strong>：</p>
<ul>
<li>使用BLIP生成图像描述，提供文本级别的上下文</li>
<li>利用OpenCLIP的文本编码器计算开放词汇相似度</li>
<li>通过自适应的提示工程（Prompt Engineering）弥合领域差距</li>
</ul>
<h3 id="整体架构" class="headerLink">
    <a href="#%e6%95%b4%e4%bd%93%e6%9e%b6%e6%9e%84" class="header-mark"></a>整体架构</h3><div class="code-block highlight is-closed show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>RSKT-Seg：旋转不变+领域迁移实现遥感图像开放词汇分割</title><link>https://spacetop.win/2026/06/20260601_223000_rskt_seg_open_vocabulary/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_223000_rskt_seg_open_vocabulary/</guid><description><![CDATA[<h1 id="rskt-seg旋转不变领域迁移实现遥感图像开放词汇分割" class="headerLink">
    <a href="#rskt-seg%e6%97%8b%e8%bd%ac%e4%b8%8d%e5%8f%98%e9%a2%86%e5%9f%9f%e8%bf%81%e7%a7%bb%e5%ae%9e%e7%8e%b0%e9%81%a5%e6%84%9f%e5%9b%be%e5%83%8f%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87%e5%88%86%e5%89%b2" class="header-mark"></a>RSKT-Seg：旋转不变+领域迁移实现遥感图像开放词汇分割</h1><blockquote>
  <p><strong>论文解读</strong> | AAAI 2026 Oral | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Bingyu Li, Xuelong Li 等</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>AAAI 2026 Oral</td>
      </tr>
      <tr>
          <td><strong>单位</strong></td>
          <td>中国科学技术大学, TeleAI</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2509.12040" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2509.12040</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/LiBingyu01/RSKT-Seg" target="_blank" rel="noopener noreferrer">https://github.com/LiBingyu01/RSKT-Seg</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>开放词汇分割, 遥感图像, 旋转不变, 领域迁移, 成本图</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS）是计算机视觉领域的重要任务，旨在分割任意文本描述的类别。然而，当这一技术应用于遥感图像时，面临独特的挑战：</p>
<ol>
<li><strong>领域差异</strong>：自然图像与遥感图像在视角、尺度、纹理等方面存在显著差异</li>
<li><strong>旋转不变性需求</strong>：遥感图像通常从俯视角度拍摄，目标方向任意，需要模型具备旋转不变性</li>
<li><strong>缺乏统一基准</strong>：遥感领域缺乏标准化的开放词汇分割评估基准</li>
</ol>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><ul>
<li><strong>直接迁移效果差</strong>：将自然图像的OVS方法直接应用于遥感场景，性能显著下降</li>
<li><strong>旋转敏感</strong>：传统方法对目标方向敏感，难以处理任意旋转的遥感目标</li>
<li><strong>计算效率低</strong>：现有方法通常计算复杂度高，难以满足大规模遥感数据处理需求</li>
</ul>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何设计一个专为遥感图像优化的开放词汇分割框架，同时具备旋转不变性和高效率？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1多方向成本图聚合rs-cma" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91%e5%a4%9a%e6%96%b9%e5%90%91%e6%88%90%e6%9c%ac%e5%9b%be%e8%81%9a%e5%90%88rs-cma" class="header-mark"></a>核心创新点1：多方向成本图聚合（RS-CMA）</h3><p><strong>设计动机</strong>：遥感图像中的目标可能以任意方向出现，传统方法使用单一方向的视觉-语言相似度计算无法捕捉旋转不变特征。</p>
<p><strong>具体实现</strong>：</p>
<div class="code-block highlight is-open show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>SAM 3赋能遥感开放词汇分割：SegEarth-OV3的免训练新范式</title><link>https://spacetop.win/2026/06/20260601_220000_segearth_ov3_sam3/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_220000_segearth_ov3_sam3/</guid><description><![CDATA[<h1 id="sam-3赋能遥感开放词汇分割segearth-ov3的免训练新范式" class="headerLink">
    <a href="#sam-3%e8%b5%8b%e8%83%bd%e9%81%a5%e6%84%9f%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87%e5%88%86%e5%89%b2segearth-ov3%e7%9a%84%e5%85%8d%e8%ae%ad%e7%bb%83%e6%96%b0%e8%8c%83%e5%bc%8f" class="header-mark"></a>SAM 3赋能遥感开放词汇分割：SegEarth-OV3的免训练新范式</h1><blockquote>
  <p><strong>论文解读</strong> | arXiv 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>详见论文</td>
      </tr>
      <tr>
          <td><strong>会议/期刊</strong></td>
          <td>arXiv 2025 (arXiv:2512.08730)</td>
      </tr>
      <tr>
          <td><strong>arXiv链接</strong></td>
          <td><a href="https://arxiv.org/abs/2512.08730" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2512.08730</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/earth-insights/SegEarth-OV-3" target="_blank" rel="noopener noreferrer">https://github.com/earth-insights/SegEarth-OV-3</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>开放词汇分割、SAM 3、遥感图像、免训练、变化检测</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感图像语义分割是地球观测的核心任务，但传统方法受限于<strong>闭集假设</strong>——只能识别训练集中预定义的类别。在实际应用中，遥感场景包含无数未知类别，手动标注成本高昂且不切实际。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><ol>
<li>
<p><strong>CLIP基方法的困境</strong>：现有的免训练开放词汇分割方法主要基于CLIP，但在遥感场景中面临精确定位困难，尤其是处理密集小目标时表现不佳。</p>
</li>
<li>
<p><strong>复杂流水线问题</strong>：一些方法需要复杂的模块组合来分别处理语义和实例信息，增加了系统复杂度。</p>
</li>
<li>
<p><strong>大词汇量挑战</strong>：地理空间场景中词汇量庞大，patch级处理容易产生大量误报。</p>
</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何利用最新的SAM 3模型，在遥感图像中实现高效、免训练的开放词汇语义分割，并扩展到变化检测等更多任务？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1mask融合策略" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91mask%e8%9e%8d%e5%90%88%e7%ad%96%e7%95%a5" class="header-mark"></a>核心创新点1：Mask融合策略</h3><p><strong>设计动机</strong>：SAM 3同时具备语义分割头（semantic head）和Transformer解码器（instance head），两者各有优势：</p>
<ul>
<li>语义分割头：擅长土地覆盖分类</li>
<li>实例头：擅长目标实例识别</li>
</ul>
<p><strong>具体实现</strong>：</p>
<div class="code-block highlight is-closed show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读</title><link>https://spacetop.win/2026/05/20260531_140440_remote_sensing_foundation_model/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_140440_remote_sensing_foundation_model/</guid><description><![CDATA[<h1 id="遥感基础模型新突破segearth-ov与geolink的创新解读" class="headerLink">
    <a href="#%e9%81%a5%e6%84%9f%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b%e6%96%b0%e7%aa%81%e7%a0%b4segearth-ov%e4%b8%8egeolink%e7%9a%84%e5%88%9b%e6%96%b0%e8%a7%a3%e8%af%bb" class="header-mark"></a>遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读</h1><p><strong>关键词</strong>: 遥感基础模型, 开放词汇分割, 多模态融合, 无标注分割, OpenStreetMap, SAM3, CVPR 2025, NeurIPS 2025</p>
<hr>
<h2 id="一论文信息" class="headerLink">
    <a href="#%e4%b8%80%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>一、论文信息</h2><h3 id="论文1segearth-ov3---探索sam3在遥感开放词汇语义分割中的应用" class="headerLink">
    <a href="#%e8%ae%ba%e6%96%871segearth-ov3---%e6%8e%a2%e7%b4%a2sam3%e5%9c%a8%e9%81%a5%e6%84%9f%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87%e8%af%ad%e4%b9%89%e5%88%86%e5%89%b2%e4%b8%ad%e7%9a%84%e5%ba%94%e7%94%a8" class="header-mark"></a>论文1：SegEarth-OV3 - 探索SAM3在遥感开放词汇语义分割中的应用</h3><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao</td>
      </tr>
      <tr>
          <td><strong>机构</strong></td>
          <td>西安交通大学, 中国科学院</td>
      </tr>
      <tr>
          <td><strong>发表</strong></td>
          <td>arXiv:2512.08730 (2025)</td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/earth-insights/SegEarth-OV-3" target="_blank" rel="noopener noreferrer">https://github.com/earth-insights/SegEarth-OV-3</a> ⭐161</td>
      </tr>
      <tr>
          <td><strong>论文链接</strong></td>
          <td><a href="https://arxiv.org/abs/2512.08730" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2512.08730</a></td>
      </tr>
  </tbody>
</table>
<h3 id="论文2geolink---利用openstreetmap数据增强遥感基础模型" class="headerLink">
    <a href="#%e8%ae%ba%e6%96%872geolink---%e5%88%a9%e7%94%a8openstreetmap%e6%95%b0%e6%8d%ae%e5%a2%9e%e5%bc%ba%e9%81%a5%e6%84%9f%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b" class="header-mark"></a>论文2：GeoLink - 利用OpenStreetMap数据增强遥感基础模型</h3><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du</td>
      </tr>
      <tr>
          <td><strong>机构</strong></td>
          <td>北京大学</td>
      </tr>
      <tr>
          <td><strong>发表</strong></td>
          <td>NeurIPS 2025</td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/bailubin/GeoLink_NeurIPS2025" target="_blank" rel="noopener noreferrer">https://github.com/bailubin/GeoLink_NeurIPS2025</a> ⭐56</td>
      </tr>
      <tr>
          <td><strong>论文链接</strong></td>
          <td><a href="https://arxiv.org/abs/2509.26016" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2509.26016</a></td>
      </tr>
  </tbody>
</table>
<hr>
<h2 id="二问题背景与动机" class="headerLink">
    <a href="#%e4%ba%8c%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af%e4%b8%8e%e5%8a%a8%e6%9c%ba" class="header-mark"></a>二、问题背景与动机</h2><h3 id="21-遥感图像理解的核心挑战" class="headerLink">
    <a href="#21-%e9%81%a5%e6%84%9f%e5%9b%be%e5%83%8f%e7%90%86%e8%a7%a3%e7%9a%84%e6%a0%b8%e5%bf%83%e6%8c%91%e6%88%98" class="header-mark"></a>2.1 遥感图像理解的核心挑战</h3><p>遥感图像的语义分割是地球观测的关键任务，但面临两大根本性难题：</p>]]></description></item></channel></rss>