<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>语义分割 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E8%AF%AD%E4%B9%89%E5%88%86%E5%89%B2/</link><description>语义分割 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 31 May 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E8%AF%AD%E4%B9%89%E5%88%86%E5%89%B2/" rel="self" type="application/rss+xml"/><item><title>GeoLink：用OpenStreetMap数据赋能遥感基础模型</title><link>https://spacetop.win/2026/05/20260531_153612_geolink_multimodal/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_153612_geolink_multimodal/</guid><description><![CDATA[<h1 id="geolink用openstreetmap数据赋能遥感基础模型" class="headerLink">
    <a href="#geolink%e7%94%a8openstreetmap%e6%95%b0%e6%8d%ae%e8%b5%8b%e8%83%bd%e9%81%a5%e6%84%9f%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b" class="header-mark"></a>GeoLink：用OpenStreetMap数据赋能遥感基础模型</h1><blockquote>
  <p>📅 发表时间：2025年
🏛️ 会议：NeurIPS 2025
👥 作者：Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du
🔗 GitHub：https://github.com/bailubin/GeoLink_NeurIPS2025
📄 arXiv：https://arxiv.org/abs/2509.26016</p>
</blockquote><hr>
<h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📌 论文信息</h2><p><strong>标题</strong>：GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data</p>
<p><strong>关键词</strong>：遥感基础模型、OpenStreetMap、多模态融合、图神经网络、语义分割</p>
<p><strong>研究领域</strong>：遥感图像理解、地理空间人工智能、多模态学习</p>
<hr>
<h2 id="-问题背景遥感数据的单模态困境" class="headerLink">
    <a href="#-%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af%e9%81%a5%e6%84%9f%e6%95%b0%e6%8d%ae%e7%9a%84%e5%8d%95%e6%a8%a1%e6%80%81%e5%9b%b0%e5%a2%83" class="header-mark"></a>🔍 问题背景：遥感数据的&quot;单模态困境&quot;</h2><h3 id="核心问题" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>核心问题</h3><p>传统遥感基础模型存在一个根本性局限：<strong>只关注图像数据，忽略了其他地理空间数据源的互补信息</strong>。</p>
<h3 id="问题细节" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e7%bb%86%e8%8a%82" class="header-mark"></a>问题细节</h3><p>作者观察到一个关键现象：遥感图像和OpenStreetMap（OSM）数据提供了<strong>互补但异构</strong>的信息：</p>
<ol>
<li><strong>遥感图像</strong>：提供丰富的视觉特征（光谱、纹理、形状），但缺乏语义标注</li>
<li><strong>OSM数据</strong>：提供精确的语义信息（道路网络、建筑物轮廓、土地利用类型），但缺乏视觉细节</li>
</ol>
<h3 id="具体挑战" class="headerLink">
    <a href="#%e5%85%b7%e4%bd%93%e6%8c%91%e6%88%98" class="header-mark"></a>具体挑战</h3><p>作者从三个维度分析了这个&quot;模态鸿沟&quot;：</p>
<p><strong>数据结构异构性</strong>：</p>
<ul>
<li>遥感图像：规则的网格结构（pixel grid）</li>
<li>OSM数据：不规则的图结构（nodes, ways, relations）</li>
</ul>
<p><strong>语义粒度差异</strong>：</p>
<ul>
<li>遥感图像：像素级特征，需要后处理才能获得语义</li>
<li>OSM数据：对象级语义，直接带有类别标签</li>
</ul>
<p><strong>时空覆盖不一致</strong>：</p>
<ul>
<li>遥感图像：定期更新，但可能有云遮挡</li>
<li>OSM数据：众包更新，覆盖不均匀</li>
</ul>
<hr>
<h2 id="-解决方案geolink的三阶段融合框架" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88geolink%e7%9a%84%e4%b8%89%e9%98%b6%e6%ae%b5%e8%9e%8d%e5%90%88%e6%a1%86%e6%9e%b6" class="header-mark"></a>💡 解决方案：GeoLink的&quot;三阶段&quot;融合框架</h2><h3 id="核心思想" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e6%80%9d%e6%83%b3" class="header-mark"></a>核心思想</h3><p>作者没有简单地将OSM数据作为额外输入通道，而是设计了一个<strong>层次化的多模态融合框架</strong>，在不同阶段整合两种模态的信息。</p>
<h3 id="技术细节" class="headerLink">
    <a href="#%e6%8a%80%e6%9c%af%e7%bb%86%e8%8a%82" class="header-mark"></a>技术细节</h3><h4 id="阶段1osm数据的图结构编码" class="headerLink">
    <a href="#%e9%98%b6%e6%ae%b51osm%e6%95%b0%e6%8d%ae%e7%9a%84%e5%9b%be%e7%bb%93%e6%9e%84%e7%bc%96%e7%a0%81" class="header-mark"></a>阶段1：OSM数据的图结构编码</h4><p><strong>关键创新</strong>：将OSM数据转换为异构图（Heterogeneous Graph）</p>
<div class="code-block highlight is-open show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>REST：全景遥感影像端到端语义分割的整体学习框架</title><link>https://spacetop.win/2026/05/20260531_120001_rest_panoptic_segmentation/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_120001_rest_panoptic_segmentation/</guid><description><![CDATA[<h1 id="rest全景遥感影像端到端语义分割的整体学习框架" class="headerLink">
    <a href="#rest%e5%85%a8%e6%99%af%e9%81%a5%e6%84%9f%e5%bd%b1%e5%83%8f%e7%ab%af%e5%88%b0%e7%ab%af%e8%af%ad%e4%b9%89%e5%88%86%e5%89%b2%e7%9a%84%e6%95%b4%e4%bd%93%e5%ad%a6%e4%b9%a0%e6%a1%86%e6%9e%b6" class="header-mark"></a>REST：全景遥感影像端到端语义分割的整体学习框架</h1><p><strong>关键词</strong>：语义分割、全景遥感影像、端到端学习、空间并行交互机制、大规模图像处理</p>
<hr>
<h2 id="1-论文信息" class="headerLink">
    <a href="#1-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>1. 论文信息</h2><ul>
<li><strong>标题</strong>：REST: Holistic Learning for End-to-End Semantic Segmentation of Whole-Scene Remote Sensing Imagery</li>
<li><strong>作者</strong>：Wei Chen, Lorenzo Bruzzone, Bo Dang, Yuan Gao, Youming Deng, Jin-Gang Yu, Liangqi Yuan, Yansheng Li</li>
<li><strong>机构</strong>：武汉大学、特伦托大学、康奈尔大学、华南理工大学、普渡大学</li>
<li><strong>发表</strong>：IEEE TPAMI 2025</li>
<li><strong>代码</strong>：https://github.com/weichenrs/REST_code</li>
</ul>
<hr>
<h2 id="2-问题全景遥感影像分割的gpu内存瓶颈" class="headerLink">
    <a href="#2-%e9%97%ae%e9%a2%98%e5%85%a8%e6%99%af%e9%81%a5%e6%84%9f%e5%bd%b1%e5%83%8f%e5%88%86%e5%89%b2%e7%9a%84gpu%e5%86%85%e5%ad%98%e7%93%b6%e9%a2%88" class="header-mark"></a>2. 问题：全景遥感影像分割的GPU内存瓶颈</h2><h3 id="21-核心挑战" class="headerLink">
    <a href="#21-%e6%a0%b8%e5%bf%83%e6%8c%91%e6%88%98" class="header-mark"></a>2.1 核心挑战</h3><p>全景遥感影像（Whole-scene Remote Sensing Imagery, WRI）通常具有<strong>极大的尺寸</strong>（如10000×10000像素以上），这给深度学习方法带来了严峻的挑战：</p>
<ol>
<li><strong>GPU内存限制</strong>：标准深度学习模型无法一次性处理如此大的影像</li>
<li><strong>现有解决方案的缺陷</strong>：
<ul>
<li><strong>裁剪策略</strong>：将大影像切割成小块处理，但损失了全局上下文信息</li>
<li><strong>融合策略</strong>：分别处理后融合结果，但引入了边界伪影和不一致性</li>
</ul>
</li>
<li><strong>性能下降</strong>：这两种策略都会导致分割精度显著下降</li>
</ol>
<h3 id="22-现有方法的局限" class="headerLink">
    <a href="#22-%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>2.2 现有方法的局限</h3><p><strong>裁剪-based方法</strong>：</p>
<ul>
<li>优点：实现简单，内存需求低</li>
<li>缺点：丢失全局上下文，边界区域分割质量差</li>
<li>性能损失：通常下降3-5% mIoU</li>
</ul>
<p><strong>融合-based方法</strong>：</p>
<ul>
<li>优点：保留了部分全局信息</li>
<li>缺点：计算开销大，边界处理复杂</li>
<li>性能损失：通常下降1-3% mIoU</li>
</ul>
<p><strong>基础模型（如SkySense）</strong>：</p>
<ul>
<li>通常只能处理2048×2048的裁剪块</li>
<li>无法直接处理全景影像</li>
<li>需要额外的后处理步骤</li>
</ul>
<hr>
<h2 id="3-解决方案rest的空间并行交互机制" class="headerLink">
    <a href="#3-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88rest%e7%9a%84%e7%a9%ba%e9%97%b4%e5%b9%b6%e8%a1%8c%e4%ba%a4%e4%ba%92%e6%9c%ba%e5%88%b6" class="header-mark"></a>3. 解决方案：REST的空间并行交互机制</h2><h3 id="31-核心思想" class="headerLink">
    <a href="#31-%e6%a0%b8%e5%bf%83%e6%80%9d%e6%83%b3" class="header-mark"></a>3.1 核心思想</h3><p>REST的核心创新在于：<strong>首次提出真正的端到端框架</strong>，通过<strong>空间并行交互机制（SPIM）</strong>，在GPU内存限制下实现全景遥感影像的整体分割。</p>
<h3 id="32-关键技术细节" class="headerLink">
    <a href="#32-%e5%85%b3%e9%94%ae%e6%8a%80%e6%9c%af%e7%bb%86%e8%8a%82" class="header-mark"></a>3.2 关键技术细节</h3><h4 id="321-空间并行交互机制spim" class="headerLink">
    <a href="#321-%e7%a9%ba%e9%97%b4%e5%b9%b6%e8%a1%8c%e4%ba%a4%e4%ba%92%e6%9c%ba%e5%88%b6spim" class="header-mark"></a>3.2.1 空间并行交互机制（SPIM）</h4><p>SPIM结合了<strong>并行计算</strong>和<strong>分治策略</strong>：</p>
<p><strong>传统并行方法的局限</strong>：</p>]]></description></item><item><title>开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别</title><link>https://spacetop.win/2026/05/20260531_123557_open_vocabulary_remote_sensing_segmentation/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_123557_open_vocabulary_remote_sensing_segmentation/</guid><description><![CDATA[<h1 id="开放词汇遥感语义分割gsnet如何让ai识别任意地物类别" class="headerLink">
    <a href="#%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87%e9%81%a5%e6%84%9f%e8%af%ad%e4%b9%89%e5%88%86%e5%89%b2gsnet%e5%a6%82%e4%bd%95%e8%ae%a9ai%e8%af%86%e5%88%ab%e4%bb%bb%e6%84%8f%e5%9c%b0%e7%89%a9%e7%b1%bb%e5%88%ab" class="header-mark"></a>开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别</h1><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📌 论文信息</h2><ul>
<li><strong>标题</strong>: Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation</li>
<li><strong>作者</strong>: Chengyang Ye, Yunzhi Zhuge, Pingping Zhang</li>
<li><strong>会议</strong>: AAAI 2025 (39th Annual AAAI Conference on Artificial Intelligence)</li>
<li><strong>论文</strong>: <a href="https://arxiv.org/abs/2412.19492" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2412.19492</a></li>
<li><strong>代码</strong>: <a href="https://github.com/yecy749/gsnet" target="_blank" rel="noopener noreferrer">https://github.com/yecy749/gsnet</a></li>
<li><strong>关键词</strong>: 开放词汇、语义分割、遥感图像、CLIP、双流编码器</li>
</ul>
<hr>
<h2 id="-研究问题遥感分割的类别牢笼" class="headerLink">
    <a href="#-%e7%a0%94%e7%a9%b6%e9%97%ae%e9%a2%98%e9%81%a5%e6%84%9f%e5%88%86%e5%89%b2%e7%9a%84%e7%b1%bb%e5%88%ab%e7%89%a2%e7%ac%bc" class="header-mark"></a>❓ 研究问题：遥感分割的&quot;类别牢笼&quot;</h2><h3 id="问题来源" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e6%9d%a5%e6%ba%90" class="header-mark"></a>问题来源</h3><p>遥感图像语义分割（RSISS）是地球观测的核心任务，但现有方法存在一个根本性限制：<strong>只能识别预定义的类别</strong>。</p>
<h3 id="核心问题细节" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e7%bb%86%e8%8a%82" class="header-mark"></a>核心问题细节</h3><p><strong>传统方法的困境</strong>:</p>
<ol>
<li><strong>类别固定</strong>: 训练时定义了多少类，就只能识别多少类</li>
<li><strong>标注成本高</strong>: 每增加一个新类别，需要大量像素级标注</li>
<li><strong>模型重训</strong>: 适应新类别需要重新训练整个模型</li>
<li><strong>场景受限</strong>: 不同应用场景需要不同的类别集合</li>
</ol>
<p><strong>实际案例</strong>:</p>
<ul>
<li>城市规划需要识别&quot;建筑、道路、绿地&quot;</li>
<li>灾害评估需要识别&quot;积水、废墟、救援通道&quot;</li>
<li>农业监测需要识别&quot;作物类型、病虫害区域&quot;</li>
</ul>
<p>每次任务切换都需要重新标注数据和训练模型，成本极高。</p>
<h3 id="问题本质" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e6%9c%ac%e8%b4%a8" class="header-mark"></a>问题本质</h3><p>现有方法将遥感分割视为&quot;闭集&quot;问题，而现实世界是&quot;开集&quot;的——你永远无法预知未来需要识别什么类别。</p>
<hr>
<h2 id="-解决方案gsnet的双流融合架构" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88gsnet%e7%9a%84%e5%8f%8c%e6%b5%81%e8%9e%8d%e5%90%88%e6%9e%b6%e6%9e%84" class="header-mark"></a>💡 解决方案：GSNet的双流融合架构</h2><h3 id="核心创新点" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b9" class="header-mark"></a>核心创新点</h3><p>GSNet（Generalist and Specialist Network）提出了一个精妙的解决方案：<strong>融合通用视觉语言模型的开放能力和遥感领域模型的专业知识</strong>。</p>
<h3 id="技术细节拆解" class="headerLink">
    <a href="#%e6%8a%80%e6%9c%af%e7%bb%86%e8%8a%82%e6%8b%86%e8%a7%a3" class="header-mark"></a>技术细节拆解</h3><h4 id="1-双流图像编码器dual-stream-image-encoder-dsie" class="headerLink">
    <a href="#1-%e5%8f%8c%e6%b5%81%e5%9b%be%e5%83%8f%e7%bc%96%e7%a0%81%e5%99%a8dual-stream-image-encoder-dsie" class="header-mark"></a>1. 双流图像编码器（Dual-Stream Image Encoder, DSIE）</h4><p><strong>设计理念</strong>: 两条并行的特征提取流，分别捕获通用语义和领域知识。</p>
<p><strong>通用流（Generalist Stream）</strong>:</p>
<ul>
<li>使用CLIP的视觉编码器</li>
<li>通过大规模图像-文本对预训练</li>
<li>擅长识别新目标和新语义</li>
<li>提供开放词汇能力</li>
</ul>
<p><strong>专业流（Specialist Stream）</strong>:</p>
<ul>
<li>使用RSIB（Remote Sensing Image Backbone）</li>
<li>通过自监督学习在遥感数据上预训练</li>
<li>捕获遥感特有的空间和光谱特征</li>
<li>提供领域专业知识</li>
</ul>
<p><strong>技术细节</strong>:</p>]]></description></item></channel></rss>