开放词汇分割 - Tag - 堂堂一跑堂

ConInfer：无需训练，用上下文推理实现遥感开放词汇分割

Mon, 01 Jun 2026 12:00:00 +0800

ConInfer：无需训练，用上下文推理实现遥感开放词汇分割

论文解读 | CVPR 2026 Findings | 2026-06-01

📄 论文信息

项目	内容
标题	ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation
作者	详见论文
会议	CVPR 2026 Findings
arXiv	暂未公开
GitHub	https://github.com/Dog-Yang/ConInfer
关键词	开放词汇分割、遥感图像、免训练、上下文推理、CLIP、DINOv3

🎯 解决的核心问题

问题背景

遥感图像分割是地球观测领域的核心任务，广泛应用于城市规划、环境监测、灾害评估等场景。传统的语义分割方法依赖于封闭词汇表——模型只能识别训练时见过的固定类别（如建筑、道路、水体等）。然而，真实世界的遥感应用场景远比固定类别复杂：

灾害响应中需要识别"被洪水淹没的农田"
城市规划中需要识别"临时搭建的工棚"
环境监测中需要识别"入侵物种覆盖区域"

这些类别在标准训练数据集中几乎不存在，传统模型对此无能为力。

现有方法的局限

当前的开放词汇分割方法主要面临两个挑战：

训练成本高昂：大多数方法需要在大规模标注数据上进行微调，遥感图像的标注成本极高（需要专业知识，且图像尺度巨大）
领域迁移困难：CLIP等视觉-语言模型在自然图像上预训练，直接应用于遥感场景时存在严重的领域鸿沟——遥感图像的俯视视角、多光谱特性、尺度多样性等都与自然图像截然不同

核心问题提炼

能否在不进行任何训练的情况下，直接利用预训练视觉-语言模型实现高质量的遥感开放词汇分割？

💡 解决方案

核心创新点1：上下文感知推理（Context-Aware Inference）

设计动机：CLIP模型在图像级别进行预训练，其特征缺乏像素级的空间细节。直接将CLIP特征用于分割会导致边界模糊、类别混淆。

具体实现：ConInfer提出了一种上下文感知的推理机制，通过以下步骤增强CLIP的像素级理解能力：

多尺度特征提取：利用DINOv3和SimFeatUp获取高分辨率的细粒度视觉特征
上下文建模：通过高斯混合模型（GMM）对特征空间进行聚类，自动发现图像中的语义区域
上下文引导分类：利用发现的上下文信息来校准CLIP的分类结果，消除领域偏差

核心创新点2：免训练框架（Training-Free Framework）

设计动机：避免昂贵的微调过程，直接利用预训练模型的能力。

具体实现：

使用BLIP生成图像描述，提供文本级别的上下文
利用OpenCLIP的文本编码器计算开放词汇相似度
通过自适应的提示工程（Prompt Engineering）弥合领域差距

整体架构

RSKT-Seg：旋转不变+领域迁移实现遥感图像开放词汇分割

Mon, 01 Jun 2026 12:00:00 +0800

RSKT-Seg：旋转不变+领域迁移实现遥感图像开放词汇分割

论文解读 | AAAI 2026 Oral | 2026-06-01

📄 论文信息

项目	内容
标题	Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
作者	Bingyu Li, Xuelong Li 等
会议	AAAI 2026 Oral
单位	中国科学技术大学, TeleAI
arXiv	https://arxiv.org/abs/2509.12040
GitHub	https://github.com/LiBingyu01/RSKT-Seg
关键词	开放词汇分割, 遥感图像, 旋转不变, 领域迁移, 成本图

🎯 解决的核心问题

问题背景

开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS）是计算机视觉领域的重要任务，旨在分割任意文本描述的类别。然而，当这一技术应用于遥感图像时，面临独特的挑战：

领域差异：自然图像与遥感图像在视角、尺度、纹理等方面存在显著差异
旋转不变性需求：遥感图像通常从俯视角度拍摄，目标方向任意，需要模型具备旋转不变性
缺乏统一基准：遥感领域缺乏标准化的开放词汇分割评估基准

现有方法的局限

直接迁移效果差：将自然图像的OVS方法直接应用于遥感场景，性能显著下降
旋转敏感：传统方法对目标方向敏感，难以处理任意旋转的遥感目标
计算效率低：现有方法通常计算复杂度高，难以满足大规模遥感数据处理需求

核心问题提炼

如何设计一个专为遥感图像优化的开放词汇分割框架，同时具备旋转不变性和高效率？

💡 解决方案

核心创新点1：多方向成本图聚合（RS-CMA）

设计动机：遥感图像中的目标可能以任意方向出现，传统方法使用单一方向的视觉-语言相似度计算无法捕捉旋转不变特征。

具体实现：

SAM 3赋能遥感开放词汇分割：SegEarth-OV3的免训练新范式

Mon, 01 Jun 2026 12:00:00 +0800

SAM 3赋能遥感开放词汇分割：SegEarth-OV3的免训练新范式

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
作者	详见论文
会议/期刊	arXiv 2025 (arXiv:2512.08730)
arXiv链接	https://arxiv.org/abs/2512.08730
GitHub	https://github.com/earth-insights/SegEarth-OV-3
关键词	开放词汇分割、SAM 3、遥感图像、免训练、变化检测

🎯 解决的核心问题

问题背景

遥感图像语义分割是地球观测的核心任务，但传统方法受限于闭集假设——只能识别训练集中预定义的类别。在实际应用中，遥感场景包含无数未知类别，手动标注成本高昂且不切实际。

现有方法的局限

CLIP基方法的困境：现有的免训练开放词汇分割方法主要基于CLIP，但在遥感场景中面临精确定位困难，尤其是处理密集小目标时表现不佳。
复杂流水线问题：一些方法需要复杂的模块组合来分别处理语义和实例信息，增加了系统复杂度。
大词汇量挑战：地理空间场景中词汇量庞大，patch级处理容易产生大量误报。

核心问题提炼

如何利用最新的SAM 3模型，在遥感图像中实现高效、免训练的开放词汇语义分割，并扩展到变化检测等更多任务？

💡 解决方案

核心创新点1：Mask融合策略

设计动机：SAM 3同时具备语义分割头（semantic head）和Transformer解码器（instance head），两者各有优势：

语义分割头：擅长土地覆盖分类
实例头：擅长目标实例识别

具体实现：

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

Sun, 31 May 2026 12:00:00 +0800

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

关键词: 遥感基础模型, 开放词汇分割, 多模态融合, 无标注分割, OpenStreetMap, SAM3, CVPR 2025, NeurIPS 2025

一、论文信息

论文1：SegEarth-OV3 - 探索SAM3在遥感开放词汇语义分割中的应用

项目	内容
标题	SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
作者	Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
机构	西安交通大学, 中国科学院
发表	arXiv:2512.08730 (2025)
GitHub	https://github.com/earth-insights/SegEarth-OV-3 ⭐161
论文链接	https://arxiv.org/abs/2512.08730

论文2：GeoLink - 利用OpenStreetMap数据增强遥感基础模型

项目	内容
标题	GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
作者	Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du
机构	北京大学
发表	NeurIPS 2025
GitHub	https://github.com/bailubin/GeoLink_NeurIPS2025 ⭐56
论文链接	https://arxiv.org/abs/2509.26016

二、问题背景与动机

2.1 遥感图像理解的核心挑战

遥感图像的语义分割是地球观测的关键任务，但面临两大根本性难题：