【论文阅读】SegEarth-OV:面向遥感图像的免训练开放词汇分割

【论文阅读】SegEarth-OV:面向遥感图像的免训练开放词汇分割

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

在这里插入图片描述



SegEarth-OV在遥感图像开放词汇语义分割上的可视化和性能。我们对17个遥感数据集(包括语义分割,建筑物提取,道路提取和洪水检测任务)进行了评估

SegEarth-OV始终生成高质量的分割掩模

像素级解译是遥感图像应用的重要方面,但目前普遍存在的局限性是需要大量的人工标注

本文尝试将开放词汇语义分割(OVSS)引入到遥感图像中

遥感图像对低分辨率特征的敏感性,在预测模板中会出现目标形状失真和边界拟合不佳的情况

我们提出了一种简单通用的上采样器Simplified Up,以无需训练的方式恢复深层特征中丢失的空间信息

CLIP中局部块标记对[CLS]标记的异常响应的观察,我们提出了一种简单的减法运算来减少斑块标记的全局偏差

在17个遥感数据集上进行了广泛的实验,包括语义分割建筑物提取道路检测洪水检测任务

一、介绍

遥感影像改变了人类观察和认识地球的方式,使我们能够监测土地覆盖/利用类型,有效应对自然灾害


在联合国发布的17个可持续发展目标(SDG)1中,遥感图像可以为多个目标提供重要的数据支持,包括“零饥饿”、“清洁水和卫生”、“工业、创新和基础设施”、“气候行动”、“陆地生命”等


与自然图像相比,它涉及更多样化的空间分辨率(从厘米到公里)、时间维度(从小时到几十年)和对象视角(头顶和定向)。

原始遥感图像可从各种来源获得(例如,QuickBird,WorldView,Landsat,Sentinel),但由于昂贵的人工成本,获得大规模标签仍然是一个挑战

OpenStreetMap [19]是一种流行的解决方案,旨在创建一个可自由使用、可编辑和可共享的世界地图


视觉语言模型(VLM)的兴起,以其开放词汇语义分割(OVSS)的能力给我们带来了新的启示

针对自然图像设计的解在遥感图像上是次优的,一个值得注意的现象是在预测掩模中存在失真的目标形状和不拟合的边界,如图2所示。

在这里插入图片描述

根据经验,我们认为这些问题主要是由于特征分辨率过低

CLIP [51]的特征图被下采样到原始图像的1/16(ViT-B/16)提出了一种简单通用的特征上采样器SimFeatUp

该算法的训练目标是在少量的未标记图像上重建内容不变的高分辨率特征,训练后可以对任意的遥感图像特征进行上采样,

CLIP是在图像级训练的

我们发现,一个简单的局部块特征和全局特征的减法运算可以有效地减少全局偏差

贡献:

  • 我们提出了Simplified Up,一个用于无训练OVSS的通用特征上采样器,它可以对低分辨率(LR)特征进行鲁棒上采样,并保持与图像内容的语义一致性
  • 提出了一种非常简单和直接的方法来减轻CLIP的全局偏差问题,即执行本地和全局令牌的减法运算
  • 我们最终提出的模型名为SegEarth-OV,在17个遥感数据集上实现了最先进的性能,包括语义分割,建筑物提取,道路提取和洪水检测任务

## 二、联系工作

Vision-Language Model

最近,基础模型,特别是视觉语言模型,为计算机视觉领域注入了活力

一个显著的进步是对比语言视觉预训练,即CLIP [51],它巧妙地弥合了图像和自然语言之间的差距

通过在多模态嵌入空间中使用大量数据进行训练,CLIP获得了强大的迁移能力,实现零射击学习的飞跃


相关研究逐渐涌现,从数据[10,58,72,75],训练[14,33,75]或模型[31,32]方面

CLIP只关注全局[CLS]令牌,即使可以生成patch token,它们也不可避免地受到全局偏差的污染

出现了几种遥感VLM,它们使一般VLM适应遥感上下文[36,49,66],77]或挖掘遥感数据的特征[21,50]。

Supervised semantic segmentation

语义分割的目的是在像素级上区分图像。解码器作为分割模型的重要组成部分,能够将LR特征图上采样为HR预测

例如,UNet [55],UperNet [71],Semantic FPN [25],MaskFormer [9]等。一些作品[37,40,80]专注于动态,可学习的上采样运算符

然而,本文所提出的Simplified Up算法是基于Simplified Up算法的,它能够在不使用任何标签的情况下显著地改善OVSS


Open-Vocabulary Semantic Segmentation

由于VLM在图像分类中表现出显著的零触发推理,这自然扩展到语义分割

它们使分割管道能够识别可见和不可见的类别

用户可以使用提示词汇分割图像中的几乎任何类别

我们将当前基于CLIP的OVSS方法分为两组:需要训练和无需训练

一些作品[16,42,48,52]试图训练一个本地化感知的CLIP,它可以自然地进行密集预测

其他作品[11,13,30,38,73,选择CLIP的预训练参数的子集和/或将有限数量的可训练参数引入到冻结的CLIP中,即,微调CLIP以适应对基类的密集预测。

无需训练的OVSS方法强调利用CLIP的固有定位能力,对特征或结构进行有限的调整

MaskCLIP [79]率先在CLIP的图像编码器的注意力池层删除查询和关键投影

  • 后续研究[3,28,34,63]充分探索了自我注意力(即qq,k-k或v-v自我注意力),这些修改在一定程度上减轻了CLIP的噪声激活和空间不变感知
  • 另一个流[2,23,56,60]是两阶段方法,该方法首先生成类别不可知的掩码建议,然后对掩码进行分类

关注的是遥感图像的内在特征,而不是自然图像的一般属性

与以往的方法不同,我们关注的是遥感图像的内在特征,而不是自然图像的一般属性。唯一的同期工作是[6],但它需要训练,如[11,74]。

我们的SimplyUp组件,虽然它需要预先在一些仅图像的数据上进行训练,但这个过程独立于语义分割过程

训练的权重可以用于几乎任何遥感数据(就像其他作品中的基础模型[2,29]),因此我们的方法仍然可以被视为一种无训练方法

三、Method

CLIP

在基于ViT的CLIP中,图像编码器由一系列的Transformer块组成

前向过程可以公式化为

在这里插入图片描述

在CLIP训练期间,CLIP的output_cls用于图像级学习

而在OVSS推理期间,O[1:hw + 1]用于块级预测(也就是后续的Patch token用于分割任务)


FeatUp

FeatUp旨在训练一个模型无关的上采样器。它通过一个可学习的上采样器σ↑对来自冻结骨干网络的LR特征O[1:hw + 1]执行上采样操作

JBU将σ↑实例化为堆叠的参数化JBU算子

对于权重生成,JBU考虑了两个因素,即相邻元素与指导特征中的中心元素之间的相似性和距离,对应于内核krange和kspatial


SimFeatUp

OVSS为一般上采样器提供了一个很好的训练范例,但它缺乏对免训练设置的考虑,导致它对于OVSS任务不是最佳的

重新采样的目标是最小化原始LR特征和上下采样后的LR特征

因此在这种弱约束的情况下,上下采样过程变成了黑盒,并且不能保证中间HR特征是完整的并且与原始图像在内容上一致

在这里插入图片描述

有和没有图像重建损失的比较(等式(4))。LR预测直接使用CLIP的输出获得(没有双线性插值)。颜色:建筑物、树木、农田、草地

其中原始图像中的一个小建筑物在LR预测中存在,但在HR预测中消失

引入了一个额外的图像重建损失来约束HR特征:

在这里插入图片描述



CRN是一个非常轻量级的网络,它接收HR特征作为输入并重建原始图像

CRN由两个带有激活的2D卷积层和一个Tanh激活层组成,其中Tanh层被设计为将输出限制为[-1,1]

在这里插入图片描述


然而,在无训练的OVSS中,如第2节所述,自我注意力导致较差的性能

中的SA替换为其他模块,并直接对O[1:hw+ 1]会导致训练和推理之间的不匹配。受此启发,我们建议在更早的层上采样CLIP特征

我们保留投影层。最终,需要上采样的特征O′可以公式化为

在这里插入图片描述



JBU的上采样内核krange和kspatial是根据制导特征中窗口内的元素计算的

在这里插入图片描述



因此,我们设置更大的上采样内核以获得更宽的感受野。在这里,我们将窗口大小扩展到11 × 11,一个可能的问题是,更大的感受野可能会引入更多的无关内容

在Simplified Up中,参数化的JBU模块堆叠4次,进行16倍上采样,每个JBU模块的参数都是独立的

“JBU One”显著减少了上采样器中可训练参数的数量,并提供了上采样任意倍数的可能性

在这里插入图片描述

在CLIP的训练阶段,包含整个图像的全局信息的[CLS]令牌通过对比学习与多模态空间中的文本嵌入一起优化

在OVSS的推理阶段,[CLS]标记通常被丢弃,并且仅使用补丁标记来与提示词汇表进行相似度计算

我们使用CLIP为图(B)中的RGB图像提取[CLS]标记,并计算其与候选文本嵌入的相似度

我们建议从patch token中“减去”一些全局偏差

在这里插入图片描述

四、实验

不仅需要进行多类语义分割,还需要提取特定的土地覆盖类型(如建筑物、道路、水体),例如Google的Open Buildings

语义分割

在8个遥感语义分割数据集上评估了SegEarth-OV,包括

OpenEarthMap [70],LoveDA [64],iSAID [67],波茨坦,Vaihingen 3,UAVid [43],UDD 5 [8]和VDD [5]

其中,前5个数据集主要由卫星图像组成,后3个数据集由无人机图像组成

4个建筑物提取数据集

WHUAerial [22],WHUSat.II [22],Inria [44]和xBD [18]


4个道路提取数据集

CHN 6-CUG [82]、DeepGlobe 4、马萨诸塞州[46]和SpaceNet [62]

1个洪水检测数据集

即WBS-SI 5用于评价单类提取


Simplified Up只需要图像数据进行训练

使用了一个公共的遥感图像分类数据集Million-AID [39],它主要收集来自Google Earth的图像

实现基于MMSegmentation 6工具包。如果没有指定,我们使用CLIP的原始预训练权重(ViT-B/16)。

OpenAI ImageNet模板作为文本编码器的输入,例如“a photo of a {class name}"

输入图像的长边调整为448,并使用224 × 224窗口和112步幅进行滑动推理。

对于Simplified Up训练,我们在原始图像上随机裁剪224 × 224图像块

在这里插入图片描述

Read more

LazyLLM 测评 | 低代码颠覆 AI 开发!代码专家智能体进阶模块实战

LazyLLM 测评 | 低代码颠覆 AI 开发!代码专家智能体进阶模块实战

摘要: LazyLLM 是商汤大装置推出的开源低代码框架,作为构建和优化多 Agent 应用的一站式开发框架,覆盖应用搭建、数据准备、模型部署、微调、评测等全流程开发环节,提供丰富的工具支持。其以模块化设计打破传统开发壁垒,通过数据流驱动重构开发逻辑,能让开发者用极简代码实现工业级复杂 AI 应用,摆脱冗余编码束缚,聚焦核心业务场景,降低 AI 应用构建成本并支持持续迭代优化。堪称 AI 开发者的 “效率神器”,其技术普惠理念为 AI 开发领域带来新的实践范式,推动了更高效的开发模式。本文将以Python编程为切入点,带你深入了解LazyLLM框架。 LazyLLM 是构建和优化多 Agent 应用的一站式开发工具,为应用开发过程中的全部环节(包括应用搭建、数据准备、模型部署、模型微调、评测等)提供了大量的工具,协助开发者用极低的成本构建 AI 应用,并可以持续地迭代优化效果。 LazyLLM作为商汤大装置推出的开源低代码框架,简直是AI开发者的“效率神器”

零成本搭建飞书机器人:手把手教你用Webhook实现高效消息推送

1. 为什么你需要一个飞书机器人? 在日常工作中,我们经常需要处理各种通知需求。比如系统报警、任务提醒、审批结果通知等等。传统的解决方案包括短信、邮件或者第三方推送平台,但这些方式要么成本高,要么实时性差。飞书机器人提供了一种零成本、高效率的替代方案。 我去年负责的一个ERP系统升级项目就遇到了这个问题。当时我们需要在关键业务流程节点给不同部门的同事发送实时通知。如果使用短信,按照每天200条计算,一个月就要花费上千元。后来我们改用飞书机器人,不仅完全免费,还能实现更丰富的消息格式和精准的@提醒功能。 飞书机器人本质上是一个自动化程序,它通过Webhook技术接收外部系统的消息,并转发到指定的飞书群聊中。这种机制特别适合企业内部系统与飞书之间的集成,比如: * 运维报警通知 * 审批流程提醒 * 业务系统状态更新 * 日报/周报自动推送 * 数据监控预警 2. 5分钟快速创建你的第一个机器人 创建飞书机器人非常简单,不需要任何开发经验。下面我以电脑端操作为例,手把手带你完成整个过程。 首先打开飞书客户端,进入你想要添加机器人的群聊。点击右上角的"..."菜单,

【FPGA+DSP系列】——MATLAB simulink仿真三相桥式全控整流电路

【FPGA+DSP系列】——MATLAB simulink仿真三相桥式全控整流电路

【FPGA+DSP系列】——MATLAB simulink仿真三相桥式全控整流电路 * 一、理论分析 * 二、matlab simulink实验 * 1.仿真实验 * 2.波形分析 * 总结 一、理论分析 直接上电路图,相比于单相桥式整流的区别,首先是输入变成了3相电压,这个的优势就在于三相相位差都是120°,相比于之前的单相每个周期只有两个触发信号,也只能有2个触发信号,而三相的存在会产生很多换相点,在这些点位生成触发信号会进而提高整流效果以及整流脉冲数,脉波数越多越好,越多就说明纹波越小,越趋近于直线。 导通流程: 先ab相导通,然后ac相,然后bc相,然后ba相,这个是什么决定的呢?为什么要这样导通,其实有迹可循,当我把Uab/Uac…Uca/Ucb所有的波形放到一起,你就知道为什么要这样触发,为什么是这个顺序了: 这是我将所有的波形放到一个示波器中进行观看, 其中通道顺序与颜色的对应关系如下,这样我们就能标记哪个是哪个了。 通过这个顺序,我们就可以在换相点进行触发,进而完成六脉冲的输出,同时从这个图可以得出我们的导通顺序,ab ac

OpenClaw 安装 + 接入飞书机器人完整教程

OpenClaw 安装 + 接入飞书机器人完整教程 OpenClaw 曾用名:ClawdBot → MoltBot → OpenClaw(同一软件,勿混淆) 适用系统:Windows 10/11 最后更新:2026年3月 一、什么是 OpenClaw? OpenClaw 是一款 2026 年爆火的开源个人 AI 助手,GitHub 星标已超过 10 万颗。 与普通 AI 聊天机器人的核心区别: * 真正的执行能力:不只回答问题,能实际操作你的电脑 * 24/7 全天候待命:睡觉时也能主动完成任务 * 完全开源免费:数据完全掌控在自己手中 * 支持国内平台:飞书、钉钉等均已支持接入 二、安装前准备:安装 Node.js 建议提前手动安装