【论文阅读 | CVPR 2024 | Fusion-Mamba :用于跨模态目标检测】

【论文阅读 | CVPR 2024 | Fusion-Mamba :用于跨模态目标检测】

论文阅读 | CVPR 2024 |Fusion-Mamba :用于跨模态目标检测

在这里插入图片描述

题目:Fusion-Mamba for Cross-modality Object Detection

会议: Computer Vision and Pattern Recognition(CVPR)

论文:https://arxiv.org/abs/2404.09146

代码:未公开

年份:2024

1.摘要&&引言

跨模态融合能够有效整合不同模态的互补信息,提升目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。

现有融合策略通过精心设计的神经网络模块组合不同类型的图像或融合不同骨干网络特征,但这些方法忽略了模态差异对跨模态融合性能的影响。

本文基于改进的曼巴(Mamba)模型,引入门控机制,通过在隐藏状态空间中关联跨模态特征,探索跨模态融合的新范式。

在这里插入图片描述
图1. 热力图可视化。(a)和(b)为初始RGB和IR输入图像;©和(d)为使用YOLOv8单模态生成的热力图;(e)为基于CNN融合模块的YOLO-MS热力图;(f)和(g)为基于Transformer融合模块的ICAFusion和CFT热力图;(h)为我们的FMB热力图,其定位效果更佳。
在这里插入图片描述
图2. 所提出的Fusion-Mamba方法架构。检测网络包含双流特征提取网络和三个Fusion-Mamba模块(FMB),其颈部和头部与YOLOv8相同。顶部是我们的检测框架, ϕ i \phi_{i} ϕi​和 φ i \varphi_{i} φi​分别是RGB和IR分支的卷积模块,用于生成 F R i F_{R_{i}} FRi​​和 F I R i F_{IR_{i}} FIRi​​特征; F ^ R i \hat{F}_{R_{i}} F^Ri​​和 F ^ I R i \hat{F}_{IR_{i}} F^IRi​​是通过FMB增强的特征图; P 3 P_{3} P3​、 P 4 P_{4} P4​和 P 5 P_{5} P5​是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了FMB的设计细节。

本文提出 Fusion-Mamba 方法,旨在通过隐藏状态空间实现特征融合,为跨模态特征融合开辟新范式。
Fusion-Mamba 的核心创新在于融合 - 曼巴块(FMB),如图 2 所示:其中,状态空间通道交换(SSCS)模块用于浅层特征融合,提升跨模态特征的交互能力;双状态空间融合(DSSF)模块构建隐藏状态空间,实现跨模态特征的关联与互补。这两个模块共同减小了融合过程中的模态差异,如图 1(h)所示,其热力图表明本文方法能更有效地融合特征,使检测器更聚焦于目标。

本文的主要贡献如下:

  • 提出 Fusion-Mamba 方法,探索了曼巴(Mamba)在跨模态融合中的应用潜力,增强了融合特征的表示一致性。基于改进的门控曼巴模型,构建了跨模态交互的隐藏状态空间,以减小跨模态特征差异。
  • 设计了包含两个模块的融合 - 曼巴块(FMB):状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块实现隐藏状态空间中的深层融合。
  • 在三个公开 RGB - 红外目标检测数据集上的大量实验表明,所提方法达到了现有最优性能,为跨模态目标检测方法建立了新基准。

2.方法

2.1预备知识

2.1.1状态空间模型(SSM)

状态空间模型(State Space Models, SSMs)常用于表示线性时不变系统,其通过一维输入序列 x ( t ) ∈ R x (t)∈R x(t)∈R,经中间隐状态 h ( t ) ∈ R N h (t)∈Rᴺ h(t)∈RN 处理后生成输出 y ( t ) ∈ R y (t)∈R y(t)∈R 。数学上,SSMs 通常表示为线性常微分方程(ODEs):
h ′ ( t ) = A h ( t ) + B x ( t ) h'(t)=A h(t)+B x(t) h′(t)=Ah(t)+Bx(t) y ( t ) = C h ( t ) + D x ( t ) y(t)=C h(t)+D x(t) y(t)=Ch(t)+Dx(t)
其中,系统行为由一组参数定义,包括状态转移矩阵 A ∈ R N x N A∈Rᴺˣᴺ A∈RNxN、投影参数 B 、 C ∈ R N x 1 B、C∈Rᴺˣ¹ B、C∈RNx1 以及跳跃连接 D ∈ R D∈R D∈R。为简化说明,一般通过设置 D = 0 D=0 D=0 移除 D x ( t ) D x (t) Dx(t) 项。

2.1.2离散化

考虑到计算机易于处理离散数据,因此通过离散化操作将ODEs离散化:
h ‾ k = A ‾ h k − 1 + B ‾ x k , y ( t ) = C ‾ h k + D x k , A ‾ = e Δ A , B ‾ = ( Δ A ) − 1 ( e Δ A − I ) Δ B , C ‾ = C \begin{array}{ll} \overline{h}_{k} = \overline{A} h_{k-1} + \overline{B} x_{k}, \\ y(t) = \overline{C} h_{k} + D x_{k}, \\ \overline{A} = e^{\Delta A}, \\ \overline{B} = (\Delta A)^{-1} \left(e^{\Delta A} - I\right) \Delta B, \\ \overline{C} = C \end{array} hk​=Ahk−1​+Bxk​,y(t)=Chk​+Dxk​,A=eΔA,B=(ΔA)−1(eΔA−I)ΔB,C=C​
其中, B 、 C ∈ R D B、C∈Rᴰ B、C∈RD, I I I 为单位矩阵, B ‾ 和 C ‾ \overline{B}和\overline{C} B和C分别为 B , C B,C B,C的离散化表达, Δ Δ Δ为时间尺度参数,即离散化后的时间步长。离散化后,SSMs 通过结构化卷积核 K ~ ∈ R D K̃∈Rᴰ K~∈RD 的全局卷积计算:
y = x ∗ K ‾ , K = ( C B ‾ , C A ‾ B ‾ , ⋯ , C A ‾ L − 1 B ‾ ) y = x * \overline{K}, \quad K = \left(C \overline{B}, C \overline{A} \overline{B}, \cdots, C \overline{A}^{L-1} \overline{B}\right) y=x∗K,K=(CB,CAB,⋯,CAL−1B)

2.1.3二维选择性扫描(SS2D)

二维视觉数据与一维语言序列的不兼容性导致曼巴(Mamba)无法直接应用于视觉任务。为解决这一问题,提出了二维选择性扫描(2D Selective Scan, SS2D)机制,其流程如图 3 所示。

SS2D 首先将图像块向四个不同方向扩展,生成四个独立序列;这种四向扫描策略确保特征图中的每个元素都包含来自不同方向所有其他位置的信息,从而在不增加线性计算复杂度的前提下构建全面的全局感受野。

随后,每个特征序列通过选择性扫描状态空间序列模型(S6)进行处理,最后通过聚合特征序列重构二维特征图。

在这里插入图片描述
首先,图像经扫描扩展生成四个不同的特征序列;随后,每个序列通过 S6 块独立处理;最后,聚合 S6 块的输出,生成最终的二维特征图。

2.2 Fusion Mamba

2.2.1 架构

本文模型架构如图 2 所示,其检测骨干网络由双流特征提取网络和三个 融合 - 曼巴块(FMB) 组成,特征提取网络从 RGB 和红外图像中提取局部特征,分别记为 F r i Fᵣᵢ Fri​ 和 F i r i Fᵢᵣᵢ Firi​ ;随后,将这两个特征输入 FMB,通过在隐藏状态空间中关联跨模态特征,减小跨模态特征差异并增强融合特征的表示一致性。

在这里插入图片描述


本文中,FMB 仅添加到最后三个阶段,生成融合特征 P 3 、 P 4 和 P 5 P₃、P₄和 P₅ P3​、P4​和P5​ ,这些特征作为 YOLOv8 颈部和头部的输入,最终生成检测结果

在这里插入图片描述

2.2.2 核心组件

2.2.2.1 卷积块

给定输入 RGB 图像 I r Iᵣ Ir​ 和红外图像 I i r Iᵢᵣ Iir​ ,将其输入一系列卷积块以提取局部特征:
F R i = ϕ i ⋯ ( ϕ 2 ( ϕ 1 ( I R ) ) ) F_{R_{i}}=\phi_{i} \cdots\left(\phi_{2}\left(\phi_{1}\left(I_{R}\right)\right)\right) FRi​​=ϕi​⋯(ϕ2​(ϕ1​(IR​))) F I R i = φ i ⋯ ( φ 2 ( φ 1 ( I I R ) ) ) \quad F_{I R_{i}}=\varphi_{i} \cdots\left(\varphi_{2}\left(\varphi_{1}\left(I_{I R}\right)\right)\right) FIRi​​=φi​⋯(φ2​(φ1​(IIR​)))其中, ϕ i \phi_i ϕi​ 和 φ i \varphi_i φi​ 分别表示 RGB 和 红外分支在第 i i i 阶段的卷积块。

2.2.2.2 SSCS 模块
在这里插入图片描述


在这里插入图片描述

该模块通过 通道交换 操作和 VSS 块,增强跨模态特征交互以实现 浅层融合 。通过整合不同通道的信息构建跨模态特征关联,丰富通道特征的多样性,提升融合性能。

1.通道交换
采用通道交换操作生成 RGB 和红外的新局部特征 T r i Tᵣᵢ Tri​ 和 T i r i Tᵢᵣᵢ Tiri​,其公式为: T R i = C S ( F R i , F I R i ) , T I R i = C S ( F I R i , F R i ) T_{R_{i}}=CS(F_{R_{i}},F_{IR_{i}}), \quad T_{IR_{i}}=CS(F_{IR_{i}},F_{R_{i}}) TRi​​=CS(FRi​​,FIRi​​),TIRi​​=CS(FIRi​​,FRi​​)其中, C S ( ・ , ・ ) CS (・,・) CS(・,・) 为通道交换操作,通过通道分割和拼接实现:首先将局部特征 F r i Fᵣᵢ Fri​ 和 F i r i Fᵢᵣᵢ Firi​ 沿通道维度均分为四等份;然后,从 F r i Fᵣᵢ Fri​ 中选取第 1 和第 3 部分,从 F i r i Fᵢᵣᵢ Firi​ 中选取第 2 和第 4 部分,按顺序拼接生成 RGB 新局部特征 T r i Tᵣᵢ Tri​ ;同理生成红外新局部特征 T i r i Tᵢᵣᵢ Tiri​ 。

2.跨模态交互
对 T r i Tᵣᵢ Tri​ 和 T i r i Tᵢᵣᵢ Tiri​ 应用 VSS 块,从浅层特征增强跨模态交互: F ~ R i = V S S ( T R i ) , F ~ I R i = V S S ( T I R i ) \tilde{F}_{R_{i}}=V S S\left(T_{R_{i}}\right), \quad \tilde{F}_{I R_{i}}=V S S\left(T_{I R_{i}}\right) F~Ri​​=VSS(TRi​​),F~IRi​​=VSS(TIRi​​) 其中,VSS (・) 表示图 2 中的 VSS 块 ; F ~ r i F̃ᵣᵢ F~ri​ 和 F ~ i r i F̃ᵢᵣᵢ F~iri​ 分别为 RGB 和红外模态的浅层融合特征输出。

2.2.2.3 DSSF 模块

为进一步减小模态差异,构建用于跨模态特征关联与互补的隐藏状态空间。
DSSF 模块通过建模跨模态目标关联,促进特征融合。具体而言,采用 VSS 块将两种模态的特征投影到隐藏状态空间,并利用 门控 机制构建双向隐状态转换,实现跨模态深层特征融合。

1.投影到隐藏状态空间
得到浅层融合特征 F ~ r i F̃ᵣᵢ F~ri​ 和 F ~ i r i F̃ᵢᵣᵢ F~iri​ 后,首先通过 无门控VSS 块 将其投影到隐藏状态空间:
y R i = P i n ( F ~ R i ) , y I R i = P i n ( F ~ I R i ) y_{R_{i}}=P_{in}(\tilde{F}_{R_{i}}), \quad y_{I R_{i}}=P_{in}(\tilde{F}_{I R_{i}}) yRi​​=Pin​(F~Ri​​),yIRi​​=Pin​(F~IRi​​)其中, P i n ( ・ ) Pᵢₙ(・) Pin​(・) 表示将特征投影到隐藏状态空间的操作(详细实现见算法 1 第 13-17 行); y r i yᵣᵢ yri​ 和 y i r i yᵢᵣᵢ yiri​ 表示 隐状态特征

2.生成门控参数
对 F ~ r i F̃ᵣᵢ F~ri​ 和 F ~ i r i F̃ᵢᵣᵢ F~iri​ 进行投影,得到门控参数 z r i zᵣᵢ zri​ 和 z i r i zᵢᵣᵢ ziri​ : z R i = f θ i ( F ~ R i ) , z I R i = g ω i ( F ~ I R i ) z_{R_{i}}=f_{\theta_{i}}\left(\tilde{F}_{R_{i}}\right), \quad z_{I R_{i}}=g_{\omega_{i}}\left(\tilde{F}_{I R_{i}}\right) zRi​​=fθi​​(F~Ri​​),zIRi​​=gωi​​(F~IRi​​) 其中, f i ( ・ ) f_θᵢ(・) fi​(・) 和 g i ( ・ ) g_ωᵢ(・) gi​(・) 分别表示双流中带有参数 θ i θᵢ θi​和 ω i ωᵢ ωi​ 的门控操作。

3.隐状态特征融合
利用式中的门控输出 z r i zᵣᵢ zri​ 和 z i r i zᵢᵣᵢ ziri​ 对 y r i yᵣᵢ yri​ 和 y i r i yᵢᵣᵢ yiri​ 进行调制,实现隐状态特征融合: y R i ′ = y R i ⋅ z R i + z R i ⋅ y I R i y_{R_{i}}'=y_{R_{i}} \cdot z_{R_{i}}+z_{R_{i}} \cdot y_{I R_{i}} yRi​′​=yRi​​⋅zRi​​+zRi​​⋅yIRi​​ y I R i ′ = y I R i ⋅ z I R i + z I R i ⋅ y R i y_{I R_{i}}'=y_{I R_{i}} \cdot z_{I R_{i}}+z_{I R_{i}} \cdot y_{R_{i}} yIRi​′​=yIRi​​⋅zIRi​​+zIRi​​⋅yRi​​ 其中, y r i ′ yᵣᵢ' yri′​ 和 y i r i ′ yᵢᵣᵢ' yiri′​ 分别表示融合后的 RGB 和红外隐状态特征;“・” 表示按元素乘积

4.残差连接与特征增强
将 y r i ′ yᵣᵢ' yri′​ 和 y i r i ′ yᵢᵣᵢ' yiri′​ 投影回原始空间,并通过残差连接得到互补特征 F ˉ r i F̄ᵣᵢ Fˉri​ 和 F ˉ i r i F̄ᵢᵣᵢ Fˉiri​: F ‾ R i = P o u t ( y R i ′ ) + F ~ R i \overline{F}_{R_{i}}=P_{out }\left(y_{R_{i}}'\right)+\tilde{F}_{R_{i}} FRi​​=Pout​(yRi​′​)+F~Ri​​ F ‾ I R i = P o u t ( y I R i ′ ) + F ~ I R i \overline{F}_{I R_{i}}=P_{out }\left(y_{I R_{i}}'\right)+\tilde{F}_{I R_{i}} FIRi​​=Pout​(yIRi​′​)+F~IRi​​ 其中, P o u t ( ・ ) Pₒᵤₜ(・) Pout​(・) 表示带有线性变换的投影操作

增强特征表示: F ^ R i = F R i + F ‾ R i , F ^ I R i = F I R i + F ‾ I R i \hat{F}_{R_{i}}=F_{R_{i}}+\overline{F}_{R_{i}}, \quad \hat{F}_{I R_{i}}=F_{I R_{i}}+\overline{F}_{I R_{i}} F^Ri​​=FRi​​+FRi​​,F^IRi​​=FIRi​​+FIRi​​

2.2.2.4 FMB算法(算法1)
在这里插入图片描述
2.2.2.5 损失函数

FMB 处理后,RGB 和红外的增强特征(即 F ^ r i F̂ᵣᵢ F^ri​ 和 F ^ i r i F̂ᵢᵣᵢ F^iri​ )通过加法进一步融合,生成融合特征 P i Pᵢ Pi​ 作为颈部输入,以提升检测性能。
损失函数定义为: L = λ c o o r d L c o o r d + L c o n f + L c l a s s \mathcal{L}=\lambda_{coord } \mathcal{L}_{coord }+\mathcal{L}_{conf }+\mathcal{L}_{class } L=λcoord​Lcoord​+Lconf​+Lclass​ 其中, λ c o o r d s λ_{coords} λcoords​ 为调节定位损失 L c o o r d s L_{coords} Lcoords​ 权重的超参数, L c o n f L_{conf} Lconf​ 为置信度损失, L c l a s s L_{class} Lclass​ 为分类损失。

2.2.3 与基于 Transformer 的融合方法对比

现有基于 Transformer 的跨模态融合方法通过卷积对特征进行展平与拼接,生成中间融合特征,再通过多头交叉注意力进一步融合得到最终特征。这些方法仅通过空间交互无法有效减小模态差异,因为难以建模跨模态特征的目标关联。本文的 FMB 块通过四向扫描特征获得四组图像块,有效保留特征的局部信息;同时,将这些图像块映射到隐藏空间进行特征融合,这种基于映射的深层特征融合方法通过双向门控注意力有效减小了空间差异,进一步抑制冗余特征并捕捉模态间的互补信息。因此,所提 FMB 块减小了跨模态特征差异,增强了融合特征的表示一致性。
此外,Transformer 全局注意力的时间复杂度为 O ( N 2 ) O (N²) O(N2),而曼巴(Mamba)的时间复杂度仅为 O ( N ) O (N) O(N)( N N N 为序列长度)。从实验角度来看,在相同的检测模型架构下,用 Fusion-Mamba 块替换基于 Transformer 的融合模块,对单对图像的推理时间可节省 7-19ms(实验部分将详细讨论)。

3. 实验

3.1 实验设置

3.1.1 数据集

实验在三个广泛使用的可见光-红外(RGB-IR)基准数据集上进行评估,覆盖低光、多场景及昼夜环境,具体信息如下:

  • LLVIP:低光环境下的行人检测数据集,包含15,488对对齐的RGB-IR图像。数据采集于夜间低光照条件,聚焦行人目标检测。遵循官方划分,使用12,025对图像训练,3,463对测试。
  • M³FD:多模态多场景数据集,包含4,200对对齐的RGB-IR图像,覆盖不同光照(如强光、弱光)、季节(春、夏、秋、冬)和天气(晴、雨、雾)场景。数据涵盖自动驾驶和道路监控中常见的6个类别(行人、车辆、自行车等)。由于无官方划分,采用文献[18]的训练/测试分割。
  • FLIR:昼夜场景数据集,包含5个类别(人、汽车、自行车、狗、其他车辆)。遵循文献[38],使用FLIR-Aligned子集,其中4,129对训练,1,013对测试。

3.1.2 评估指标

采用目标检测领域最常用的两个指标:

  • mAP₅₀:IoU阈值为0.50时的平均精度(Average Precision),反映模型对目标定位和分类的基础能力;
  • mAP:IoU阈值在0.50到0.95(步长0.05)范围内的平均精度,综合评估模型在不同重叠度下的鲁棒性。

此外,报告在A800 GPU上对输入尺寸为640×640的图像进行5次运行评估的平均推理时间(单位:ms),衡量模型的计算效率。

3.1.3 实现细节

所有实验基于双流框架[6],在单张A800 GPU上完成。默认使用YOLOv5-l或YOLOv8-l作为主干网络(Backbone),颈部(Neck)和头部(Head)结构与对应YOLO版本保持一致。训练超参数设置如下:

  • 批量大小(Batch Size):4;
  • 优化器:SGD,动量(Momentum)0.9,权重衰减(Weight Decay)0.001;
  • 输入尺寸:640×640;
  • 训练轮次(Epochs):150;
  • 初始学习率(Initial LR):0.01;
  • Fusion-Mamba模块参数:SSCS模块数量1,DSSF模块数量8;
  • 定位损失权重: λ coord = 7.5 \lambda_{\text{coord}} = 7.5 λcoord​=7.5(其他超参数与YOLOv8默认配置一致)。

3.2 与现有最优方法的对比

3.2.1 LLVIP数据集

为验证Fusion-Mamba的有效性,我们在LLVIP数据集上与两类方法对比:单模态检测方法(仅RGB或仅IR)和多光谱融合方法(同时利用RGB-IR特征)。实验结果如表1所示(此处假设表1为对比数据)。

在这里插入图片描述


LLVIP作为低光行人检测数据集,单模态检测中IR模态因对光照不敏感,性能普遍优于RGB模态(如仅IR的Cascade R-CNN mAP为58.4%)。融合方法通过跨模态信息互补,理论上应优于单模态检测。

  • 与单模态方法对比:基于ResNet50主干的RSDet(融合方法)在LLVIP上mAP为62.9%,较仅IR的Cascade R-CNN(58.4%)提升4.5%;而仅IR的简单YOLOv5框架(无融合)已达到61.9% mAP,显著优于部分融合方法(如DIVFusion仅9.9% mAP),说明低质量融合可能破坏IR模态的固有优势。
  • 与多光谱融合方法对比:在相同YOLOv5主干下,Fusion-Mamba的mAP为62.8%(较仅IR的YOLOv5提升0.9%),较RSDet(61.3%)提升1.5%。核心优势源于SSCS模块的浅层通道交换(增强跨模态信息交互)和DSSF模块的深层门控融合(抑制冗余特征并捕捉互补信息),有效减少了模态差异,提升了融合特征的表示一致性。
  • 与YOLOv8主干对比:基于YOLOv8-l的Fusion-Mamba进一步优化了性能,达到mAP₅₀=97.0%、mAP=64.3%,为当前LLVIP上的最优结果。

3.2.2 M³FD 数据集

我们将我们的方法与 7 种基于 YOLOv5 的现有最优检测器和 1 种基于 YOLOv7 的现有最优检测器进行比较。如表 2 所示,与基于相同 YOLOv5 主干的现有最优方法相比,我们的 Fusion-Mamba 在所有类别上使用 mAP₅₀和 mAP 指标均表现最佳;基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 类别上实现了新的现有最优结果,同时 mAP₅₀和 mAP 指标进一步提升了 3% 和 4.4%。此外,尽管 YOLOv5 的特征表示能力低于 YOLOv7,我们使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP₅₀,这得益于我们 FMB 的有效性,提升了跨模态特征的固有互补性。

在这里插入图片描述

3.2.3 FLIR-Aligned 数据集

如表 3 所示,Fusion-Mamba 在 Aligned-FLIR 数据集上也表现最佳。与基于双流 YOLOv5 主干的 CrossFormer 相比,我们基于 YOLOv8 和 YOLOv5 的方法在 mAP₅₀上分别超越它们 5.6% 和 5%,在 mAP 上分别超越 4.9% 和 2.3%。我们还比 RSDet 高出 3.8% mAP₅₀和 5.6% mAP。在速度方面,我们使用 YOLOv5 的方法实现了最快速度,与基于 Transformer 的 CFT 和 CrossFormer 方法相比,一对图像的检测分别节省 7ms 和 19ms。在参数方面,我们基于 YOLOv5 的方法比 CrossFormer 方法节省约 100M 参数。尽管我们基于 YOLOv8 的方法比 YOLOv5 增加了约 40M 参数,但 mAP 显著提升了 2.6%。该结果表明,我们基于隐藏空间建模的方法更好地整合了不同模态之间的特征,抑制了模态差异,以最佳的性能和计算成本权衡增强了融合特征的表示能力。

在这里插入图片描述

3.2.4 热力图可视化

为直观展示我们模型的高性能,我们从三个实验数据集中各随机选择一对图像,可视化 P₅热力图,并与其他融合方法进行比较。如图 5 所示,与其他方法相比,我们的模型更聚焦于目标,而非分散或聚焦于无关部分。更多示例见补充材料。我们还在补充材料中可视化了目标检测结果,以评估我们方法的有效性。

在这里插入图片描述

3.3 消融实验

我们使用 FLIR-Aligned 数据集进行消融实验,以分别验证 SSCS 和 DSSF 模块的有效性,并进一步探索 DSSF 模块数量和位置的影响。特别地,我们还评估了 DSSF 模块双向注意力的效果。所有实验均基于 YOLOv8 主干进行。

3.3.1 SSCS 和 DSSF 模块的影响

FMB 中移除 SSCS 和 DSSF 的结果汇总于表 4。

在这里插入图片描述

移除 SSCS 模块后(表 4 第二行),检测器性能在 mAP₅₀和 mAP 上分别下降 2% 和 1.1%。原因在于,没有两模态特征的初始交换和浅层映射融合,在后续深层融合中特征差异未得到有效减少。同时,没有 DSSF(表 4 第三行),仅浅层融合交互无法在特征融合过程中有效抑制冗余特征并激活有效特征,导致检测器性能在 mAP₅₀和 mAP 上分别下降 2.5% 和 2.4%。同时移除 SSCS 和 DSSF,直接通过两局部模态特征相加获得融合特征(表 4 第四行),其性能在 mAP₅₀和 mAP 上分别显著下降 4.8% 和 7.6%。这些结果表明,FMB 的这两个组件对跨模态目标检测有效。

3.3.2 FMB 位置的影响。

遵循 [6,14] 的工作,我们也设置三个 FMB 用于特征融合。在此,我们进一步探索 FMB 位置的影响,即应在哪些阶段添加 FMB。我们选择三组多级特征: P 2 , P 3 , P 5 {P₂, P₃, P₅} P2​,P3​,P5​、 P 2 , P 4 , P 5 {P₂, P₄, P₅} P2​,P4​,P5​ 和 P 3 , P 4 , P 5 {P₃, P₄, P₅} P3​,P4​,P5​ 进行消融实验,其中 P i Pᵢ Pi​是使用 FMB 在第 i i i 阶段的融合特征。如表 5 所示,位置 P 3 , P 4 , P 5 {P₃, P₄, P₅} P3​,P4​,P5​ 在性能和计算复杂度之间实现了最佳权衡,因此我们默认选择此位置进行实验。

在这里插入图片描述

表 5. FLIR-Aligned 数据集上 FMB 位置的影响。

3.3.3 DSSF 模块数量的影响。

我们已在表 4 中验证了 DSSF 的有效性,在此进一步评估 DSSF 模块数量的影响,结果汇总于表 6。

在这里插入图片描述

我们选择四种 DSSF 数量(即 2、4、8、16),并保持其他模型设置与上述实验一致。可以看出,模块数量设置为 8 时实现最佳性能,8 个 DSSF 模块将达到饱和,增加数量会导致互补特征漂移,从而降低融合性能。

3.3.4 DSSF 模块双向注意力的影响

在这里插入图片描述

为进一步探索我们门控机制中 DSSF 模块双向注意力的有效性,我们分别移除 RGB 分支中的 IR 注意力(即式 9 中的 z I R i ・ y R i z_{IRᵢ}・y_{Rᵢ} zIRi​​・yRi​​)、IR 分支中的 RGB 注意力(即式 10 中的 z I R i ・ y R i z_{IRᵢ}・y_{Rᵢ} zIRi​​・yRi​​)以及双向注意力。结果如表 7 所示。移除 IR 注意力或 RGB 注意力后,由于减少了两特征间的注意力交互,mAP₅₀分别下降 1.6% 或 1.1%;当移除双向注意力时,DSSF 模块变为 VSS 块的堆叠,mAP₅₀下降 2%。值得注意的是,IR 和 RGB 注意力分支与其他分支共享权重,与移除双向注意力相比,这相当于仅添加激活函数和特征加法操作。因此,双向注意力的使用对模型参数和运行时间没有显著影响,但显著提升了检测性能。

4. 结论

本文提出了一种新颖的 Fusion-Mamba 方法,通过精心设计的 SSCS 模块DSSF 模块实现多模态特征融合。具体而言,SSCS 交换红外和可见光通道特征以实现浅层特征融合;随后,DSSF 进一步设计用于在基于 Mamba 的隐藏状态空间中实现更深层的多模态特征交互门控注意力用于抑制冗余特征以增强特征融合的有效性。在三个公共 RGB-IR 数据集上进行的大量实验表明,我们的方法实现了现有最优性能,且推理效率高于 Transformer。我们的工作证实了 Mamba 在跨模态融合中的潜力,相信我们的工作能为 Mamba 在跨模态任务中的应用激发更多研究。

Read more

从0到1打造RISC-V智能家居中控:硬件+固件+通信全链路实战

从0到1打造RISC-V智能家居中控:硬件+固件+通信全链路实战

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * 从0到1打造RISC-V智能家居中控:硬件+固件+通信全链路实战 🏠💡 * 为什么选择RISC-V?🤔 * 系统整体架构概览 🧩 * 第一步:硬件选型与电路搭建 🔌 * 主控芯片选择 * 外设连接 * 第二步:开发环境搭建 🛠️ * 安装步骤(以Ubuntu为例) * 第三步:裸机驱动开发(Bare Metal)⚡ * 示例1:DHT11温湿度读取(Bit-banging) * 示例2:BH1750光照传感器(I2C) * 第四步:引入FreeRTOS实现多任务调度 🔄 * 第五步:Wi-Fi连接与MQTT通信 ☁️📡 * 连接Wi-Fi * MQTT客户端(使用esp-mqtt库) * 第六步:BLE本地控制(无需Wi-Fi)📱

腾讯QQ官方炸场!OpenClaw一键建5个机器人,个人号直接上手|实战教程

腾讯QQ官方炸场!OpenClaw一键建5个机器人,个人号直接上手|实战教程

文章目录 * 前言 * 一、OpenClaw是个啥?你的"数字长工" * 二、为什么说这次QQ"炸场"了? * 三、实操环节:从0到1,手把手养出你的AI小弟 * 3.1 在QQ开放平台"造人" * 3.2 给机器人找个"肉身"(部署OpenClaw) * 方案A:云服务器一键部署(推荐新手) * 方案B:宝塔面板可视化安装(适合有服务器的站长) * 方案C:本地Docker部署(适合极客) * 3.3 关键的"认亲"三步走 * 3.4 加好友,

山东大学《Web数据管理》期末复习宝典【万字解析!】

山东大学《Web数据管理》期末复习宝典【万字解析!】

🌈 个人主页:十二月的猫-ZEEKLOG博客 🔥 系列专栏:🏀山东大学期末速通专用_十二月的猫的博客-ZEEKLOG博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光  目录 1. 第二章 网络爬虫 1.1 爬虫基础知识 1.2 爬虫分类 1.3 开源工具 Nutch 2. 第三章 网页分析 2.1 正则表达式 2.2 DOM模型 2.3 Beautiful Soup工具 2.4 Scrapy框架 2.5 不同爬虫工具比较 2.6 元搜索引擎 3. 第四章 爬虫与网站的博弈 3.1 Robot协议 3.

Hunyuan-MT-7B-WEBUI快速上手:10分钟完成翻译服务部署

Hunyuan-MT-7B-WEBUI快速上手:10分钟完成翻译服务部署 1. 这不是普通翻译工具,是能开箱即用的专业级多语种翻译服务 你有没有遇到过这些情况: * 需要快速把一份维吾尔语产品说明书转成中文,但主流翻译API不支持; * 客户发来一封西班牙语技术邮件,想立刻看懂又不想反复粘贴到网页版; * 团队在做跨境内容运营,每天要处理日、法、葡、西四语种的社媒文案,但人工翻译成本太高…… Hunyuan-MT-7B-WEBUI 就是为这类真实需求而生的——它不是另一个需要调接口、写代码、配环境的“半成品模型”,而是一个预装好、点开就能用、连GPU显存都帮你算好了的完整翻译服务。 它背后跑的是腾讯混元团队开源的 Hunyuan-MT-7B 模型,专为高质量机器翻译设计,在 WMT2025 多语种翻译评测中拿下30个语种综合第一。更关键的是,它不是只支持“中英日韩”这种常见组合,而是实打实覆盖了38种语言互译,包括日语、法语、西班牙语、葡萄牙语、阿拉伯语、俄语、越南语、泰语、印尼语,以及维吾尔语、藏语、蒙古语、壮语、