CVPR 2024 论文阅读:Fusion-Mamba 跨模态目标检测
提出 Fusion-Mamba 方法,利用状态空间模型(SSM)改进的曼巴架构进行跨模态目标检测。通过融合 - 曼巴块(FMB),包含状态空间通道交换(SSCS)和双状态空间融合(DSSF)模块,在隐藏状态空间中关联 RGB 与红外特征。实验表明,该方法在 LLVIP、M³FD 和 FLIR-Aligned 数据集上达到最优性能,相比 Transformer 方法具有更低的时间复杂度,有效减小了模态差异并提升了检测精度。

提出 Fusion-Mamba 方法,利用状态空间模型(SSM)改进的曼巴架构进行跨模态目标检测。通过融合 - 曼巴块(FMB),包含状态空间通道交换(SSCS)和双状态空间融合(DSSF)模块,在隐藏状态空间中关联 RGB 与红外特征。实验表明,该方法在 LLVIP、M³FD 和 FLIR-Aligned 数据集上达到最优性能,相比 Transformer 方法具有更低的时间复杂度,有效减小了模态差异并提升了检测精度。

会议: Computer Vision and Pattern Recognition (CVPR) 论文: https://arxiv.org/abs/2404.09146 年份: 2024
跨模态融合能够有效整合不同模态的互补信息,提升目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。
现有融合策略通过精心设计的神经网络模块组合不同类型的图像或融合不同骨干网络特征,但这些方法忽略了模态差异对跨模态融合性能的影响。
本文基于改进的曼巴(Mamba)模型,引入门控机制,通过在隐藏状态空间中关联跨模态特征,探索跨模态融合的新范式。

图 1. 热力图可视化。(a) 和 (b) 为初始 RGB 和 IR 输入图像;(c) 和 (d) 为使用 YOLOv8 单模态生成的热力图;(e) 为基于 CNN 融合模块的 YOLO-MS 热力图;(f) 和 (g) 为基于 Transformer 融合模块的 ICAFusion 和 CFT 热力图;(h) 为我们的 FMB 热力图,其定位效果更佳。

图 2. 所提出的 Fusion-Mamba 方法架构。检测网络包含双流特征提取网络和三个 Fusion-Mamba 模块(FMB),其颈部和头部与 YOLOv8 相同。顶部是我们的检测框架,φ_i 和 φ_i 分别是 RGB 和 IR 分支的卷积模块,用于生成 F_Ri 和 F_IRi 特征;F^Ri 和 F^IRi 是通过 FMB 增强的特征图;P_3、P_4 和 P_5 是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了 FMB 的设计细节。
本文提出 Fusion-Mamba 方法,旨在通过隐藏状态空间实现特征融合,为跨模态特征融合开辟新范式。
Fusion-Mamba 的核心创新在于融合 - 曼巴块(FMB),如图 2 所示:其中,状态空间通道交换(SSCS)模块用于浅层特征融合,提升跨模态特征的交互能力;双状态空间融合(DSSF)模块构建隐藏状态空间,实现跨模态特征的关联与互补。这两个模块共同减小了融合过程中的模态差异,如图 1(h)所示,其热力图表明本文方法能更有效地融合特征,使检测器更聚焦于目标。
本文的主要贡献如下:
状态空间模型(State Space Models, SSMs)常用于表示线性时不变系统,其通过一维输入序列 x(t) ∈ R,经中间隐状态 h(t) ∈ R^N 处理后生成输出 y(t) ∈ R。数学上,SSMs 通常表示为线性常微分方程(ODEs): h'(t) = Ah(t) + Bx(t) y(t) = Ch(t) + Dx(t)
其中,系统行为由一组参数定义,包括状态转移矩阵 A ∈ R^{N×N}、投影参数 B、C ∈ R^{N×1} 以及跳跃连接 D ∈ R。为简化说明,一般通过设置 D=0 移除 Dx(t) 项。
考虑到计算机易于处理离散数据,因此通过离散化操作将 ODEs 离散化: \overline{h}k = \overline{A} h{k-1} + \overline{B} x_k, y(t) = \overline{C} h_k + D x_k, \overline{A} = e^{\Delta A}, \overline{B} = (\Delta A)^{-1} (e^{\Delta A} - I) \Delta B, \overline{C} = C
其中,B、C ∈ R^D,I 为单位矩阵,\overline{B} 和 \overline{C} 分别为 B,C 的离散化表达,Δ 为时间尺度参数,即离散化后的时间步长。离散化后,SSMs 通过结构化卷积核 K̃ ∈ R^D 的全局卷积计算: y = x * \overline{K}, K = (C\overline{B}, C\overline{A}\overline{B}, ⋯, C\overline{A}^{L-1}\overline{B})
二维视觉数据与一维语言序列的不兼容性导致曼巴(Mamba)无法直接应用于视觉任务。为解决这一问题,提出了二维选择性扫描(2D Selective Scan, SS2D)机制,其流程如图 3 所示。
SS2D 首先将图像块向四个不同方向扩展,生成四个独立序列;这种四向扫描策略确保特征图中的每个元素都包含来自不同方向所有其他位置的信息,从而在不增加线性计算复杂度的前提下构建全面的全局感受野。
随后,每个特征序列通过选择性扫描状态空间序列模型(S6)进行处理,最后通过聚合特征序列重构二维特征图。
首先,图像经扫描扩展生成四个不同的特征序列;随后,每个序列通过 S6 块独立处理;最后,聚合 S6 块的输出,生成最终的二维特征图。
本文模型架构如图 2 所示,其检测骨干网络由双流特征提取网络和三个 融合 - 曼巴块(FMB) 组成,特征提取网络从 RGB 和红外图像中提取局部特征,分别记为 F_Ri 和 F_IRi;随后,将这两个特征输入 FMB,通过在隐藏状态空间中关联跨模态特征,减小跨模态特征差异并增强融合特征的表示一致性。

本文中,FMB 仅添加到最后三个阶段,生成融合特征 P_3、P_4 和 P_5,这些特征作为 YOLOv8 颈部和头部的输入,最终生成检测结果。
给定输入 RGB 图像 I_R 和红外图像 I_IR,将其输入一系列卷积块以提取局部特征: F_Ri = φ_i ⋯ (φ_2 (φ_1 (I_R))) F_IRi = φ_i ⋯ (φ_2 (φ_1 (I_IR)))
其中,φ_i 和 φ_i 分别表示 RGB 和红外分支在第 i 阶段的卷积块。
该模块通过 通道交换 操作和 VSS 块,增强跨模态特征交互以实现 浅层融合。通过整合不同通道的信息构建跨模态特征关联,丰富通道特征的多样性,提升融合性能。
1. 通道交换 采用通道交换操作生成 RGB 和红外的新局部特征 T_Ri 和 T_IRi,其公式为:T_Ri = CS(F_Ri, F_IRi), T_IRi = CS(F_IRi, F_Ri) 其中,CS(・,・) 为通道交换操作,通过通道分割和拼接实现:首先将局部特征 F_Ri 和 F_IRi 沿通道维度均分为四等份;然后,从 F_Ri 中选取第 1 和第 3 部分,从 F_IRi 中选取第 2 和第 4 部分,按顺序拼接生成 RGB 新局部特征 T_Ri;同理生成红外新局部特征 T_IRi。
2. 跨模态交互 对 T_Ri 和 T_IRi 应用 VSS 块,从浅层特征增强跨模态交互:F~_Ri = VSS(T_Ri), F~_IRi = VSS(T_IRi) 其中,VSS(・) 表示图 2 中的 VSS 块;F~_Ri 和 F~_IRi 分别为 RGB 和红外模态的浅层融合特征输出。
为进一步减小模态差异,构建用于跨模态特征关联与互补的隐藏状态空间。 DSSF 模块通过建模跨模态目标关联,促进特征融合。具体而言,采用 VSS 块将两种模态的特征投影到隐藏状态空间,并利用 门控 机制构建双向隐状态转换,实现跨模态深层特征融合。
1. 投影到隐藏状态空间 得到浅层融合特征 F~_Ri 和 F~_IRi 后,首先通过 无门控 的 VSS 块 将其投影到隐藏状态空间: y_Ri = Pin(F~_Ri), y_IRi = Pin(F~_IRi) 其中,Pin(・) 表示将特征投影到隐藏状态空间的操作(详细实现见算法 1 第 13-17 行);y_Ri 和 y_IRi 表示 隐状态特征。
2. 生成门控参数 对 F~_Ri 和 F~_IRi 进行投影,得到门控参数 z_Ri 和 z_IRi:z_Ri = f_θi(F~_Ri), z_IRi = g_ωi(F~_IRi) 其中,f_θi(・) 和 g_ωi(・) 分别表示双流中带有参数 θ_i 和 ω_i 的门控操作。
3. 隐状态特征融合 利用式中的门控输出 z_Ri 和 z_IRi 对 y_Ri 和 y_IRi 进行调制,实现隐状态特征融合: y'_Ri = y_Ri · z_Ri + z_Ri · y_IRi y'_IRi = y_IRi · z_IRi + z_IRi · y_Ri
其中,y'_Ri 和 y'_IRi 分别表示融合后的 RGB 和红外隐状态特征;'·' 表示按元素乘积。
4. 残差连接与特征增强 将 y'_Ri 和 y'_IRi 投影回原始空间,并通过残差连接得到互补特征 F̄_Ri 和 F̄_IRi: F̄_Ri = Pout(y'_Ri) + F~_Ri F̄_IRi = Pout(y'_IRi) + F~_IRi
其中,Pout(・) 表示带有线性变换的投影操作
增强特征表示:F^_Ri = F_Ri + F̄_Ri, F^_IRi = F_IRi + F̄_IRi
经 FMB 处理后,RGB 和红外的增强特征(即 F^_Ri 和 F^_IRi)通过加法进一步融合,生成融合特征 P_i 作为颈部输入,以提升检测性能。 总损失函数定义为:L = λ_coord L_coord + L_conf + L_class 其中,λ_coords 为调节定位损失 L_coords 权重的超参数,L_conf 为置信度损失,L_class 为分类损失。
现有基于 Transformer 的跨模态融合方法通过卷积对特征进行展平与拼接,生成中间融合特征,再通过多头交叉注意力进一步融合得到最终特征。这些方法仅通过空间交互无法有效减小模态差异,因为难以建模跨模态特征的目标关联。本文的 FMB 块通过四向扫描特征获得四组图像块,有效保留特征的局部信息;同时,将这些图像块映射到隐藏空间进行特征融合,这种基于映射的深层特征融合方法通过双向门控注意力有效减小了空间差异,进一步抑制冗余特征并捕捉模态间的互补信息。因此,所提 FMB 块减小了跨模态特征差异,增强了融合特征的表示一致性。
此外,Transformer 全局注意力的时间复杂度为 O(N²),而曼巴(Mamba)的时间复杂度仅为 O(N)(N 为序列长度)。从实验角度来看,在相同的检测模型架构下,用 Fusion-Mamba 块替换基于 Transformer 的融合模块,对单对图像的推理时间可节省 7-19ms(实验部分将详细讨论)。
实验在三个广泛使用的可见光 - 红外(RGB-IR)基准数据集上进行评估,覆盖低光、多场景及昼夜环境,具体信息如下:
采用目标检测领域最常用的两个指标:
此外,报告在 A800 GPU 上对输入尺寸为 640×640 的图像进行 5 次运行评估的平均推理时间(单位:ms),衡量模型的计算效率。
所有实验基于双流框架 [6],在单张 A800 GPU 上完成。默认使用 YOLOv5-l 或 YOLOv8-l 作为主干网络(Backbone),颈部(Neck)和头部(Head)结构与对应 YOLO 版本保持一致。训练超参数设置如下:
为验证 Fusion-Mamba 的有效性,我们在 LLVIP 数据集上与两类方法对比:单模态检测方法(仅 RGB 或仅 IR)和多光谱融合方法(同时利用 RGB-IR 特征)。实验结果如表 1 所示(此处假设表 1 为对比数据)。

LLVIP 作为低光行人检测数据集,单模态检测中 IR 模态因对光照不敏感,性能普遍优于 RGB 模态(如仅 IR 的 Cascade R-CNN mAP 为 58.4%)。融合方法通过跨模态信息互补,理论上应优于单模态检测。
我们将我们的方法与 7 种基于 YOLOv5 的现有最优检测器和 1 种基于 YOLOv7 的现有最优检测器进行比较。如表 2 所示,与基于相同 YOLOv5 主干的现有最优方法相比,我们的 Fusion-Mamba 在所有类别上使用 mAP₅₀和 mAP 指标均表现最佳;基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 类别上实现了新的现有最优结果,同时 mAP₅₀和 mAP 指标进一步提升了 3% 和 4.4%。此外,尽管 YOLOv5 的特征表示能力低于 YOLOv7,我们使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP₅₀,这得益于我们 FMB 的有效性,提升了跨模态特征的固有互补性。

如表 3 所示,Fusion-Mamba 在 Aligned-FLIR 数据集上也表现最佳。与基于双流 YOLOv5 主干的 CrossFormer 相比,我们基于 YOLOv8 和 YOLOv5 的方法在 mAP₅₀上分别超越它们 5.6% 和 5%,在 mAP 上分别超越 4.9% 和 2.3%。我们还比 RSDet 高出 3.8% mAP₅₀和 5.6% mAP。在速度方面,我们使用 YOLOv5 的方法实现了最快速度,与基于 Transformer 的 CFT 和 CrossFormer 方法相比,一对图像的检测分别节省 7ms 和 19ms。在参数方面,我们基于 YOLOv5 的方法比 CrossFormer 方法节省约 100M 参数。尽管我们基于 YOLOv8 的方法比 YOLOv5 增加了约 40M 参数,但 mAP 显著提升了 2.6%。该结果表明,我们基于隐藏空间建模的方法更好地整合了不同模态之间的特征,抑制了模态差异,以最佳的性能和计算成本权衡增强了融合特征的表示能力。

为直观展示我们模型的高性能,我们从三个实验数据集中各随机选择一对图像,可视化 P₅热力图,并与其他融合方法进行比较。如图 5 所示,与其他方法相比,我们的模型更聚焦于目标,而非分散或聚焦于无关部分。更多示例见补充材料。我们还在补充材料中可视化了目标检测结果,以评估我们方法的有效性。

我们使用 FLIR-Aligned 数据集进行消融实验,以分别验证 SSCS 和 DSSF 模块的有效性,并进一步探索 DSSF 模块数量和位置的影响。特别地,我们还评估了 DSSF 模块双向注意力的效果。所有实验均基于 YOLOv8 主干进行。
FMB 中移除 SSCS 和 DSSF 的结果汇总于表 4。

移除 SSCS 模块后(表 4 第二行),检测器性能在 mAP₅₀和 mAP 上分别下降 2% 和 1.1%。原因在于,没有两模态特征的初始交换和浅层映射融合,在后续深层融合中特征差异未得到有效减少。同时,没有 DSSF(表 4 第三行),仅浅层融合交互无法在特征融合过程中有效抑制冗余特征并激活有效特征,导致检测器性能在 mAP₅₀和 mAP 上分别下降 2.5% 和 2.4%。同时移除 SSCS 和 DSSF,直接通过两局部模态特征相加获得融合特征(表 4 第四行),其性能在 mAP₅₀和 mAP 上分别显著下降 4.8% 和 7.6%。这些结果表明,FMB 的这两个组件对跨模态目标检测有效。
遵循 [6,14] 的工作,我们也设置三个 FMB 用于特征融合。在此,我们进一步探索 FMB 位置的影响,即应在哪些阶段添加 FMB。我们选择三组多级特征:P₂, P₃, P₅、P₂, P₄, P₅ 和 P₃, P₄, P₅ 进行消融实验,其中 P_i 是使用 FMB 在第 i 阶段的融合特征。如表 5 所示,位置 P₃, P₄, P₅ 在性能和计算复杂度之间实现了最佳权衡,因此我们默认选择此位置进行实验。

表 5. FLIR-Aligned 数据集上 FMB 位置的影响。
我们已在表 4 中验证了 DSSF 的有效性,在此进一步评估 DSSF 模块数量的影响,结果汇总于表 6。

我们选择四种 DSSF 数量(即 2、4、8、16),并保持其他模型设置与上述实验一致。可以看出,模块数量设置为 8 时实现最佳性能,8 个 DSSF 模块将达到饱和,增加数量会导致互补特征漂移,从而降低融合性能。

为进一步探索我们门控机制中 DSSF 模块双向注意力的有效性,我们分别移除 RGB 分支中的 IR 注意力(即式 9 中的 z_IRi·y_Ri)、IR 分支中的 RGB 注意力(即式 10 中的 z_IRi·y_Ri)以及双向注意力。结果如表 7 所示。移除 IR 注意力或 RGB 注意力后,由于减少了两特征间的注意力交互,mAP₅₀分别下降 1.6% 或 1.1%;当移除双向注意力时,DSSF 模块变为 VSS 块的堆叠,mAP₅₀下降 2%。值得注意的是,IR 和 RGB 注意力分支与其他分支共享权重,与移除双向注意力相比,这相当于仅添加激活函数和特征加法操作。因此,双向注意力的使用对模型参数和运行时间没有显著影响,但显著提升了检测性能。
本文提出了一种新颖的 Fusion-Mamba 方法,通过精心设计的 SSCS 模块和 DSSF 模块实现多模态特征融合。具体而言,SSCS 交换红外和可见光通道特征以实现浅层特征融合;随后,DSSF 进一步设计用于在基于 Mamba 的隐藏状态空间中实现更深层的多模态特征交互,门控注意力用于抑制冗余特征以增强特征融合的有效性。在三个公共 RGB-IR 数据集上进行的大量实验表明,我们的方法实现了现有最优性能,且推理效率高于 Transformer。我们的工作证实了 Mamba 在跨模态融合中的潜力,相信我们的工作能为 Mamba 在跨模态任务中的应用激发更多研究。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online