低空无人机车辆目标跟踪技术研究
1. 1 选题依据
在科技创新不断突破的背景下,低空无人机作为新兴军事装备,凭借其在战场上的成功运用,正推动战争形态向以智能化远程攻击武器为主导的“非接触战争”演进。传统监视与侦察任务长期依赖人工,存在成本高、效率低、安全风险大等局限。而低空无人机凭借独特的空中视角与灵活机动能力,显著提升了任务效率与安全性。进一步将其与目标跟踪技术相结合,依托广阔视野和先进视觉算法,无人机不仅在军事领域作用突出,也在交通管理等民用领域中展现出广阔潜力[1-4],应用场景如图1-1所示。

图1-1 无人机应用场景
低空无人机车辆目标跟踪技术的主要思想是:通过无人机搭载的摄像设备获取视频或图像数据,并借助目标检测、目标跟踪和图像处理等技术,实现对地面车辆目标的实时或准实时识别、定位与持续跟踪。尽管现有目标跟踪技术已相对成熟,但在实际应用环境中,尤其是无人机在低空飞行、复杂背景以及跟踪特定目标情形下,仍面临严峻的技术挑战。
(1)大场景中弱小目标容易漏检
相比于高空平台(如卫星或高空侦察机),低空无人机能提供更优的图像分辨率与更丰富的细节信息,这对精确识别地面车辆至关重要。然而,为保持无人机自身安全性和侦察隐蔽性,飞行高度在100至1000米之间的低空无人机(根据不同地区特点和实际需要可延伸至3000米以内),其所跟踪地面目标在图像中占据极小的像素区域,其特征不明显、细节匮乏,使得传统的跟踪模型表现受限,因此发展高效的小目标跟踪技术尤为迫切。图1-2展示了无人机车辆目标跟踪中若干典型的小目标跟踪困难场景。

图1-2 若干典型小目标场景
(2)地物环境遮挡致目标容易丢失
在复杂环境中,诸如高楼、桥梁、林地等复杂地形地物易对目标车辆造成部分或完全遮挡,导致跟踪过程中断或轨迹漂移。尤其在无人机航拍视角下,目标常被树木、建筑物等频繁遮蔽,使得现有跟踪算法面临严峻考验:其在长时间、重度遮挡后的目标重新识别能力普遍不足,往往导致目标重现时被误判为新目标,引发ID切换,难以快速、准确地恢复对原目标的持续跟踪。如图1-3所示目标受树木遮挡。
(3)计算资源受限精度与效率难以平衡
在算法层面,传统计算机视觉方法虽然计算量较轻,但在复杂场景下难以兼顾精度与效率。而新一代深度学习模型虽能实现高精度的检测与跟踪,却因其复杂的网络结构与庞大参数量,对无人机有限的机载计算资源形成了巨大压力。这种精度与效率的矛盾,使得算法在嵌入式边缘设备上难以同时满足高精度与高帧率实时处理的要求。因此,如何在维持模型性能的前提下进行有效的模型轻量化,已成为推动无人机智能感知实际落地的关键瓶颈。

图1-3 目标受树木遮挡
1.2 研究意义
低空无人机车辆目标跟踪技术的研究意义远超单一技术领域范畴,在技术层面它推动着人工智能、边缘计算、图像识别的交叉创新;在应用层面,既能对高价值目标(指挥车、导弹发射车)实现持续监视又能为后方火力平台提供精准目标指示,成为军事变革的关键赋能器。
(1)深化低空无人机场景的计算机视觉理论
传统理论多基于静态或平稳相机,而无人机带来了剧烈运动、视角多变等新问题,研究这些问题必须突破现有框架。低空无人机车辆目标跟踪技术研究,对计算机视觉理论发展而言,是推动其从理论、静态的实验室环境走向复杂、动态真实世界的关键驱动力。该课题在复杂的时空动态场景中针对小目标、频繁遮挡、尺度变化等核心难题,采取基于深度学习的目标检测算法、解决遮挡问题的重识别技术等展开研究,意在推动鲁棒的目标跟踪相关理论发展。这将促使研究超越在规范数据集上表现良好的现有模型,进而探索更具鲁棒性与适应性的特征表达、运动建模及相似性度量方法,从而丰富计算机视觉在复杂真实场景下的理论体系。
(2)探索资源约束下的边缘智能新范式
无人机平台是研究边缘计算的理想载体,然而在“精度-速度-能耗”这一约束三角难以取得较好的平衡。精度决定跟踪的可靠性,速度决定系统的实时性,能耗则直接制约无人机的续航与部署可行性,三者相互制约。因此,对这一约束三角的深入研究,绝非简单的性能权衡,而是旨在探索资源严格受限条件下智能感知的极限,其突破将催生新一代轻量化、高鲁棒的目标跟踪算法,革新边缘智能计算架构,并建立“可用性”导向的系统评估新范式。这不仅能为无人机平台带来更持久、更智能的“眼睛”,直接促进其在交通管理、应急响应与安防巡逻等关键场景中的实用化落地,同时有望在模型轻量化、神经网络架构搜索及硬件感知设计等方面催生理论创新,为更广泛的边缘AI应用提供新的方法论。
(3)赋能军事战略,构建立体监测网络
选择低空无人机车辆目标跟踪研究主要基于无人机平台固有的生态优势:一是立体的监控视角,低空航拍可提供多方位视角,能有效避免地面监控的遮挡问题;二是单架无人机可覆盖数平方公里区域,并且能够跟随目标快速调整位置、高度和视角,适应目标车辆的动态移动;三是相比于卫星等高空侦测设备,低空无人机可快速部署与回收,非常适合临时性、应急性监控任务。作为新兴力量,低空无人机能有效填补卫星遥感(宏观)与地面监控(微观)之间的中观尺度空白,形成“天-空-地”一体化立体监测网络。
1.3预期研究成果的学术价值或应用价值
预期成果:本课题通过采用基于检测的跟踪(Tracking By Detection,TBD)范式研究低空无人机车辆目标跟踪特性,利用跟踪信息来引导和优化检测过程,形成一个全局优化的、紧密耦合的闭环系统。
在学术层面,本研究致力于设计一种端到端的网络模型,该模型能够显式地建模并利用时序上下文信息。通过在时间维度上融合多帧视觉信息,模型旨在实现对图像中微弱小目标的精准定位,并有效应对短暂遮挡后的目标重现问题。这一研究将系统性地将TBD等前沿思想引入低空无人机视觉感知领域,为动态平台下的稳健视觉跟踪提供一种新的方法论与研究范式。
在应用层面,本研究通过深入研究TBD框架,提出一种解决低空无人机在复杂高风险环境下从低分辨率图像中提取车辆鲁棒特征的新方法,有助于提升针对地面车辆及编队的跟踪稳定性与可靠性。通过提供持续、稳定的态势数据,该技术能为精确制导武器提供实时高精度目标指示,大幅提升军事打击行动(如“斩首行动”)的成功率。更进一步,该方法通过融合车辆结构、交互关系与运动模式分析,实现对编队整体与个体车辆的协同感知。这不仅能全面赋能战场侦察与情报生成,也可为公共安全领域的车辆追踪与处置提供深度支持,从而推动相关决策领域实现从“看见”到“理解”、再到“精准行动”的能力跨越。
综上所述,对“低空无人机车辆目标跟踪技术”的研究,既是保障国家安全与公共安全的必然要求,也是驱动低空经济发展、赋能各行业智能化升级的重要支撑。本研究采用TBD范式,不仅在理论上推动人工智能与无人系统的深度融合,更在实践上具备广阔的战略价值与应用前景,有望在学术前沿探索与重大现实需求两个维度上实现同步突破。
低空无人机车辆目标跟踪技术旨在目标数量与类别未知的复杂环境下,从航拍视频中自动发现并持续跟踪车辆(或车辆编队)目标,为完成特定任务提供目标态势感知。这一技术过程通常包含目标发现、目标确定、特征提取、数据关联与轨迹更新等关键环节。
目标检测与跟踪是计算机视觉中两个紧密关联的核心任务。目标检测作为基础环节,负责从图像或视频中识别并定位感兴趣的目标,为跟踪提供起点;而跟踪则在此基础上对目标的运动进行建模与关联,确保在遮挡、模糊等复杂情况下仍能维持目标的身份标识。
2.1 无人机目标检测研究现状分析
目标检测是计算机视觉的基础环节,旨在从图像或视频中识别出感兴趣的目标,并精确提供其位置与类别信息[5]。作为目标跟踪等高级任务的前序步骤,它负责从场景中发现并分离出待观测的目标。从算法演进来看,目标检测技术主要经历了从基于传统手工特征的方法,到性能更强大的深度学习模型。
2.1.1 基于传统手工设计特征的方法
基于传统手工设计特征的目标检测方法主要采用“人工设计特征+数学模型”的方式,主要由三个步骤组成:区域选取、特征提取、分类与回归。首先在区域选取阶段采用滑动窗口的方法对视频图像目标进行定位;然后,利用人工设计的特征提取方法提取选定区域目标特征,常用的图像特征有梯度方向直方图HOG[6]、Harr特征[7]、SIFT特征[8]、SURF特征[9]、LBP特征[10]等;最后利用相应的分类器(如支持向量机SVM[11]、AdaBoost[12]、K最近邻[13]等)将区域特征映射到不同类别标签上,实现目标分类。图2-1基于传统手工特征的方法流程图。

图2-1 基于传统手工特征方法流程图
Viola等[14]提出VJ算法,以AdaBoost算法为基础。该算法利用滑动窗口在一张图像上滑过所有可能的位置和尺寸,去检测是否在该窗口中包含人脸,该算法通过组合积分图像,特征选择和级联检测3种重要的技术有效降低计算复杂度,提高检测速度。Felzenszwalb等[15]在HOG算法基础上研究了DPM算法。DPM是一种基于概率图模型的方法,通过对图像提取特征,针对某个目标制作出相应的激励模板,在原始的图像计算中,得到该激励效果图,根据激励的分布确定目标位置。该算法具有检测精准度高、速度快的优点。Elgammal等[16]提出了光流法,对目标和目标周围邻域背景之间的光流特性进行分析,实现对目标的检测。在背景分布不均的场景中目标和背景的光流特性明显,光流法具有良好的适应性和检测精度,但光流法计算复杂度较大,无法在嵌入式设备上运行。
虽然基于传统手工设计特征的目标检测方法在早期目标检测中发挥了重要的作用但由于其特性也存在一些限制。首先,在区域选择阶段通过利用滑动窗口对输入图像进行遍历生成候选框,遍历过程存在缺乏针对性、时间复杂度高、窗口冗余等不足;其次,手工设计的特征依赖于人为设计,适配于少量目标种类,对于繁杂的无人机视频目标泛化能力有限;第三,特征提取与分类器训练是分离的,难以实现目标检测任务的全局最优解,导致检测性能下降。
2.1.2 基于深度学习的目标检测算法
近年来,深度学习技术的突破极大地推动了目标检测与跟踪领域的发展,在民用和军事领域展现出广泛应用前景。这一趋势在高水平学术期刊中得到充分体现,大量相关成果发表于CVPR、ICCV、ECCV、TPAMI、TIP、GRSM、TGRS、IJCV等权威会议或期刊,为领域发展提供了坚实支撑。
随着卷积神经网络CNN(Convolutional Neural Network)[17]在图像处理方面的应用,推动目标检测领域创新性突破。特别是在2012年,AlexNet[18]的成功应用,使卷积神经网络开始受到科研界的重视,并逐渐成为目标检测研究的热点。当前,在深度学习领域,目标检测算法主要分为两大类:基于候选区域的两阶段目标检测算法(two stage detection)和基于回归思想的一阶段目标检测算法(one stage detection)。
两阶段目标检测算法也称基于候选区域的目标检测方法。这类算法通常因为其高检测精度和可靠性而被广泛应用于各种复杂的目标检测任务中。该算法将目标检测任务分为两个连续的阶段:第一阶段,通过选择性搜索获取候选区域,这些区域被认为可能包含目标对象;第二阶段通过分类器进行分类和边界框回归,从而获取目标的位置和类别,检测框架如图2-2所示。

图2-2 两阶段目标检测算法框架
2014年Girshick R等[19]首次提出了基于卷积神经网络的目标检测算法R-CNN(Regions with CNN Features),该算法使用了Selective Search提取感兴趣区域,以较高的准确率开创了检测算法的新时代。但由于检测器需要对特征信息进行逐步提取,并且特征提取网络与支持向量机都需要单独训练,增加了网络的计算量,致使网络检测实时性不佳。针对上述问题何恺明等[20]提出SPP-Net算法,通过引入空间金字塔网络结构,省略R-CNN算法生成候选区域过程中进行的裁剪、缩放等操作,解决CNN对于图像特征重复提取的问题,加速候选框的生成,降低计算复杂度,提高算法检测速度。Grishick R等[21]在R-CNN算法的基础上提出了直接对原始图像提取候选框的快速区域卷积神经网络Fast R-CNN(Fast Region-based Convolutional Network)算法。Fast R-CNN将目标特征提取操作以及候选区域选取操作分成两部分进行,有效降低模型计算量。并且在卷积层后加入ROI(Region of Interest)池化,对输入的区域的候选目标进行尺度同化,将目标分类与回归同时进行,提升了检测速度。Ren S等[22]提出了Faster R-CNN(Faster Region-based Convolutional Network)加速区域卷积神经网络算法,采用RPN(Region Proposal Networks)网络来提取候选区域,将特征提取、候选区域生成、边界框回归整合在一个网络中,大幅提升算法的综合性能。在低空视频目标检测中基于候选区域的方法也有一定较好的表现,Guo等[23]借鉴特征金字塔网络(FPN)的思想,提出了多尺度特征金字塔网络,通过生成包含不同中间层特征的候选区域,并结合多尺度网络预测,进一步提高了低空图像检测精度。Ma等[24]针对现有深度学习模型在识别航空影像中面临诸如训练耗时过长和识别精度低等问题改进了Faster-RCNN模型,采用Inception-ResNet-V2[25]作为特征提取器,替换了传统的VGG16特征提取器,旨在提高识别精度。
一阶段目标检测算法将任务视为回归问题。无需区域提议阶段,在生成预测框的同时进行区域类别判断,直接将目标定位和分类的问题转化为回归问题。避免两阶段算法中对候选区域筛选的步骤,模型复杂度低、检测速度快。但由于结构简单,检测能力略低。主要有以下几个步骤:首先,使用卷积神经网络(CNN)对输入图像进行特征提取。接着,在生成的特征图上直接预测一系列候选区域框,并评估每个框中目标类别的可能性及其位置偏移量。然后,通过对锚框进行分类和回归,筛选出最为准确的候选框。最后,输出最终的目标检测结果,检测框架如图2-3所示。

图2-3 一阶段目标检测算法框架
OverFeat[26]是早期经典的一阶段目标检测方法,基于AlexNet,通过多尺度滑动窗口实现特征提取,并共享特征提取层,从而提高了分类、定位和检测的准确率,实现了识别、定位、检测共用同一个网络框架。2016年,Redmon J等[27]提出YOLO算法,被喻为一阶段检测范式革命。该算法将目标检测算法视作回归问题,通过将整个图像分割成多个网格,并对每个网格进行目标分类和边界框回归的预测,进而达到实时的要求。该系列算法模型结构相对简单,且在速度方面具有一定的优势,但在处理小目标检测上存在一定的缺陷。迄今YOLO系列算法发展到了YOLOv11[28]、YOLOv12[29]等版本。由于YOLO算法具有快速、简单的网络结构以及较低的计算要求,研究者们在之后不断改进这类算法,使得目标检测的性能不断提高。Zhang[30]提出了一种高效、轻量YOLO算法LES-YOLO,采用C2f结合坐标注意力来聚焦于关键特征,设计EMS-PAN(增强型多尺度PAN)结构,丰富跨尺度信息并减少网络传输中的特征丢失。白宇等[31]针对目标尺寸小的问题,对无人机航拍图像进行切片处理,提高每个切片中小目标的占比,提高了模型对小目标的识别能力。Zhang等[32]设计了一种新颖的跨层特征聚合模块CFAM,弥补了特征金字塔中特征逐层传递仅关注前一层特征的缺陷,但提出的跨层特征聚合模块结构简单,特征聚合能力有限。总体上,YOLO提出后,原来许多需要使用多阶段和自下而上方法的算法转变为端到端、自上而下的一阶段算法,使检测框架变得更快[33]。
除了YOLO系列,W.Liu等[34]提出SSD(Single Shot MultiBox Detector)算法,使用全卷积网络,结合多锚点和多分辨率的技术,平衡了检测效率和检测性能,有效地提高了航拍图像中小目标的检测精度。但是由于 SSD 卷积层较少,模型缺少对深层信息的提取,限制了模型的检测性能。胡等[35]将对比学习思想引入到SSD目标检测网络中,采用图像截块的方式随机截取样本图片中的目标图片与背景图片,将目标图像块与背景图像块输入到对比学习网络中提取图片特征进行对比损失计算,提高了背景和目标在特征空间中的区分度。通过对比YOLO和SSD发现,YOLO适用于实时性要求较高的场景;SSD适用于对小目标检测精度具有较高要求的场景[36]。
Carion等[37]提出首个基于Transformer的端到端目标检测模型DETR,DETR的核心优势在于其端到端的检测范式与强大的全局建模能力。它摒弃了锚框和非极大值抑制等传统手工设计组件,将目标检测简化为一个直接的集合预测问题,这不仅大幅简化了检测流程,还避免了NMS带来的计算开销与超参调优。同时,得益于Transformer的编码器-解码器结构,DETR能够通过自注意力机制对图像全局上下文进行建模,从而在处理遮挡目标和复杂场景时表现出更强的鲁棒性。明显的不足是训练收敛很慢并且由于Transformer关注于全局的信息特征,对细粒度特征不敏感,因此其对小物体检测性能差。Li等[38]提出Lite DETR,引入的关键感知变形注意力(key-deformable attention,KDA)增强了跨尺度特征融合,进一步提升了小目标的检测性能。Zhang等[39]提出SD-DETR(spatially decoupled DETR)通过解耦特征学习对分类和定位过程进行分离,解决了DETR中分类和定位任务之间的特征和预测错位的问题,提升了检测精度和稳定性。Ouyang等[40]提出了DEYO,即DETR与YOLO相结合的单阶段检测模型。DEYO采用了一种创新的分步训练策略,首先利用YOLOv8进行预训练来初始化模型的骨干和颈部网络,然后在第二阶段冻结这些部分并专注于训练基于Transformer的解码器。这种逐步训练方法不仅提升了模型性能,还显著降低了训练成本,加快了模型的收敛。
2.2 无人机目标跟踪研究现状分析
无人机目标跟踪是计算机视觉领域的热点之一,该任务通过处理视频序列中的连续帧图像,推断目标运动状态和轨迹并持续跟踪目标。根据任务类型不同可分为单目标和多目标两类。
2.2.1 单目标跟踪研究现状
单目标跟踪是在视频序列中给定一个目标初始状态作为模板,结合目标模板信息持续跟踪这个目标的位置。一般是短期跟踪,不支持重新检测,丢失后,就跟踪失败。主流的算法包括相关滤波方法、基于CNN与Siamese结合的方法等。
(1)基于相关滤波的方法
基于相关滤波的目标跟踪算法基本思想是使用模板匹配来追踪目标,利用预先设计的滤波模板与目标候选区域做相关运算,得到最大输出响应的位置即为当前帧的目标位置。Bolme等[41]提出MOSSE算法,首次将相关滤波应用于目标跟踪,利用目标的多个样本作为训练样本,以生成更优的滤波器。此后,相关滤波被越来越多的学者用于跟踪,相继提出了CSK[42]、KCF/DCF[43]、SAMF[44]、DSST[45]、C-COT[46]等许多优秀的算法。
基于传统特征提取与相关滤波结合的方法成为无人机目标追踪任务早期的标准框架,研究人员针对无人机低空场景的域差异与任务挑战,提出了诸多改进方案。TECF[47]将HOG、CN和灰度特征进行加权融合,增强目标表征。TRBCF[48]采用了一种基于信道响应图的多特征融合机制,对BACF算法进行时间正则化,以选择性地突出对象特征。FACF[49]引入PSR和时序响应平滑因子衡量时空可靠性,动态融合HOG和CN特征对应的响应图。邵等[51]提出一种融合图像增强的正则化无人机相关滤波目标跟踪算法,实现了在光线变化和光照不足的情况下对航拍目标的鲁棒跟踪。贺等[50]提出了一种显著性感知三重正则化相关滤波(TRCF)UAV目标跟踪算法。采用高效的显著性目标检测算法动态生成对偶空间正则化器来抑制边界效应,惩罚不相关的背景噪声系数。引入时间正则化应对目标因外观变化而导致的滤波器退化问题,提供更鲁棒的外观模型。
孪生网络(Siamese)是衡量两个输入的相似程度的算法,Siamese架构以目标样本和搜索区域两个信号为输入,在两个分支中使用CNN层进行相似性匹配,输出是一个[0,1]的浮点数,表示二者的相似程度。Bertinetto等[52]提出的SiamFC算法是第一个构建了完全卷积的Siamese跟踪网络,使用全卷积神经网络和孪生网络结构来生成目标可能位置的热力图,从而确定目标位置,如图2-4所示。SiamFC有两个分支对应两个输入为z和x,将他们同时输入进行φ的计算,这里的作用就是进行特征提取,分别生成6×6×128和22×22×128的featuremap。φ所对应的特征提取网络采用的是AlexNet,将生成的featuremap输入互相关层生成scoremap。随着研究的深入也出现了SiamRPN[53]、SiamMask[54]、SiamFC++[55]等经典算法。

图2-4 SiamFC网络架构图
针对无人机场景的跟踪任务,很多研究者在特征提取、精准定位及轻量化等方面进行了改进。MLPS[56]认为基于Siamese网络的方法容易丢失小目标地细节,因此在多级预测Siamese网络中添加残差特征融合块和层注意力融合块。MaSiamRPN[57]提出运动感知Siamese框架,结合卡尔曼滤波,采用8维状态向量进行运动建模,利用历史轨迹预测目标状态。F-SiamFC++[58]基于Fisher信息准则对滤波器进行剪枝压缩,显著提升了网络的实时速度。
基于Siamese对称网络的目标跟踪算法在计算机视觉跟踪领域具有重要意义。该网络采用孪生结构,能够使用同一套参数对相似图像进行高效拟合,从而实现快速学习与跟踪,为后续研究提供了有效的网络模板。其核心思想是“通过比较衡量相似性”,这一机制使其天然适用于小样本学习。由于模型学习的是样本间的“相似度”而非具体“类别”,因此对新类别仅需少量样本即可通过比对实现识别,不仅具备强泛化能力,也自然缓解了类别不平衡问题。然而,该结构也带来相应挑战:网络本质是比较器而非分类器,无法直接进行端到端分类,必须依赖与参考样本的逐一比对;推理效率受参考集规模制约,候选类别增多时会显著增加计算负担;训练过程需精心设计样本对,负样本挖掘尤为关键,样本难度不当易导致训练不稳定或收敛缓慢。
2.2.2 多目标跟踪研究现状
多目标跟踪算法是指在视频序列中同时跟踪多个具有语义的对象的过程。它涉及视频帧中的多个目标,并在连续帧之间建立目标的轨迹,以跟踪它们的运动和行为[59]。在通用场景下的多目标跟踪根据网络结构可以分为基于检测的跟踪(Tracking By Detection,TBD)方法、联合检测与跟踪(Joint Detection and Tracking,JDT)方法、基于Transformer的跟踪方法等。
(1)基于检测的跟踪方法
基于检测的跟踪(TBD)方法将检测和跟踪视为两项独立的任务。跟踪过程首先使用高性能检测器(如YOLO、Faster RCNN)识别每帧中潜在的感兴趣目标,然后使用追踪器算法将检测到的物体跨连续帧进行关联,该算法采用多种线索(运动、位置、外观等)执行数据关联。流程如图2-5所示。

图2-5 TBD框架的多目标跟踪流程图
TBD方法的代表作SORT[60](Simple Online and Realtime Tracking)算法,利用卡尔曼滤波器对上一帧中的轨迹进行位置预测,之后用目标位置之间的交并比IoU来进行距离度量,使用匈牙利算法解决分配问题。该方法简单、计算量少,能够做到高帧率跟踪,但由于缺乏目标的表观特征,目标ID关联不稳定、切换频繁。Nicolai等[61]提出DeepSORT算法,使用由宽残差网络学习得到的包含目标外观特征的深度关联度量,在匹配模块增加级联匹配,并引入了行人重识别模型,使一部分被遮挡目标可以重新识别。ByteTrack[62]基于YOLOX进行高效检测,它采用一种新的数据关联方法,区分高置信度检测框与低置信度检测框,能够更好地处理目标丢失和跟踪精度,尤其是在目标密集和遮挡的情况下。
为了进一步适用于无人机场景中的多目标跟踪,研究者从外观特征、空间特征、运动特征等多个角度进行了算法研究。Hashempoor等[63]基于DeepSORT进行了升级优化提出FeatureSORT算法,结合更强的检测器同时,提出先进后处理的方法来提升跟踪器性能,并增加多个检测不同外观的特征模块用于ReID网络,有效地提升了算法的跟踪性能。Aharon等[64]提出BoT-SORT算法,以ByteTrack为基线针对相机抖动导致的图像模糊情况,在跟踪前进行了相机运动补偿,并提出了一种融合IOU和外观距离的匹配度量,跟踪效果有所提升但是此过程耗时较长。UAVMOT[65]设置了卡尔曼滤波匹配数阈值,区分近似线性的正常模式和非线性的异常模式,对于异常模式通过目标的局部相对位置向量进行关联。
TBD是基于检测的跟踪范式,因其模块化、高精度和与深度学习检测器天然契合的优势,已成为多目标跟踪的主流方法。它通过将复杂的跟踪任务分解为“检测”与“关联”两个相对独立的子任务,简化了系统设计并赋予了其强大的灵活性和可扩展性。其性能瓶颈主要在于检测质量和数据关联的鲁棒性。此外,在目标密集、遮挡严重及运动模式复杂的场景下(尤其是无人机视角),数据关联的难度会急剧增加。因此,在无人机航拍这一特定挑战性场景中应用TBD范式,未来的核心研究方向在于:设计对尺度变化鲁棒的轻量级检测器、开发能够适应剧烈运动和频繁遮挡的智能关联策略,并在整个系统层面进行高效的工程优化,以在精度、鲁棒性和实时性之间寻求最佳平衡。
为了减轻检测结果对多目标跟踪性能的影响,联合检测与跟踪方法(Joint Detection and Tracking, JDT)应运而生,JDT框架将检测和跟踪任务通过单个网络模型同时进行,实现两者的紧密结合。检测任务和ReID任务不再是相互独立的,而是一起训练、共同优化。减少了分阶段处理的复杂度,同时增强了各组件间的关联性。结构如图2-6所示。

图2-6 联合监测与跟踪的方法
基于TBD的MOT算法将目标检测和特征提取分开,速度较慢,不适合在线跟踪的问题,Wang等[66]提出了JDE(Joint Detection and Embedding)方法,将外观模型合并到检测模型中,在处理目标检测任务的同时,用同一个网络学习一个嵌入(embedding)空间,这个嵌入空间用来表征视频每一帧中的各个目标的外观信息(即目标的ReID特征)。Zhou等[67]提出了一个基于点的联合检测和跟踪框架CenterTrack,其采用基于点的检测器来定位目标的中心,然后用这个中心点来表示一个目标。CenterTrack同时输入当前帧的图像和上一帧的图像,并且将上一帧图像的目标中心分布热图(heatmap)作为先验信息,最后通过计算相邻帧中的目标中心点的位移来匹配目标身份,但该方法未利用目标嵌入特征,导致目标ID切换频繁。Zhang等[68]提出FairMOT框架,使用基于CenterNet的无锚框检测网络,同时增加两个网络分支分别用于检测目标和ReID特征的提取,该算法在增强泛化和跟踪性能的同时保持了较好实时性。
JDT范式是多目标跟踪领域为突破传统“跟踪-检测-关联”框架效率瓶颈而提出的新思路。其核心在于将原本分离的检测与关联任务整合到一个统一的网络中进行协同学习,从而实现了从特征提取到目标关联的深度共享与优化。优势在于其极高的计算效率与架构简洁性。特征共享避免了重复计算,使其推理速度远超传统方法,满足了实时监控等场景要求。同时,端到端的设计带来了全局优化的潜力,特征对齐也更为精准。然而,其内在的任务冲突--检测任务和ReID任务(或关联任务)的目标存在内在矛盾,容易导致特征学习时的性能折衷。此外,还面临训练复杂、灵活性不足以及对密集场景适应性较弱等问题。
(3)基于Transformer的跟踪方法
随着研究的不断深入基于Transformer的目标跟踪方法近年来在学术领域引起了广泛关注。相比于传统的卷积神经网络,Transformer能够更好地捕捉长距离依赖关系,从而提高目标跟踪的鲁棒性和准确性。Sun等[69]提出的TransTrack是首个基于Transformer的多目标跟踪算法,该算法利用Query-Key机制并通过两个解码器分别作用与检测与跟踪两个分支,然后形成检测框和跟踪框用于IoU匹配并完成跟踪任务,实现了对当前帧中已存在目标的追踪,同时完成新目标的检测。Hu等[70]提出的FFTransMOT通过使用特征融合模块,可以融合当前几帧的信息用于增强目标特征的鲁棒性,同时解码器也能够利用融合的特征来匹配 目标从而增强模型的跟踪性能。徐等[71]提出了一种融合上下文感知注意力的Transformer目标跟踪方法,该方法引入SwinTransformer以提取视觉特征,利用跨尺度策略整合深层与浅层的特征信息,提高网络对复杂场景中目标表征能力。
总之,Transformer架构在目标跟踪领域展现出显著优势,其核心在于能够通过自注意力机制有效建模目标在连续帧间的时空关系,捕捉长期依赖与动态变化,从而提升复杂场景下的跟踪准确性与鲁棒性。同时,该架构具备强大的多尺度特征融合能力与良好的序列泛化能力,为处理目标遮挡、形变等挑战提供了有效解决方案。然而,其自注意力机制的计算复杂度较高,对硬件算力与内存资源需求大,导致算法在无人机、自动驾驶等实时应用场景中难以满足任务实时性的需求。
重要说明:以上文章数据、引文、图片部分来源于学者研究论文、网络、AI生成等,首先感谢各位研究学者贡献,其次如有侵权请留言删除;再次声明文章仅作为学术研讨不可作为任何商业用途。
引用文献
1 | 苑玉彬,吴一全,赵朗月等.基于深度学习的无人机航拍视频多目标检测与跟踪研究进展[J].航空学报,2023,44(18):028334. |
2 | 李永松.交通场景下多目标车辆跟踪方法研究[D].安徽大学,2024. |
3 | 闫超,涂良辉,王聿豪等.无人机在我国民用领域应用综述[J].飞行力学. 2022,40(3):1-6. |
4 | 芦艳春,周开园,张建杰.无人机的发展现状及其在航空应急救援领域的应用综述[J].医疗卫生装备.2023,44(10):109-113. |
5 | Erhan D,Szegedy C,Toshev A,et a1.Scalable object detection using deep neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2147-2154. |
6 | Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05). IEEE, 2005, 1: 886-893. |
7 | 何松华,章阳. 基于快速检测和AdaBoost的车辆检测[J]. 计算机工程与设计, 2020,41(1): 203-207. |
8 | Song K, Zhu F,Song L. Moving target detection algorithm based on SIFT feature matching[C]//2022 International Conference on Frontiers of Artificial Intelligence and Machine Learning (FAIML), 2022: 196-199. |
9 | Bay H, Tuytelaars T, Gool L J V. SURF: speeded up robust features[J]. Computer Vision & Image Understanding,2006,110 (2):404-417. |
10 | Xu J, Stirenko S. Mixup Feature: a pretext task self-supervised learning method for enhanced visual feature learning[J]. IEEE Access, 2023, 11: 82400-82409. |
11 | Deng H, Wang H, Ji Y, et al. Research on uav detection and classification based on time frequency analysis and support sector machine[C]//2023 8th International Conference on Computer and Communication Systems (ICCCS), 2023: 539-543. |
12 | Wang W, Sun D. The improved adaboost algorithms for imbalanced data classification[J]. Information Sciences, 2021, 563: 358-374. |
13 | Zhang S. Cost-sensitive KNN classification[J]. Neurocomputing, 2020, 391: 234-242. |
14 | Viola P, Jones M J. Robust real-time face detection[J]. International journal of computer vision, 2004, 57: 137-154. |
15 | Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 32(9): 1627-1645. |
16 | Elgammal A, Duraiswami R, et al. Background and foreground modeling using nonparametric kernel density estimation for visual surveillance[J]. Computer Science, 2002, 90(7):1151-1163. |
17 | Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological cybernetics, 1980, 36(4): 193-202. |
18 | Krizhevsky, A, Sutskever, et al. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,Vol.60(6): 84-90. |
19 | Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, Columbus, 2014: 580-587. |
20 | He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916. |
21 | Girshick R. Fast R-CNN[C]. Proceedings of the IEEE international conference on computer vision, Santiago, Chile, 2015: 1440-1448. |
22 | Ren, SQ (Ren, Shaoqing), et al. Faster R-CNN: Towards real-time object detection with region proposal Networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017,Vol.39(6): 1137-1149. |
23 | Chaoxu Guo, Bin Fan, Qian Zhang, et al. AugFPN: Improving multi-scale feature learning for object detection[J]. 2019. |
24 | Ma, HaoyangCAa,Yang,et al. Automatic extraction of discolored tree crowns based on an improved Faster-RCNN algorithm[J]. Forests,2025,Vol.16(3): 382. |
25 | Christian Szegedy, Sergey loffe, Vincent Vanhoucke, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning[J]. 2016. |
26 | Pierre Sermanet, David Eigen, Xiang Zhang, et al. OverFeat: Integrated recognition, localization and detection using convolutional networks[J]. 2014. |
27 | Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: unified, real-time object detection. IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2016:779-788. |
28 | Rahima Khanam, Muhammad Hussain. YOLOv11: An overview of the key architectural enhancements[J].arXiv preprint arXiv:2410.17725v1 [cs.CV], Oct. 2024. |
29 | Yunjie Tian, Qixiang Ye, David Doermann. YOLOv12: Attention-centric real-time object detectors[J].arXiv preprint arXiv:2502.12524v1 [cs.CV], Feb. 2025. |
30 | Hongyu Zhang, Lixia Deng, Shoujun Lin, et al. LES-YOLO: efficient object detection algorithm used on UAV for traffic monitoring[J]. Measurement Science and Technology,2025,Vol.36(1): 016008. |
31 | 白宇,周艳媛,安胜彪. 改进 YOLOv5的无人机小目标检测方法研究[J]. 计算机工程与应用,2024,60(10):276-284. |
32 | Yunzuo Zhang, Cunyu Wu, Wei Guo, et al. CFANet:Efficient Detection of UAV Image Based on Cross-layer Feature Aggregation[J]. IEEE Transactions on Geoscience and Remote Sensing,2023,Vol.61: 1. |
33 | 王宁,智敏. 深度学习下的单阶段通用目标检测算法研究综述[J]. 计算机科学与探索,2025,19(5): 1115-1140. |
34 | Liu W,Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision.2016:21-37. |
35 | 胡焱,原子昊,涂晓光,等. 基于对比学习的改进SSD目标检测算法[J]. 红外技术,2024,46(5): 548-555. |
36 | 付玉彤. 低空环境下的无人机动态目标跟踪算法研究[D]. 中国民航大学,2024. |
37 | Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//Proceedings of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 213-229. |
38 | Li F, Zeng A L, Liu S L, et al. Lite DETR: an interleaved multi- scale encoder for efficient DETR[C]//Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 18558-18567. |
39 | Zhang M Y, Song G L, Liu Y, et al. Decoupled DETR: spatially disentangling localization and classification for improved end-to- end object detection[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 6578-6587. |
40 | Ouyang, Haodong. DEYO: Detr with yolo for end-to-end object Detection[J]. arXiv,2024. |
41 | Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE computer society conference on computer vision and pattern recognition. IEEE, 2010: 2544-2550. |
42 | 张雷,王延杰,孙宏海,姚志军,吴培.采用核相关滤波器的自适应尺度目标跟踪 [J].光学精密工程,2016,24(02):448-459. |
43 | 胡云层,路红,杨晨,花湘,彭俊.融合DSST和KCF的尺度自适应跟踪算法[J].计 算机工程与设计,2019,40(12):3563-3568. |
44 | Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration[C]. ECCV workshops,2014: 254-265. |
45 | Danelljan M, Häger G, Khan F S, et al. Discriminative scale space tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561-75. |
46 | Danelljan M, Robinson A, Shahbaz Khan F, et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking[c]//Computer Vision-Eccv 2016:14th European Coference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings,Part V14. Springer International Publishing, 2016: 472-488. |
47 | Bing He, Fasheng Wang, Xing Wang, et al. Temporal context and environment-aware correlation filter for uav object tracking[J]. IEEE Transactions on Geoscience and Remote Sensing,2024,Vol.62: 1-15. |
48 | Chen, Lin, Liu, et al. A robust spatial-temporal correlation filter tracker for efficient UAV visual tracking.[J]. Applied Intelligence,2023,Vol.53(4): 4415-4430. |
49 | Xiao, Zhuo, Yang, et al. Foreground aware correlation filter with adaptive feature response fusion for real-time uav tracking[C]//2024 27th International Conference on Information Fusion (FUSION). 2024. |
50 | 邵延华,陈慧玲,付贵,等. 融合图像增强的正则化相关滤波无人机目标跟踪[J]. 中国图象图形学报,2025,(10): 3302-3318. |
51 | 贺冰,王法胜,王星,等. 显著性感知三重正则化相关滤波无人机目标跟踪算法[J]. 北京航空航天大学学报,2025,51(7): 2423-2436. |
52 | Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//14th European Conference on Computer Vision Amsterdam Netherland,Spinger,2016:850-865 |
53 | Li B, Yan J, Wu W, et al. High performance visual tracking with siamese region proposal network[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8971-8980. |
54 | Weiming Hu, Qiang Wang, Li Zhang, et al. SiamMask: A framework for fast online object tracking and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,Vol.45(3): 3072-3089. |
55 | Xu Y, Wang Z, Li Z, et al. Siamfc++: Towards robust and accurate visual tracking with target estimation guidelines[C]. Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 12549-12556. |
56 | Zhu, Mu, Zhang, et al. Multi-level prediction siamese network for real-time uav visual tracking.[J]. Image & Vision Computing,2020,Vol.103: 104002. |
57 | Lifan Sun, Jinjin Zhang, Zhe Yang, et al. A motion-aware siamese framework for unmanned aerial vehicle tracking[J]. Drones,2023,Vol.7(153): 153. |
58 | Wu, Wanying, Zhong,et al. Fisher pruning for real-time uav tracking[C]//2022 International Joint Conference on Neural Networks (IJCNN). 2022. |
59 | 罗小兰. 无人机对地多移动目标的视觉识别跟踪技术研究[D].电子科技大学, 2022. |
60 | Bewley A, Ge Z, Ott L, et al. Simple online and realtime tracking[C]//2016 IEEE international conference on image processing (ICIP). IEEE, 2016: 3464-3468. |
61 | Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]//2017 IEEE international conference on image processing (ICIP). IEEE, 2017: 3645-3649. |
62 | Zhang Y, Sun P, Jiang Y, et al. Bytetrack: Multi-object tracking by associating every detection box[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 1-21. |
63 | Hamidreza Hashempoor, Rosemary Koikara, Yu Dong Hwang. FeatureSORT: Essential features for effective tracking[J]. 2024.arXiv:2407.04249 [cs.CV], Sept. 2025. |
64 | Aharon, Nir, Orfaig, et al. BoT-SORT: Robust associations multi-pedestrian tracking[J]. arXiv,2022. |
65 | Liu, Shuai, Li, et al. Multi-object tracking meets moving uav[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. |
66 | Wang Z, Zheng L, Liu Y, et al. Towards real-time multi-object tracking[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 107-122. |
67 | Zhou X, Koltun V, Krähenbühl P. Tracking objects as points [C]. Proceedings of the European Conference on Computer Vision.2020: 474-490. |
68 | Zhang Y, Wang C, Wang X, et al. FairMOT: On the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129: 3069-3087. |
69 | Peize Sun, Jinkun Cao, Yi Jiang, et al. TransTrack: Multiple object tracking with transformer[J]. 2021.arXiv preprint, arXiv:2012.15460v2 [cs.CV], May. 2021. |
70 | Xufeng Hu, Younghoon Jeon, Jeonghwan Gwak. FFTransMOT: Feature-fused transformer for enhanced multi-object tracking[J]. IEEE Access,2023,11: 130060-130071. |