新闻资讯
全闭塞处理和自适应特征融合对多目标跟踪的改进
闭塞一直是多目标跟踪领域的一个具有挑战性的研究课题。完全闭塞情况下目标的隐形性增加了持续跟踪的难度,使得目标重新可见时恢复失败,最终导致跟踪精度下降。针对完全闭塞问题,提出了一种具有全闭塞处理和自适应融合特征的有效多目标跟踪算法。首先建立了完全闭塞的时空模型,提出了一种简单、有效、无训练的目标定位方法。其次,提出了具有较好稳定性和独立性的局部高分辨特征,以实现目标在完全闭塞前后的有效相关。最后,提出了一种自适应特征融合机制,该机制可以根据阻塞状态动态调整特征结构。实验结果表明,该算法的大多数评价指标优于近年来在完全闭塞跟踪场景下提出的一些典型算法。该算法可实现目标的准确掩蔽识别,提高短期、长期和频繁的完全闭塞下的跟踪鲁棒性。该算法可实现目标的准确掩蔽识别,提高短期、长期和频繁的完全闭塞下的跟踪鲁棒性。该算法可实现目标的准确掩蔽识别,提高短期、长期和频繁的完全闭塞下的跟踪鲁棒性。
1.导言
近年来,多行人跟踪在视频监控、自主驾驶、姿态估计和行为分析等场景理解应用中发挥了重要作用。随着目标检测器性能的提高,基于检测的跟踪已成为多目标跟踪的主流框架,根据检测结果将不同的目标联系在一起。
在实际的跟踪场景中,经常发生阻塞,这是导致跟踪性能下降的主要原因。闭塞可分为局部闭塞和完全闭塞。目标仍然是可见的部分闭塞,但在完全闭塞,目标完全消失和隐形。完全闭塞状态下目标的隐形性会导致检测失败,在目标重新出现之前无法精确跟踪目标。当目标完全闭塞后重新出现时,重新识别也往往失败。如图所示 1 ,具体目标9被具体目标12在框架154上部分堵塞,然后在框架165上被看不见(完全被目标12和13挡住)。当它在完全闭塞后在框架174重新出现时,目标ID被切换。
详情在图片后面的标题中
图1
在图形查看器中打开
幻灯片
完全闭塞下追踪失败的例子。
完全闭塞下追踪失败有三个主要原因:(1)在完全闭塞之前,目标总是被部分封闭,导致目标外观污染,如图所示 2a,c .完全闭塞后,再出现的目标也经常部分闭塞,如图所示 2b,d使重新出现的目标很难与相应模板正确关联,从而导致跟踪漂移或被确定为新目标。(2)在大多数当前跟踪算法中,缺乏针对完全闭塞的有目的的具体处理,当前跟踪数据集没有阻塞注释,因此,通过深入学习找到完全封闭的目标存在培训数据不足和标签成本高等问题。(3)融合特征不考虑完全闭塞,不能适应闭塞状态,在完全闭塞后难以实现准确的再识别。
详情在图片后面的标题中
图2
在图形查看器中打开
幻灯片
完全闭塞前后的盒级靶的外观变化。
有效清除图中的目标外观污染 2 我们建议本地的高分辨率特征。行人不同于坚硬的物体.它们独特的身体结构使一些局部区域仍然可见于闭塞。与整个目标相比,这些局部区域在咬合过程中不会发生较大程度的外观变化。我们发现这些局部区域具有较高的能见度,并提取了较高的鉴别特征,并在以后的关联中充分利用这些特征。
对于有目的的、针对完全闭塞的处理,第一步是找到完全闭塞的目标。我们量化了阻塞的程度,包括每个帧的全局闭塞状态和每个目标的局部闭塞状态,然后建立了一个完整的闭塞时空模型。根据时空模型中闭塞参数的变化,提出了一种简单有效的目标完全闭塞检测方法,该方法不需要训练和学习。我们发现的完全封闭的目标将在随后的框架中持续监测,其轨迹将在再次可见时恢复。
为了更好的融合特征和高度的适应性和充分闭塞的意识,需要考虑每个框架中的整体闭塞状态和每个目标的个体闭塞状态。本文分析了不同闭塞状态下的外观特征、运动特征和局部高分辨特征的表现,根据闭塞状态调整了不同适应特征的比例,从而使融合特征能够更好、更有区别地代表目标。
本文件的主要贡献如下:( 1 ),我们建立了一个完整闭塞的时空模型,并提出了一种简单、有效、无训练的方法,以模型中的时间闭塞曲线为基础,找到完全闭塞的目标( 2 )为有效消除完全闭塞前后的目标外观污染,我们根据人体的特殊结构及阻塞期间行人重叠的特征,提出局部高分辨特征,以提高闭塞期间目标特征的稳健性;( 3 )为获得适应性强、能感知完全闭塞的更好融合特征,提出了一种自适应特征融合机制,以动态地调整外观融合结构、局部高分辨度融合结构和运动特征融合。图中显示了我们提议的方法的路线。 3 .
详情在图片后面的标题中
图3
在图形查看器中打开
幻灯片
拟议办法的管道。
2相关工作
2.1侦查追踪
探测器有显著改善[ 1 – 3 , 46 , 47 ],以侦测追踪方法[ 4 – 7 , 39 – 41 , 43 ],又称数据联想法,已逐渐成为多行人追踪的主流。该方法包括两个独立的子任务:目标检测和数据关联。每个框架的目标都由离线训练过的探测器检测,然后从同一目标的不同框架中检测到行人,以获得轨迹。
2.2咬合处理
根据闭塞程度,闭塞可分为局部闭塞(轻微闭塞)和完全闭塞(严重闭塞)。对于完全闭塞,目标在一段时间内是不可见的,然后再出现,可复现目标的恢复是需要解决的关键问题。近年来,许多优秀的算法[ 31 – 34 , 36 , 42 ]重点放在咬合柄上。这些方法可以归纳为三类。一是强化特征算法[ 20 , 35 , 37 , 38 另一种是轨迹拼接算法,另一种是运动估计算法。轨迹拼接算法[ 8 , 9 ]需要使用未来车架的追踪结果,进行不适合实时追踪的后路修补。运动估计算法[ 10 , 11 可以预测被阻塞目标的位置,但是当目标长时间不可见时,预测精度就会降低。特征增强算法,齐珠[ 12 引入时空注意机制,对未封闭的部分给予更多注意,可以生成能见度图来预测闭塞状态。然而,当对象被完全阻塞时,可见性映射就无法正常工作。徐嘉瑞[ 13 ]等人通过考虑目标之间的拓扑关系,提高了目标特征在阻塞过程中的鲁棒性。然而,对于完全封闭的目标,由于其不可见性,很难获得拓扑关系。拉马纳·桑达拉拉曼[ 14 在严重闭塞和密集人群的情况下,可消除目标重叠的干扰,达到比全身追踪更稳健的追踪效果。然而,头部追踪丢失了一定数量的目标信息。上述算法在一定程度上降低了阻塞对跟踪性能的影响,但是这些算法不能很好地处理完全阻塞。
2.3闭塞模型
近年来,提出了许多算法,试图分析和建模整个闭塞过程。例如,阿米尔·塞德吉安[ 16 ]认为目标之间的关系不会改变,并模拟了目标之间在闭塞前后的拓扑关系,这对短期的完全闭塞是有效的。但是对于长期的完全闭塞,目标之间的拓扑关系差异很大,模型的健壮性降低。冯伟涛[ 15 ]等人为降低身份转换速率而提出的身份转换分类器,考虑了该目标 n 以及目标 M (有目标的最大借据 n )有转换身份的风险。然而,在完全闭塞(目标是隐形的)下,IDU是0,而开关感知分类器失败。丹尼尔·斯塔德勒[ 17 ]等人提出了一种更具体的方法来建模阻塞器(阻塞其他目标)和阻塞(被其他目标阻塞)。然而,该算法并非基于特征,因此需要对其进行修正,从而限制了其实时应用。上述算法建立了目标类别、目标间关系和目标身份转换的模型,有助于提高目标的咬合适应性。然而,对于完全闭塞(最严重的闭塞),这些算法并不做具体的建模。
本文提出的方法仍然采用TDH方法,侧重于完全闭塞场景下的多行人跟踪,包括完全闭塞下的时空建模、完全闭塞下的健壮特征和完全闭塞后的可重新可见目标的重新识别。首先,我们模拟了完全闭塞的整个过程,它可以准确定位完全闭塞(时间、位置和完全闭塞的目标标识可以精确地获得),而无需训练。然后提出局部高鉴别特征,通过考虑闭塞过程中重叠人体的特征来加强目标的闭塞特征。最后提出了自适应特征融合机制,以提高对融合特征结构的闭塞状态和自动调整能力的认识。
3拟议方法
桌子 1 解释重要的参数。 n 1 从起始框架到当前框架成功检测和追踪的目标数量, n 2 是当前框架中所有检测到的目标的数目,以及 f 是现在的画面。在桌上 1 , 我 ε{1,2,… ,n 1 }, jε{1,2,… ,n 2 }, and t ε{1,2,… ,f }.
TABLE 1. 提出的算法中的重要参数.
符号 意义
T 我 模板 我 目标
D j … j 在当前框架中检测到的目标
它的外表特征 我 框架内的目标 t
地点是 我 框架内的目标 t
高分辨率 我 本地高分辨模板 我 目标
高分辨率 j 本地高分辨特征 j 当前框架中的目标
元素 j 从外表上看 j 当前框架中的目标
地方法院 j 地点是 j 当前框架中的目标
S i,j 出现距离 j 当前框架和历史特征的目标 我 目标
D i,j Iou 属于…的 j 当前框架中的目标 我 前一时期的目标
高分辨率 i,j 本地高分辨特征距离 j 当前框架中的目标 我 目标轨迹
特征 i,j 自适应融合特征 j 当前框架中的目标 我 目标轨迹
3.1完全闭塞的时空模型
我们对大量带完全闭塞的视频进行了实验,发现完全闭塞的过程有一个固定的模式。提出了一种完全闭塞的时空模型,通过参数的变化,可以简单地找到建立和完全闭塞目标的一系列闭塞相关参数。提出的完全闭塞模型由四个部分组成:完全闭塞阶段、空间闭塞度量化、时间闭塞曲线的建立和基于滑动窗口的完全闭塞检测。
3.1.1完全闭塞的五个阶段
完全闭塞目标分为五个阶段:闭塞前(波)、部分闭塞1(PO1)、完全闭塞2(PO2)和无闭塞。如图所示 4 ,图1为目标1 4c ,在图中完全闭塞前被部分闭塞 4b ,在图中完全闭塞后也可在局部闭塞状态下重新出现 4d .
详情在图片后面的标题中
图4
在图形查看器中打开
幻灯片
完全闭塞的五个阶段。
3.1.2空间闭塞度的量化
在完全闭塞的五个阶段,被闭塞目标的时空变化有许多相似之处。通过找到这些规则,可以检测到完全阻塞。我们在先前工作中建议的空间闭塞率[ 19 作为时空模型的重要参数。空间闭塞率包括局部闭塞率 β 以及全球闭塞率 α .
全球闭塞率 α
α 是根据目标的相互重叠计算出来的,如方程所示( 1 ),反映出目标互相阻塞的程度。价值范围 α is [0, 1 ],0表示没有闭塞,1表示严重闭塞。 P ( k , g )的总数字,以及 n 2 是当前框架中的目标数量。具体例子 α 如图所示 5 .
(1)
(2)
详情在图片后面的标题中
图5
在图形查看器中打开
幻灯片
全球闭塞率实例 α 以及局部闭塞率 β .
局部闭塞率 β
基于当前框架中的检测边界盒,局部阻塞率 β 每个目标的数值是按方程式计算的( 3 )。方程式( 3 ),计算目标像素的数目 j 被其他目标阻塞(目标1至目标) n 2 )及分母部分 面积 ( 地方法院 j )指在检测框内的像素总数。 j 目前的目标 t .局部闭塞率 β j 可通过阻塞像素与总像素的比例来计算,这反映了目标的阻塞程度 j 在目前的框架内 t .我们将闭塞度划分为四个等级 β ::无闭塞( β = 0), slight occlusion ()、中度闭塞()及严重咬合( (0.7%)。更大的 β j 更严重的咬合。具体例子 β 如图所示 5 .
(3)
3.1.3时间闭塞曲线
利用空间闭塞数据,我们可以为每个轨迹建立一个时间闭塞曲线。用于轨道 我 ,的历史数据 β 形成时间闭塞率
代表目标的闭塞状态 我 在画面里 t .在框架上 t ,如目标 j 与轨迹成功相关 我 ,目标的局部闭塞率 j 它被设定为轨迹的时间闭塞率 我 在框架中 t ,如方程式所示( 4 )。例如,目标12的时间闭塞曲线 t = 0 to t =195如图所示 6 .横坐标是时间 t ,坐标是局部闭塞率 β .当目标没有被封锁时, β 当目标被阻断时,时间闭塞曲线是凸的。曲线中的凸部是目标被阻断的阶段,但并非所有凸部都是完全闭塞的阶段。凸区是否对应于完全闭塞需要进一步的判断。
(4)
详情在图片后面的标题中
图6
在图形查看器中打开
幻灯片
暂时闭塞曲线。
3.1.4基于滑动窗口检测完全封闭的目标
通过分析大量闭塞目标的颞期闭塞曲线的变化,我们得出两个重要的结论:
对于即将完全堵塞的目标,从波到F阶段,目标的颞期闭塞曲线呈逐渐上升趋势,斜率上升,并在F阶段突然下降到0。
由于人类行走速度的限制,博与福之间的帧数不会太长,而且相对稳定。
基于以上两个结果,我们设置了滑动窗口 W ,并在 W 每个目标,如图所示 7 .曲线符合标准的目标是完全闭塞的目标。形象 7 ,我们开始 W = 10, 10 frames from f −9 to f (当前框架)位于滑动窗口,目标在每一个框架中的局部阻塞率。 W 是 P(P) 1 , P 2 , … P 10 )。我们设置了三个标准来判断完全阻塞。一是电流框架中的局部闭塞率急剧下降到0,如方程所示( 5 )。另一种是局部闭塞率 W 逐步增加,如方程所示( 6 )。三是局部闭塞率的平均值 W 比门槛值还高 电压 ,如方程式所示( 7 ). 花旗 是完全闭塞的标志。当价值 花旗 是1,意思是目标完全被封锁了。当价值 花旗 是0,这意味着没有完全的阻塞,如公式所示( 8).
(5)
(6)
(7)
(8)
详情在图片后面的标题中
图7
在图形查看器中打开
幻灯片
基于滑动窗口的完全闭塞检测。
3.2地方高度鉴别特征
在当前的目标检测中,使用边界框表示目标是一种常用的方法。当目标互相阻塞时,有两种类型的目标:阻塞器(蓝箱)和包围器(红箱),如图所示。 8a .如图所示,目标之间的重叠直接导致完全闭塞之前提取的整体身体目标特征与其他目标混合。 8b .通过分析大量的视频帧对在完全闭塞之前和之后,可以找到一些规则:
在行人跟踪的情况下,由于人体结构的特殊性,整体目标重叠增加。然而,在目标的中上部仍有一些区域保持独立,没有被封锁。与整体目标相比,它具有更高的区别性。在这里,它被称为局部高分辨率(lhd)特征,如图所示 8c .
局部高鉴别特征包括重要的信息,如发型,服装,颈部质地和穿戴配件,这是非常有用的准确目标联想之前和之后,如图所示 9 .
详情在图片后面的标题中
图8
在图形查看器中打开
幻灯片
完全闭塞前后局部高鉴别特征的优点。
详情在图片后面的标题中
图9
在图形查看器中打开
幻灯片
包括重要信息。
3.2.1地方高度歧视区
经行人探测,目标矩形( X 1, y 1, X 2, y 2)有宽度 W 和高度 H 得到了。根据人体的分布,我们先用 A ,把身高除以 b ,使长方形区域平均划分为 W / A × H / b ,还有 A × b 所有的小细胞。然后,上、中区域被选为局部高鉴别区域,如方程所示( 9 ), which A 和 B 是最有价值的 A 和 b .通过分段参数试验 4.2 ,我们得到了 A 是8 B is 4.
(9)
3.2.2局部高鉴别区的RGB直方图
地方高分辨率地区
被发现的目标 我 在当前框架中,创建一个RGB三通道直方图 H ,每个通道设置16个容器,矩阵尺寸为16×16×16.直方图的指数可以用方程计算( 10 ), where b, g 和 r 分别是本地高分辨特征区相应像素的三通道值和 大尺寸 每箱的大小( 大尺寸 =256/16)然后扫描头颈区域的每个像素,在相应的索引上添加1。 H ,如方程式所示( 11 )。获得的 H 扫描后如图所示 10 .图中的第一列 10 是提取的局部高分辨区,第2、3和4列分别为局部高分辨区的B、G和R通道的RGB直方图,第5列为多通道直方图。
(10)
(11)
详情在图片后面的标题中
图10
在图形查看器中打开
幻灯片
局部高鉴别特征RGB直方图实例。
3.2.3目标之间的距离
为了恢复完全闭塞后的不可见目标,应计算闭塞后再现对象与闭塞前模板库中对象的距离。我们用三种不同的指标比较了相似性:相关性、正方形和巴塔查里亚距离,发现巴塔查利亚距离[ 18 比其他两个更有区别和准确。
巴塔查里亚距离 D 可以用方程计算( 12 )。较小的值意味着较高的相似性.价值范围 D is [0, 1 ]. N 是LHdfRGB直方图中的箱数。巴塔查里亚距离 高分辨率 i,j 目标之间 j 在当前的框架和目标 我 模板库可以用方程计算( 14 ).
(12)
(13)
(14)
3.3自适应特征融合机制
完全闭塞后,目标的外观和位置发生了很大的变化。为了成功地将闭塞后的重新可见目标联系起来,提出了一种结合外观、运动和局部高分辨特征的自适应特征融合机制。该机构具有两种自适应调整功能:一是根据局部时空模型参数自动调整融合特征; 3.2.2 ,另一种是自动检测完全阻塞的目标,并在随后的框架中持续监测它。自适应特征融合机制包括外观和运动特征的计算、完全阻塞目标的监测和特征融合。
3.3.1外观和运动特征的计算
首先,利用雷达50作为暹罗网络S1的主干线,得到当前框架下所有目标的外观特征,提取的特征为1x5向量。然后,计算欧几里得距离 S i,j 在目标之间 j 在当前的框架和目标 我 在历史模板库中,如公式所示( 15 ).
(15)
(16)
接下来,目标的借据 j 在当前的框架和目标 我 在模板库中,以运动特征计算,得到的运动特征存储在矩阵D中,如方程所示( 17 ).
(17)
3.3.2监测完全封闭的目标
为持续监测完全封闭的目标,设立了两套方案:一套是候选方案 电视广播公司 在要回收的完全封闭的轨迹中,另一个是候选轨道集 RTC 闭塞后的重新可见物体。轨迹之间的相似性 T 我 在…中 电视广播公司 和对象 O j 在…中 RTC 是经过计算的。… O j 相似度较高的目标被认为是 T 我 其外观特征应得到加强。
要回收的候选轨道集( 技术合作中心
在每个框架中,所有轨道 T = { T 1 , T 2 , …, T n 1 在切片中,用该方法检测到完全闭塞。 3.1.4 .完全封闭的轨迹将完全封闭并在随后的框架中不可见。 电视广播公司 ( T 1 , T 2 , … T n 3 ),并受监控,直至找回,如方程式所示( 18 ).
(18)
候选人可重新看到的目标( RTC )
当完全闭塞的目标再次出现时,通常需要经历两个阶段:局部闭塞2(PO2)和无闭塞(NO),如本节所述 3.1.1 .目标的封闭部分(局部闭塞率)逐渐减小,目标的暴露部分增加,特征逐渐完整可靠。因此,无闭塞目标被检测到后再出现目标的概率较低,严重闭塞目标的特征可靠性较低。为了更准确地检索完全闭塞的目标,被闭塞但不严重闭塞( β j 在所检测到的目标中小于0.8) D = { D 1 , D 2 , …, D n 2 已经加入到 RTC ( O 1 , O 2 , …… n 4 ),如方程式所示( 19 ).
(19)
电视广播公司 和 RTC 联想及特色提升
在每一个框架中,在轨迹上 T 我 在真相与和解委员会,找到目标 O j 在表面相似性最低的RTC中。如果它们的外表相似性分数低于阈值 L ,更有可能的是 T 我 和 O j 同样的轨迹,如图所示 11 ,而它们的外观特征应予加强,以便在最终融合特征中有更好的优先权,如公式所示( 20 ).
(20)
详情在图片后面的标题中
图11
在图形查看器中打开
幻灯片
例子 电视广播公司 和 RTC 用于监测完全封闭的目标。
3.3.3特征融合
在不同的跟踪场景下,外观特征、运动特征和局部高分辨特征的性能各不相同。尤其是在闭塞情况下,特征的可靠性随闭塞程度的变化而变化。在实际追踪场景中,行人的运动状态是随机的,行人之间的阻塞也是随机的。单一特征不能适应随机变化的闭塞.我们提出了一种自适应特征融合机制,它可以调整特征结构,选择有利的特征来表示基于阻塞状态的目标。自适应特征融合机制的主要思想如下.
当行人之间有许多阻塞物时,增加 α 为了增加外观的权重和局部高鉴别特征特征;当阻塞是轻的,减少 α 为了降低外观的权重和局部的高鉴别性,增加运动特征的权重;
如果目标完全被封锁,在完全被封锁之前, β 局部高鉴别性特征与鲁棒性的比例逐渐增加.当目标完全闭塞后再次出现, β 因此,局部高鉴别性特征的比例也会降低。随着目标暴露部分的逐渐增加,局部高鉴别特征特征的比例降低。
基于以上两种观点,可以通过方程计算融合特征( 21 )。得到的融合特征保存在矩阵中 特征 ,作为数据关联的输入矩阵。
(21)
3.4其他执行细节
3.4.1网络和培训
网络结构
截面外观特征的计算 3.3.1 包括暹罗网络S1。S1提取目标的高层次特征,然后在雷达50后增加一个FC层,将输出特征转换为1×5向量,如图所示 12 .我们使用小尺寸的输出特性来平衡外观和运动特性.我们认为,位置和运动信息是重要的,应该通过减少外观特征的维度来强调它们。此外,短特性可以使数据关联过程更快.
详情在图片后面的标题中
图12
在图形查看器中打开
幻灯片
S1网络。
训练
S1在里德(行人重新识别)区接受i-LID-VID数据集培训,该数据集包括300名不同的行人,在公共露天场地用两个单独的摄像头观看。视频中存在着服装相似性、照明和视角变化、背景混乱和随机闭塞等挑战。如图所示,S1网络在I-LID-VID数据集的CAMB序列上经过了25个阶段的训练,这些序列聚集得很快。 13 .S1的损失函数是对比损失,可以有效地处理暹罗网络中的配对数据。
详情在图片后面的标题中
图13
在图形查看器中打开
幻灯片
S1培训过程。
3.4.2算法流程图
在建议的方法中,外观特征是利用暹罗网络提取的,并重新发送[ 20 被用作暹罗网络的主干线。对2011年和2011年的数据集进行了25次培训。损失函数是对比损失,网络收敛性好.[ 21 是用来探测物体的。提出的多行人跟踪算法可分为8个步骤,如图所示 14 ,蓝箱内的步骤是建议的方法中的主要工作。
初始化:在第一帧中,建立了外观、运动和局部LDH模板库,并创建了初始轨迹。
目标探测:YLOLV3[ 21 用于获取所有目标的位置信息。
外观特征提取:采用切片法 3.3.1 计算所有检测对象的外观特征.
运动特征提取:用分割法计算所有目标的运动特征 3.3.1 .
局部高分辨特征采集:用分段法计算所有目标的局部高分辨特征 3.2 .
检测和监测完全闭塞目标:建立时空模型,根据模型参数检测完全闭塞目标,并在后续框架中进行监测。
特征融合:使用在截面计算的空间阻塞参数 3.1.2 为了动态调整融合特征结构,采用分段方法计算融合特征 3.3.3 保存在特征矩阵中。
数据关联:特征作为输入矩阵,最小贪婪扫描法[ 19 用于数据关联。
模板更新:对于成功的相关目标,更新外观、运动和局部高鉴别特征模板库。
一步一步( 2 )处理下一帧。
详情在图片后面的标题中
图14
在图形查看器中打开
幻灯片
拟议方法流程图。
4个实验和分析
4.1数据集和评价指标
为了更好地展示所提方法在完全闭塞情况下的跟踪性能,选择了数据集MOT16和MOT17进行实验,并在MOT16和MOT17进行比较和消融实验时选择了具有更多完全阻塞的视频。对于MOT16,我们在测试组中选择MOT16-01、MOT16-06和MOT16-12,在培训组中选择MOT16-05、MOT16-09和MOT16-11。对于第17节,我们在测试集中选择第17-01节、第17-06节和第17-12节,在培训集中选择第17-05节、第17-09节和第17-11节。实验中的数据均来自MOT挑战网站的官方网站( https://motchallenge.net/ ),以及我们的算法的实验结果,也获得了提交给官方网站。
fp,fn,hta,IDf1、dta和召回在我们的实验中被用于评价指标。其中,高阶追踪精度为何塔[ 14 这是一种新的公示于2020年底正式发布的指标,它明确平衡了检测精度、关联性和定位性的影响,成为一种统一的指标,可以很好地反映追踪器的总体性能。
4.2参数设置
我们的算法有三个参数。桌子 2 通过三组实验显示参数的最佳值。原因( a,b )载于 3.2.1 , When ( a,b ) is (6,3),(8,4),(10,5), MOT is 56.5,57.7,57 respectively. Therefore, for ( a,b ),最好的值是(8,4)。用于 电压 在节内 3.1.4 ,何时 电压 是0.1.1.2.3.4,最低工资分别为57.557.77.57.57.57.7。因此,为了 电压 ,最佳值为0.2。用于 L 在节内 3.3.2 ,何时 L 是0.6.7.7.8.9,最低工资分别是56.8.57.2.57.57.1。因此,为了 L,最佳值为0.8。
TABLE 2. 参数的最佳值。
参数 ( a,b ) 电压 L
最佳值 (8,4) 0.2 0.8
4.3定量分析
在完全闭塞的情况下,我们的算法通过时空模型、局部高分辨特征和自适应特征融合机制来提高跟踪性能。节 4.3.1 该方法与近年来常用的一些典型方法进行了比较实验.节 4.3.2 显示完全闭塞检测的性能。节 4.3.3 展示了消融实验,展示了局部高鉴别特征、增强的外观特征和融合特征对改进跟踪性能的贡献。
4.3.1完全闭塞下的追踪性能比较
桌子 3 展示了该算法的总体跟踪性能。桌子 4, 5 和 6 通过对MOT16-01、MOT16-06和MOT16-12的测试,对近年来的一些典型算法进行了跟踪性能比较,如MHTML_blstm、MTdf、GTUDRED、JSTD和CBT-16-12。桌子 7, 8 和 9 通过对MOT17的对比实验,验证了该方法与一些典型算法的比较结果,分别是:HES_DAL、GTUD_里德、BLSTM_MTP_O、FRT和DIP_TMA、FD_GM、CRF_TRA。
TABLE 3. 跟踪视频的表现,更多的隐藏在MOT16和MOT17。
赛克 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
MOT16-01 32.56 39.44 37.47 302 3512 45.08 59
MOT16-06 40.30 48.26 51.38 2280 3393 70.59 297
MOT16-12 41.78 46.29 51.30 664 3746 54.84 45
MOT17-01 32.49 39.66 37.36 287 3546 45.02 59
MOT17-06 40.50 49.96 51.66 2102 3482 70.45 313
MOT17-12 40.96 44.41 49.97 659 4114 52.53 45
TABLE 4. 对MOT16-01的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
Mht_blstm[ 22 ] 28.3 27.5 36.5 785 3813 40.4 39
Mtdf[ 23 ] 27.4 26.1 31.7 1,014 3644 43.0 65
格通德里德[ 24 ] 31.3 27.1 43.4 182 4456 30.3 27
JCSTD[ 25 ] 31.9 39.9 40.1 222 3587 43.9 34
房屋委员会[ 26 ] 31.4 34.2 38.9 128 4052 36.6 29
我们的 32.6 39.4 37.5 302 3512 45.1 59
TABLE 5. 对第16-06条的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
Mht_blstm[ 22 ] 35.3 42.2 45.7 1067 5507 52.3 91
Mtdf[ 23 ] 35.7 42.6 46.7 900 5541 52.0 177
格通德里德[ 24 ] 36.0 43.4 48.6 687 5779 49.9 68
JCSTD[ 25 ] 36.5 47.9 49.3 252 5670 50.9 87
房屋委员会[ 26 ] 35.4 52.1 41.7 352 5120 55.6 52
我们的 40.3 48.3 51.4 2280 3393 70.6 297
TABLE 6. 对第16-12条的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
Mht_blstm[ 22 ] 38.8 38.8 49.7 706 4340 47.7 31
Mtdf[ 23 ] 38.1 40.4 48.0 817 4040 51.3 89
格通德里德[ 24 ] 40.9 36.6 55.5 913 4312 48.0 30
JCSTD[ 25 ] 38.8 41.5 50.3 275 4531 45.4 44
房屋委员会[ 26 ] 38.5 41.8 49.6 805 4008 51.7 18
我们的 41.8 46.3 51.3 664 3746 54.9 45
TABLE 7. 对MOT17-01的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
希普达尔[ 27 ] 24.5 32.0 31.4 1532 3258 49.5 80
格通德里德[ 24 ] 39.9 21.0 49.0 1925 3137 51.4 32
Boustm_mtp_o[ 28 ] 39.6 29.4 51.0 1410 3130 51.5 13
固定工作时间[ 29 ] 30.4 28.5 31.7 1281 3276 49.2 52
迪普_塔马[ 30 ] 36.5 28.3 40.9 1549 3051 52.7 26
CRF_TRA[ 44 ] 39.9 32.3 47.5 1166 3182 50.7 20
全氟辛烷磺酸[ 45 ] 29.1 34.3 1286 3249 49.6 37
我们的 32.5 39.7 37.4 287 3546 45.0 59
TABLE 8. 与第17-06节的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
希普达尔[ 27 ] 49.4 52.4 42.2 782 4789 59.4 394
格通德里德[ 24 ] 42.3 49.6 53.5 1628 4198 64.4 114
Boustm_mtp_o[ 28 ] 44.5 55.6 59.1 482 4679 60.3 74
固定工作时间[ 29 ] 47.5 56.8 59.2 436 4547 61.4 109
迪普_塔马[ 30 ] 43.2 47.3 54.9 1369 4732 59.8 115
CRF_TRA[ 44 ] 48.4 55.4 61.2 1535 3629 69.2 88
全氟辛烷磺酸[ 45 ] 53.1 54.2 759 4623 60.8 150
我们的 40.5 50.0 51.7 2102 3482 70.5 313
TABLE 9. 对第17-12条的比较。
方法 霍塔 莫塔 IDF1 公共关系局 新的 追忆 IDsw
希普达尔[ 27 ] 33.8 41.0 33.9 710 4914 43.3 112
格通德里德[ 24 ] 39.8 29.8 51.5 1586 4459 48.6 36
Boustm_mtp_o[ 28 ] 37.8 38.0 51.2 646 4700 45.8 30
固定工作时间[ 29 ] 39.6 43.3 49.5 369 4520 47.8 27
迪普_塔马[ 30 ] 39.0 36.5 50.0 635 4838 44.2 28
CRF_TRA[ 44 ] 41.0 41.4 55.1 479 4572 47.2 24
全氟辛烷磺酸[ 45 ] 40.0 49.9 539 4618 46.7 44
我们的 41.0 44.4 50.0 659 4114 52.5 45
在桌上 4 ,我们的方法是六个算法中最好的,莫塔是仅次于JSTD的,而且比其他方法有明显的改进。在桌上 5 ,霍塔,IDF1,fn,回顾我们的方法是六个算法中最好的,而莫塔是第二。在桌上 6 我们的方法是六个算法中最好的,IDF1是第二个,FP是第二个。还注意到,与其他方法相比,索引霍塔、IDF1和召回都有明显的改进。例如,我们实现了1.18召回上升,0.66霍塔上升,比JCSTD表中的 4 .此外,表中还观察到3.8霍塔改进和2.08IDF1改进比JCSTD改进,并观察到14.99召回改进比总部合同委员会改进。 5 .我们还实现了比肝细胞癌和0.88霍塔的回收率比表中的交响率提高。 6 .表中的其他指标,如MOTA明显改进 8 ,新生力量明显改善 5 .通过以上实验,我们可以发现该算法在霍塔,fn,召回方面有很大的改进。主要原因是所提出的闭塞建模机制使我们的算法在闭塞句柄上更具体。此外,高分辨性特征和特征融合机制提高了闭塞目标的特征,提高了阻塞后重新找到目标的可能性,有效降低了目标身份交换率。
在桌上 7 我们的方法是八种算法中最好的,我们的方法比它的提高7.7倍,比它的提高994倍。在桌上 8 我们的方法是八种算法中最好的一种,我们可以观察到这个方法的最大的改进和最大的改进。我们的方法在其他指标上的性能还不够好 8 由于运动17-06中摄像机在不同角度的快速运动和缺乏运动补偿机制。然而,与CRF_TRA和FPD_GM相比,召回指标有了显著的改进。在桌上 9我们的方法是八种算法中最好的,有1.2个霍塔改进和3.9个召回改进,有1.1个莫塔改进比F仅有的改进比,有3和4.4个莫塔改进比CRF_TRA和PDD_GM改进。
4.3.2完全闭塞时空模型的性能
完全闭塞的时空模型是本文的一项重要工作。目前,专门用于完全闭塞的工作少之又少,也没有度量标准来衡量完全闭塞检测的准确性。因此,本文提出了一种新的度量标准--FOA(完全闭塞判断的准确性)。FOA的计算方法是用Fon(用我们的方法正确识别的完全闭塞物数)与FogT(完全闭塞物的地面真相数)的比率。MOT挑战数据集没有完整的掩蔽注释,而且很难手动标记所有视频的完全掩蔽。我们手工计算在MOT16-09(525帧)和MOT16-01(450帧)中的完全掩蔽物总数。计算出的离岸价格见表 10 .我们可以发现,所提出的时空完全闭塞模型能够识别超过75%的完全闭塞。对于MOT16的其他视频,通过我们的方法获得的全部阻塞数字显示在表中。 11 .
TABLE 10. 完全闭塞判断的准确性。
录像的 模糊的 脂肪 联邦航空航天局
MOT16-09 38 31 81.58%
MOT16-01 20 15 75.00%
TABLE 11. 通过我们的方法获得的完全闭塞数。
录像的 脂肪 录像的 脂肪
MOT16-09 51 MOT16-06 137
MOT16-05 49 MOT16-11 48
MOT16-01 15 MOT16-12 34
4.3.3消融研究
提出了自适应融合特征,以提高感知和调整能力,减少完全闭塞的影响,最终提高复杂跟踪场景的跟踪性能。为了验证其有效性,在选定的训练装置(MOT16-05、MOT16-09、MOT16-11)上进行了消融实验。我们研究了表中各种特征表示的效果 12 .只使用外观表现( F A ),它达到49.4。使用运动功能( F M 仅在莫塔就有37.6分。使用外观和运动功能( F A + F M ),在莫塔有49.3分。利用外观、运动和局部高鉴别特征的混合特征,显著提高,在莫塔达到51.2。利用自适应混合特征( F A + F M + F 低密度 + α + β ),它在莫塔市得了51.6分。利用建议的融合特征( F A ′ + F M + F 低密度 + α + β )在方程式( 21 )比自适应混合特性更能观察到0.7%的莫塔改进,比混合特性更能观察到1.1的莫塔改进,比外观和运动特性更能观察到3.0的莫塔改进,比外观特征更能观察到2.9的莫塔改进,比运动特征更能观察到14.7%的莫塔改进。还注意到,随着拟议的特点,召回,IDSW和FRAG(弹道碎片误差的数目)也得到改进。这些消融实验数据证明了所提出的局部高鉴别特征的有效性。 F 低密度 ,增强功能 F A ′ 基于完全闭塞模型的阻塞目标和基于自适应特征融合机制的自适应特征融合机制 α 和 β .
TABLE 12. 融合特征的剥离研究。
特点 莫塔 IDF1 公共关系局 新的 追忆 IDsw 抽打
F A 49.4 46.0 611 2903 59.6 98 113
F M 37.6 32.7 561 3466 51.4 373 260
F A + F M 49.3 40.9 653 2769 61.4 184 152
F A + F M + F 低密度 51.2 54.5 761 2651 63.0 77 123
F A + F M + F 低密度 + α + β 51.6 53.1 756 2636 63.3 62 118
F A ′ + F M + F 低密度 + α + β 52.3 51.7 672 2654 63.5 55 112
4.4定性实验
为了验证我们的方法在完全封闭的场景中的有效性及其在完全封闭后恢复目标的能力,我们分别为短期完全封闭(完全封闭的持续时间小于20个框架)、长期完全封闭(完全封闭的持续时间大于30个框架)和频繁的完全封闭(多个目标在同一时间段内经历了多个完全封闭的情况)进行了三次实验。
4.4.1短期完全闭塞
在图的第一行 15 第59和60项目标在框架316后完全被目标61所封锁,在框架323后重新出现时,两个目标被准确地重新追踪;在第二行,目标25在框架120后完全被目标4所封锁,在框架126再次出现时被准确地重新追踪,同时,目标31在框架127后完全被目标20所封锁,在目标323后被准确定位并重新追踪又出现在第132帧。
详情在图片后面的标题中
图15
在图形查看器中打开
幻灯片
短期完全闭塞下追踪表现。
4.4.2长期完全闭塞
在图的第一行 16 ,目标9完全被框架87的目标2挡住。消失在73帧后,当它在160帧重新出现时,它被精确地识别并重新追踪;在图的第二行 16 ,目标10在框架55和框架255之间被完全堵塞4次(共200个框架),我们的方法总是能够成功地找到目标每次重新出现,避免身份转换和确保轨道的连续性。
详情在图片后面的标题中
图16
在图形查看器中打开
幻灯片
追踪长期完全闭塞下的表现。
4.4.3经常完全闭塞
在图的第一行 17 ,马路对面多名行人被过往车辆多次堵塞。例如,目标11在框架82上完全封闭,并在框架91上重新出现时成功追踪。然后,目标3骑着自行车在94号车架上完全被挡住,当它在104号车架上重新出现时,被精确地重新追踪。与此同时,目标7再次出现时也经历了完全闭塞和准确定位。图中第二行 17 第42和第45个目标依次被左边有背包的黑衣妇女挡住,当她们再次出现时,两个目标都被准确识别,追踪成功恢复。图第三行 17有6个具体目标(具体目标10、11、12、13、16、18)经历了框架153和198之间的8个完全封闭(具体目标10、12被具体目标11、13、11、13、10和12完全封闭,具体目标5完全封闭,具体目标16和18被具体目标5完全封闭),封闭频率非常高,但我们的方法能够准确地找到并恢复完全封闭的目标。
详情在图片后面的标题中
图17
在图形查看器中打开
幻灯片
在频繁的完全闭塞下追踪性能。
5.结论
本论文主要从目标的检测和特征提取两个方面来研究目标完全闭塞问题,提高跟踪算法对目标完全闭塞的适应性。对于阻塞目标的检测,我们提出了一个完全闭塞的时空模型。在分析模型中数据的基础上,提出了一种简单有效、不经过训练的目标定位方法。在特征提取方面,我们提出了局部高鉴别特征和自适应特征融合机制,以提高目标特征在完全闭塞下的可辨性。精确检测完全闭塞的目标为以后的目标处理提供了便利。改进目标特征识别有利于目标关联的准确性.基于对被闭塞目标的精确检测和改进的特征提取,提出了一种提高完全闭塞场景适应性的算法。实验结果表明,我们提出的算法适用于各种不同程度的闭塞情况,包括短期、长期和频繁的完全闭塞情况。然而,由于没有专门针对相机刚性运动的运动估计机制,当相机快速移动时,目标运动特性的可靠性降低,导致跟踪性能下降。此外,当目标较小时,局部高鉴别特性的鲁棒性降低。这两个问题将是我们今后工作的主要研究内容.我们提出的算法提高了完全闭塞场景的适应性。实验结果表明,我们提出的算法适用于各种不同程度的闭塞情况,包括短期、长期和频繁的完全闭塞情况。然而,由于没有专门针对相机刚性运动的运动估计机制,当相机快速移动时,目标运动特性的可靠性降低,导致跟踪性能下降。此外,当目标较小时,局部高鉴别特性的鲁棒性降低。这两个问题将是我们今后工作的主要研究内容.我们提出的算法提高了完全闭塞场景的适应性。实验结果表明,我们提出的算法适用于各种不同程度的闭塞情况,包括短期、长期和频繁的完全闭塞情况。然而,由于没有专门针对相机刚性运动的运动估计机制,当相机快速移动时,目标运动特性的可靠性降低,导致跟踪性能下降。此外,当目标较小时,局部高鉴别特性的鲁棒性降低。这两个问题将是我们今后工作的主要研究内容.包括短期、长期和频繁的完全闭塞。然而,由于没有专门针对相机刚性运动的运动估计机制,当相机快速移动时,目标运动特性的可靠性降低,导致跟踪性能下降。此外,当目标较小时,局部高鉴别特性的鲁棒性降低。这两个问题将是我们今后工作的主要研究内容.包括短期、长期和频繁的完全闭塞。然而,由于没有专门针对相机刚性运动的运动估计机制,当相机快速移动时,目标运动特性的可靠性降低,导致跟踪性能下降。此外,当目标较小时,局部高鉴别特性的鲁棒性降低。这两个问题将是我们今后工作的主要研究内容.降低了局部高鉴别特征的鲁棒性。这两个问题将是我们今后工作的主要研究内容.降低了局部高鉴别特征的鲁棒性。这两个问题将是我们今后工作的主要研究内容.