新闻资讯

自动标记的域自适应无锚水果检测模型

介绍
基于深度学习的水果检测与农业机械相结合,可以应用于智能果园的许多智能任务,例如水果定位、水果产量预测和自动水果采摘等[ 1-6 ]。然而,训练水果检测模型依赖于许多标记数据集[ 7-9 ]。而且,由于模型泛化性能较差,总是要求标注新的图像数据,构建能够适应新任务的新模型,费时费力,成为深度学习的瓶颈——基于应用程序 [ 10]。因此,自动贴标越来越受到人们的关注;例如,水果图像自动标注工作可以自动生成边界框作为标签,无需手动操作。
在我们之前的研究中[ 11,12 ],提出了EasyDAM来完成水果自动标记。该方法基于已标记的源域水果数据集,可以高精度地自动标记各种未标记的目标域水果图像,从而节省人工成本。主要步骤如下:首先,基于标记的源域水果图像,通过GAN(生成对抗网络)获得目标域的合成水果图像。然后,将标记的目标域合成水果图像输入 Orange-YOLO [ 13](我们团队早期提出的检测模型)作为训练数据。最后,将未标记的目标域实际水果图像输入到预训练的水果检测模型中以获得伪标签,该伪标签可以转换为图像标签数据。
在一个特定数据集(也称为源数据集)上训练的模型不能很好地推广到具有不同分布的数据集(也称为目标数据集)的问题通常称为域差距或分布差距[ 14 ] 。然而,在EasyDAM过程中,水果检测模型的训练数据是目标域的合成水果图像(GAN从源域水果图像生成),而水果检测模型的测试数据(待标记)是果园场景中目标域的实际水果图像,如图1所示。这导致水果检测模型的训练数据和实际测试数据之间存在较大的域差距,而模型弥合此域差距的能力直接影响自动标记的准确性。具体来说,域间隙可以细化为2个方面,前景域间隙和背景域间隙:

1.前景域间隙(例如,在图1B中,其中水果标记框与图1C中的水果对象比例不匹配):因为各种目标域合成水果图像的前景对象(如图1B中的水果标记框与图1C中的水果对象比例不匹配):图1B )是由GAN从源域水果图像的前景(如图1A )生成的,它们的监督标签信息仍然保留了源域水果的尺度特征。但由于目标域水果的拍摄角度、拍摄距离、种类等不同,导致目标域实际水果的尺度特征(如图1所示)C) 是多样化的。结果,合成水果与实际水果之间的尺度特征存在实质性差异,从而导致前景域间隙问题。这导致水果检测模型生成的伪标签的质量受到影响。

2.背景域差距(例如,在图1B和C中,它们之间的图像背景存在实质性差异):因为目标域合成水果图像(如图1B)是从源生成的域水果图像(如图1A所示),仅转换水果的前景对象,其背景仍然是源域水果图像的背景。然而,目标域实际水果图像(如图1C)是水果自然场景的背景,这会导致背景域间隙问题,并进一步影响水果检测模型生成的伪标签的质量。

当前主导领域的自适应目标检测根据实现方法可以分为三类[ 14 ]:(a)对抗性特征学习,(b)图像到图像翻译,(c)基于伪标签自我训练。其中,对抗性特征学习 [ 15 , 16]利用分类器将检测器提取的特征正确分类到源/目标域中,同时检测器被训练来欺骗分类器。当分类器无法正确分类时,表明检测器可以提取域不变特征。该方法具有领域自适应能力,但需要提前提取目标领域特征,无法满足实际场景数据未知的情况,因此不适用于EasyDAM。此外,图像到图像的转换 [ 17 , 18] 通过图像变换生成源域和目标域之间的中间域数据并重新训练模型。然而,生成的方向通常是风格转换,例如晴天到雾天、白天到夜晚;因此,它无法解决EasyDAM的域差距。基于伪标签的自我训练 [ 19 , 20] 将目标域图像输入到预训练模型中以获得伪标签,从而更新模型以增强检测能力。然而,可用的伪标签依赖于具有一定目标域检测能力的预训练模型。当预训练模型泛化不够时,伪标签会误导模型表现更差。可以看出,目前主流方法侧重于如何导入目标领域特征来训练模型,而忽视了模型结构设计泛化能力的发展。因此,本文尝试从检测模型设计的角度解决EasyDAM方法的领域差距。

针对上述问题,我们从2个方面进一步分析目标检测模型的相关研究:
1.前景物体尺度特征的相关研究:目前,大多数研究人员[ 21-24 ]采用基于锚点的模型进行水果检测,例如苹果[ 21 ]、芒果[ 22 ]、桃子[ 23 ]和梨[ 24 ]。这种检测器通过设置锚框引入水果对象尺度特征的先验知识,以适应生成水果对象的边界框。此外,一些研究人员[ 25-27]进一步设计了多尺度结构,以提高各种尺度下的检测精度。上述方法主要是基于训练数据和实际测试数据服从相同尺度信息分布的思想来训练模型,保证测试数据的检测性能。然而,在源域和目标域之间水果尺度特征不同的情况下,此类检测器(原始EasyDAM方法采用的)中的anchor box参数主要来自源域中的水果尺度特征,这很难有效应用于目标域水果各种尺度条件场景。

因此,一些研究人员[ 28-30 ]开始设计anchor-free检测器。这种模型不需要预设锚框。预测时不限于训练数据中物体尺度特征的影响,避免了边界框生成缺乏灵活性的缺点。一些学者[ 31-34 ]已经将anchor-free检测器应用于水果检测。刘等人。[ 31]提出了用于番茄检测的TomatoDet,避免了基于anchor的检测器中由于详尽的anchor box和分类操作而导致的复杂的超参数设计和低检测效率。然而,该模型生成的圆形边界框仅适用于长宽比接近1:1的西红柿或其他圆形水果,不适用于其他长宽比存在较大差异的物种。吉等人。[ 32 ]提出了ShufflenetV2-YOLOX用于苹果检测,避免了anchor box带来的计算负担,从而实现了速度和精度之间的平衡。然而,该模型是专门针对苹果特征而设计的,无法有效应用于其他物种。魏等人。[ 33]提出D2D来检测青柿子和青苹果,通过设计anchor-free结构避免了大量的计算和存储资源。然而,它对于绿色以外颜色的水果表现不佳。赵和严[ 34 ]使用CenterNet检测4种水果:苹果、香蕉、橙子和梨。他们的方法避免了基于锚的检测器的缺点,例如复杂的参数调整和高计算成本。然而,该方法是为检测采摘后放置在桌子上的水果以及图像中尺寸较大的物体而设计的。在复杂的天然果园中应用它具有挑战性。

最近使用无锚检测器进行水果检测的研究重点是通过避免与锚框相关的超参数和计算量来实现速度和准确性之间的平衡。同时,此类研究设计的模型仅针对单一水果种类或固定的拍摄方法和场景表现良好。然而,泛化和适应复杂天然果园中不同物种、多尺度特征的水果检测任务并不容易。因此,本研究的主要重点是利用无锚的特性,不受先验锚框尺度信息的限制,开发一种可以管理实际果园中各种目标域水果的不同尺度的结构。

2.图像中前景-背景特征的学习能力和学习方法的相关研究:最近有关于如何避免背景干扰、提高检测器提取前景特征的能力的研究。为了解决不同街道场景中的车辆和行人检测任务,一些学者[ 35-37 ]】在模型训练时添加了分类器,提取训练数据和测试数据之间的领域不变特征,从而提高模型提取不同背景下前景物体特征的能力。然而,这种方法需要先验了解场景中的前景-背景数据分布来训练检测器,这在实际应用中不方便。此外,在一般检测模型设计中,一些研究人员[ 38-40 ]通过设计正负样本分配策略来调整模型对前景-背景特征的学习能力。金和李 [ 38]提出了PAA方法,该方法使用锚框与Ground Truth(GT)框之间的置信度得分和交集(IoU)来计算该锚框的得分。该方法根据所有anchor box的得分建立概率分布函数来确定正样本和负样本,从而避免了仅使用IoU定义样本造成的复杂背景中前景特征学习不足的问题。张等人。[ 39 ]提出了自适应训练样本选择方法,该方法可以根据自适应数据集特征自动分配正样本和负样本。它使检测器能够充分学习训练数据的前景和背景特征。葛等人。[ 40]提出了最优传输分配方法,利用“供需”关系进行全局配对,使得每个GT框能够从全局角度获得最优的正负样本进行训练。他们的方法为前景和背景特征学习方法提供了最佳路径,从而获得更好的性能。

可以看出,检测器的正负样本分配策略可以调整模型中前景-背景特征的聚焦和提取能力。然而,最近的研究主要集中在平衡正负样本,以确保模型能够充分学习前景和背景特征,并不能使模型更加关注前景特征,同时减少复杂背景的影响。因此,为模型设计正负样本分配策略,增强水果特征的提取能力,削弱不同背景训练和测试数据之间的干扰,为解决背景域差距问题提供了潜在的解决方案。

综上所述,为了解决 EasyDAM 水果检测模型 [ 11 , 12 ]中训练数据和测试数据之间的领域差距问题,本文提出了一种新的领域自适应无锚水果检测模型,称为 DomAda-FruitDet进一步提高水果贴标的准确性。本文的主要贡献如下:
1. 与需要导入额外应用数据来训练模型的领域自适应目标检测方法不同,DomAda-FruitDet 是从检测模型结构的角度进行设计的。它可以将从训练数据特征获得的检测能力泛化到实际应用数据中,从而自适应地生成目标领域水果数据集的检测结果。
2.此外,针对水果前景物体的尺度域差距以及训练数据和测试数据背景不同的问题,DomAda-FruitDet提出了前景域自适应结构和背景域自适应策略。该方法可以有效地弥合单一源域水果和多样化目标域水果之间的域差距。

方法
在本文中,我们针对EasyDAM [ 11 , 12 ]方法提出了一种领域自适应水果检测模型,以提高水果数据标记的准确性,总体框架如图2所示。

为了解决域差距问题,我们选择无锚点的CenterNet[ 29 ]作为设计本文开发的域自适应水果检测模型(如图2所示)的基线模型,命名为DomAda -FruitDet。借助DomAda-FruitDet的能力,我们可以实现目标域水果数据集的高精度标注。
DomAda-FruitDet 有 2 个设计要点: 针对前景域间隙,我们设计了基于双预测层的前景域自适应结构(如图 2 中的①所示,在“基于双预测层的前景域自适应结构”中介绍)预测层”部分)。通过定位目标中心点,并通过检测不同层中不同尺度的目标,该方法可以有效地适应水果的尺度来生成边界框。此外,针对背景域差距,我们进一步设计了基于样本分配的背景域自适应策略(如图2所示),②,在“基于样本分配的背景域自适应策略”部分介绍)。通过增强模型提取前景物体特征的能力,该方法可以有效避免不同背景场景对水果检测的影响。

基于双预测层的前景域自适应结构
原始的CenterNet利用基于中心关键点的anchor-free检测原理,可以在一定程度上生成不受训练数据尺度特征限制的边界框。然而,其颈部只有一个预测层,难以准确检测各种尺度的物体,而且CenterNet无法解决前景域间隙的问题。因此,为了实现前景尺度域自适应,我们综合分析了域间隙下水果物体的尺度特征,并对原始模型的颈部进行了相应的改进,我们将其称为基于双预测层的前景域自适应结构。该结构主要包括两个设计组件,即果实尺度特征的双预测层设计和果实尺度特征泛化的裁剪设计。原始琴颈与改进琴颈的比较如图 1 所示。3 .

1.水果尺度特征的双预测层设计:通过分析所使用的数据集和对象尺度的定义标准,我们知道不同种类的目标域水果在图像中呈现不同的尺度特征。所有目标域水果图像中的水果尺度范围都很广泛,并且与源域水果有很大不同。同时,图像中存在一些小水果(像素面积<32×32或相对面积比的平方根<3%),由于特征较少,对检测精度产生至关重要的影响可以提取出来,如图4所示。

根据研究者[ 41 ]对卷积层的深度、特征图的分辨率和待检测物体的尺度之间的关系的综合分析,我们知道浅层特征图的感受野较小,注重图像的颜色和纹理细节,更适合检测较小的物体。相比之下,深度特征图具有更大的感受野,包含丰富的语义特征,更适合检测更大的物体。因此,基于上述分析和原理,为了构建多尺度检测能力并准确检测小水果,我们修改了颈部的输入并设计了2个预测层的输出来检测各种尺度的物体,如下所述。

1.颈部的输入:如图3A和B中的输入比较所示,添加来自主干较浅层的特征图,同时删除来自最深层的特征图。这样,较浅的特征图可以充分保留水果细节信息,并且可以避免过深的特征图的干扰。同时,neck输出的预测特征图可以基于具有相同下采样因子的特征图来获得,并且不会遭受上采样带来的特征丢失问题。

2.预测层(颈部的输出):如图3B所示,输出,1号预测层输出2×下采样预测特征图来检测较小的水果。该特征图融合了主干网的不同层,保证了基于高分辨率特征的具有丰富细节特征的小水果物体的检测能力,同时保留了更深层次的水果语义信息。同时,由于水果语义特征相对简单,不需要深度预测层来定位果园中的大规模水果对象,因此第2层预测层输出4×下采样预测特征图来检测位于其他尺度。该特征图融合了除最浅层之外的主干网的所有层,并且具有合适的分辨率。
最后,基于适用于果园的水果尺度分布特征,针对不同尺度的水果进行2种不同分辨率的预测特征图检测,有效解决了水果前景物体尺度域差距的问题。

2、水果尺度特征泛化的裁剪设计:颈部特征融合时深层特征的过度融合是导致过拟合、降低模型泛化性的关键原因。水果检测模型的训练数据是从同一源域水果生成的,具有相似的尺度分布。然而,实际测试数据具有多种水果等级,因此在该模型的颈部设计中需要避免任何影响泛化的操作。

然而,CenterNet原始颈部的特征融合方法包括两个部分:从深到浅的融合和从浅到深的融合,后者导致了深层特征过度融合的问题。因此,我们从浅到深裁剪融合,同时保留从深到浅的迭代聚合结构的融合;这允许模型构建颈部和预测特征图,如图3中的结构(A)和(B)所示。

在等式中。1 , F ,  n , m , DC , DU , O表示从浅到深部分融合后的特征图,该特征图在从浅到深部分的融合中被融合的次数(当n = 3时输出预测特征图 ),特征图的下采样因子,可变形卷积操作[ 29 ],可变形卷积和上采样操作[ 29]],以及分别从深部到浅部融合输出的特征图。如方程所示。1、在从浅到深融合输出预测特征图的过程中,每次融合操作都会引入更深的特征图。逐渐融合导致最终输出预测特征图中浅层特征图包含的信息比例减少。结果,过多的深层特征导致模型过度关注物体的特定形状和轮廓,而忽略了水果在不同视角、大小和姿势下的多样性。

在等式中。2、O、  n、m、  DC、DU 表示从深层到浅层融合后的特征图,相同分辨率下特征图融合的次数,特征图的下采样因子( m  = 2, 4, 8, 16;当m  = 2 时,n  = 1, 2, 3;当m  = 4 时,n  = 1, 2;当m  = 8 时,n  = 1;当m  = 16 时,n  = 0 .本文在m  =2, n  =3时输出预测特征图m  = 4, n  = 2),分别为可变形卷积操作,以及可变形卷积和上采样操作。如方程所示。2、对由浅到深部分的融合进行裁剪后,直接从由深到浅部分的融合输出预测特征图。每个融合操作都会引入一个更浅的特征图。最终的预测特征图不仅保留了浅层特征图所包含的丰富水果细节,而且避免了深层特征过度融合的干扰。另外,直接从深层到浅层融合输出,使得预测特征图的分辨率更加灵活,不受限于只有4×下采样分辨率输出的缺点。
通过上述方法,裁剪颈部避免了影响模型泛化性的操作,并且最大化从主干提取的水果特征来构建预测层,这进一步保证了模型在域间隙下检测多尺度水果的能力。

综上所述,基于CenterNet,我们设计了一种基于双预测层的前景域自适应结构。该结构通过以中心点定位水果,并通过不同分辨率的预测层检测不同尺度的物体,实现多尺度水果检测和自适应边界框生成。我们的方法可以通过上述方法有效地弥合水果前景对象的域间隙,从而提高伪标签生成的准确性。

基于样本分配的后台域自适应策略
前景域不变特征是指不同背景域中前景对象的共享特征。让模型更多地关注水果前景特征的提取是实现跨背景域检测的有效途径。然而,原始的CenterNet存在正负样本标签分配极不平衡的问题,用于学习前景特征的正样本远少于用于学习背景特征的负样本。这使得模型无法完全提取前景物体特征,导致难以解决背景域间隙问题。在本文中,我们分析了 CenterNet 的原始热图分支,该分支用于学习目标定位的前景-背景特征,并开发了一种改进的样本分配策略。

在原来的正负样本分配中,每个水果都有一个正样本点。通过应用算法1中基于热图的正样本点扩展策略,每个水果的正样本点数量变成水果对象编码的高斯分布中非零点的数量。该数量由水果对象的大小和编码过程中的高斯阈值[ 29 ]决定,该阈值通常大于1。上述方法极大地扩大了正样本的数量,可以为模型提供充足的前景训练样本,提高模型提取水果前景特征的能力。
2.连续标签值损失函数:制定了分配正负样本的规则后,必须设计相应的损失函数来对其进行监督。

因此,距离中心点较近的样本点虽然受到较弱的监督,但仍然以负标签值 =0进行监督,无法实现正样本点的扩展。此外,如果我们改变方程的划分条件。3使( x ,  y )受H xy下的损失函数监督 = 1 的情况下,这些新添加的正样本点与中心正样本点无法区分。相反,在改进的连续标签值损失函数中,( x ,  y ) 用连续值进行监督。这样,( x ,  y ) 就可以看成正样本点来扩大正样本,新的正样本点可以直接用value  =  H xy的不同标签来监督。此外,由于H xy遵循由水果对象编码的高斯分布,对应于水果中心的正样本点比附近的点受到更严格的监督。此外,剩余的正样本点按照高斯分布进行监督,随着它们远离中心,其强度逐渐减弱。

由此,我们可以利用连续标签值损失函数来改进正负样本分配策略,从而区分中心正样本和其他正样本。因此,不同位置的正样本点对模型更新的影响不同。这使得新增正样本的监督设置更加合理。

综上所述,通过使用基于热图的正样本点扩展策略和连续标签值损失函数,可以指导训练过程增强水果前景物体的特征提取能力,并可以避免不同背景域下的干扰。通过上述方法构建的基于样本分配的背景域自适应策略可以有效弥合水果背景的域差距,从而进一步提高伪标签生成的准确性。

结果
本文的实验验证了所提出的DomAda-FruitDet在提高EasyDAM方法水果自动标记准确性方面的有效性[ 11 , 12 ]。下面介绍数据集、评估指标、实验设置和结果。

讨论
在本文中,我们提出了一种跨域检测模型DomAda-FruitDet,它可以适应水果形态来生成检测框并解决EasyDAM [ 11 , 12 ]方法中的域间隙问题。当监管信息和应用数据之间的水果特性不完全匹配时,该模型具有高度通用性。我们的方法可以减少拍摄角度、拍摄距离、环境变化等因素的影响。DomAda-FruitDet 与 Orange-YOLO 进一步比较 [ 13] 证明模型的有效性。同时,从水果标签生成实验中可以发现,火龙果的AP未能达到90%以上,准确度低于其他水果。这是因为一些火龙果被藤蔓(树枝粗大)严重遮挡,只能看到果实的一小部分区域,使得模型很难找到此类物体。此外,其他水果的一定程度的遮挡也会影响标签生成的准确性。在最近的一项研究中,我们注意到一些工作 [ 49 , 50 ] 通过在水果遮挡问题的模型中建立注意机制来提高检测性能。我们计划随后分析这个想法并进行进一步的研究,以提高水果自动标签的有效性。

综上所述,本文提出的智能果园水果自动标记模型可以有效生成所需的标记水果数据集,可以提高果园智能化的效率。此外,作为一个完整的物体检测模型,它还可以用于其他检测任务。具有域自适应检测性能,可以应用于具有域间隙的任务,例如不同街道场景中的车辆和行人检测以及合成模型为训练数据而实际对象为应用数据的检测任务。

发布日期:2024-04-01