新闻资讯
背景
小麦壳针孢 (STB),由子囊菌类真菌Mycosphaerella graminicola (Fuckel) J. Schröt 引起。科恩的小麦叶斑病(无性型: Desmaz 的小麦发酵斑叶斑菌Roberge)是温带地区小麦种植的主要且持续的威胁 [ 1 , 2 ]。它被认为是欧洲最普遍和减产的病害[ 3 ],在有利于病害发展的条件下造成高达50%的产量损失[ 4 ]。控制这种疾病的主要方法包括使用杀菌剂和宿主抗性基因。欧洲使用的杀菌剂中近70%专门用于控制STB,成本高达10亿欧元[ 5]。这些战略的财务可持续性有限,需要更加多元化[ 6 ]。因此,了解STB症状是农业生态病害管理中的一个重要研究课题[ 7 ][ 8 ]。
STB 症状很复杂。病变上出现的坏死和分生孢子器可以有不同的形状、大小和颜色。更复杂的是,这些症状高度依赖于小麦小麦分离株、小麦基因型和环境条件[ 9 ]。潜伏期是导致 STB 症状难以检测的另一个因素。当小麦小麦感染小麦时,只有在接种后十多天的长时间无症状期后才会出现叶片病变。它逐渐形成坏死,可能含有分生孢子器(即无性子实体)[ 10]。这种延长的潜伏期使得很难区分疾病症状和叶子衰老的同时发生。这也使得在实验室条件下准确评估疾病严重程度变得复杂。然而,有一些方法和工具可以用来克服这些挑战。
准确、快速地对 STB 症状进行表型分析对于研究这种疾病至关重要。分生孢子器的识别和定量是研究疾病诊断和流行病的基本参数。分生孢子器是在现场条件下检测 STB 的一个显着特征。此外,量化分生孢子器可以作为真菌繁殖潜力和流行病学发展的指标[ 11 ]。准确的高通量表型分析对于进行遗传分析[ 12 ]以及研究替代控制方法(即农业生态方法)是必要的。在大多数情况下,这些方法对疾病的个体影响较低。当结合起来时,它们会对疾病产生整体影响,变得有趣[ 13]。与坏死百分比和分生孢子器产生相关的抗性 QTL 已被确定[ 14 ]。如果没有准确的症状检测工具,识别与小的表型变异相关的 QTL 就更具挑战性。因此,对复杂 STB 症状的研究需要开发基于图像的表型分析。这种类型的表型分析越来越多地用于实验,因为它提供了克服视觉评估局限性的解决方案。
评估者的视觉评估是评估 STB 严重程度的最常用方法,尤其是在现场 [ 15 ]。正如 Bock 等人所述,这种类型的评估在有效量化疾病的严重程度时提出了挑战。[ 16 ]。评估结果很大程度上受到评估者经验水平的影响,这使得疾病评估对于年轻研究人员来说是一项具有挑战性的任务。考虑到各个方面来解释评估者的偏差,例如促进协调评估的工具[ 17 ]或提出定量分子评估[ 18]]。最终目标是实现国际水平的标准化实验室间评估。图像分析工具的开发代表了标准化 STB 表型的一种手段。
在可用于对小麦病害症状进行表型分型的工具中,只有少数方法可用于评估与 STB 相关的症状(附加文件1,[ 19 ])。评估树冠的可用方法要么基于高光谱遥感 [ 20 , 21 ],要么基于动态建模和深度学习 [ 22 ],旨在将这种疾病与其他生物和非生物应激源区分开来。然而,这些方法都无法评估分生孢子器的产生。ImageJ 图像分析软件中的批处理宏已被开发出来,可以自动测量叶片上的病斑和分生孢子器 [ 11 , 23 , 24 ]]。RGB 颜色空间中的颜色阈值允许测量绿叶面积,从而测量病斑。“查找最大值”功能用于识别分生孢子器。另一种检测分生孢子器的方法是用 Python 开发的,该方法基于确定每个分生孢子器附近恒定亮度的轮廓[ 25 ]。最近,开发了一种工具来检测病变周界中存在的黄色光环[ 26]。它还根据将原始图像转换为六个颜色空间、用于阈值处理的随机森林分类器和后处理滤波器来检测病变。令人惊讶的是,尽管已经创建了对小麦主要叶部疾病进行分类的工具,但尚未开发出深度学习方法来量化 STB 症状(即叶子上的坏死和分生孢子器)[ 27 , 28 ]。尽管人们一直在努力创建检测机顶盒症状的工具,但专家的视觉分析仍然是最受欢迎的解决方案。
新工具的开发仍然是必要的,因为迄今为止开发的工具仅被少数实验室使用。它们非常耗时,难以转移到新的实验室环境,或者可能不准确。事实上,为检测 STB 严重程度而开发的工具似乎对于用于开发它们的训练集过于具体。传统图像处理技术的开发是劳动密集型的。每次调整可能会通过减少一幅图像的误报来改善结果,但会因引入另一幅图像的错误而降低结果。自然样本的可变性,加上预定义规则的严格性,使得在广泛的数据集中获得一致且准确的结果成为一项艰巨的任务。这些工具不适合或难以与在不同条件下获得的其他数据集一起使用。所以,
最近已经开发并比较了几种用于植物病害症状表型分析的方法。通过目视观察评估疾病发生率(例如受攻击植物的数量)相对简单。然而,估计疾病严重程度(例如单叶的疾病程度)需要复杂的认知[ 29]。这解释了开发准确而强大的表型分析工具的复杂性,这些工具必然依赖于最初的人类评估。机器学习是人工智能的一种形式,能够以最少的人为干预自动适应。深度学习是机器学习的一个子集,它采用高度复杂的神经网络。它有可能产生与专家评估相当的结果。对 STB 以外的植物病害图像分析方法的比较表明,在测量木薯火疫病的严重程度方面,机器学习(支持向量机 (SVM) 分类)优于 ImageJ(采用阈值处理和 ROI 掩模应用)[30 ]。此外,在 Sujatha 等人中。[ 31],深度学习方法[即 Inception-v3、视觉几何组(VGG-16 和 VGG-19)] 在柑橘病害分类方面优于传统机器学习方法(即 SVM、随机梯度下降和随机森林)。深度学习成为一种非常有前途的植物病害表型分析方法。
深度学习可以解决与 STB 症状表型相关的复杂问题。该方法基于人工神经网络,尽管本质上不同,但可以连接到人脑进行数据分析和特征学习[ 32 ]。深度学习在计算机视觉领域展现出了非常有前景的成果,包括目标检测、语义分割、图像分类等[ 33 ]。事实上,卷积神经网络 (CNN) 是检测植物叶片病害最常用的模型。它解决了传统机器学习方法固有的挑战,例如症状变化或背景干扰[ 34]。开发一种深度学习工具来量化 STB 症状似乎是准确区分坏死与衰老和量化分生孢子器的一种有前途的方法。这种方法可以增强对生物图像固有的复杂性和变异性的适应性和辨别力,同时通过微调模型参数来最大限度地减少错误。CNN 可以捕获并表示分层特征,从而可以辨别细微的变化和模式。此外,尽管可能需要广泛的培训和访问标记数据集,但与当前可用的方法相比,它提供了更高的准确性和更容易的适应能力。然而,据我们所知,深度学习尚未用于量化 STB 症状。
选择深度学习架构对于解决高性能问题非常重要。用于植物病害检测的深度学习架构 [ 35 ] 基于 CNN。U-Net架构[ 36 ]是一种深度学习分割架构,因其高性能而闻名并被广泛使用[ 22,37,38,39 ]]。语义分割是一种图像分析方法,根据图像的每个像素所属的对象或对象类对其进行分类。U-Net实现简单,需要少量的训练数据就有效,这对于其在生物学中的应用来说是一个显着的优势。基于U-Net架构的模型已被证明可以有效地检测各种疾病,并且具有高性能(F1分数大于0.85)[ 37 ]。选择这种坏死检测架构是基于其准确识别多边形形状的能力。另一个值得注意的架构是 YOLOv5(You Only Look Once version 5)架构 [ 40],专为实时物体检测而设计。YOLOv5 是一种对象检测模型,它将图像划分为网格,并将存在的对象及其大致位置预测为矩形。它以其速度、全局优化和端到端训练而闻名,共同提高了检测精度。该架构被认为对于目标检测非常强大且高效[ 41 ]。YOLO架构已应用于番茄病虫害检测,在准确性和检测速度方面优于Faster R-CNN、Mask R-CNN和SSD等其他架构[ 42]。选择这种架构进行分生孢子器检测是基于其执行快速、准确检测的能力。在这种情况下,由于待识别的分生孢子器尺寸小且数量较多,因此将分生孢子器近似为矩形以方便其检测和注释。因此,U-Net 和 YOLOv5 架构都有潜力分别对分生孢子器等物体和坏死等多边形进行更准确的量化。
在这项工作中,我们测试了深度学习技术是否能够准确地区分 STB 引起的坏死和叶片衰老症状,并使用各种数据集精确量化 STB 坏死和分生孢子器。我们开发了一个图像分析脚本,名为 SeptoSympto ( https://github.com/maximereder/septo-sympto )。基于 U-Net 和 YOLO 架构的深度学习模型在小型数据集上进行训练,以便能够快速、定量和准确地对受控条件下获得的 STB 症状进行表型分析。
材料和方法
材料和图像采集
我们从第三片完全发育的叶子中获取叶子,并在接种后 17 或 21 天收获。为了最大限度地减少图像捕获中的可变性来源,我们保持一致的图像分辨率,采用固定的图像背景并确保叶子没有弯曲。每片叶子都被小心地固定在 A4 粘纸上,封装在透明袋中并进行扫描。所有扫描图像均以 1200 dpi 的分辨率捕获并以 TIFF 格式保存,以确保与 SeptoSympto 脚本的兼容性。SeptoSympto 要求水平扫描休假。如果有文本,我们使用软件 XnView 将其删除并重命名孤立的叶子。
我们为数据集选择图像的目的是代表最大程度的症状多样性,同时保持数据集中每个小麦品系的均匀分布。使用不同的数据集来训练和评估模型,如表 1所示。为了代表影响症状发展的最大可能因素,这些数据集来自三个实验室,涵盖四种生长条件,以两种小麦品种为特色,并包括一组不同的小麦基因型。
表 1 用于开发 SeptoSympto 的数据集信息
全尺寸桌子
数据标注
我们在 Roboflow 上对单个叶子图像进行了注释过程。它是一个专门为数据标注而设计的在线平台,以方便计算机视觉模型的训练(https://roboflow.com/或https://docs.roboflow.com/)。一位专家创建了两个独立项目来注释 STB 症状,一个基于坏死的语义分割,另一个基于分生孢子器的对象检测。
总共 375 个叶子用多边形类标签注释坏死,而 240 个叶子用矩形类标签注释分生孢子器。注释过程包括将每个图像放大到最大程度,并有选择地注释最暗的像素,以准确地表示坏死或分生孢子器。这种细致的方法旨在提高注释的准确性。由于坏死或分生孢子的尺寸可能有所不同,注释主要基于其独特的颜色和形状。
两名专家进行了注释,随后进行了交叉验证过程以确保准确性和一致性。此后,注释数据以兼容的格式导出:坏死项目的 PNG 格式的二进制掩码和 pycnidia 项目的 TXT 格式的坐标表。
模型训练
坏死检测模型使用 U-Net 架构[ 36 ]进行训练,而分生孢子器检测则使用 YOLO(You Only Look Once)架构[ 43 ](图 1A)。所有训练均使用 Python 作为编程语言,在配备 Intel Core i5 处理器和两个 T4 图形处理单元 (GPU)(每个具有 16 GB 内存)的计算机上进行。
图。1
图1
模型训练和 SeptoSympto 脚本的总体工作流程。A接种小麦发酵斑孢菌的小麦叶片图像在 Roboflow 上分两个阶段进行注释:第一阶段使用坏死分割,第二阶段使用分生孢子器对象检测。导出坏死注释图像,并使用 U-Net 架构通过 Python 中的 Tensorflow 库训练模型。导出 Pycnidia 带注释的图像,并使用 YOLOv5 架构通过 Python 中的 Pytorch 库训练模型。模型训练的脚本可在https://github.com/maximereder/septo-sympto上找到。乙要运行图像分析,文件夹必须包含如下所述的不同文件以及https://github.com/maximereder/septo-sympto上提供的脚本 SeptoSympto。图像存储在名为“images_input”的文件中。可以添加名为“csv_input”的 csv 格式文件,其中包含每个图像的信息以及第一列中每个图像的名称。用于坏死和分生孢子器检测的模型存储在“models”文件中。使用输入数据,脚本将首先根据颜色范围和最小表面检测叶子,切割每片叶子并调整其大小。叶子用图像的文件名和叶子编号重命名,并保存在名为“cropped”的文件中。第二个函数使用坏死模型预测每个像素属于坏死类别的概率,并创建二进制掩模。应用阈值以仅保留检测到的具有最小表面和周长与面积比的区域。该函数返回绘制了坏死轮廓的图像,坏死总面积和坏死数量。第三个函数使用分生孢子器模型从分析的图像中预测矩形和置信度,并且仅保留具有最小置信水平的分生孢子器坐标。该函数返回绘制了分生孢子器轮廓的图像、分生孢子器的总面积和分生孢子器数量。运行图像分析后,输出是包含测量结果的 csv 文件
全尺寸图像
坏死模型使用 U-Net 架构进行语义分割,并通过 Tensorflow 库实现 ( https://github.com/maximereder/unet )。相比之下,pycnidium 模型采用 YOLOv5 架构进行目标检测,并使用 Pytorch 库实现[ 40 ]。对于这两种模型,训练都是在由 50、100、200 或 300 个带注释的图像和代表最大训练数据集 20% 的验证集组成的数据集上进行的。模型的输入尺寸设置为304×3072像素的图像尺寸。
我们对分生孢子器应用了水平和垂直反转形式的数据增强,而对坏死则没有采用数据增强。在训练过程中,模型最初在 200 个时期内每批次处理 16 张图像。模型超参数主要遵循默认设置。坏死模型使用 Dice 损失函数,而分生孢子模型使用标准 YOLO 损失函数,包括定位、分类和置信度得分。选择的优化器是 Adam,坏死的初始学习率为 0.0001,分生孢子器的初始学习率为 0.001。如果训练指标在 10 个时期后保持不变,则在训练期间采用耐心计数来停止该过程。与当前最佳结果相比,该计数随着未能产生更好的验证损失的每个时期而增加。
我们将生成的模型保存为 .h5 格式(用于坏死)和 .pt 格式(用于分生孢子虫)。.h5 扩展名与 TensorFlow 库一致,通常用于保存机器学习模型,保留分割模型的架构和学习的权重。相反,.pt 扩展名是保存 PyTorch 模型的标准格式,包含模型的架构和权重参数。
图像分析
SeptoSympto 脚本通过处理单个叶子来检测坏死和分生孢子器,为使用深度学习模型进行分析做好准备(图 1 B)。
要启动图像分析,可在以下网址获取脚本使用的综合指南、SeptoSympto 脚本以及用于坏死和分生孢子检测的 CNN 模型(特别是 necrosis-model-375.h5 和 pycnidia-model.pt):https: // github.com/maximereder/septo-sympto。此外,还有多个选项可用,例如包含包含图像相关信息的 CSV 文件,每个图像名称都列在第一列中。
SeptoSympto 脚本包含三个主要功能。SeptoSympto 脚本中的第一个函数使用最小面积和颜色范围等标准来检测每片叶子。随后,它继续切割叶子、调整大小并重命名。第二个函数侧重于预测每个像素属于坏死类别的概率,从而创建二进制掩码。这是通过应用基于最小面积和最大周长与面积比的阈值来实现的。第三个函数使用 Pycnidia 模型来预测分析图像中的矩形和置信度分数。它保留超过预定义置信度阈值的分生孢子器坐标,并限制每片叶子的分生孢子器预测的最大数量。图像分析完成后,生成的输出包含裁剪后的图像,
模型评估
模型性能的评估指标
在 SeptoSympto 脚本中实现模型之前,我们使用指标和专家观察测试并比较了使用不同大小的数据集训练的多个模型。
高精度表示误报检测最少,这意味着模型能够准确识别大多数真阳性。高召回率表示最大的真阳性检测和最少的假阴性,这意味着模型有效地捕获了真阳性,没有明显的遗漏。F1 分数是查全率和查准率的调和平均值,值越高表示模型性能越好。
与专家评价对比
我们使用 Spearman 相关性将性能最佳模型获得的结果与专家评估进行了比较。Spearman 相关性是一种非参数检验,适合确定测试变量之间单调关系的显着性。Spearman 等级相关系数提供了对单调关系强度的洞察,而 p 值则确定了其显着性。
专家进行了目视评估,量化了总叶表面上存在的坏死面积和含有分生孢子器的坏死面积。该过程遵循标准精度实践,根据常见评估协议将测量结果四舍五入到最接近的单位。
结果
脚本开发和模型验证
在将最终模型合并到 SeptoSympto 脚本之前,我们使用数据集 1 的不同子集总共训练了四个坏死模型和三个分生孢子模型。使用三个指标来评估模型:精度、召回率和 F1 分数。
指标分析表明,使用不同大小的训练数据集训练的模型之间的差异很小(表 2),这表明用于模型创建的带注释叶子的数量可能很小,这不会影响模型性能。然而,使用大量带注释的叶子进行训练的模型 N3 和 P2 被选择集成到 SeptoSympto 脚本中。它们可以更好地表示各种可观察到的症状,从而促进实验室间使用模型的潜在改进泛化。
表2 坏死和分生孢子模型的指标
全尺寸桌子
这些指标允许选择模型并验证其性能。SeptoSympto 脚本中用于检测坏死的 N3 模型的精度为 0.95,召回率为 0.85,F1 分数为 0.90(表 2)。这表明我们的模型适合检测坏死。损失函数表示模型在训练集上产生的累积误差,仅在 20 个 epoch(训练周期)后就达到了较低值(附加文件2)。这一观察结果强调了该模型能够最大限度地减少专家注释和模型预测之间的差异,从而无需进一步训练。相反,在 SeptoSympto 脚本中实现的用于检测分生孢子虫的 P2 模型的精度为 0.56,召回率为 0.25,F1 为 0.34(表 2)。考虑到在叶子上检测到大量分生孢子器的潜力,即使经过 183 个 epoch,指标仍然很低。检测大量对象本身就给实现高度量值带来了更大的困难。尽管如此,训练集和验证集的损失函数曲线都在下降(附加文件2)。这表明每次迭代的错误都会减少。因此,根据与训练和验证数据的最低损失函数相对应的参数,选择了最佳模型。
除了模型指标之外,输出的观察对于验证模型也同样重要。利用 N3 和 P2 模型,图 2中描述的观察结果再次证实了模型准确识别和量化分生孢子和坏死的能力,无论其数量(无症状、无分生孢子的坏死、分生孢子密度范围、坏死大小)和所呈现症状的多样性(坏死和分生孢子颜色)。
图2
图2
SeptoSympto 检测到的小麦发酵斑孢菌症状的图像。在“裁剪”文件中获得的切割后的 SeptoSympto 图像输出显示在左侧,坏死和分生孢子检测后的 SeptoSympto 图像输出显示在右侧。坏死轮廓为绿色,分生孢子器为红点
全尺寸图像
剧本评估
为了评估 SeptoSympto 脚本的性能,我们对两个独立的数据集进行了分析。两者都与用于模型创建的不同。数据集 2 包含 40 个叶子,而数据集 6 包含 55 个叶子(表 1)。
使用与模型训练相同的条件下捕获的图像评估 SeptoSympto
SeptoSympto 脚本用于评估数据集 2,同时由两名独立专家进行评估。应用 Spearman 相关分析来检查 SeptoSympto 输出与专家评估之间的单调关系(表 3,附加文件3))。我们的结果表明,脚本生成的输出与总叶表面坏死面积的手动评估之间存在很强的相关性(专家 1:ρ = 0.94,p < 0.001,专家 2:ρ = 0.75,p < 0.001)对于含有分生孢子器的坏死区域(专家 1:ρ = 0.83,p < 0.001,专家 2:ρ = 0.80,p < 0.001)。SeptoSympto 和专家之间的相关值与两位专家本身之间获得的相关值在同一数量级内(坏死:ρ = 0.74,p < 0.001 和分生孢子器:ρ = 0.95,p < 0.001)。这种一致性是意料之中的,因为深度学习模型是根据另一位独立专家(专家 3)注释的数据进行训练的。
表 3 多个评估数据集的专家评估和 SeptoSympto 输出之间的坏死和分生孢子器检测相关性结果摘要
全尺寸桌子
SeptoSympto 与 ImageJ 宏的比较。
为了比较可用于 STB 表型分析的不同工具,我们将数据集 6 提交给 Steward & McDonald 2014 和 Stewart 等人开发的工具。2016 [ 23 , 24 ],SeptoSympto 脚本和视觉评估(图 3)。两种工具之间的相关性不大(分生孢子器数:ρ = 0.55,p < 0.001,坏死面积:ρ = 0.59,p < 0.001)。然而,与 ImageJ 和专家 1 之间观察到的相关性(坏死:ρ = 0.45,p < 0.001 和分生孢子器:ρ = 0.57,p < 0.001)。应该注意的是,专家 1 独立于开发 SeptoSympto 的专家 3。因此,这一观察结果强调了 SeptoSympto 超越了之前的工具 [ 23 ],作为量化 STB 症状的更准确的工具。
图3
图3
数据集 6 中坏死和分生孢子检测的专家评级、Image J 和 SeptoSympto 输出之间的相关性。对使用 CanoScan 9000F MarkII 扫描仪扫描的 55 个面包小麦叶片的坏死和分生孢子测量的专家评估、Image J 和 SeptoSympto 进行了比较分析使用 Spearman 相关性。数据集 6 是在不同的生长条件下获得的,具有不同的小麦菌株和与用于模型训练的数据集不同的品种
全尺寸图像
脚本传输
基于机器学习技术的表型分析的一个主要问题是过度拟合的风险,即模型对于训练集变得过于特定。然而,上面的分析表明我们的脚本没有表现出任何过度拟合。它可以有效地检测不属于模型训练的数据集中的坏死和分生孢子器(表 3)。值得注意的是,数据集2是在与训练集相同的条件下(相同的品种、菌株、生长条件和扫描仪)获得的。为了确保该工具在不同条件下的适用性,我们研究了与用于创建模型的数据集相比,SeptoSympto 在不同条件(包括不同物种、品种、菌株、生长条件和扫描仪)的数据集上的表现是否同样良好。
使用从不同生长条件获得的图像评估 SeptoSympto
我们通过评估数据集 3 来启动评估,该数据集是在相似条件(品种、菌株和扫描仪)下获得的,但生长条件有所不同。SeptoSympto 与坏死(专家 1:ρ = 0.95,p < 0.001 和专家 2:ρ = 0.90,p < 0.001)和分生孢子器(专家 1:ρ = 0.58,p < 0.001 和专家 2: ρ = 0.81,p < 0.001)(附加文件4)。专家之间的相关性也很高(坏死:ρ = 0.95,p < 0.001 和分生孢子虫:ρ = 0.80,p < 0.001),与数据集 2 获得的结果类似。这些发现表明 SeptoSympto 可以有效地适应来自不同的生长条件。
使用硬粒小麦图像进行 SeptoSympto 评估
为了进一步评估其性能,我们在数据集 4 上测试了 SeptoSympto 的功能,数据集 4 包含另一个物种的叶子:硬粒小麦接种了不同的菌株,但在与数据集 3 类似的条件下生长,并使用相同的扫描仪进行扫描。对于坏死,SeptoSympto 结果与专家手动评分之间的相关性仍然很高(附加文件5 A)(专家 1:ρ = 0.96,p < 0.001,专家 2:ρ = 0.92,p < 0.001;专家之间的相关性:ρ = 0.88 ,p < 0.001)和分生孢子虫(专家 1:ρ = 0.69,p < 0.001 和专家 2:ρ = 0.71,p < 0.001;专家之间的相关性:ρ = 0.89,p < 0.001)。这表明 SeptoSympto 在面包小麦和硬粒小麦物种的数据集上均表现有效,即使是不同的小麦菌株。
使用来自不同生长条件和扫描仪的图像进行 SeptoSympto 评估
此外,我们评估了脚本性能是否对不同实验室的图像捕获敏感。数据集 5 由来自数据集 1、2 和 3 中已存在的三个品种的 115 个叶子组成,接种了与这三个数据集相同的菌株,但在不同的条件下生长并使用不同的扫描仪进行扫描。SeptoSympto 和专家 1 结果之间获得的相关性仍然很高(坏死:ρ = 0.83,p < 0.001 和分生孢子器:ρ = 0.81,p < 0.001)(附加文件5B)。最后,数据集 6 包含来自同一品种的 55 个叶子,接种了不同的菌株,并使用不同的扫描仪进行成像,同时保持相同的分辨率。SeptoSympto和专家1之间的相关性没有降低(坏死:ρ = 0.76,p < 0.001和分生孢子器:ρ = 0.94,p < 0.001)(图 3),表明SeptoSympto可以有效地分析来自不同扫描仪的图像。这些结果强调 SeptoSympto 是在不同实验条件下准确分析 STB 症状的强大工具。
讨论
随着人工智能的出现,高通量表型分析呈指数级增长,不仅涵盖可见光谱图像,还涵盖其他光谱范围。这种方法可以快速、轻松且可重复地获取高质量的表型数据。然而,小麦STB症状的表型仍然主要依赖于视觉评估,这是一个劳动密集型且耗时的过程,需要专业知识[ 44]。为了应对这一挑战,我们开发了一个使用深度学习技术的图像分析脚本。它可以通过预先训练的卷积神经网络对 STB 引起的坏死和分生孢子器进行精确表型分析。CNN 架构减轻了图像注释的负担,并能够通过扫描的小麦幼苗叶子更准确地量化 STB 症状,尤其是分生孢子器检测。我们的脚本名为 SeptoSympto,采用两种在小数据集上训练的模型:一种模型使用 U-Net 架构进行训练,通过语义分割进行坏死检测,另一种模型使用 YOLO v5 架构进行训练,通过对象检测来区分分生孢子虫。通过用于评估脚本的 6 个不同数据集获得了专家评估和 SeptoSympto 输出之间的高度相关性。Z. tritici菌株,并在不同条件下生长。
SeptoSympto 目前是唯一可用于 STB 表型分析的实验室工具,采用 CNN 等创新方法(附加文件1)。对由与开发 SeptoSympto 和 ImageJ 宏 [ 23 ] 的实验室不同的实验室获得的数据集进行评估,以比较这两种工具。很明显,使用最先进的 CNN 架构可以提高 STB 检测的可靠性。此外,最近一项关于 STB 表型分析的实地研究 [ 22] 采用了 U-Net 架构,与 SeptoSympto 中用于坏死量化的架构相同,证明了其在现场疾病检测中的有效性。与其他基于图像的工具相比,使用深度学习模型来量化机顶盒症状提高了准确性。SeptoSympto 工具还具有优于 STB 症状视觉评估的优势。
在将新工具与最常用的方法(视觉评估)进行比较时,分析时间、数据存储、准确性和可用性等标准非常重要。为了获得模型,对于深度学习模型来说,注释图像(10 个叶子需要 1 小时)和训练模型(1 到 3 小时,取决于叶子数量)所需的时间仍然很短。少量数据被注释以用于训练。在图像分析方面,与视觉评估相比,图像采集需要额外的时间,因为必须收集、粘贴和扫描树叶(80 片树叶需要 60')。然而,用于裁剪图像并检测坏死和分生孢子的脚本的执行时间(1'45'',10片叶子)几乎相当于视觉评估时间(2'22'',10片叶子)。通过目视评价,我们获得存储在表中的定量数据。这需要最小的存储空间,但它会丧失对原始数据(叶子观察)的访问。此外,视觉评估需要专业知识,并且只能获得含有坏死的叶子的面积或含有分生孢子的坏死的面积,但不能获得分生孢子的数量。相反,SeptoSympto 根据所选脚本输出保留扫描的叶子图像。此外,该图像分析工具可产生更精确的数据。与目视评估含有分生孢子的叶面积相比,分生孢子的数量可能是评估孢子形成能力的更好指标。更好地检测分生孢子器数量可以更好地评估 STB 菌株的攻击性。此外,视觉评估需要专业知识,并且只能获得含有坏死的叶子的面积或含有分生孢子的坏死的面积,但不能获得分生孢子的数量。相反,SeptoSympto 根据所选脚本输出保留扫描的叶子图像。此外,该图像分析工具可产生更精确的数据。与目视评估含有分生孢子的叶面积相比,分生孢子的数量可能是评估孢子形成能力的更好指标。更好地检测分生孢子器数量可以更好地评估 STB 菌株的攻击性。此外,视觉评估需要专业知识,并且只能获得含有坏死的叶子的面积或含有分生孢子的坏死的面积,但不能获得分生孢子的数量。相反,SeptoSympto 根据所选脚本输出保留扫描的叶子图像。此外,该图像分析工具可产生更精确的数据。与目视评估含有分生孢子的叶面积相比,分生孢子的数量可能是评估孢子形成能力的更好指标。更好地检测分生孢子器数量可以更好地评估 STB 菌株的攻击性。SeptoSympto 根据所选脚本输出保留扫描的叶子图像。此外,该图像分析工具可产生更精确的数据。与目视评估含有分生孢子的叶面积相比,分生孢子的数量可能是评估孢子形成能力的更好指标。更好地检测分生孢子器数量可以更好地评估 STB 菌株的攻击性。SeptoSympto 根据所选脚本输出保留扫描的叶子图像。此外,该图像分析工具可产生更精确的数据。与目视评估含有分生孢子的叶面积相比,分生孢子的数量可能是评估孢子形成能力的更好指标。更好地检测分生孢子器数量可以更好地评估 STB 菌株的攻击性。45 ]。使用 SeptoSympto 进行检测还可以避免专家之间符号的差异。专家们可以观察到对分生孢子器覆盖的叶面积的估计存在差异,具体取决于分生孢子器密度或该区域内的大小。在这里,评估者拥有十多年的机顶盒专业知识。使用 SeptoSympto 工具,非专家也可以准确研究 STB 的严重程度。该工具的目的是在准确性上与专家评估相当,同时还提供额外的优势,例如专家和非专家的用户友好性、数据存储或快速分析,这要归功于适应问题的模型。
开发深度学习模型需要控制源的可变性,以及方法和数据集问题[ 32 ]。用于训练坏死和分生孢子器检测模型的数据集由标准化采集获得的图像组成,并包含少量注释数据。因此,可以轻松地重新创建模型。当训练数据集较小时,它揭示了所选检测方法的有效性[ 46]。因此,所使用的架构都是经过精心选择的,以最适合我们的问题。模型约束不足和过度约束可能会导致性能不佳。因此,实现最佳性能依赖于拥有足够的训练数据。就 SeptoSympto 而言,改变训练数据集大小并未带来性能改进,这表明已达到最佳训练数据集大小。此外,我们开发了一种尽可能节俭的工具[ 47],以便以最少的资源消耗构建最准确的模型。因此,SeptoSympto 是一个使用深度学习模型以 Python 编码的端到端脚本。它执行速度快,并提供多种选择输入和输出文件的选项。用于开发脚本的方法不仅被选择为最强大的,而且也是最节俭且易于使用的。模型在小数据集上进行训练,并且可以在具有不同处理器和显卡的计算机上进行训练,以方便新模型的训练。所有这些都可以轻松注释图像并训练坏死和分生孢子器检测模型。
部署新表型分析方法的关键问题涉及它们在实验室之间的可转移性以及研究界的接受度。SeptoSympto 工具的开发目的是在以 1200 dpi 扫描的广泛数据集上高效工作,并轻松适应其他数据集。为了避免深度学习模型的常见问题:过度拟合[ 46],一种交叉验证,用于验证 SeptoSympto 中实现的模型,是在带有专家符号的多个数据集上执行的。模型指标可能显得适度,特别是对于分生孢子器。然而,脚本输出和专家评分之间的高度相关性,不受数据集变化的影响,支持我们模型的稳健性以及不存在过度拟合。因此,开发 SeptoSympto 可以创建一个精确的 STB 表型分析工具,同时促进其适应性和可转移性,以便实现 STB 症状实验室间评估的标准化。
根据地块管理、比率表型或流行病学调查等应用,可以在不同的检测尺度上开发基于图像分析的植物病害检测工具:在叶子、植物或覆盖物的水平上进行量化,及早发现或发现疾病。就 SeptoSympto 而言,它是一种叶子表型分析工具,可以准确量化坏死和分生孢子器的 STB 严重程度。虽然我们当前的 SeptoSympto 模型提供了精确的检测和脚本可转移性,但我们可以创建一个带有注释数据的开放访问数据库,以在更大的数据集上训练模型,包括由众多实验室扫描的叶子,以允许在国际上使用单个脚本尽可能稳健的水平。此外,该脚本可用于检测田间的 STB 症状,这些症状与在对照条件下观察到的症状以及在同一叶子上观察到的其他疾病的症状非常不同。通过使用便携式扫描仪和训练新模型可以轻松实现对现场数据的适应。
结论
小麦斑枯病 (STB) 是一种广泛研究的疾病,因为它对小麦种植具有显着且持久的影响。在这种情况下的一个主要挑战是开发一种自动化表型分析工具,能够准确有效地分析扫描图像的症状,同时保持可转移性。为了应对这一挑战,我们开发了 SeptoSympto 工具。它是一个用 Python 编写的脚本,使用深度学习模型来检测 STB 症状。这些模型是在相对较小的数据集上进行训练的,以促进该工具的可移植性。使用 U-Net 和 YOLOv5 架构对坏死和分生孢子器进行量化。