新闻资讯

植物生长模型的实用可识别性:统一框架及其对三个局部指数的规范

介绍
可识别性分析有助于参数模型的设计,从概念形式化到使用现场收集的数据估计其参数。特别是在植物生长建模中,这种分析对于建模过程的重要性根据所选的建模范式而变化。在我们的论文中,“生长模型”一词被广泛使用,包括解决生长的生物学方面(生物量和产量等可量化的变化)和植物的发育方面(植物器官的结构和形态变化)的模型。两个可以区分主要的建模方法[ 1]: (a) 机制模型(也称为概念模型、知识驱动模型或白盒模型)以系统的基本生物学原理和物理定律为基础,旨在提供对植物生长所涉及机制的详细理解。机械模型方程中出现的不同术语具有生物学解释。(b) 经验模型(也称为描述性模型、统计模型、数据驱动模型或黑盒模型)依赖于大型数据集,其构建在于选择先验的灵活模型结构(从最简单的线性模型,到最近流行的模型)神经网络),其参数是使用训练数据集估计的,并且不一定有解释(它们通常没有解释):该模型被设计为一个“黑匣子”,能够忠实地再现某些输入输出关系。那里不需要先验的植物生长专家。随着廉价且高效的传感器的普及,机器学习和深度学习模型在植物生长建模中越来越受欢迎,特别是涉及大规模数据分析、分类和预测的应用。 2]。然而,这些模型在可解释性和普遍性方面存在局限性,因为它们无法推断到训练数据集中未包含的条件。

因此,尽管机器学习算法高度媒介化,机械方法在植物生长建模中仍然占有重要地位。它们可以帮助评估新的管理适应措施和无法测量的环境影响 [ 3 , 4 ],并指导培育更具复原力的作物 [ 5 ]。当实验数据稀缺且昂贵时,它们甚至是不可替代的。根据[ 6 ],机械模型可以大致分为两类。

(a) 由许多最精细尺度的相互作用子模块组成的复杂模型,旨在描述植物发育和生理学的每一个过程(例如,[ 7 , 8 ]),但其可扩展性仍然有限[ 3 , 9 ]。在这种方法中,参数值直接根据实验测量或参考书目设置,并且根据模型呈现涌现属性的能力来评估模型,这些属性再现了模型中未明确描述的观察到的行为。这里避免了通过模型的全局反演进行参数估计,因为它会在不同模型组件之间引入潜在的补偿。

(b) 旨在以更全局的方式描述植物行为的模型,仅使用一组有限的主方程和尽可能少的参数(例如,GreenLab [ 10 ]、LNAS [ 11 ])。这种方法实际上部分是经验性的,因为大多数情况下,某些模型组件包含未知或无法直接测量的参数,因此需要使用统计推断程序根据真实系统或其子系统的数据来估计它们[ 12]。由于这些参数具有生物学意义,因此它们的估计值应尽可能接近其各自的“真实”值,这提出了该过程的解的唯一性问题。我们将可识别性分析称为对模型参数与其输出之间对应关系的研究。缺乏可识别性并不一定意味着参数估计技术会失败,但某些获得的数值估计可能毫无意义[ 13 ]。

可识别性分析有两种。结构可识别性[ 14 ]分析旨在确定将参数与模型输出相关联的函数是否是一对一的。这里,假设系统的可观测变量被完美测量,如果需要的话,具有无限的分辨率和采集持续时间([ 15,16,17 ] )。结构可识别性分析实际上在于探索模型结构本身。证明不可识别性可以导致建模者改变其模型的特定方面,例如,改变搜索参数的域,或改变模型的表达。

文献中关于结构可识别性的定义总体上是一致的,但根据作者的不同,它们可能或多或少具体[ 18 , 19 ]。已经提出了几种用于模型的结构可辨识性分析的方法,使用幂级数展开、李群、微分代数和微分几何,如[ 15 ]或[ 20 ]等中详述。分析证明常常受到符号计算复杂性的阻碍,即使模型相对简单,符号计算也可能变得棘手[ 21 ]。从 2007 年发布的 DAISY 等前身开始,已经开发了许多软件工具来自动执行此任务 [ 22]),到最近的一些,例如 Python 模块 StrikePy [ 23 ]、Julia 包 StructuralIdentifiability [ 24 ] 或 Matlab 工具箱 RORC-DF [ 25 ],所有这些均于 2022 年发布。Rey Barreiro 和 Villaverde [ 26 ] ] 对 13 个不同的全局可识别性分析工具进行了基准测试,并报告说 Maple 工具箱 SIAN [ 27 ] 和 Julia 包 StructuralIdentifiability [ 24 ] 在可靠性和执行速度方面优于其他工具。

第二种可识别性分析,即实际可识别性[ 28 ],包括在给定所研究系统的观察协议的情况下确定估计参数的准确性。这里要考虑数据采集的测量误差、不确定性和有限分辨率。至于其量化,情况比结构可识别性更加混乱,因为多个概念并存且不一定一致。
其中,一些指数使用似然几何(轮廓或非轮廓)来量化其平坦度[ 29 ],其他指数测量估计器的平均误差[ 18 ]并评估灵敏度矩阵的满秩[ 30 ],以及广泛的范围指数基于 Fisher 信息矩阵,也考虑了实验设计的优化 [ 28 ]。一些作者将实际可识别性称为后验可识别性,强调这种分析可以在数据采集后进行,而结构可识别性被称为先验可识别性,强调它仅取决于模型本身(例如,在[ 19]中,26 , 31])。然而,在现实生活中的应用中,也可以在数据收集之前执行实际可识别性,并且建议这样做,因为它提供了有关所需的测量精度、最短时间或空间分辨率的有价值的信息。因此,我们在这里更喜欢使用术语“结构”和“实用”。
在这种情况下,我们的目标首先是展示如何在需要根据每个应用案例实例化的通用通用形式下收集结构和实用可识别性定义的多个版本。在更具应用性的第二步中,我们关注三个广泛使用的指标来量化实际可识别性,即共线性指标[ 32 ]、基于轮廓似然的置信区间[ 29 ]和平均相对误差(ARE)[ 18 ]]。我们强调本地版本的缺点并提出一些扩展。我们还提出了一个新的风险指数,该指数建立在基于概率的置信区间的基础上。我们通过分析两个动力系统的实际可识别性来说明我们的方法:离散时间植物生长模型和植物种群中的连续时间流行病模型。为了清楚起见,这两个模型的描述被切换到“应用和结果”部分。

可识别性定义
模型形式主义
在这项工作中,我们考虑了代表大多数植物生长模型的连续时间和离散时间动态模型的可识别性问题。

实用可识别性:一般概念
虽然结构可识别性与模型相对于其参数的单射性有关,但实际可识别性解决了不同的问题,这些问题与通过对一组实验观察进行统计推断来识别参数的能力有关。定义实际可识别性的主要困难之一是人们可以在文献中找到各种各样的定义。在本节中,我们将介绍理论框架来比较这些不同定义的利害关系和目标。

实际可识别性的其他定义与参数估计方法隐含相关。参数估计分为两个主要范式:确定性方法和随机方法。确定性方法在于最大化似然性或后验分布,而随机方法在于确定参数相对于给定先验的后验分布或从该后验分布进行采样。总的来说,所有这些估计过程都可以通过将一组观测值z与 θ 上的概率分布相关联的函数来形式化

共线性指数的特殊情况:在没有测量噪声的情况下的实际可识别性
在实际可识别性分析的初始阶段,在不受测量误差干扰的情况下评估观测协议 Obs 可能是有意义的。通过考虑理想的实验方案,我们深入了解其设计(测量的数量、类型和次数等)对参数识别的影响。
在没有测量噪声的情况下,与观测协议 Obs( M ( θ )) 相关的观测值的分布是确定性的,即以所考虑时间的可观测值为中心的狄拉克分布。例如,如果实验协议包括在时间t 1、t 2、 … 、t T观察系统,则观察结果的分布为

如果实验方案设计得好,函数η的单射性可以等价于模型的结构可辨识性。相反,对函数η的研究可以帮助诊断潜在的结构不可识别性来源,这是由参数之间的补偿效应引起的。k阶补偿效应意味着参数的变化可以通过某些k -1 个其他参数的变化来补偿,以获得不变的模型输出。大多数检测和展示此类局部补偿效应的方法都是基于灵敏度矩阵(见下文)和 Fisher 信息矩阵 [ 31 , 38]]。相比之下,Hengl 等人提出的方法。[ 39 ]包括根据不同的初始猜测执行大量拟合,并以非参数方式(使用交替条件期望方法)研究获得的参数集是否形成低维流形。这种方法可以检测参数之间的非线性依赖性,但它会带来计算成本。在我们的研究中,我们考虑了[ 32 ]中引入的共线性指数方法,即使对于复杂模型,该方法也相对容易计算,并且可以处理大型参数集(另请参见[ 40]]用于大规模模型的应用,即具有大量参数的模型)。

共线性指数可以被认为是模型参数的局部和实际可识别性的量化。如果矩阵S T S是奇异矩阵,则在θ的邻域中存在θ ′,并且与θ不同,使得η ( θ ) =  η ( θ ′)。否则,共线性指数量化输出函数η与局部不可逆的接近程度(共线性指数的高值意味着矩阵是病态的)。
局部共线性指数方法的应用在“LNAS,一个简单的植物生长模型”部分的LNAS模型上进行了说明。
基于轮廓的可能性的风险指数
让我们考虑在T 个观测时间t 1 , …, t T处观测到的具有加性高斯误差的动力系统S的特殊情况。为了实际可识别性,

请注意,即使目标函数对此参数具有唯一的最小值(结构可识别性的情况),这种实际不可识别性的情况也可能发生。在参数具有生物学意义并因此自然地限制在某些先验区间的情况下,在应用 Raue 的 PLCI 方法之前,应首先通过双射函数(例如,必须保持正数的参数的自然对数)将它们映射到ℝ。
该指数的一个重要限制是,对实际可识别性问题的二元答案信息不够丰富,因为它缺乏一些量化:它不允许区分可以轻松消除不可识别性的情况(例如,通过减少噪声)来自无法补救的情况(例如结构性不可识别的情况)。

参数估计误差越小,参数的可识别性越高,因此参数的ARE指数越接近0。该指数反映了估计参数的平均不确定性。对于它们的解释和实际使用,重要的是要记住 ARE 值取决于估计程序(初始猜测和优化算法)并且非常特定于参考参数θ *。
不管计算成本有多高,我们建议当从给定的先验分布中得出参数θ *时,通过计算它们的平均值来“全球化”ARE 指数。
应用和结果
我们进行了两个案例研究来说明这些概念的应用:离散时间个体植物生长模型 LNAS,该模型将允许探索使用共线性指数来检测补偿效应,以及连续时间植物种群流行病模型,该模型将允许探索使用共线性指数来检测补偿效应。将用于调查从本地指数切换到全球扩展的兴趣。
LNAS,一个简单的植物生长模型
LNAS简介
LNAS 属于预测植物生长模型家族,其复杂性低于描述性模型,因为它们主要用于预测产量或生物量生产 [ 11 ]。LNAS 是为模拟甜菜生长而开发的,是一种经验性隔室规模模型,旨在预测根部和叶隔室的生物量分配。t天的生物质产量Q ( t )(单位为g . m −2 )使用比尔-朗伯定律的扩展进行建模,具体取决于截获辐射的比例

为了进一步说明这种效应,我们在图1 B 中绘制了 ( rue ,  σ a ) = (3.6,950) (蓝色曲线)与( rue , σ a ) = (3.6,950)的 产量(根室质量)随时间的变化曲线σa​ ) = (3.8,1300)(橙色)。这些值是通过手动观察目标函数的热图任意选择的。尽管这些参数值分别相差 5% 和 30%,但这两条曲线几乎无法区分,都与数据(点)一致。
然后,我们计算参数的每个子集的共线性指数。图2显示,对于超过三个参数的子集,共线性指数可以达到大于 500 的值,表明存在很强的不可识别性问题。它还表明成对分析是不够的:实际上,具有最高共线性指数的子集都包含(RUE, 例如,  γ 0,  γ f,  μ a ),即不涉及对(RUE,  σ a)以前研究过。这样的结果允许确定应该避免一起估计哪些参数子集。我们注意到,将参数σ s添加到子集(RUE,例如,γ 0,γ f , μ a,σ a)不会改变子集的共线性指数。对于子集μ s也是如此( RUE,例如, γ 0,γ f ,μ a)。这意味着当尝试估计这些子集的参数时,固定σ s或μ s不会有太大帮助。因此,这样的表可以指导参数估计的顺序。

植物种群中的流行病模型
作为第二个说明性案例研究,我们选择了[ 43 ]中提出的植物种群流行病的简单模型。作者采用了通常用于人类或动物群体的 SIR 流行病学模型:他们考虑了一个N茎群体,其特征在于状态S易感、I感染或R移除

感染群体和总干群体应该在第 2 天到第 12 天之间每隔一天观察一次。我们选择这种观察过程是因为 (a) [ 43 ] 中提供的数据是以这种方式测量的,(b) 稳态很快就达到了,并且(c)我们假设受感染的茎表现出症状,因此可以与总种群一样进行测量。

我们假设参数是真实值,并计算了每个参数的风险指数以及表中关联的 PLCI4中关联的 PLCI 。我们发现参数μ的风险指数最高。比较它们之间的这些值并没有真正的意义,因为 LCI 的大小并不相同;它们仅提供参数实际上可识别的置信水平α 。

最后,我们计算每个参数的ARE ,根据随机初始猜测θ init执行每个估计,该初始猜测是根据以θ *为中心的对数正态分布绘制的,标准差为 1。我们使用具有以加性为中心的高斯噪声的模拟数据,其中每个观测值平均值的标准偏差为 1.5%。表4中给出了 ARE 值。参数κ具有最低的 ARE (2.79),这意味着该过程(Nelder-Mead 算法)可以很好地估计它。它也是共线性指数最低的参数(表3)和风险指数最低的参数,显示了所有三个指数的一致性。参数0λμ具有最大的ARE,这也与之前的结果一致。
讨论
我们在这项研究中的主要目标是提出对可识别性分析的统一框架的首次尝试。虽然尚未完全令人满意,但我们的形式主义具有通过使用我们推广和扩展的“输入-输出映射”[ 16 , 44 ] M ( θ )的通用概念来桥接结构和实际可识别性的优势。通过不同的例子,我们展示了M如何根据特定的建模上下文实例化
至于结构可识别性,现有的定义仅在一些小细节上有所不同[ 18 , 19 ],这使得这项工作相对简单。我们选择在函数θ  →  M ( θ ) 的单射性的研究下综合它们。相比之下,实际可识别性的定义远未达成共识:许多不同的方法并存,每种方法都提供了可识别性问题的具体亮点或适用于特定的模型类型[ 45 ]。我们将实际可识别性问题形式化为估计分布之间的比较
其中y  ∼ Obs( M ( θ )) 表示模型M ( θ ) 上的观测协议 Obs 和理想(预言机)估计器的分布。在这里,同样可以指定这个总体框架来考虑不同的现有指数。
更具体地说,我们分析了三个指数:(a)共线性指数[ 32 ],它是实际可识别性分析的局部和部分量化,因为所有测量都被认为是完美的(无噪声),(b)基于轮廓似然的置信区间[ 29 ]我们建议将其转变为定量风险指数而不是二元指标,并且(c)ARE[ 18 ]。这些指数允许检测参数子集中的一些补偿效应,并且我们确认高共线性指数对应于不同的参数集,产生非常相似的结果(见图3 ))。然而,所有三个索引仅提供局部信息,因为它们是围绕参考参数向量计算的。我们表明,这可能会导致不可靠的结果,因为它们的值可能会随着参数值的变化而发生很大变化。我们建议一个好的做法是在参数不确定性的整个分布上对它们进行平均。不幸的是,这种看似简单的解决方案受到了计算需求的相关增加的阻碍,需要开发近似方法来快速计算大样本的这些指数。
一旦发现可识别性问题,自然出现的问题是如何处理它们。建模者面临多种选择。最彻底的方法是通过删除一些组件或一些变量来改变模型结构以简化模型[ 20 ]。这可能是建模者不希望的,特别是当模型被视为形式化生物系统当前知识的一种方式时。第二种可能性是利用贝叶斯方法的优势来结合先验知识,从而更好地指导估计过程走向更可能出现真实值的参数区域[ 20]。第三,一些参数可以设置为其参考值恒定,以减少向量的维数来估计和限制补偿现象。可以使用全局敏感性分析[ 46 , 47 ]来选择要设置的参数,但一个有趣的观点是为此目的将敏感性和可识别性指数结合起来。
最后,优先选项将包括获取额外的可观察变量,以丰富数据集:请注意,如果结构不可识别性已被证明,则收集相同变量的更多数据是没有用的:必须测量新变量。然后,为可识别性分析开发的方法可以重新转换为优化实验设计的方法。事实上,在潜在的预算或时间限制下,比较几个潜在候选变量的可识别性指数将有助于确定哪些变量在估计准确性方面携带更多信息[ 48 ]。
这项工作的最后一个视角是进一步探讨不同指数之间的关系。例如,共线性指数应与似然几何相关。正如 Raue 等人所解释的那样。[ 29 ]在参数之间的函数关系是线性的情况下(即,当共线性指数较高时),计算似然性的良好近似值,通常使用χ2的二次近似值来估计最佳值,例如Hessian 或 Fisher 信息矩阵。因此,明确这些χ 2近似值的共线性指数和局部平坦度之间的联系是有意义的。
结论
这项工作旨在为使用可识别性分析开发植物生长模型开辟新的视角。希望它将为每个估计程序中可识别性步骤的集成铺平道路,这样,通过系统地检查最佳参数集的唯一性,我们将确保参数估计的可靠性和可解释性,从而提供更有说服力和更可靠的结果。我们的应用程序值得信赖的模型。

发布日期:2024-04-01