新闻资讯

用人工神经网络和GEP模型预测三角形侧孔流量系数

本研究利用机器学习模型来预测尖峰三角形侧孔(TSO)的流量系数。选择的模型是人工神经网络(ANN)和基因表达式编程(GEP)。模型的开发基于570个实验数据集,其中70%用于训练,其余30%用于测试。五个无量纲参数被用作模型的输入,包括TSO的波峰高度与其高度(W*=W/H),主沟道宽度到TSO的基极长度(L*=B/L),主沟道宽度到TSO的高度(H*=B/H),上游水流深度至TSO的高度(Y*=y1/H),以及主航道上游弗劳德数(Fr).而流量系数(Cd)被定义为输出。然后,通过三个性能指标、violin箱线图和泰勒图对开发的模型进行评估,以确保其可靠性和准确性。此外,还进行了敏感性分析,以指出影响Cd价值。研究结果显示,与实际值相比,两种模型的预测都非常好,其中人工神经网络模型成为最可靠的预测器。它表现出最高的决定系数(R2),接近1,以及最低的均方误差(均方误差(mean square error))和平均绝对误差(平均绝对误差)值,都接近于零。敏感性分析强调,孔口顶部高度和弗劳德数显著影响Cd价值,贡献超过36%。此外,预测的流量系数保持在实验值的5.0%范围内。最后,与以前的研究相比,特别是人工神经网络模型,开发的模型显示了高度的等效性。因此,建议将这些模型作为预测TSO流量系数的准确、可靠和快速的工具。

本研究利用机器学习模型来预测尖峰三角形侧孔(TSO)的流量系数。选择的模型是人工神经网络(ANN)和基因表达式编程(GEP)。模型的开发基于570个实验数据集,其中70%用于训练,其余30%用于测试。五个无量纲参数被用作模型的输入,包括TSO的波峰高度与其高度(W*=W/H),主沟道宽度到TSO的基极长度(L*=B/L),主沟道宽度到TSO的高度(H*=B/H),上游水流深度至TSO的高度(Y*=y1/H),以及主航道上游弗劳德数(Fr).而流量系数(Cd)被定义为输出。然后,通过三个性能指标、violin箱线图和泰勒图对开发的模型进行评估,以确保其可靠性和准确性。此外,还进行了敏感性分析,以指出影响Cd价值。研究结果显示,与实际值相比,两种模型的预测都非常好,其中人工神经网络模型成为最可靠的预测器。它表现出最高的决定系数(R2),接近1,以及最低的均方误差(均方误差(mean square error))和平均绝对误差(平均绝对误差)值,都接近于零。敏感性分析强调,孔口顶部高度和弗劳德数显著影响Cd价值,贡献超过36%。此外,预测的流量系数保持在实验值的5.0%范围内。最后,与以前的研究相比,特别是人工神经网络模型,开发的模型显示了高度的等效性。因此,建议将这些模型作为预测TSO流量系数的准确、可靠和快速的工具。

关键词:侧孔流量系数人工神经网络基因表达式编程预言;预测;预告
Previous article
View issue table of contents
Next article
介绍
明渠中的分流结构,如侧孔、闸门和侧堰,用于控制分流水头,并使一部分主河道水流改道进入侧河道。此外,它们经常用于曝气池、沉淀池、灌溉和排水网络以及废水处理系统(Hussain,Ahmad和Asawa,引用2011;瓦坦卡-米尔尼亚公司,引用2018).准确估算流量系数对于确定流经引水建筑物的水量至关重要。到目前为止,已经通过大量的分析和基于实验的研究对分流结构中的流量系数进行了估算。

方侧口(SSO)是Gill(引用1987)作为特定空间可变明渠流的例子。Ramamurthy、Tim和Sarraf等人研究了矩形侧孔(RSO)的流动特性(引用1986, 引用1987).他们提供了一个公式,该公式考虑了喷孔的长度、主通道的宽度以及喷孔喷射和流动之间的速度差。马苏德(引用2003)研究了矩形边闸门的水流流态,发现接近弗劳德数(Fr)影响闸门流量系数。

侯赛因、艾哈迈德和浅泽(引用2010)对矩形主流道中的尖脊圆形侧孔(CSO)进行了实验。考虑到弗劳德数、孔口直径和主河道宽度,他们获得了一个精确度为5%的流量系数估算公式。侯赛因、艾哈迈德和浅泽(引用2011)研究了矩形主流道中的RSO和影响孔口出流的参数。Ebtehaj等人采用分组技术模拟RSO的流量引用2015年a).瓦坦卡和比詹可汗(引用2013)使用能量方程计算了大圆孔和小圆孔的理论流量关系。小孔口定义为孔口上方的水头高于孔口直径,导致流速均匀的孔口。而大孔具有与其直径相当的压头,导致必须积分的不均匀速度。侯赛因、艾哈迈德和奥贾(引用2014)开发了一个5%精度的方程来计算RSO的流量。侯赛因、艾哈迈德和奥贾(引用2016)检查了自由和浸没条件下通过CSO流的流量。

最近,许多出版物利用了机器学习技术,如SVM、安和GEP。这些方法是用于各种土木工程、水力和水文研究的特殊预测工具(如Bilhan、Emiroglu和Kisi(引用2011);Azamathulla和Jarrett(引用2013);Zaji和Bonakdari(引用2014);博纳克达里、扎吉、沙姆希尔班德、哈希姆和彼得科维奇(引用2015);埃布特哈吉、博纳克达里、扎吉、阿齐米和沙里菲(引用2015);帕尔瓦内、卡比里-萨马尼和内库伊(引用2016);阿齐米、博纳克达里和埃布特哈吉(引用2017);帕尔塞伊和哈吉阿比(引用2017);Eghbalzadeh、Javan、Hayati和Amini(引用2016);埃尔莎拉维、哈迈德和哈迈德(引用2023);Eltarabily,Elshaarawy,Elkiki,& Selim(引用2023年a)).

埃米罗格卢、比尔汉和基西(引用2011建立了一个人工神经网络模型来确定三角形迷宫侧堰在直槽中的流量系数。他们的人工神经网络方法在准确预测流量系数方面优于多重线性和非线性回归模型。帕萨伊(引用2016)基于477个收集的数据集开发了两种类型的神经网络来估计侧堰的流量系数。结果表明,多层感知器(MLP)模型比径向基函数(RBF)模型提供了更准确的预测。Ayaz和Mansoor(引用2018)采用人工神经网络预测斜尖顶矩形堰的流量系数。他们利用了来自Borghei、Vatannia、Ghodsian和Jalili的数据(引用2003)并实现了预测误差的大幅降低。哈桑、扎法尔、穆罕默德和希塔卜(引用2018)开发了一个模型,用于预测巴基斯坦昆哈尔河上的径流。他们使用逐步回归和人工神经网络模型。他们的发现表明,人工神经网络模型的效果不如逐步回归模型。杜塔、曼达尔和阿夫扎尔(引用2020)进行了试验,以更好地了解在自由流动条件下矩形水槽内尖顶圆弧和多循环W形迷宫堰的泄流能力。他们使用人工神经网络、支持向量机(SVM)和多元线性回归(MLR)来利用实验数据创建预测模型。他们注意到,SVM模型在准确预测流量方面优于其他模型。

一些研究使用数据驱动策略来预测SSO、CSO和rso的流量系数(例如Ebtehaj、Bonakdari、Khoshbin和Azimi(引用2015年a);Eghbalzadeh、Javan、Hayati和Amini(引用2016);阿齐米、沙班卢、埃卜特哈吉、博纳克达里和卡尔达尔(引用2017)).鲁沙格、霍什卡纳尔和什里(引用2016)探索了SVM与遗传算法(SVM遗传算法)和GEP的结合,以估算梯形和矩形尖顶侧堰的流量系数。他们的发现表明,SVM-遗传算法模型在准确性方面优于GEP。Eghbalzadeh、Javan、Hayati和Amini(引用2016)采用人工神经网络来估计SSO和CSO的流量系数。阿齐米、博纳克达里和埃布特哈吉(引用2017)利用带有遗传算法的自适应神经模糊推理系统(ANFIS-GA)来预测rso的放电系数。郭和史迪特(引用2017)开发了一种技术,用于确定部分浸没的圆形孔口的流量。

鉴于准确估算明渠侧孔流量的重要性,采用人工神经网络和GEP模型对侧孔流量系数进行了准确预测。使用这些模型是因为它们能够模拟复杂的非线性关系并适应数据模式。作为通用函数逼近器,人工神经网络和GEP可以学习多个输入参数(如弗劳德数和孔口几何形状)与流量系数输出之间的映射。

安和GEP提供了灵活的数据驱动工具,无需详细的物理见解就能准确捕捉流量系数的行为。它们的泛化能力有助于预测新数据点的精确系数。总的来说,人工神经网络和GEP的非线性建模能力和数据驱动特性使它们非常适合从实验数据中学习复杂的流量系数映射。然而,研究结果为水利工程师和研究人员提供了清晰的见解,以使用稳健、快速的工具预测TSO的流量系数。

材料和方法
当前研究中使用的方法可描述为如所示图1。首先,对影响流量系数的流量和几何参数的各种组合进行量纲分析(Cd)进行了调查。其次,实验数据是从Vatankhah和Mirnia(引用2018)为开发人工神经网络和GEP模型准备输入和输出变量。第三,对模型进行测试,通过比较预测值来评估这些模型的性能Cd从有实验数据的模型中。最后,将结果与以前的研究进行比较,以确保它们相对于其他预测模型的准确性和可靠性。

图一。本研究采用的方法流程图。

Figure 1. Flowchart of the methodological approach adopted in this study.
显示全尺寸
通过三角形侧孔的流量
等式情商。(1)

是一个通用方程,当孔口上方的水头大于自由孔口尺寸时,可用于计算重力作用下通过自由孔口的流量(Vatankhah & Mirnia,引用2018).其内容如下:Qs=CdLH22ghc−−−−√
在哪里Qs(m3 s−1)是通过自由孔口的排放;g是重力加速度;和hc是节流孔截面质心上方的流量高度,计算如下:

hc=yc−W−H/31
在哪里yc为水面至上述侧孔口处河床的水深;和W是孔口顶部高度。图2a提供了放置在水平矩形通道中的TSO的3D视图。

图二。TSO示意图(a) 3D视图(b)水面剖面图。

Figure 2. Schematic diagram of TSO (a) 3D view (b) water surface profile view.
显示全尺寸
图2b说明了长度为(L)和身高(H)在亚临界流动条件下。瓦坦卡和米尔尼亚(引用2018)显示h1和h2代表从自由水面到上游(U/S)和下游(D/S)端TSO波峰的测量值,同时y1和y2代表相应的水流深度。值得注意的是,水深y2大于y1因为三角形孔口限制了流动面积,导致水回流并增加下游的深度,以在水通过较窄的孔口时保存质量和能量。

量纲分析
TSO的流量系数(Cd)主要取决于TSO的流动特性、流体性质和几何参数。流动特性包括上游流动深度(y1)和主河道中的上游深度平均流速(V1);流体特性包括水密度(ρ),表面张力(σ),粘度(μ),以及重力加速度(g);而几何参数包括孔口高度(H),孔口长度(L),孔口顶部高度(W),以及主通道宽度(B).因此Cd尖峰TSO是几个参数的函数,可总结如下:Cd=ϕ(ρ,μ,σ,g,L,H,W,B,y1,V1)

情商。(3)可以无量纲形式表示如下:

Cd=ϕ(Π1,Π2,Π3, Π4,Π5,Π6,Π7)2
在哪里ϕ是一个功能符号;和π1, Π2, Π3, Π4, Π5, Π6,和π7是无量纲群。通过使用ρ, g,以及H作为重复变量,方程中的无量纲组。(4)可以得出:

Π1=LH3
Π2=WH4
Π3=BH5
Π4=y1H6
Π5=V1gH3√7
Π6=σρgH28
Π7=μρgH3√9
在水利工程中,方程中原始无量纲组的积分。(5–11)产生了新的通用无量纲组。TSO的函数关系可以重新表述如下:

Cd=ϕ (WH,BL,BH, y1H,Fr=V1gy1√, Re=ρV1Lμ, We=σρgL2)10
雷诺数(Re)和韦伯数(We)对于侧孔(Azimi,Bonakdari,& Ebtehaj,引用2017;埃布特哈吉、博纳克达里、扎吉、阿齐米和沙里菲,引用2015;侯赛因,艾哈迈德和浅泽,引用2010, 引用2011;侯赛因、艾哈迈德和奥贾,引用2014, 引用2016;拉马姆西,蒂姆和萨拉夫,引用1986).当忽略雷诺数和韦伯数的影响时,方程。(12)简化如下:

Cd=ϕ (WH,BL,BH, y1H,Fr)11
表达情商是可能的。(13)以下列方式:

Cd=ϕ (W∗,L∗,H∗, Y∗,Fr)12
在哪里W*是TSO的波峰高度比(W/H); L*是TSO的长度比(B/L); H*是左宗棠的身高比(B/H); Y*是上游水流深度比(y1/H);和Fr为主航道上游弗劳德数。

统计分析和数据解释
当前研究中用于开发人工神经网络和GEP模型的实验数据取自瓦坦卡和米尔尼亚(引用2018).总体而言,570个实验数据集用于开发人工神经网络和GEP模型,70%用于训练,其余30%用于测试。这些集合考虑了中提出的无量纲参数的组合等式等式(14)

. 表1描述了从Vatankhah和Mirnia收集的数据的描述性统计(引用2018)实验。此外,图3显示收集的数据的直方图。
图3。收集的数据集的直方图。

Figure 3. Histograms of the collected datasets.
显示全尺寸
表1。收集的数据集的描述性统计。

下载CSV显示表
根据直方图(图3),很明显,射程流量系数(Cd)在0.45-0.58之间。因此,可以开发这样的模型来预测Cd在上述范围内。该图表明,数据库中使用的变量涵盖了广泛的范围,证明了所收集的数据库的可靠性。因此,基于这样的数据集提出的模型可以准确地预测流量系数。

表2说明了描述调查参数之间关系的相关矩阵。表格显示所有输入(即W*, L*, H*, Y*,以及Fr)是负相关的Cd,这表示流量系数随着输入的增加而减小,反之亦然。然而,输入和输出之间没有不相关的关系。因此,所有五个输入参数都可以用来预测TSO的流量系数。

表二。收集的数据集的相关矩阵。

下载CSV显示表
预测模型的描述
人工神经网络
人工神经网络可以建模线性和非线性系统,而无需大多数传统统计技术做出的隐含假设。人工神经网络模型有七个主要组成部分,统称为人工神经网络体系结构。这些组件是(1)处理单元或神经元,(2)激活状态,(3)每个神经元的输出函数,(4)单元之间的连接性或权重的模式,(5)用于通过权重来传播活动模式的传播规则,(6)用于将撞击到单元上的输入与该单元的当前状态相结合以产生该单元的新的激活水平的激活函数,以及(7)学习规则,由此通过经验来修改权重(Flood & Kartam,引用1994). 图4描绘了三层人工神经网络的体系结构。

图4。典型的三层人工神经网络架构(Flood & Kartam,引用1994).

Figure 4. Typical three-layer ANN architecture (Flood & Kartam, Citation1994).
显示全尺寸
对于ANN模型的训练,输入-输出数据被用来按照某种学习算法确定连接之间的权重。ANN训练包括两个主要阶段:前馈和反向传播。在第一步中,在输入层接收的信号通过隐藏层传递到输出层。它在数学上表示如下:

Netj=∑n1i=1WijXi+Bi13
在哪里网j输入是在j泰国(Thailand)神经元;W颈内是分配给之间的连接的权重i泰国(Thailand)和j泰国(Thailand)神经元;n1是人工神经元的数量;Xi输入是在i泰国(Thailand)神经元,以及b是的偏差权重j泰国(Thailand)神经元。的输出j泰国(Thailand)神经元是通过变换来计算的Netj通过非线性sigmoid激活函数:

yj=f(Netj)=11+exp(−αNetj)14
在哪里yj是神经元的输出j; f是乙状结肠激活函数;和αsigmoid函数的斜率参数。W颈内在第二训练步骤中初始化,并在输出层计算总误差函数。leven Berg–Marquardt算法最小化总误差函数,并相应地调整权重。这种方法比传统方法更快更有效(Hagan & Menhaj,引用1994).

在这项研究中,MATLAB软件(版本R2021a)及其神经网络工具箱(比尔,哈根和德穆特,引用2010)用于开发预测流量系数的人工神经网络模型(Cd)的比例W*, L*, H*, Y*,以及Fr. 图5显示了开发人工神经网络模型的步骤。图6显示了CdTSO的比率被设置为来自ANN模型的输出,而五个比率(即W*, L*, H*, Y*,以及Fr)是模型的输入。

图5。开发人工神经网络模型的流程图。

Figure 5. Flow chart for developing the ANN model.
显示全尺寸
图6。人工神经网络模型的输入和输出。

Figure 6. Inputs and output of the ANN model.
显示全尺寸
基因表达式编程
GEP方法是由费雷拉(引用2010)作为一种涉及计算机程序的研究技术,是遗传编程(GP)的延伸(Koza,Bennett,Andre,& Keane,引用1999).在GEP,计算机程序最初是用线性染色体表示的,这些染色体被转换成表达式树(ETs)。图7a描绘了基因表达式编程(GEP)的流程图。随机群体染色体启动了程序。染色体的表达决定了每个个体的适应性。选择个体是因为它们在基因改造后的繁殖能力,产生具有新特性的后代。

图7。GEP模型的描述(a)流程图(b)GEP(Browne & dos Santos,引用2010).

Figure 7. Description of GEP model (a) flow chart (b) components of GEP (Browne & dos Santos, Citation2010).
显示全尺寸
新一代的每一个成员都依次经历了相同的发育过程:基因组的表达,与选择性环境的相互作用,以及改变后的繁殖(Ferreira,引用2010).基因组被复制并传递给下一代。只有剩下的操作者的行为增加了遗传多样性。这些操作者随机选择要改变的染色体。GEP允许几个操作者改变或保持染色体不变(Browne & dos Santos,引用2010). 图7b显示了GEP模型的组件。

在这项研究中,gene xprotools(5.0版;费雷拉,引用2006)被用于开发一个预测Cd考虑五个比率(即W*, L*, H*, Y*,以及Fr)其中所实施的建模过程指定了流量系数(Cd)作为因变量。

性能指标
通过使用三个统计指标(即均方误差(mean square error), 平均绝对误差,以及R2).根据塞利姆,卡迈勒,穆罕默德,和Eltarabily(引用2023)和Eltarabily、Elshaarawy、Elkiki和Selim(引用2023b),这些指标可以计算如下:

MSE=1n ∑ ni=1(xi−yi)215
MAE=1n ∑ ni=1|xi−yi|16
R2=1− ∑ni=1(xi −yi )2∑ni=1(xi −xi¯¯¯¯¯)217
在哪里均方误差(mean square error)是均方误差;平均绝对误差是平均绝对误差;R2是决定系数;n是数据集的编号;xi是来自瓦坦卡和米尔尼亚的实际流量系数(引用2018); xi¯¯¯¯¯是实际流量系数的平均值;yi是预言Cd从安或GEP模型。

结果和讨论
TSO流量系数的预测
人工神经网络模型
在使用人工神经网络时,选择适当数量的隐节点是困难的。在这种情况下,采用单隐层人工神经网络,通过试错法确定隐节点的数量。图8a显示最佳验证性能是在时期15发现的,在该时期最低均方误差(mean square error)值等于9.0955e-06,因为均方误差(mean square error)随着历元数的增加而变小。误差直方图绘制在图8b评估误差密度。如图所示,误差分布是正常的,并且更集中在零点附近。

图8。人工神经网络性能图(a)均方误差(mean square error)以及(b)误差直方图。

Figure 8. ANN performance plots (a) MSE with the number of epochs and (b) error histogram.
显示全尺寸
因为ANN模型的隐藏层中的神经元数量对应最低均方误差(mean square error)被使用时,最佳ANN架构被固定为5-10-1(图9).该架构显示,ANN模型具有使用sigmoid激活函数的具有5个节点(5个输入比率)的输入层、具有10个节点的隐藏层,以及使用线性激活函数的具有1个节点(输出)的输出层。然而,这些函数通常用于回归问题(Haykin,引用2009).

图9。MATLAB软件开发的人工神经网络模型示意图。

Figure 9. Schematic diagram of the developed ANN model by the MATLAB software.
显示全尺寸
情商。(20)是从预测TSO流量系数的人工神经网络模型发展而来的。它可以表示如下:

Cd=[W2{2[1+exp[−2(W1X+B1)]]−1}]+B2+17.692+0.3218
其中X是输入层矩阵;B1是隐藏层的偏置神经元的权重向量;B2是输出层的偏置神经元的权重向量;W1是输入和隐藏层的神经元之间的连接的权重矩阵;W2是隐藏层和输出层之间连接的权重矩阵。X,B的向量1,B2,W1,和W2从开发的人工神经网络模型可以表达如下:

最初,单个基因和两个头长被用来建立GEP模型;在每次运行中,添加一个基因和一个头部。在训练和测试数据上的性能没有显示出超过八个头长度和三个基因的显著改进。因此,他们选定了一个GEP模型,即头部长度为8,每条染色体3个基因。三个基因之间的连接函数是乘法运算符。

在一系列测试之后,确定在219,016代之后,训练和测试数据适应函数值和决定系数没有显著变化,表明代可能停止。表3显示了开发的GEP模型的一般设置、适应度函数、程序结构、数值常数和遗传算子。试错法用于选择所有规定的参数,以输出变量和输入变量之间的代数方程的形式产生GEP的最佳模型。

表3。发展的GEP模型的应用背景。

下载CSV显示表
用于模型开发的函数集是加法(+)、减法(-)、乘法(*)、除法(/)、平方根(Sqrt)、立方根(3Rt)、五次方根(4Rt)、五次方根(5Rt)、逆(Inv)、求反(Neg)、x的2次方(X2)、x的3次方(X3)、x的4次方(X4)、x的5次方(X5)、3输入的加法(Add3)、4输入的加法(Add4)、3输入的减法(Sub3)、4输入的减法(Sub4)、乘法

情商。(21)是从预测TSO流量系数的GEP模型发展而来的。它可以表示如下:

Cd=(4884L∗4−100L∗H∗−W∗5)−112×(2.22Y∗Fr−−−−−√+W∗H∗Fr+2.45)−16×(Fr−527W∗−19)21
相关的表达式树(ET),包括三个子表达式树(子ET),在图10,其中d0、d1、d2、d3和d4表示W*, L*, H*, Y*,以及Fr,分别为。图10a描述了第一个基因的数值常数,G1c2和G1c7,分别等于8.36和1.00。同样,第二个基因中的G2c0和G2c6(图10b)分别为4.95和5.98。而第三个基因没有任何常数(图10c).

图10。开发的GEP模型的子表达式树(ET )( a)子表达式树1,(b)子表达式树2,和(c)子表达式树3。

Figure 10. Sub-expression trees (ET) of the developed GEP model (a) sub-ET 1, (b) sub-ET 2, and (c) sub-ET 3.
显示全尺寸
模型的性能
统计分析
图11a显示了在训练阶段使用ANN模型的实际值和预测值之间的比较。该图显示人工神经网络模型产生了调整后的R2值为0.999,大多数预测值都低于1%的误差率。图11b显示了预测值和实际值之间的误差分布Cd价值非常接近于零。

图11。在训练阶段基于ANN模型的预测(a)实际值和预测值之间的相关性(b)训练数据和预测误差的分布。

Figure 11. Prediction based on the ANN model in the training stage (a) correlation between actual and predicted values (b) distribution of trained data and predicted error.
显示全尺寸
图11。续在测试阶段基于ANN模型的预测(c)实际值和预测值之间的相关性(d)测试数据和预测误差的分布。

Figure 11. Cont. Prediction based on the ANN model in the testing stage (c) correlation between actual and predicted values (d) distribution of tested data and predicted error.
显示全尺寸
图11c显示了在测试阶段使用人工神经网络模型的实际值和预测值之间的比较。该图显示人工神经网络模型产生了调整后的R2值为0.998,大多数预测值都低于1%的误差率。图11d显示了预测值和实际值之间的误差分布Cd值非常接近于零。结果表明,人工神经网络模型在两个阶段都具有较高的预测精度,误差分布最小。

图12a显示了在训练阶段使用GEP模型的实际值和预测值之间的比较。该图显示,GEP模型得出了调整后的R2值为0.982,大多数预测值都低于5%的误差率。图12b显示了预测值和实际值之间的误差分布Cd值为0.046。

图12。在训练阶段基于GEP模型的预测(a)实际值和预测值之间的相关性(b)训练数据和预测误差的分布。

Figure 12. Prediction based on the GEP model in the training stage (a) correlation between actual and predicted values (b) distribution of trained data and predicted error.
显示全尺寸
图12c显示了在测试阶段使用GEP模型的实际值和预测值之间的比较。该图显示,GEP模型得出了调整后的R2值为0.987,大多数预测值都低于5%的误差率。图12d显示了预测值和实际值之间的误差分布Cd值为0.026。结果表明,与人工神经网络模型相比,GEP模型在两个阶段的预测精度较低,误差分布较大。

图12。续测试阶段基于GEP模型的预测(c)实际值和预测值之间的相关性(d)测试数据和预测误差的分布。

Figure 12. Cont. Prediction based on the GEP model in the testing stage (c) correlation between actual and predicted values (d) distribution of tested data and predicted error.
显示全尺寸
表4汇总了以下各项的计算统计指标均方误差(mean square error), 平均绝对误差,以及R2对于处于训练和测试阶段的两个模型。所有统计指标都代表了TSO的实际和预测流量系数,二者非常一致,相关系数更高,误差值更低。总的来说,人工神经网络模型在两个阶段都优于GEP模型。

表4。开发模型的估计统计指标。

下载CSV显示表
小提琴盒图和泰勒图
图13a、b呈现实际值和预测值的小提琴盒图q*分别在训练和测试阶段。violin图是一种绘制数字数据的方法,可以认为是箱线图和核密度图的组合。它显示了数据在不同分类变量级别上的分布。“实际”类别可能代表实际观察值。这些图显示了中位数(中间的白点)、四分位数范围(小提琴中心的粗黑条)和数据的全范围,不包括异常值(细黑线或“须”)。每个小提琴的宽度表示不同值的数据密度,更宽的部分代表更高的密度(更多的数据点)。在训练和测试阶段,人工神经网络模型倾向于在大多数情况下具有更紧密的分布Cd值,表明比GEP模型更准确的预测。

图13。在(a)训练和(b)测试阶段采用的模型的小提琴盒图。

Figure 13. Violin boxplots for the adopted models in (a) training and (b) testing stages.
显示全尺寸
此外,图14a、14b使用泰勒图展示模型的对比分析。泰勒图提供了一种图形化总结模式与观察值匹配程度的方法。这些图显示了方位轴上的相关系数、作为距原点的径向距离的标准偏差以及作为距参考(观察)点的距离的居中均方根差(RMSD)。越靠近参考点的点表示模型性能越好。沿弧越靠近参考点、相关系数越大(接近1.0)且与参考点的距离越小(RMSD越小)的模型性能越好。该图显示,在训练和测试阶段,人工神经网络和GEP模型最接近和最远离实际点。因此,人工神经网络模型是预测TSO流量系数的最佳预测模型。

图14。(a)训练和(b)测试阶段采用的模型的泰勒图。

Figure 14. Taylor diagrams for the adopted models in (a) training and (b) testing stages.
显示全尺寸
与先前研究的比较
这项研究开发的人工神经网络和GEP模型与最近的两项类似研究进行了比较,这两项研究也旨在预测TSO的排放系数。Khosravinia、Nikpour、Kisi和Adnan(引用2023)采用了三种数据驱动的方法,即支持向量机(SVM)、最小二乘支持向量机(LSSVM)和引力搜索算法(LSS VM–GSA)。他们指出并得出结论,LSSVM-GSA模型有效地预测了Cd左宗棠与均方误差(mean square error), 平均绝对误差,以及R2分别为0.099、0.077和0.965。

与Khosravinia、Nikpour、Kisi和Adnan的研究相比(引用2023),提出的模型,安和GEP的有效性明显更高。这些模型显示出与实验数据集更接近的一致性。值得注意的是,在我们的早期研究中有一个相似的目标(Elshaarawy,Hamed,& Hamed,引用2023),我们采用多元线性回归(MLR)和多元非线性回归(MNLR)。然而,这些方法的结果产量较低R2价值观。与传统的回归方法相比,这种性能差异强调了采用高级建模技术的重要性。表5显示了与先前预测TSO流量系数的研究的对比分析。

表5。TSO流量系数预测的对比分析。

下载CSV显示表
灵敏度分析
敏感性分析有助于进一步分析数据类型,探索每个输入参数对相应输出的重要性(eltarabily,Abd-Elhamid,Zeleňákov,Elshaarawy,Elkiki,& Selim,引用2023Eltarabily和Elshaarawy,引用2023). 图15显示了每个独立输入变量的重要性(即W*, L*, H*, Y*,以及Fr).它说明了自变量影响因变量(即Cd)分别增长了36.13个百分点、26.76个百分点、1.07个百分点、0.06个百分点和36.98个百分点。结果表明,上游弗劳德数(Fr)和TSO的峰高比(W*),后面是TSO的长度比(L*).而TSO的高度比(H*)和上游水深比(Y*)在预测流量系数时最不重要。

图15。输入比在预测TSO流量系数中的重要性。

Figure 15. Importance of the input ratios in predicting TSO’s discharge coefficient.
显示全尺寸
结论
本研究采用人工神经网络和GEP模型来预测TSO的排放系数。这些模型被认为是由几何和水力变量组成的输入参数,利用了来自Vatankhah和Mirnia(引用2018).总结这些结果,可以得出以下结论:

人工神经网络和GEP模型显示了精确预测TSO排放系数的强大潜力。然而,人工神经网络模型被证明是最稳健和最准确的预测模型,具有R20.998的。

与最近的类似研究相比,所开发的模型表现非常好,在最近的类似研究中,所研究的模型具有更高的相关值和更低的误差。

根据敏感性分析,主槽上游弗劳德数和坝顶高度对三峡水库流量系数影响较大。

提供了数学表达式和脚本代码,以便水力工程师和研究人员提供易于使用的技术来预测TSO的流量系数。

建议水利工程师和研究人员在设计和分析灌溉、排水、水处理和水电系统中的TSO时,利用人工神经网络模型并提供脚本。该模型为基于关键几何和水力参数估算TSO流量系数提供了一个快速可靠的工具。

对于未来的工作,人工神经网络模型可以进一步完善,扩大数据集涵盖额外的侧孔配置。在物理TSO原型上测试该模型也将有助于验证和提高其在现实世界中的适用性。总的来说,这项研究表明,使用人工神经网络的数据驱动建模代表了一种预测液压控制结构性能的可行的现代方法。

 

发布日期:2023-12-20