新闻资讯
用有限体积神经网络重建物理域
有限体积神经网络(FIN)是近年来物理感知神经网络模型中的一个例外,因为它允许指定任意边界条件(BCS)。FINN可以在其他模型失败的情况下,推广和适应在训练中没有提供的各种规定的BC值。然而,芬显而易见地依赖于给定的BC值,不能处理物理域中未被观察到的部分。为了克服这些限制,我们以两种方式扩展了芬。首先,我们整合了仅仅从几个数据点推断飞行中的BC值的能力。这使我们可以在不知道BC值(例如流体流入模拟介质的速率)的情况下,应用芬。其次,我们扩展了FIN,以合理的重建物理域中的缺失数据,通过一个梯度驱动的上升阶段。我们的实验验证了芬恩可靠地推导出正确的BCS,同时也生成了与可观测数据一致的光滑且似是而非的全域重建。此外,即使在物理领域只有一部分可见的情况下,而且BCS的应用是在与可观察的体积有空间距离的一点上进行的,与竞争性的纯毫升和物理意识的ML模型相比,FINN也可以产生更精确的预测数量级。而BCS的应用点与可观测量在空间上是很遥远的。而BCS的应用点与可观测量在空间上是很遥远的。
导言
物理信息机器学习方法将物理知识作为归纳偏差(巴塔基利亚等人)。引用 2018 )。当应用到相应的物理域时,与纯粹的机器学习(ML)系统(卡尔鲍尔等人)相比,它们在推广和数据效率方面都有改进。引用 2021 ::拉伊西、全核生物和卡尔尼亚达基斯引用 2019 )。此外,归纳偏见往往有助于ML模型降低他们的"技术债务"(斯考利等人)。引用 2015 ),有效降低模型复杂性,同时提高模型的可解释性。最近提出的一些方法通过物理知识增强神经网络(勒古恩和托姆)引用 2020 李等人。引用 2020 ;龙等人。引用 2018 ;SEO、孟和刘引用 2019 ;席茨曼等人。引用 2020 ).
但是,这些模型既不允许包含或结构捕获明确定义的物理方程,也不将其推广到未知的初始或边界条件(拉伊西、全核和卡尼亚达基斯)。引用 2019 )。最近引入的有限体积神经网络(芬恩)(卡尔鲍尔等。引用 2022 ;帕迪蒂亚等人引用 2021 ,引用2022)考虑到了这两个因素:它将人工神经网络的学习能力与数值模拟的物理和结构知识结合起来,以数学的组合方式建模偏微分方程。到目前为止,芬恩是唯一的物理感知神经网络,可以处理边界条件,没有考虑在训练。尽管如此,边界条件(BCS)还是需要明确地知道和提出。但即使是芬恩也无法预测未知边界条件所适用的过程。然而,在现实的应用方案中,只对特定的有限区域进行兴趣的衡量。众所周知,通过边界流入观测量的数量是未知的,迄今无法预测。在那上面,现有的系统无法将其预测扩展到可观测量之外。相关的一个例子是天气预报:预报系统观察到,例如。,在有限范围内的降水或云量。来自观测区域之外的、强控制区域内过程的天气动力学无法被整合,从而成为数值模拟中的主要误差源之一。将其转化为数值模拟中的主要误差源之一.将其转化为数值模拟中的主要误差源之一.
在这方面,我们将继续由卡恩霍鲁兹等人所做的先前的工作。(引用 2022 ),在观察一个特定时空过程的同时,提出了一种方法,以推断出明确建模的飞上芬兰的BC值。该方法以追溯推理原则为基础。引用 2019 ;奥特、卡尔鲍尔和布茨引用 2020 ),利用预测错误引起的梯度信号来适应训练有素的芬兰模型的BC值。只有极少数的数据点才能找到边界条件,最能解释最近观察到的过程动态,而且在闭环中以高精度预测观察到的过程。我们比较了推断边界条件的质量和预测误差的芬恩与两个最先进的架构,即:丹斯塔纳(卡尔鲍尔等人)。引用 2020 )和菲德内(勒古恩和托姆)引用 2020 ).
分布时空图人工神经网络体系结构是一种用于时序预测的隐藏状态推理模型。它在一个图形结构中编码两个不同的内核: 预测内核 (pk)网络预测每个空间位置的动态,同时应用于底层网格的每个节点。第二, 过渡核 (传统知识)网络协调公匙基础结构之间的横向信息流,从而使模型能够处理时空数据。pss系统由向前喂的神经网络和长短期记忆单元(霍奇雷特和施米杜伯)组成。引用 1997 )。类似卡尔鲍尔等人。(引用 2020 ),在这项工作中,我们只使用线性映射作为TKS,因为这里所考虑的数据是在常规网格上表示的,不需要对横向信息进行更复杂的处理。所有公钥和TKS都有重量。与卷积神经网络(cnn)、循环神经网络(rnn)、卷积LSTM和类似的模型(卡尔鲍尔等人)相比,它表现得更好。引用 2020 ,引用 2021 )。该模型的性能及其对时空数据的适用性使其成为本文的一个合适的纯ML基线。
植物网是一种物理感知编码的模型。首先,它按时间步骤编码输入t.然后,编码的信息被分解成两个独立的网络,植物细胞和康夫斯特细胞。受物理学的启发,菲塞尔将空间衍生物实现到一个理想的顺序,并能近似于广泛的PDES解,例如。热方程,波动方程,和对流扩散方程。此外,该模型涵盖了物理规范不包含的剩余信息。具体地说,孔-格补充了植物细胞,并以卷绕式的深学习方式近似于剩余信息。网络的输出被合并并输入解码器,以生成对未知函数的预测Unknown node type: fontUnknown node type: fontUnknown node type: font(勒古恩和托姆引用 2020 )。植物网络是一种最先进的物理感知神经网络,它适用于对流扩散方程,因此在本研究中被选为物理感知基线。
我们的结果表明,FINN是唯一可靠地预测BC值的架构,在预测BC值未知时的非线性对流扩散-反应过程方面,它的性能优于所有竞争者。作为康霍鲁兹等人的延伸。(引用 2022 ),我们额外隐藏40%的数据连接边界和模拟领域,并证明芬恩的能力,准确推断这一隐藏的信息符合边界条件。
有限体积神经网络
(卡尔鲍尔等人)引入的有限体积神经网络。引用 2022 ;帕迪蒂亚等人引用 2021 )是一个物理感知神经网络模型,结合了成熟的有限体积法(穆卡莱、曼加尼和达尔维什)引用 2016 )作为神经网络学习能力的归纳偏差。在有限的控制量上,FVM将连续偏微分方程(PDE)空间分离为代数方程。这些卷通过一个清晰的数学结构有状态和交换通量。在FVM结构中强制的物理处理约束了芬恩实现(部分)已知的物理法律,结果产生了一种可解释的、通用的和健壮的方法。
建筑学
用卡尔鲍尔等人的语言,FIN解决了表达非线性时空对流-扩散-反应过程的PDES。(引用 2022 )作为
Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font(1)
在哪里Unknown node type: font是时间的未知函数Unknown node type: font和空间坐标Unknown node type: font它编码了一个州。一个PDE解决器(如果PDE是完全已知的)的目标是找到Unknown node type: font所有时间步骤和空间位置。不过,相等公式1
由三个通常未知的函数组成,这些函数修改Unknown node type: font, i.e.,Unknown node type: font,Unknown node type: font,以及Unknown node type: font.Unknown node type: font是控制高浓度和低浓度之间平衡的扩散系数,Unknown node type: font平流速度,代表流体的整体运动引起的浓度运动,以及Unknown node type: font是源/汇项,它增加或减少了Unknown node type: font在本地。
这些未知函数是由神经网络模块近似的,这些模块模拟了相等公式1
同时把它应用到一组空间离散的控制量上。图1和相等 公式2 说明如何芬兰模型的PDE单个控制卷Unknown node type: font.一级和二级空间衍生物(Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font)例如,可以近似于线性层,Unknown node type: fontUnknown node type: font,目的是学习财务报告手册,即,相邻数量之间的交换条件。在目前的工作中,一级通量乘数(即:,平流速度)是用神经网络近似的。Unknown node type: font作为投入。这既适用于艾伦-卡恩和汉堡的基准,网络也有其规模。Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font ,共420个参数(如在训练中学习BCS,则为422个参数)。 第4.2节 ).
Figure 1. 表示和学习对流扩散方程不同部分的模块的组成。红线表示在训练和追溯推理期间的梯度流.卡尔鲍尔等人的照片。(引用 2022 ).
图1表示和学习一个对流扩散方程不同部分的模块的组成。红线表示在训练和追溯推理期间的梯度流.卡尔鲍尔等人的照片。(工业化2022年)。
显示全尺寸
Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font(2)
此外,为了说明其结构相等公式1
,芬恩介绍两个核心应用于每一个有索引的控制量Unknown node type: font;类似于如何将卷积内核转移到输入图像上。首先,通量内核Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font两个模型都是扩散的Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font以及平流通量Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font分别通过转发网络模块Unknown node type: fontUnknown node type: font和Unknown node type: fontUnknown node type: font.第二,国家内核Unknown node type: font源/吸收汇术语模型Unknown node type: font每卷。所有模块的产出总结如下:Unknown node type: fontUnknown node type: fontUnknown node type: fontUnknown node type: font,它产生了一个关于时间的系统,由节点来求解(陈等人)。引用 2018 )。因此,芬恩预测Unknown node type: font在时间上(t+1),那是Uˆ(t+1),并通过LUˆ我(t+1),U我(t+1),在哪里我与离散空间控制体积指数和L是平均平方误差。芬恩完全以闭环方式运作,即:只是最初的情况U(t=0)把一个预测输入模型Uˆ(1:T)带序列长度的未来T.注意,在早期的研究中已经证明了扩散通量的学习(卡尔鲍尔等人)。引用 2022 ;帕迪蒂亚等人引用 2021 并不是这项工作的一部分。因此,与其近似于D(U)通过神经网络φD,我们把它设置为数据生成的实际值。
不同核心和模块的连接方案确保了基本物理规则的一致性,从而使平流能够完全在空间上向左传播。 或 右边(R在…中图1)。请注意,在这项工作中,我们只考虑单向问题,尽管芬也可以应用于高维度方程。读者参考卡尔鲍尔等人。(引用 2022 )(引用 2021 )以作模型的深度描绘。
边界条件推论
需要边界条件(BCS)的规格,才能获得PDE的唯一解。常见的BCS是二进制的U),周期性(任何数量离开磁场的一边进入的另一边),或诺依曼(派生于U在边界处指定)。相比之下,最先进的物理感知神经网络引用 2020 ;龙等人。引用 2018 ::拉伊西、全核生物和卡尔尼亚达基斯引用 2019 ;阴等人。引用 2021 ),芬恩允许明确提出所需的BC。因此,芬恩不仅可以处理简单的边界条件(Diriclet或周期性),还可以处理像诺依曼(Karl鲍尔等人)这样复杂的条件。引用 2022 ).
芬恩严格使用边界条件。一个BC类型的实体实现(Dirichlet,周期,诺依曼)使模型能够 宣读 给定数据集的未知/不可见BC值。然而,到目前为止,需要使用显式BCS来解决PDE。然而,由于BCS在FINN的配方中的明确整合,在训练和预测期间,它注定要学习哪个BC值最能描述特定的数据集。在这里,我们表明,不仅可以通过追溯推理推断出更大范围内的BC值,而且还可以恢复模型在训练中不可用的部分模拟域。
从更广的角度来看,对BCS的需求通常是现实世界问题的建模工件--仅仅因为我们没有办法模拟整个系统,而是需要将自己限制在一个有界的子领域。即使这些边界在原始系统中不存在,我们的模型也需要确定它们的条件以进行准确的预测。我们的目标是快速、准确、可靠地推断出适当的BCS及其值。从技术上讲,将BC值设置为一个可学习的参数,并将预测错误投射到该参数的时间范围。从直觉上说,BC值的确定可以被描述为一个优化问题,而不是网络权重,BC值受优化的约束。
基准政策制订和评价
我们对两种不同的偏微分方程进行了实验,并将首先介绍这些方程,然后报告相应的实验结果。
汉堡方程
伯格斯方程经常用于不同的研究领域,例如。流体动力学,非线性声学,或气体动力学(弗莱彻)引用 1983 诺戈利赫等人。引用 2000 )。它提供了一个有用的玩具例子,作为1d方程在本文的工作
∂U∂t=−v(U)∂U∂X+D∂2U∂X2,(3)
在哪里U是未知的功能v(U)是平流速度,它被定义为身份函数v(U)=U给你。扩散系数D准备好0.01/π用于数据生成。在训练过程中,汉堡方程的左、右边界具有固定的值,定义为:U(−1,t)=U(1,t)=0.然而,为了评估不同模型处理这些变化的能力,对它们进行了修改,以便在推理时采用不同的对称值。初始条件的定义是:U(X,0)=−有罪(πX).
艾伦-卡恩方程
选择了艾伦-卡恩,它也被定义为具有周期或恒定边界条件的1d方程。它通常被应用于多组分合金系统中的模型相分离,也被拉伊西、全核和卡尼亚达基斯(引用 2019 )分析他们的物理信息神经网络(PINN)的性能。方程的定义是
∂U∂t=D∂2U∂X2+R(U),(4)
反应术语的形式R(U)=5U−5U3.扩散系数定在D=0.05,明显高于卡尔鲍尔等人。(引用 2022 ),在那里D=10−4.作出这一决定的原因是扩大相对于反应的扩散,从而使BCS的影响更明显。
实验
我们进行了三个不同的实验。首先,研究在训练中学习BC值的能力。 第4.1节 .在此之后,我们分析了训练前模型的能力,以推断未知的BC值。 第4.2节 .最后,在 第4.3节 研究了模型在推导数据集的BC时重建40%模拟域的能力。利用有限体积方法进行数值模拟,生成的数据与卡尔鲍尔等人相似。(引用 2022 ).
学习固定未知边界条件
进行这个实验是为了发现模型是否有可能近似给定数据集的边界条件。在实际情况下,在训练过程中确定未知的BC值可能是最有用的,在训练过程中,模型根据数据确定BC值,而不依赖于先前的假设。
生成的培训数据的形状是(256,49),在哪里NX=49指定离散空间位置和Nt=256模拟步骤的数量。为了训练模型,我们使用了序列的前30次步骤。外推数据(剩余226个时间步骤)用于计算测试误差。学得的BC值列於表1远斯坦和菲德尼特都无法推断出合理的BC值。
Table 1. 所有模型的训练错误、试验错误和学习的BC值比较.每次试验的平均结果重复5次以上。汉堡包数据集=[1.0,−1.0]和艾伦-卡恩数据集=[−1.0,1.0].
显示桌
结果表明,方程的复杂性加上可能的BC值的大范围,确实产生了一个具有挑战性的优化问题,在这个问题中,基于梯度的方法很容易陷入局部极小值中。例如,芬恩使用节点的事实。引用 2018 )的集成可能会导致收敛到一个僵硬的系统,从而导致不稳定的解。此外,由于芬恩采用时间反传播(bptt),它很容易产生消失/爆炸梯度。然而,在初步研究中,我们认识到,在这方面,芬恩受益于较短的序列。因此,只使用数据的前30个时间步骤。因此,芬识别了正确的BCS,尽管这不一定是目标,甚至产生了更低的测试错误。
无论是菲德尼特还是君士坦纳都没有提供有意义地表示边界条件的选项。因此,将BCS明确地输入到模拟域边缘的模型中.然而,缺少如何使用这些BC值的归纳偏差似乎妨碍了模型确定正确的BC(c.f)。表1)。尽管如此,即使确定的BC值偏离了真实值,菲德尼特和丹斯塔也能相当精确地近似于方程(尽管没有达到芬恩的精确性)。这两个模型的学习过的BC值不会收敛到任何一点,而是坚持在初始值周围,这些值是:[0.5,−0.5]吃汉堡的时候[−0.5,0.5]为了艾伦-凯恩。同样,当我们将初始BC值设置为0.我们得出结论,菲德尼特和丹斯塔似乎没有考虑BC值。
另一方面,芬恩似乎从 知识 在确定它们的值时。业连值在表1来自[4.0,−4.0]到[1.0,−1.0],在培训的剩余时间里保持它们。第一排图2)。就像在第二排图2在更大范围内,芬恩还试图推断艾伦-卡恩的BC值。在…里面图2在没有过低或过高估计其实际值的情况下,当梯度收敛到零。注意,我们知道真正的BC值,因为我们生成了我们自己的合成数据。然而,即使研究人员不知道BC值,也有可能信任芬。在训练中,边界条件的梯度收敛到0,保持正确学习的BC(参见图2).
Figure 2. 费恩训练过程中边界条件及其梯度的收敛。数据集BC=[1.0,−1.0]为第一排的汉堡。排在第二排的是BC=[−6.0,6.0]..
图2芬恩训练过程中边界条件及其梯度的收敛。第一行的汉堡包数据集BC=[1.0,-1.0]。排在第二排的艾伦-卡恩与BC=[-6.06.0]。.
显示全尺寸
用经过训练的模型进行边界条件推断
本实验的主要目的是研究在一个不同的BC值上训练一个模型后,是否有可能推断出一个未知的BC值。… 训练有素的 评估模型的能力,以推断测试数据的基本BC值(由与训练数据相同的方程生成)。因此,只有BCS被设置为可学习参数,这将导致两个参数。通过基于梯度的优化,推导出了左、右边界条件的值。因此,在评价训练模型的BC推理能力时,我们研究了两种不同的训练算法。
多学科培训和推理
从范围随机取样的十个不同序列[−1,1]吃汉堡的时候[−0.3,0.3]对于阿伦-卡恩的方程被用作训练数据。序列是由t=[0,1],Nt=128和NX=49.由于每个序列的BCS是不同的,模型有机会了解不同的BC值对方程的影响,使权重可以相应调整。
在推断过程中,模型必须在各自的训练范围之外推断BC值(最高至[4.0,−4.0]吃汉堡的时候[−5.0,5.0]在我们的研究中,阿伦-卡恩只观察30个模拟步骤。其余的数据集,即剩余的98个时间步骤,被用于模拟闭环中的动力学。表2 作为 测试误差 .就像我们看到的表2在这个任务上,芬恩比远天和菲德尼特更出色。这三种模型都有很小的训练误差,但坦斯塔纳和菲德内主要不能正确地推导出BC值,也不能准确地预测方程。然而,芬恩设法找到正确的BC值的高精度和异常小的偏差。在找到正确的BC值后,芬恩成功地正确预测了这些方程.
Table 2. 用相应的模型比较多BC训练和预测误差以及推断的BC值。实验每次重复5次,并给出平均结果.汉堡包数据集=[3.0,−3.0]和艾伦-卡恩数据集=[−1.0,1.0].
显示桌
图3展示了预测错误在不同模型中的变化,当BC范围从训练集的BC范围移走时。另一方面,图4在推理之后描述了多BC训练模型的预测,再次强调了芬的精确性。
Figure 3. 平均预测误差5个多BC训练的模型的艾伦-卡恩公式。随着BC范围的扩大,误差和标准差(SD)增加。这一现象也适用于芬兰(可持续发展范围从4×10−6到1×10−3)。然而,由于情节的规模,不可能看到这种变化。
图3平均预测误差的5个多BC训练的模型为艾伦-卡恩公式。随着BC范围的扩大,误差和标准差(SD)增加。这一现象也适用于芬兰(可持续性为4×10-6~1×10-3).然而,由于情节的规模,不可能看到这种变化。
显示全尺寸
Figure 4. 多BC的预测训练了阿伦-卡恩在推理之后的动力学。第一行是模型对空间和时间的预测。红线以下的区域是30个模拟步骤,用于推理和填充数据可视化。测试误差仅用上面积计算.第二行显示的是X和U(t=1,X), i.e.,U最后一个模拟步骤。数据以红点和蓝线的预测为代表。最好的模型被用于这些情节。
图4对多BC的预测训练了阿伦-卡恩在推理之后的动力学。第一行是模型对空间和时间的预测。红线以下的区域是30个模拟步骤,用于推理和填充数据可视化。测试误差仅用上面积计算.第二行显示对X和U的预测(t=XI),即。在最后的模拟步骤。数据以红点和蓝线的预测为代表。最好的模型被用于这些情节。
显示全尺寸
单一业务中心培训和推理
在这个实验中,模型只接收一个序列t=[0,2],Nt=256和NX=49在训练中。数据集的BC值是常量并设置为[0.0,0.0].因此,这些模型看不到方程在不同的BC值下的行为。这比先前的实验要困难得多,结果清楚地反映了这一点(见表3和图5)。尽管训练错误较低,但丹斯塔纳和菲德纳特未能推断出正确的BC值。在BC推理后的闭环测试中,预测误差也表明这些模型在解决任务时存在困难。虽然芬恩成功地捕捉到了正确的BC值,但与训练错误相比,预测错误显著增加,特别是在汉堡方程中。尽管如此,芬恩产生的最低测试误差的数量级为两个方程。这些结果表明,芬恩从具有不同BC值的序列中显著受益,使它能够在更大范围的新BCS中推断和预测相同的方程。由于空间限制,我们只报告了每个实验的一组边界条件的结果。我们在其他几个BC值的实验中观察到类似的结果。
Figure 5. 对单一英国广播公司的预测是经过推理后形成的。第一行是模型对空间和时间的预测。红线以下的区域是30个模拟步骤,用于推理和填充数据可视化。测试误差仅用上面积计算.第二行显示的是X和U(X,t=2), i.e.,U最后一个模拟步骤。数据以红点和蓝线的预测为代表。最好的模型被用于这些情节。
图5对单个英国广播公司的预测经过推理后训练了汉堡的动态。第一行是模型对空间和时间的预测。红线以下的区域是30个模拟步骤,用于推理和填充数据可视化。测试误差仅用上面积计算.第二行显示对X和U的预测(X,T=2),即。在最后的模拟步骤。数据以红点和蓝线的预测为代表。最好的模型被用于这些情节。
显示全尺寸
Table 3. 用相应的模型比较单比利时语训练和预测误差以及推断的BC值。实验每次重复5次,并给出平均结果.汉堡包数据集=[3.0,−3.0]和艾伦-卡恩数据集=[−1.0,1.0].
显示桌
物理域重建
我们最后的实验与前两个实验不同的是,不仅可以推断出BCS,而且模拟域本身的很大一部分。培训过程类似于 第4.2.1节 .十个序列是用t=[0,1],Nt=128和NX=29 (先前为49)。比喻为 第4.2.1节 ,我们把模型训练成不同的BC值,随机地从相同的范围,也就是说,[−1,1]和[−0.3,0.3]分别是汉堡和艾伦-卡恩的方程式。推理数据集是通过NX=49 以及 outside-of-training-range BCs 准备好[1.5,−1.5]吃汉堡的时候[−1.0,1.0]为了艾伦-凯恩。因此,模型的视野仍然局限于49个空间数据点中的29个。此外,模型也不知道BCS。从直觉上讲,推理过程可以与模型只从德国获得数据的情况相对应。然而,他们不仅需要预测德国的天气,而且还需要预测整个中欧的天气。不用说,模型需要为更大的域推断合理的BC值。
为了解决这个问题,我们使用了主动调谐(AT、OTE、卡尔鲍尔和Butz)。引用 2020 )。技术上,除了追溯性地推导未知值,即BCS和未观测到的域段外,AT还涉及前传周期,在生成预测之前逐步清除当前的解并使其与模型动态一致。后者可被视为反复适用 上升阶段 从物理模拟中知道的。算法和任务在图6.
Figure 6. 主动调优算法。R与奥特、卡尔鲍尔和布茨(引用 2020 )。蓝色列表示回顾性的初始状态和BCS,它们根据梯度信号进行优化。列中间的红色区域是模型接收信息并提供错误信号的所谓可见区域。棕色区域被称为不可见区域,模型需要重建方程,即。……U整个领域的值。黑色和红色箭头分别代表模型向前和向后通过.梯度信息(红色箭头)用于推断BCS。
图6主动调优算法。R对应于奥尔特、卡尔鲍尔和布茨(CIDE2020)所述的追溯调谐视界。蓝色列表示回顾性的初始状态和BCS,它们根据梯度信号进行优化。列中间的红色区域是模型接收信息并提供错误信号的所谓可见区域。棕色区域被称为不可见区域,模型需要重建方程,即。,整个领域的U值。黑色和红色箭头分别代表模型向前和向后通过.梯度信息(红色箭头)用于推断BCS。
显示全尺寸
由于我们的方法是基于梯度的优化过程,所以在错误信号的基础上实现了权重更新和误差最小化(我们应用平均平方误差)。然而,错误信号并不表示模型的内部状态。也就是说,预测U我t和U我+1t(即,两个相邻的卷)可以有很大的不同,但是在将来展开模型时仍然会产生一个小错误。尽管如此,如此巨大的地方差异并不是现实的情况。实际上,芬恩的内部状态可以为这种非现实状态提供一个度量,因为相邻的卷是在基础FVM中相互计算的。因此,我们优化并寻找一个任意的解决方案t=−R获取模型的模拟输出t=0(自t=−R)作为初始状态。该模型如何调整其过去预测的可视化,见图7为了R=10 .尽管优化了 追溯性初始状态 在…上t=−R在前传时,芬兰人将其预测平滑化,从而在t=0这与模型的物理学是一致的,已经从所有难以置信的工件中清除了。所有模型的初始状态预测见图8 坦斯塔纳和菲德尼特都无法预测方程将如何展开。 视域 推理(即推理),间隔时间60−128 他们也无法重建 未见域 .图8(b)很明显的,它可以利用它收到的信息,因为它可以在可见的数据边界内很好地预测。但是,他无法重建它没有收到任何资料的地区。我们认为这是进一步的证据,说明纳入身体感应偏见的重要性,这是没有存在于远斯坦。
Figure 7. 追溯状态推理。红线在t=0显示地面真相,即。,数据集的初始状态。褐色的脸表示可见区域。使用了最好的模型。
图7追溯状态推断。T=0的红线显示地面真相,即。,数据集的初始状态。褐色的脸表示可见区域。使用了最好的模型。
显示全尺寸
Figure 8. 初始状态推断。这些数字说明了这些模型最初的状态预测。5审判。每条蓝线对应一个试验。BC数据集是[1.5、-1.5]。BC-错误被计算为根平均平方误差,并被描述为红线,显示与代表实际BC值的红点的偏差。这些土地与报告的结果相符。表4.
图8初始状态推断。这些数字描述了5个试验模型的初步状态预测。每条蓝线对应一个试验。BC数据集是[1.5、-1.5]。BC-错误被计算为根平均平方误差,并被描述为红线,显示与代表实际BC值的红点的偏差。这些土地与表4中报告的结果相符。
显示全尺寸
Table 4. 用相应模型对可见域和整体域预测误差及推断的BC值进行比较。实验重复了5给出了每次试验的时间和平均结果。汉堡包数据集=[1.5,−1.5]和艾伦-卡恩数据集=[−1.0,1.0] . R = 10.由于在这个实验中使用了60个数据点(以前的实验中使用了30个时间级),因此无法与其他实验进行误差比较。
显示桌
量化结果见表4 再一次证明芬恩的优越性,相对于丹斯塔那和菲德尼特。… 见域错误 对应于推理之后的时间步骤和模型在推理过程中获得信息的领域中的错误。… 全域错误 另一方面,将可见域错误包含在内,同时也包括来自未知域的重构错误。与边缘的线性动力学相比,汉堡方程在空间域中间的高非线性可能导致了汉堡方程在被看见的芬域误差上较大的整体域误差(c.f)。图5)。另一个有趣的点是推断出的芬的BC值。尽管任务复杂性显著增加,可用数据比以前的实验少,但芬恩仍然实现了准确的BC预测。然而,在前几年的阿伦-卡恩案中,情况并非如此。预测值始终低于真正的公元前。这可能来自为推理数据选择的任意和非现实的BC值。此外,BCS与初始状态相抵触。如在图7b在…上t=0,数据初始状态(红线)的右边缘为−0.91.到达空间域的梯度推动预测适合初始状态。恰恰相反,向边界条件的梯度将预测推高,因为右BC1.这点在图7b在那里,右边的预测倾向于上升到公元前。然而,芬恩对这一不现实的矛盾的反应,强调了它努力寻找一个最合理和全面一致的解释。注意,由于域和BC都有更高的匹配,这种情况在左BC中不会发生。
带噪声的物理域重建
在本节中,我们测试了模型的性能,以重建缺失的空间数据,并从 噪音数据 .以往在卡尔鲍尔等人身上已经证明了芬恩的噪声鲁棒性。(引用 2022 )。因此,同样训练有素的模特 第4.3节 已经用过了。然而,从推论上看,这些模型现在接收到了掩蔽和噪声数据。
除了标准差的标准分布噪声外,数据是以相同的参数生成的0.05在卡尔鲍尔等人的实验设置之后添加。(引用 2022 ).图9给出了一个概念,即噪音与信号的大小之间的关系有多强。由于很难用噪声数据来实现方程的基本结构,因此需要一个更长的序列来使芬兰产生有意义的预测。因此,我们使用了80时间步骤而不是60在上一节。推理长度和数据噪声是实验设计中的唯一差异.测试序列,即,其余的42时间步骤从整个序列,不含任何噪音.
Figure 9. 带有噪声数据的芬预测。红点显示数据,蓝线是模型的预测。棕色线条之间的区域表示可见区域.使用了最好的模型。
图9带有噪声数据的芬预测。红点显示数据,蓝线是模型的预测。棕色线条之间的区域表示可见区域.使用了最好的模型。
显示全尺寸
结果是表5支持先前的迹象。芬恩强大且适应性强的体系结构可以从噪声数据中提取出精确的结构,而其他两个模型无法产生有意义的预测。尽管如此,吵闹的数据带来了挑战,这也可以从芬的表现中看到。特别是,与以下结果相比,推断的BCS标准偏差相对较高:表4.
Table 5. 利用噪声数据推导的相应模型,比较可见域和整体域预测误差及推断的BC值。实验重复了5给出了每次试验的时间和平均结果。汉堡包数据集=[1.5,−1.5]和艾伦-卡恩数据集=[−1.0,1.0] . R = 10.由于在这个实验中使用了80个数据点(以前的实验中使用了30和60个时间级),因此无法与其他实验进行直接的错误比较。
显示桌
讨论
我们第一个实验的目的(见 第4.1节 )的目的是评估芬恩、丹斯塔纳和菲德尼特是否能够了解汉堡和艾伦-卡恩方程组生成的数据的固定和未知的迪希莱特BC值。这是通过将BC的值设置为一个可学习的参数来实现的,以便在训练期间将其与模型的权重一起优化。研究结果,详见表1,提出两个结论:第一,所有模型都能通过使误差率远低于10−1.其次,只有芬能够精确地推断出数据的BC值。尽管丹斯塔纳和菲德尼特用高精度模拟了这个过程,但他们显然没有表现出一种可解释和可解释的行为。相反,他们对待BC价值的方式并不反映他们的真实价值和物理意义。这在芬恩是不同的,那里可以从模型中直接提取和解释推断的BC值。这对于现实世界中的应用程序具有很大的价值,在这些应用程序中,数据通常带有未知的BC,例如在一个有限的模拟领域中的天气预报或流量预测。
在第二个实验中(参见 第4.2节 ),我们讨论了这三个模型是否可以在它们已经接受了已知BC值的训练时推断出未知的BC值的问题。从技术上讲,这是一种传统的泛化测试。结果是表2建议在接受关于一系列BC值的培训时,坦斯塔纳和菲德尼特都能很好地了解不同BC值对数据的影响。一旦模型只训练一个BC值(c.f.)。表3);然而,所推断的丹斯塔和菲德内的BC值与真实值相差甚远。这对芬恩来说是不同的:虽然汉堡包上的测试错误下降了很多,但在这两种情况下,即使只在一个BC值上训练,芬恩仍能准确地确定基本的BC值。
在第三个实验中(参见 第4.3节 ),我们扩展了BC推理,并研究了模型在模拟域周围同时重建大量数据的能力。实际上,表4显示芬恩能够重建物理空间域,而只接收来自一个小域的信息。为了实现这一目标,基于时序梯度的算法、主动调谐(OTT、卡尔鲍尔和Butz)引用 2020 ,被应用于优化域和BC值 过去的 .然后,这些优化值被作为初始条件使用,这样模型就可以根据自身的内部动力学来调整预测。用这种方法,芬恩达到了一个平稳的初始状态,在此基础上,它在t=0(见图7和图8 )。芬兰人的一个主要优势是,与坦斯塔纳和菲德尼特相比,被认可为 物理知识 它与方程有关。汉堡和阿伦-卡恩)。在上一次实验中(参见 第4.4节 ,我们创造了一个更具挑战性的任务,并增加了数据的噪音。我们基本上使用了相同的实验设计(除了较长的推理序列),并且显示了芬兰人在噪声数据系统中的健壮性。
我们的主要目的是推断出物理上似是而非、可解释的BC值,并重建一个空间域。虽然芬恩是一个测试很好的模型,并被比较了几个模型,如康夫斯特姆,TCN,和在卡尔鲍尔的CNN-Node等。(引用 2022 ),在这个工作中,我们只把费恩应用于1d方程。然而,由于在高维方程组中同样的原理是基础的,所以我们期望该方法能适用于高维问题,并将其作为一个有趣的课题,供今后研究。
结论
在一系列的实验中,我们发现物理感知有限体积神经网络(FIN)是唯一的模型--在远距离(纯时空处理ML方法)和物理感知模型(另一个物理感知模型)之间--能够以高精度确定两个不同的偏微分星生成的数据的未知边界条件值。在找到正确的BC值的同时,芬还可以处理缺失的数据并在周围复制40%空间领域的。到目前为止,通用纯ML模型过于笼统,无法解决本文研究的问题。最先进的物理意识网络,例如:,载于《乐光与托姆》(引用 2020 )或卡尼亚达基斯等人。(引用2021同样也不够具体。相反,这项研究表明,物理结构模型是不可或缺的,应该与神经网络的学习能力相结合。通过实现多个前向模块并在数学上对它们进行组合以满足物理约束,FIN整合了这两个方面。这种结构允许芬恩在训练和推理过程中确定未知的边界条件值,就我们所知,这是物理感知的ML模型中的一个独特属性。此外,在实际数据中以超参数的形式设置BC值对研究人员来说是一种不可取的情况。因此,我们将这个最新的组件解释为对时空建模场景的宝贵贡献。此外,芬恩提供了对建模过程的解释,包括BC和物质属性,需要进一步详细探讨。
在未来的工作中,我们将研究不同的BC类型(Dirichlet,周期,诺依曼等)。)--不仅仅是它们的值--可以从数据中推断出来。此外,一个能够处理动态变化的BC类型和值的自适应在线推理方案是一个令人兴奋的方向,以进一步提高FIN对实际问题的适用性。我们的长期目标是将芬恩应用于更大规模的各种现实世界情景,例如当地天气预报任务,并扩展帕迪蒂亚等人以前的工作。(引用 2022 )。我们希望芬恩能够从稀少的数据和潜在未知的BCS中生成完整的模型模拟。