新闻资讯

多变量分析中与联结函数的使用相关的不确定性

1 简介
正确处理所有变化的不确定性是水文学及其工程应用的一个重要方面(Blöschl等人,2015)。引文2019 年,第 21 题)。本研究的重点是推论不确定性。在水文学中,这可以通过贝叶斯分析来处理并通过后验分布进行总结,或者借助频率论方法并根据置信区间进行报告。这里提供第三个选项:置信曲线。置信曲线比置信区间为用户提供更多信息。事实上,曲线提供的信息类似于贝叶斯后验分布中包含的信息,但在频率论背景下并且不需要先验分布。此外,可以组合不同研究的置信曲线,结果是这些研究中包含的感兴趣参数信息的有效表示(Cunen 和 Hjort引文2021)。

虽然置信曲线更普遍适用,并且可以在不首先引入置信分布概念的情况下进行定义,但置信曲线和置信分布的现代方法背后​​的想法是相同的。根据施韦德的说法(引文2018年,p。116),“置信区间和置信分布的置信度是认知概率的概念”和“通过呈现置信曲线以及所有级别的置信区间,读者可以全面了解推论不确定性......” (同上,第 118 页)。要将置信曲线转换为这样的图片,请考虑置信曲线的以下解释。给定置信水平下置信区间的宽度显示了置信度和不确定性之间的权衡。如果置信区间较小,则估计的不确定性较低。由于置信曲线由所有置信水平的置信区间组成,因此它的形状将提供对参数估计中的不确定性的洞察:高置信水平的置信区间越小,

从文献中可以清楚地看出贝叶斯统计方法在水文界的受欢迎程度。这也很容易理解,因为贝叶斯方法产生参数值的后验分布。然而,贝叶斯方法需要先验分布、后验分布(这可能是计算密集型的)以及接受贝叶斯观点。最后,贝叶斯方法和频率论方法可以很好地相互补充(Bayarri 和 Berger)引文2004)。因此,研究置信曲线和置信分布是值得的,因为它们提供了有关参数估计不确定性的信息,类似于从贝叶斯方法获得的信息。置信曲线可以在很多情况下使用(Zhou et al .引文2020年,引文2023)。在本研究中,提出了一种新的置信曲线构建方法,旨在表示 copula 参数的推理不确定性。Ko 和 Hjort (引文2019年)也构建了 copula 参数的置信曲线,但它们使用两阶段过程(首先拟合边际,然后拟合 copula),而此处介绍的方法可以为 copula 参数构建置信曲线,而无需首先拟合边际。引入该方法后,使用 Clayton、Frank 和 Gumbel 联结函数生成的合成时间序列研究了其属性。这些是单参数联结函数。这种连接函数在水文学中很流行,因为所研究的时间序列通常相对较短,因此可以实际估计的参数数量有限。接下来给出用该方法构建的置信曲线的两个应用示例。第一个研究检查同一日历年莱茵河及其支流两个不同地点发生重大洪水的概率。在第二个示例中,分析了突尼斯喀斯特地区的降雨径流,以确定降水和径流之间延迟的置信区间。最后,我们提出我们的结论。附录中提供了所用符号的概述、置信曲线的定义以及其他一些有用的事实。

2 方法论
本节介绍单参数联结参数的置信曲线的构建。在本文中,随机变量 (RV)、随机向量和随机矩阵将用下划线标记 (Hemelrijk引文1966 年,库索亚尼斯等人。引文2017)。置信曲线将根据给定的长度为 n 的观测时间序列构建。

其中 C 是 Frank、Clayton 或 Gumbel 系词(详细信息请参见附录 C)。置信曲线的构建方法最重要的组成部分是用于估计 copula 参数的算法。

2.1 Copula参数估计
在大多数情况下,不知道哪种类型的参数分布最适合 H 的边缘,这使得 copula 参数估计变得复杂。为了避免这种并发症,Genest等人。(引文1995)提出了一种伪对数似然方法,其中使用经验累积分布函数(ecdf)的重新缩放版本来代替参数边际。

2.2 近似置信曲线的构建
构建精确的置信曲线(附录 A,定义 3)非常困难,因为与构建置信分布一样,它(还)不是应用简单标准方法的问题。然而,有一个标准方法可以构建参数的近似置信曲线Unknown node type: font
(施韦德和霍特引文2016)。它假设对数似然函数可用。在本文中,将使用前面定义的伪对数似然。

2.3 置信曲线的性质
为了允许联结之间进行正确比较

为了检查根据给定算法构建的置信曲线的有用性,对几个关键属性进行了统计分析。检查了这些置信曲线的以下属性:

所有置信水平下的实际覆盖率与名义覆盖率(另请参见附录 A)。实际覆盖概率应接近标称覆盖概率。如果实际覆盖概率低于标称覆盖概率,则置信曲线具有许可覆盖范围;对于在区间内找到参数过于乐观。如果实际覆盖概率高于标称覆盖概率,则置信曲线具有保守覆盖,因此对于在区间内查找参数不必要悲观。

95% 置信区间的宽度。对于所有置信水平,可以从置信曲线中提取置信区间。最受关注的是那些信心超过 50% 的人。选择 95% 置信区间作为该组的代表。置信区间的大小表明了其有用性。事实上,对于一个其值被限制在区间 [–1,1] 的参数,

用于从中提取合成时间序列的联结。虽然该值与参数估计器的关系比与置信曲线的关系更密切,但它决定了置信曲线上最突出的点与真实参数值的接近程度。

3 用合成数据评估方法
为了评估该方法,生成了三个联结函数(Frank、Gumbel、Clayton)的合成数据集。不同的 copula 有不同的参数范围(参见表格1)。由于参数范围都延伸到正无穷大,因此很难直接比较不同 copula 的置信区间结果。幸运的是,对于所有三个 copula,都有一个严格递增函数将 copula 参数映射到 Kendall 的值Unknown node type: font
。这允许按照以下形式显示联结结果Unknown node type: font
。由于 Gumbel copula 无法模拟负相关性,因此只能对具有正相关性的 copula 进行样本建模Unknown node type: font
被使用。

3.1 综合时间序列生成
确定该方法的统计特性,合成时间序列的长度
3.2 合成数据示例

4 该方法在观测水文时间序列上应用的两个例子
本研究中引入的方法可用于检查时间序列之间依赖性的不确定性以及这种不确定性对基于该依赖性的分析的影响。给出了两个例子。在第一个示例中,该方法用于显示莱茵河及其支流上几对测量站的年度极值的相关结构的不确定性。第二个示例研究了喀斯特地区降雨和径流之间的滞后估计以及该估计的不确定性。

4.1 莱茵河及其支流年峰值时间序列关系
在本节中,将研究年度最小或最大流量的依赖性结构。该结构可用于回答以下问题:

给定年份内同一流域的不同部分出现高流量的概率是多少?从保险、政府预算或灾难准备的角度来看,这个问题可能很有趣。

如果给定河流系统的支流只有一系列年度最大流量,那么这些系列能否提供有关上游高流量和下游高流量之间联系的任何信息?如果只有年度最大流量的时间序列可用,而没有发生日期,则无法确定两个流量相互增加的概率。然而,同一年两个高流量组合的概率是它们组合产生下游高流量的概率的明确上限。近似值的准确性取决于确定年度最大值的方式。

如果只有一系列年度最小流量可用,那么这些系列能否提供有关系统适航性的任何信息?

流域的所有部分是否都以相同的方式应对气候变化?在这种情况下,年度统计数据之间的相关性不应从一个时期到另一个时期发生变化。

4.1.1 用于检验重现期依赖性不确定性的方法
从年度最大流量到重现期的映射是严格递增函数。第 2.1 节表明,由于本文中使用的拟合方法的准备步骤,将流量映射到重现期或反之亦然不会改变拟合过程的结果。这意味着使用拟合方法来确定三个不同联结的联结参数以及相关的不确定性将告诉我们有关返回周期的依赖结构的信息。更具体地说,高回报期是否相关?如果是,那么如何相关?对于相应的 copula,这意味着 pdf 中应该有一个峰值(在 ( u,v) 飞机。可以通过查看与估计参数相对应的联结以及该联结与与给定置信水平的置信区间的下限或上限相对应的联结之间的差异来检查依赖性结构中的不确定性。

莱茵河多个站点以及摩泽尔河和美因河各一个站点的年度每日最大流量的时间序列是从全球径流数据中心(GRDC)获得的引文2021)。车站显示在图8。由于时间序列是年度最大值的序列,因此 Hofert等人提出了一个 copula 包。(引文2020)用于扩展应用于该系列的单参数联结函数的集合,并添加专门适合极值的附加联结函数:Galambos 和 Huesler-Reiss(附录 C.2)。在其他极值联结中,未考虑 Tawn 联结,因为它仅限于 Kendall 的值低于 0.418,并且不考虑 t-EV copula,因为它有两个参数。为了实现低回报期和高回报期的高相关性,对低参数和高参数具有不同相关结构的联结函数(Clayton、Gumbel、Galambos、Huesler-Reiss)在其标准方向和 180 度旋转后进行了尝试; 旋转的联结将通过在联结名称后添加“180°”来表示。与本文的其余部分一样,参数的不确定性由肯德尔的置信曲线表示Unknown node type: font
。对于给定的Unknown node type: font
,Galambos 和 Huesler-Reiss 系词的形状与 Gumbel 系词的形状非常接近。

4.1.2 重现期依赖结构不确定性的结果
为了说明将获得的结果类型,选择了四对测量站,预计它们具有不同的依赖性结构。对于每一对,确定汇合点下游站的流量。安德纳赫和科隆作为测试案例。对于这些站点,预计具有近乎完美的相关性,因为没有主要支流进入站点之间的河流。图9(一)证实了这一点。图9(b)表明下游站的高流量也往往具有相关性。参数值Unknown node type: font
和Unknown node type: font
值可以在中找到表 4 和表 5, 分别。其他站对将支流上的一个站与汇合处莱茵河上游的一个站结合起来。所有对都显示出明确的相关性,因为高达 99% 的置信区间的界限远离零(图9(b)–(d))。对于所有对,最佳拟合是通过 Gumbel、Galambos 或 Huesler-Reiss 的版本获得的,这些版本绕 ( u,v ) 平面中的点 (0.5,0.5) 旋转 180°。考虑到这些联结函数的 pdf 形状(峰值位于左下象限),这可能表明短回报期的相关性比长回报期的相关性更强。然而,右上角点的稀缺也可能导致这种对旋转版本的偏好(图9(f)–(h))。

在散点图中(图9(e)–(h))颜色用于显示支流与干流交汇处下游站点的流量。添加这些图是为了表明,即使是寻找同一日历年高流量之间的依赖性(乍一看过于简单)的方法也至少可以提供一些有关高流量的信息。

95% 置信区间内 copula 的 pdf 形状变化的说明可以在图10对于科赫姆和考布这对组合来说。例如,对于 Frank 系动词图10(一) 显示 
和置信区间下限的 pdf,以及图10(k) 显示了 pdf 之间的差异
以及置信区间上限处的 pdf。其他联结也显示了类似的图。

置信曲线提供了不同置信水平下联结的变化,因此可以深入了解不确定性对特定联合返回时间的影响。虽然整个上象限 ([0.5,1] × [0.5,1]) 很有趣,但由于在二维中查看三维信息而产生的限制通常会导致检查超出频率或等效的返回周期。Salvadori等人讨论了重现期和系动词之间的关系。(引文2007 年2月 3.3)。例如,在特定年份,两条河流的流量位于重现期前 10% 的概率对应于联结函数 pdf 在矩形 [0.9,1] × [0.9,1] 上的积分,

4.2 岩溶地区降雨与流量的依赖结构
流域内的降雨量和流出量之间的关系是由物理过程决定的,因此它是一种确定性的关系。然而,过程及其参数存在相当大的认知不确定性。因此,降雨和径流之间的关系在不同时间可能看起来有所不同。这种关系最简单的确定性模型是径流是降雨量的移动和缩放版本。第一个改进是用径流和转移降雨的联合分布取代简单的比例关系。该模型将通过将依赖结构拟合到一系列变化的变化的降雨和径流来构建。通过假设最适合降雨和径流之间的延迟的转变的依赖性最强来选择转变。只有在能够足够确定地确定转变的情况下,这种方法才有效。决定使用突尼斯 Djebel Zaghouan 地区的数据集,利用本文提出的置信曲线方法来研究偏移估计的不确定性。

Djebel Zaghouan 是 Zaghouan 地块最重要的侏罗纪地层,位于突尼斯以南约 50 公里处。该地块主要由重叠的石灰岩单斜岩组成。它还含有白垩纪和始新世的泥灰岩(卡斯塔尼引文1951)。Djebel Zaghouan 的特点是存在南部断层和横向断层,这些断层形成了地块(Ferjani等,2017)。引文2020)。这些断层有利于渗透。Zaghouan 喀斯特含水层面积约 19.6 km 2 (图11)。东部地区有利于渗流水的储存条件,而西部地区泥灰岩沉积物的储存系数则低得多(Djebbi等,2014)。引文2001)。

扎古安地区位于上半干旱和半湿润气候区的交界处。年均降雨量467毫米(245至625毫米),时空分布不均匀。1915年至1944年期间,每天在“Zaghouan controle”站(纬度:36.39583N;经度:10.14917E)进行降雨测量。但是,1929年全年的数据和1929年全年的数据存在差距。 1930 年 1 月。这些空白通过使用附近站点“Zaghouan SM”(纬度:36.40306N;经度:10.14472E)的数据填补。这导致了完整的每日和每周累积降雨量。所使用的放电系列是从 1915 年到 1943 年在宁菲泉 (Nymphée spring) 记录的。它最初仅以图形形式记录。测量的时间间隔不规则,频率从每周两次到每月不等。为了提取信息,图形数据被数字化。该时间序列包含两个非典型年份:从 1920 年 9 月到 1921 年 8 月的水文年非常潮湿,以及从 1926 年开始的相对干燥的水文年。这导致总体积为 6.5 × 10分别为6  m 3和1.9 × 10 6  m 3。水资源总局(法语缩写为 DGRE)水文年鉴档案中的原始文件片段包含 1924 年至 1926 年的水文(曲线)图12。主要工程于 1944 年进行,但 1915 年至 1943 年的数据反映了自然流动条件。

这些观察结果与这一时期复兴的自然趋势是一致的。根据 Olarinoye等人的标准。(引文2020年),水位线的精度和质量为A级:流量观测测量已知,春季水位线中个体事件的识别,春季水位线中季节性事件的识别,以及水位线中衰退事件的识别(见图12)。根据 Cinkus等人的定义,喀斯特地貌属于 6 类。(引文2021 年)地中海地区喀斯特含水层资源可用性和质量 (KARMA) 项目。岩溶的最小惯性为两个月,因此通过线性插值获得日、周、月流量的一致时间序列被认为是合适的。每日流量系列主要用于测试算法。如今,含水层已得到充分开发,为扎古安市提供饮用水。不幸的是,这种过度开发多年来阻碍了该地区泉水的自然重新出现。

4.2.1 用于确定降雨和径流之间变化的方法
降雨和径流之间的滞后是通过将联结函数拟合到降雨时间序列和径流序列的版本来估计的,该版本的径流序列移动了 m 个步长,

4.2.2 滞后发现的结果
图13显示喀斯特地区的每日降雨量和径流。此外,还绘制了一条线,表示径流在与估计滞后相对应的天数内随时间向后移动。Frank、Gumbel 和 Clayton 置信曲线
显示在图14(a)、(c), 和(五)时间步长分别为一天、一周和一个月。一天时间步长的结果主要用于测试算法。

Frank、Gumbel 和 Clayton 的滞后m如下所示图14(b)、(d), 和(F)时间步长分别为一天、一周和一个月。仅显示 Frank copula 的估计滞后和置信区间。请注意,Gumbel copula 只能建模正相关,因此当相关性导致负相关时,返回零结果
始终提供最高值。在所有时间尺度上都发现了约 3 至 4 个月的滞后。表6提供滞后估计值以及这些估计值的 90% 和 95% 置信区间。置信区间显示所有时间尺度和所有 copula 的结果都是兼容的。这与 KARMA 项目中概念性 KarstMod 模型和神经网络获得的结果一致(Mazzilli等人,2017)。引文2019年,因果报应引文2021)。

5。结论
在本文中,开发了一种新方法,该方法使用置信曲线作为表示单参数 copula 的 copula 参数估计中的认知不确定性的手段。

在这两种情况下,copula 参数的置信曲线允许将参数的不确定性简单传播到具有直接水文意义的量,并且在这两种情况下,Frank copula 给出了 Kendall 的最高估计值。

所有结果都表明,联结参数的置信曲线是对水文工具集的宝贵补充,可用于各种水文设置。早期的工作已经显示了置信曲线对于变化点分析的价值(Zhou等人,2015)。引文2020年,引文2023)。在某些情况下,置信曲线可以提供贝叶斯方法的替代方法。计划进一步研究看看是否可以通过校正因子来校正覆盖范围,正如 Schweder 和 Hjort 针对更一般情况所建议的那样(引文2016),或者通过使用蒙特卡罗模拟来生成偏差的近似概率分布。

发布日期:2024-02-02