新闻资讯
一、简介
Lane [ 1 ] 将莱斯大学规则描述为一种简单实用的方法,在不假设任何特定分布的情况下,该方法似乎在各种样本量中都表现良好。此外,作者声称它可以实现分布形状的有效可视化[ 2 ]。在实践中,该规则被应用于应用研究中[ 3 ]。然而,没有提供该规则背后的基本原理,并且它在文献中受到的关注有限。Sahann、Müller 和 Schmidt 进行了为数不多的研究这一规则的研究之一 [ 4]。在他们的研究中,他们探索了用户识别分布所需的间隔数量与四个经验规则生成的间隔数量之间的相关性。他们得出的结论是,斯科特、莱斯大学和弗里德曼-戴科尼斯规则往往会高估间隔数量。Sturges 规则是这四种规则中最合适的,他们最终建议使用固定数量的 20 个班级间隔。他们的研究包含四种不同的分布:均匀分布、正态分布、双峰分布和伽玛分布,以及四种样本大小:100、1000、10,000 和 1,000,000。用户样本包括 100 名计算机科学专业的学生。因此,在这项验证研究中,赖斯规则并不是一个更好的选择。
本研究旨在为基于斯科特和弗里德曼-戴科尼斯规则的莱斯大学规则提供理论依据。此外,它还试图评估关于确定箱数的六种规则的经验直方图的准确性,包括五种经典规则:Pearson 平方根 [ 5 ]、Sturges [ 6 ]、Doane [ 7 ]、Scott [ 8 ] 和Freedman-Diaconis [ 9 ],以及莱斯大学规则 [ 1 ]。该研究最初并没有强调一项规则而不是另一项规则。评估包括两个附加因素:样本量和分布类型,同时考虑它们的主要影响以及三个因素之间的二阶和三阶相互作用。
首先介绍了直方图的历史注释和确定类别间隔数量的六个经验规则。当提出莱斯大学规则[ 1 ]时,其基本原理是从斯科特规则[ 8 ]和弗里德曼-迪亚科尼斯规则[ 9 ]发展而来。
该研究的第二个目标是从七个不同大小的标准连续均匀分布中随机抽取五个不同的样本:20、35、50、100、200、500 和 1000 个数据点。采用逆变换采样方法,总共生成350个样本,包含10种分布类型。这些分布类型包含两种中峰对称分布:正态 N ( μ = 5, σ 2 = 6.25) 和 beta ( α = 30, β = 30);两个尖峰对称分布:拉普拉斯 ( μ = 5, β = 2.5) 和逻辑 ( μ = 5, s = 2.5);两个 platykurtic 对称分布:反正弦 (a = 1, b = 1) 和半圆形 ( R = 2);表现出偏度和扁平峰度的两个分布:三角形 ( a = b = 0, c = 1) 和 PERT ( a = 1, b = 4, c = 5);以及具有偏度和尖峰度的两种分布:指数 ( λ = 1/2) 和对数正态 ( μ = 0, σ 2 = 0.25)。随后,将这 6 个规则应用于这 350 个样本,从而生成 2100 个经验直方图(6 个规则的 7 个大小、10 个分布的 5 个样本)。
使用相应分布的累积分布函数计算 2100 个经验直方图中每个k类区间的概率。这个过程产生了预期的相对频率或理论概率。然后使用平均欧几里得距离来测量相对频率和类间隔的预期概率之间的距离,称为平均 差异。
另一方面,在区间 [0.001, 0.999] 内生成具有完美对称性的 1000 个均匀分布数据的样本,均匀分布在 0.000998 的距离处。使用相应的分位数函数,生成了 10 个分布。10 个分布中每个分布的概率密度函数图(以随机样本的范围为界)作为理论模型,用于直观地评估经验直方图是否准确地再现了分布曲线。视觉评估由专家评委使用四个有序类别的量表(称为识别 级别)进行。
考虑规则、分布和样本大小三个因素,通过对齐等级变换的方差分析,比较平均差异和识别水平的均值。方法部分提供了更多详细信息。在解释研究方法之后,提出结果部分,并随后得出结论。
2. 直方图的历史注释
1833 年,法国律师兼统计学家 André Michel Guerry [ 10 ] 在法国犯罪和自杀研究中引入了直方图,作为离散经验分布对连续分布函数的近似。英国护士弗洛伦斯·南丁格尔 [ 11 ] 在其 1859 年出版的关于克里米亚战争期间英国军队卫生设施的著作中,使用直方图比较了士兵和平民的死亡率。然而,这些作者只是简单地命名了他们的图形表示形式,并没有使用新词“histogram”,由希腊语“histos”(ι σ το σ)(可翻译成英语“mast”)和“gramma”(γ ρ α µµα)(可翻译为“图表”或“绘图”)。因此,该术语从词源学意义上来说,指的是桅杆或垂直杆的图形[ 12 ]。
统计术语“直方图”由卡尔·皮尔逊(Karl Pearson,1857-1936 年)创造,并在 1891 年格雷欣学院 (Gresham College) 几何学教授任职期间首次在有关地图和制图的讲座中使用。在本次讲座中,皮尔逊解释说,直方图可以用来表示不同时期的统治、君主或首相的历史信息[ 13 ]。然而,直到 1895 年 Pearson 提出连续分布系统时,“直方图”一词才出现在 Pearson 的书面出版物中。与 Guerry 不同,Pearson 将值的连续体离散化为k 个类间隔,以创建直方图中看到的附加矩形,表示连续分布下的区域 [ 14 ]。
值得注意的是,直方图是理解分布形状的非常有价值的图形工具,并在 Karl Pearson 的频率曲线系统的开发中得到了广泛的应用 [ 14 ]。直方图可以用图形表示连续随机变量的采样分布。这涉及将连续范围内的n 个样本值分组为k 个类间隔。每个区间在直方图中由一个矩形表示,其面积对应于其相对频率。
在水平轴或横坐标轴上,排列了k个间隔,并且可以用方括号或圆括号中的两个极限来标记 [ LI , LS ] 或用奇异值(类别标记)来标记。该轴可以取从 0 到 +∞、从 −∞ 到 +∞ 的值,或者有界 [− a , a ],具体取决于变量的域。因此,当条形图仅使用(正值)第一象限时,该水平轴可以对应于笛卡尔坐标轴的上两个象限。连续的区间彼此相邻,反映了变量的连续性质。
在垂直轴或纵坐标轴上,定位间隔的高度。高度由相对频率除以间隔宽度来确定:hi = fi / a i。这些表示构成了密度直方图。虽然类似于条形图,但条形图是相连的,X 轴值具有数学意义,它们的面积对应于间隔的相对频率。
最常见的做法是使间隔具有相同的宽度,这是由平方根、Sturges [ 6 ]、Doane [ 7 ]、Scott [ 8 ]、Freedman 和 Diaconis [ 9 ] 等经验规则指导的决定,以及莱斯大学规则[ 1 ]。另一种选择是保持每个间隔内密度或频率的均匀性,同时允许可变宽度。当利用 Pearson 卡方检验来评估经验分布与理论分布之间的拟合优度时,建议使用这种方法 [ 15 ]。此外,存在各种算法用于最小化积分均方误差 [ 16 ]、危险函数 [ 17]],或熵[ 18 ]。
直方图存在一种变体,在处理具有已分组为类间隔的大量值的数据集时,它具有更通用的用途。这种变体被称为频率直方图,其中值的间隔共享相同的宽度并且彼此相邻。对于每个间隔,将绘制一个矩形,其高度与其绝对频率或简单相对频率相对应。在这种情况下,曲线下的面积并不像密度直方图中那样等于间隔的频率,而是与其成比例的值。因此,它类似于条形图,其中条形相互连接。这种方法确保了数据本质的保存,避免将连续性强加于离散定量变量或将定量和连续特征强制归因于序数变量。该研究使用直方图的这种变体进行数据分析,以便于将其外推到心理学和相关科学领域的研究。
3. 对样本数据进行制表和绘图时的类间隔
当处理连续的定量变量并要构建频数表时,需要建立类区间来进行频数统计。一旦定义了表格,就可以通过直方图直观地表示数据。类间隔是变量值的连续且不重叠的范围,遵循两个关键原则:排序和完整性。排序原则确保间隔连续且连续,而完整性原则确保所有样本数据都落在单个间隔内,保持排他性。
在创建表格的过程中,面临的挑战是确定类间隔的数量 ( k ) 并确定间隔是否具有相同的宽度 ( w ) 或不同 ( w i ; i = 1, 2, ..., k )。这里,类间隔的宽度被定义为其上限(UL i)和下限(LL i)之间的差:w i = UL i - LL i。
建议间隔的宽度保持不变 ( w ),除了异常值产生长尾的两个极端间隔之外。在这种情况下,这两个极端区间的宽度可以大得多,以包含这些远离其他数据点的低频数据点。
有几种自动应用或可编程的规则用于定义类间隔的数量,可以将其分为三组[ 19 ][ 20 ]。一组规则首先定义由正实数 ( w ) 表示的恒定幅度,然后确定间隔数 ( k ),它是一个自然数。该组中的规则旨在最小化参数,通常是积分均方误差或损失函数 [ 21 ]。另一组规则首先指定间隔数 ( k ),然后从那里确定恒定幅度 ( w)。在两组规则中,每个间隔 ( n i ) 的数据频率或数量是可变的。第三组规则首先设置类间隔的数量 ( k ),然后建立每个间隔的均匀密度或恒定数据量 ( n ),其中幅度保持可变 ( w i )。最后一种策略用于优化拟合优度卡方检验的功效[ 15 ],本文中未进行开发。
3.1. 从恒定幅度到类间隔数
在第一组中,规则定义了恒定幅度 ( w ),并随后确定了类间隔的数量 ( k ),Scott [ 8 ] 以及 Freedman 和 Diaconis [ 9 ]提出的规则因其简单性和分析公式而脱颖而出。下面概述了它们中的每一个。
3.1.1. 斯科特法则 (1979)
该规则假设变量 X 服从正态分布,并且基于积分均方误差的最小化 [ 8 ]。幅度 ( w ) 是从 3.49 倍样本标准差(经过贝塞尔校正)与样本大小的立方根之间的商得出的
3.1.2. 弗里德曼-戴科尼斯规则 (1981)
Freedman 和 Diaconis [ 9 ] 没有对分布做出任何假设。该规则是对 Scott 规则的修改,旨在增强对异常值的鲁棒性。它是由两倍四分位距与样本量的立方根的商得出的
为了计算第三和第一四分位数,并随后获得四分位数范围,可以利用基于从连续均匀分布U [0中随机抽取的大小为n的样本中的第 i阶统计量的期望值或平均值的插值规则。 ,1]。该阶次统计量遵循具有形状参数的 beta 分布:α = i和β = n + 1 − i [ 22 ] ,其平均值为:μ = α /( α + β ) = i /( n+ 1). 该规则通常在 R [ 23 ]中被称为规则 6 。SPSS 程序使用此规则计算样本分位数[ 24 ]。当在 Excel 程序中应用函数 CUARTIL.EXC 和 PERCENTIL.EXC(从计算中排除分位数阶 0 和 1)时,会采用此规则 [ 25 ]。
当处理正态样本分布时,R [ 23 ]中建议应用规则 9 。一般来说,Hyndman 和 Fan [ 26 ] 建议在 R 程序中使用规则 8,该规则依赖于从标准连续均匀分布中抽取的大小为n的随机样本中第 i阶统计量的分布中位数。此分布遵循上一段前面提到的 beta 分布。真实统计资源包中的 PERCENTILE_EXC 函数有助于使用这些规则计算样本分位数 [ 25]。值得注意的是,该软件包还提供了用于估计分位数的 Harrell-Davis 稳健(无分布)程序。此过程对于双峰数据特别有用,例如反正弦分布的样本,以及非常重尾的对称分布(例如柯西分布)和非对称分布(例如对数正态分布 [ 27 ])。
在这两个规则中,在确定恒定或均匀幅度之后,构建类区间的过程从识别样本中的最小值开始。将幅度添加到该最小值,定义第一类间隔的下限。该区间的上限成为下一个区间的下限,并且幅度再次相加。该过程持续进行,直到包含或超过第k个间隔中的最大样本值。类间隔的数量 ( k ) 计算为总样本范围与间隔恒定幅度的向上舍入商:k = ⌈ R / w⌉。使用Excel程序中的Frequency函数进行频数统计时,类区间在上限处被认为是封闭的,在下限处被认为是开放的。但是,第一个间隔例外,其中包括下限或样本最小值。本研究使用 Excel 2021 版作为软件程序。
3.2. 从恒定幅度到类间隔数
第二组定义了k 个类间隔,并从k获得恒定幅度w,其中有四个规则很突出:平方根 [ 5 ]、Sturges [ 6 ]、Doane [ 7 ] 和莱斯大学 [ 1 ] [ 2 ]。它们各自的定义如下。
3.2.1. 平方根法则
卡尔·皮尔逊 (Karl Pearson) 在其 1892 年出版的《科学语法》一书中引入了平方根规则 [ 5 ]。因此,它是确定类间隔数量的最古老的规则[ 14 ]。该规则在各种统计包中得到实现,并且常用于数据分析[ 28 ]。特别建议样本量小于 100 [ 1 ] [ 29 ]。
3.2.2. 斯特奇斯规则 (1926)
假设二项式B分布的近似值( n = k − 1, p = 1/2) 是正态分布,k无穷大。Se sugiere para tamaños de muestra de 100 a 1000 (100 ≤ n ≤ 1000)。但是,如果您对这些伟大的事情没有任何建议,则可以通过间隔时间来获得结果[ 30 ][ 31 ]。
该规则假设分布对称,并依赖于将二项分布B ( n = k − 1, p = 1/2) 近似为正态分布N ( μ = ( k − 1)/2, σ 2 = ( k − 1)/4) 当k趋于无穷大时。建议样本大小范围为 100 到 1000 (100 ≤ n ≤ 1000)。然而,对于非常大的样本量是不可取的,因为它会导致非常少量的类间隔[ 30 ][ 31 ]。
Sturges [ 6 ] 提出,如果有 16 个数据的样本,以二项分布B(n = 4,p = 1/2)为模型,可以将这 16 个元素分配为 5 个组或类区间,其中以下频率:第 1 类 1 个数据点、第 2 类 4 个数据点、第 3 类 6 个数据点、第 4 类 4 个数据点、第 5 类 1 个数据点。将 16 表示为 2 的幂时,类间隔数 ( k )对应于该幂增加一个单位的指数:16 = 24,k = 4 + 1 = 5。如果有 32 个元素,基于二项式分布B ( n = 5, p= 1/2),它们将被分配为六个组或类间隔,分布如下:1类1个数据点,2类5个数据点,3类10个,4类10个,5类5个,第 6 类为 1。将 32 表示为 2 的幂时,间隔数 ( k ) 对应于指数加一:32 = 25,k = 5 + 1 = 6。
在这种方法中,考虑到随机抽样背景下的所有分布可能性,将n个元素分布在k 个容器或箱中,而无需先验容器的数量。对于第一个 bin,计数包括零元素组的数量。在第二个 bin 中,它计算单元素组的数量,并且这种模式继续,增加 1,直到到达第k个 bin,其中元素保留在单个组中。因此,形成不同组的元素数量为k - 1,其中k - 1 个元素的顺序无关,并且每个 bin 内不允许元素重复。
用算术术语表达,第一个 bin 的选项涉及组合数学,不重复以0 个元素为一组的k − 1 个元素,从而产生一个选项。第二个箱的选项涉及组合学,不重复以1 个元素为一组的k − 1 个元素,从而产生k 个选项。第三个箱的选项涉及组合学,不重复以2 个元素为一组的k − 1 个元素,从而产生 [ k × ( k − 1)]/2 个选项。第 k个 bin的选项涉及组合学,不重复在k组中采用的k − 1 个元素− 1 个元素,产生一个选项。这k 个不重复的组合的总和得出n 个元素的总数,相当于 2 的k − 1 次方
斯特吉斯规则被广泛使用和推荐。然而,正如 Hyndman [ 32 ]所强调的,它并不普遍适用。该规则对于小样本和非常大的样本都表现不佳。它依赖于对称二项式分布对正态分布的近似。因此,偏离对称性(例如尾部较重或拉长的分布)或明显偏离正态性(例如两个尾部都较重或拉长的分布)可能会对准确性产生负面影响。
3.2.3. 多恩法则 (1976)
它是斯特吉斯规则的一个变体,用于存在偏斜分布的情况[ 33 ]。
3.2.4. 莱斯大学规则
它是由莱斯大学统计系开发的 [ 1 ] [ 2 ],与平方根和斯特吉斯规则一样,仅取决于样本大小。根据该规则,类间隔的数量(k)通过向上舍入样本量的立方根的两倍来确定,如等式(11)所示。该因子恰好对应于 Scott [ 8 ] 以及 Freedman 和 Diaconis [ 9 ]提出的规则的分母。
当均匀幅度( w)被重新定义为包含样本的最小值和最大值但不超过它们时,可以将其视为这些规则的简化(⌈ R / w ⌉ = k aj ; w a j = R / k a j)并且给出了范围的近似值。该值大约是 Scott 规则(方程(12))的样本标准差的七倍,或者是 Freedman-Diaconis 规则(方程(13))的半四分位距的八倍。这些广泛的范围允许包含极其非典型的情况,定义为与平均值的标准差超过三个或与中位数的四分位距的三倍以上的情况。
4. 方法
一方面,从标准连续均匀分布中随机抽取 35 个样本,有 7 个不同尺寸(20、35、50、50、100、100、200、500 和 1000),每个尺寸 5 个样本。使用 Excel 随机数生成器进行提取。
使用逆变换采样方法,从初始的 35 个均匀分布样本集中生成了总共 350 个样本。其中 70 个样本遵循对称中峰态分布。具体来说,35 个样本是从位置参数μ = 5 和平方尺度σ 2 = 6.25(方程(15))的正态分布中抽取的,其他 35 个样本是从形状参数α = 30 的 beta 分布中生成的,β = 30(等式(16))。
5. 结果
5.1. 平均差异 (AD)
观察到的直方图和预期直方图 (AD) 之间的平均差异分布显示出正偏度或右尾 ( g 1 = 1.237, 95% CI [1.133, 1.342]) 以及相对于肩部的扁平峰度或短尾 ( g 2 = −0.227,95% CI [−0.332,−0.122])。这表明偏离正态分布(Shapiro-Francia W' 统计量 = 0.885,p < 0.001;D'Agostino-Berlanger-D'Agostino K 2统计量 = 433.868,p < 0.001)。参见图 1。
在比较分布类型 (D)、样本大小 ( n ) 和规则等因素的 AD 平均值时,使用对齐等级变换方差分析来确定类间隔 (规则) 的数量和宽度,所有三个因素的主效应发现影响因素显着(表1)。
样本量对 AD 的影响较大(表 1)。样本量越大,AD 越小(图 2)。正如 Spearman 系数所示,AD 的样本大小 ( n ) 和排名(与样本大小对齐)之间的线性相关性非常高:r S = -0.925,p < 0.001。
在 45 个配对比较中,经过 Holm-Bonferroni 校正后发现 25 个(55.6%)显着。正态分布的平均等级显着低于反正弦分布,而平均等级则高于指数分布。beta 分布的平均等级低于反正弦分布,而平均等级高于指数分布、拉普拉斯分布、逻辑分布和对数正态分布。拉普拉斯分布的平均等级显着低于反正弦分布、半圆形分布、三角形分布和 PERT 分布。Logistic 分布的平均等级也低于反正弦、半圆、三角形和 PERT 分布,但平均等级高于指数。反正弦、半圆、三角形和 PERT 分布的平均等级高于指数和对数正态分布。图3)。
该规则对 AD 的影响较小(Table 1)。在 15 个差异中,经过 Holm-Bonferroni 校正后发现 10 个差异(66.7%)显着。平方根规则和 Doane 的 AD 平均等级最低(与规则一致),而 Scott 的平均等级最高。平方根和莱斯规则的平均等级显着低于斯科特、弗里德曼-戴科尼斯和斯特奇斯规则。Sturges 规则的平均等级显着低于 Scott 规则,但高于 Doane 规则。多恩规则的平均等级明显低于斯科特和弗里德曼规则的平均等级。平方根、莱斯和多恩规则的平均等级是相等的。弗里德曼-戴科尼斯规则的平均等级相当于斯特奇斯和斯科特的平均等级
5.2. Recognition Level (RL)
识别水平 (RL) 序数变量的分布表现出负不对称性(鲍利偏度系数 = −1,偏差 = 0,标准误差 = 0,99% 百分位数引导置信区间 [−1, −1];百分位数系数偏度 = −0.333,偏差 = 0.0013,标准误差 = 0.019,99% 百分位数引导置信区间 [−0.3333,−0.2007])以及相对于肩部的扁平峰度或缩短的尾部(百分位数峰度 = −0.096,偏差 = 0.0008,标准差误差 = 0.0079,99% 百分位数引导置信区间 [−0.0965,−0.0132)。置信区间扩大到 99%,因为标准误差太小,导致 95% 区间的上限和下限重合。参见图 8。
通过比较分布类型(D)、样本大小(n)和规则等因素之间的RL,使用对齐秩变换方差分析来确定类间隔(规则)的数量和宽度,三个因素的主效应显着(表2)。
样本大小对 RL 的影响很大(表 2)。样本量越大,RL 越小。RL 的样本大小和排名(与分布对齐)之间的 Spearman 系数表明,线性相关性很高,r S = 0.638,p < 0.001(图 9)。RL 的样本量相关性明显小于 AD 的相关性:Rosner-Glynn 变换 [ 43 ]:r S ( n,AD) = -0.920,Rosner-Glynn 变换 [ 43 ]:r (n,AD) = -0.877 ; r S ( n , RL) = 0.482,Rosner-Glynn 变换 [43] : r(n, RL) = 0.479; rS(AD, RL) = −0.532; Rosner-Glynn transformation [43] : −0.521; Meng-Rosenthal-Rubin z statistic [44] = −49.449, p-value ≤ 0.001; r(n, AD) − r(n, RL) = −1.356; 95% CI (−1.958, −1.809); effect size: d = √(n − 3) × |z| = 1710.835.
分布对 RL 的影响大小很大(表 2)。RL 的最小平均等级(与分布类型对齐)以半圆形分布出现,最高平均等级以指数分布出现。经过 Holm-Bonferroni 校正后,在 45 项比较中,33 项 (73.3%) 显着,12 项 (26.7%) 不显着。RL 的平均等级在正态分布、β 分布和逻辑分布之间是等效的。拉普拉斯分布、反正弦分布、三角分布和 PERT 分布之间的平均等级也相同。反过来,对数正态分布的平均等级相当于拉普拉斯分布、反正弦分布和三角分布的平均等级(图 10)。
6。结论
AD 统计量受样本量的强烈影响,表现出具有非常高关联强度的线性关系。在较小程度上,它受到分布类型和用于确定类别间隔的数量和幅度的规则的影响,这两个因素的影响大小较小。反正弦分布以双峰峰态分布为特征,产生最大差异,而指数分布则实现最小差异。Platykurtic 分布比尖峰分布表现出更多的差异。平方根、赖斯和多恩规则的均值彼此相等,其差异明显小于斯科特、弗里德曼-戴科尼斯和斯特奇斯规则。因此,赖斯规则可以基于斯科特和弗里德曼-戴科尼斯规则,与这两个规则相比,经验直方图和理论直方图之间产生的差异较小。规则和分布类型之间的交互作用以及三重交互作用并不显着。样本量与规则和分布类型的二阶交互作用显着且较小。样本量的增加更有利于平峰分布,以及斯科特和弗里德曼规则,即产生最大差异的条件。
识别水平受样本量影响,效应量较大。样本量和识别水平之间的关系是线性的,显示出很强的关联性,尽管显着低于平均差异。分布类型的影响显着且较大,其中对平峰半圆分布的认可度最低,对尖峰指数分布的认可度最高。规则类型也具有显着但较小的影响大小。Scott 和 Sturges 规则的识别级别最高,而平方根和 Friedman-Diaconis 规则的识别级别最低。根据 Doane 和 Rice 规则观察到中间识别水平。
样本量的增加主要有利于半圆形分布的识别。对于小样本,指数分布和三角分布是最容易识别的。规模的增加主要有利于 Doane 和 Rice 规则,而不利于 Scott、Friedman-Diaconis 和平方根规则。在规则与分布的相互作用中,需要注意的是,反正弦分布是一种双峰分布,Scott 和 Friedman 规则很难识别,而这两个规则则更容易识别三角分布。对赖斯规则的认可与分布无关。
与平均差异和识别水平的结果一致,样本大小对准确度指数有显着且巨大的影响。样本量和准确度指数之间的关系是直接线性关系,关联强度非常大。分布类型也有显着且较大的影响,对称且平峰半圆分布的精度最低,正非对称尖峰指数分布的精度最高。然而,与识别级别一样,尖峰分布的准确度并不比平峰分布更高。
该规则对准确性指数的影响很大,但很小。准确度指数在 Scott、Doane 和 Sturges 规则下达到最高准确度,在 Friedman-Diaconis 和平方根规则下达到最低准确度,而 Rice 规则则介于两者之间。二阶相互作用很重要。样本量的增加有利于指数精度较低的分布、半圆形分布以及 Doane、Sturges 和 Rice 规则。指数显示更准确的分布,即指数分布,以及斯科特规则、弗里德曼-迪亚科尼斯规则和平方根规则,从人口规模的增加中受益较小。Scott 和 Friedman-Diaconis 规则在反正弦分布中表现不佳,但在三角形分布中表现出最高的准确性。
赖斯规则随着样本量的增加而改进。它比 Friedman-Diaconis 规则表现得更好,特别是在与反正弦分布相关时,但不如 Scott 规则,除非具有相同的分布。就准确度指数而言,其轮廓类似于 10 个分布的平方根规则,并且类似于有关样本量的 Doane 规则,与彼此相似的 Scott 和 Friedman-Diaconis 规则的轮廓不同。在这七个规则中,除了反正弦分布之外,斯科特的规则最为突出。在这种情况下,平方根和莱斯规则是更好的选择。与其他研究一致[ 19] ,除反正弦分布外,平方根规则的精度最低,并且是从样本增加中获益最少的规则。
作为研究的局限性,应该指出的是,基于参数最小化的规则,例如 Rudemo [ 16 ]、Shimazaki 和 Shinomoto [ 17 ]、Liu、Hussain、Tan 和 Dash [ 18 ] 或 Knuth的规则[ 21 ] 没有被考虑在内。做出这一决定是因为它们的编程复杂性以及当前使用的统计软件包中没有它们。此外,该规则基于均匀密度但k 个容器的异构宽度 [ 15 ][ 45] 也被排除在外,因为它仅限于拟合优度检验。非常大的样本量,例如 2000、5000、10,000 或更多数据点,也不包括在内。尽管如此,本研究的范围与心理学及相关领域研究中的常见数据分析一致。在这些领域中,确定箱数和样本大小的规则(例如前述的规则)并不常见。
经验直方图再现分布形状的准确性是通过平均差异(经验直方图与预期直方图之间)、识别水平(理论直方图)和准确性指数(前面两个变量的组合)来评估的。然而,还有其他度量,例如积分均方误差或 Kullback-Leibler 散度 [ 46 ],这些度量与经验规则更相关,但由于计算复杂性而未考虑这些规则。