新闻资讯
一、简介
因素模型 [ 1 ] [ 2 ] 允许对心理学和社会科学的多个领域的测量模型进行研究。因子模型有多种估计方法,研究人员可以选择几种不同的方法进行探索性和验证性因子分析[ 1 ][ 3 ][ 4 ][ 5 ]。尽管大量的研究都是基于因子模型,但现实世界的现象可能并不完全符合该模型。[ 6 ]强调因子模型可能并不完全适合真实的人口数据。因子模型和总体现实世界数据之间可能存在的差异被称为“模型误差”[6 ][ 7 ]。因此,在对现实世界数据样本执行因子分析中,因子模型的失配可能是由于采样误差而导致的,失配可能是由于模型误差而导致的。共同和独特因素以及大量次要因素的建模已成功用于在模拟研究中生成包含模型误差的更真实的数据(例如,[ 8])。然而,不基于大量次要因素的其他类型的模型误差也可能与因素模型与实际数据的拟合有关。由于其他类型的模型误差尚未被研究,它们对模型参数估计的影响仍然未知。因此,本研究解决的研究问题是另一种模型误差对因子分析结果的影响。
这里考虑的模型误差是观测变量之间的协方差受到个体之间协方差的影响。在心理学和社会科学中,因子分析主要是为了识别潜在变量,解释在个体样本中观察到的变量之间的协变。然而,变量的协方差意味着个体的协方差模式,如以下示例所示(表 1,示例 1)。变量x 1和x 2的完美相关性可能由一个公因子引起,并且变量x 3和x 4的相关性可能由另一个公因子引起。随着个人的分数i 1和i 2 的方差为零,相应的个体间相关性为零。个体i 3和i 4之间仅出现完美的负相关。尽管变量的相互相关性可以用两个不相关的因素来解释,但相应的相互相关性
个体的差异不能用两个不相关的因素来解释。在示例 2 中,个体i 1和i 2之间以及i 3和i 4之间存在完全负相关性,而其余个体之间则存在中等相互相关性,与示例 1 相比,这大大改变了变量的相互相关性。这些示例表明变量之间的相互关系和个体之间的相互关系。为了阐明这种关系,本研究研究了解释个体共同方差的潜在因素对变量共同方差的影响。
对在许多个体中观察到的变量之间的协方差或相关性进行因子分析通常称为 R 因子分析,而对在许多变量中观察到的个体之间的协方差或相关性进行因子分析称为 Q 因子分析 [ 9 ] [ 10]。当用于 R 因子分析的观测变量矩阵转置时,获得用于 Q 因子分析的个体数据矩阵。请注意,用于 R 和 Q 因子分析的经验数据可能相同,尽管观察到的变量数量通常会大于 Q 因子分析中的个体数量,而个体数量通常会大于 Q 因子分析中的个体数量。 R 因子分析中观察到的变量数量。此外,与 R 因子分析相比, Q 因子分析 [ 11 ] [ 12 ]中的因子提取和旋转还有其他偏好。尽管如此,人们一致认为 Q 因子分析可能有助于调查个人主观观点 [ 12在问卷开发中,Q 因子分析有时优于 R 因子分析(例如,[ 13 ])。
主要从因子分析作为数据分析工具的角度讨论了R因子分析和Q因子分析的异同[ 14 ][ 15 ]。因此,很少比较 R 和 Q 因子模型作为数据生成总体模型对 R 或 Q 因子分析结果的影响。因此,当将基于包含 R 因子和 Q 因子的总体模型的数据提交给 R 因子分析时会发生什么,人们普遍不知道。因为模型永远不会真实 [ 16],这里重要的不是模型误差的发生,而是当 R 和 Q 因子组合模型成立时,R 因子分析的载荷估计是否存在显着偏差的问题。因此,由于大多数研究都进行 R 因子分析,因此本研究的重点是 R 和 Q 因子组合模型作为总体模型对后续 R 因子分析的影响。然而,人们承认组合的 R 和 Q 因子总体模型也可能是 Q 因子分析的误差源。
在 Q 因素也可能相关的背景下,R 因素的一个例子是在人格特质背景下对人格类型的分析 [ 17 ],尽管结果的稳健性受到了挑战 [ 18 ]。[ 18 ] 还指出,只有 42% 的样本与所提出的性格类型相关,这表明这些类型可能具有中等相关性。尽管[ 17 ]使用聚类方法(高斯混合模型)来识别类型,但也通过Q因子分析[ 9]研究了个体的相似性。]。因此,人格研究表明,变量的相关相似性以及个体的相关相似性可能同时出现。这并不意味着 Q 因子可以更好地代表人格差异,也不意味着它们可以改进对社会适应或工作成就等结果的预测 [ 19]。对于本研究,重要的是要承认 Q 因子也可能与数据的完整描述相关。然而,如果我们接受 Q 因子可能与 R 因子同时出现的观点,则基于 R 因子和 Q 因子组合的总体模型用于估计 R 因子分析的模型参数的结果应该是调查了。到目前为止,这还没有完成,因为个体的相似性经常通过聚类分析[ 17 ] [ 18 ]、潜在类别分析[ 20 ]或因子混合模型[ 21 ]来研究。]。这些类型差异分析方法所取得的成就在这里并没有受到质疑。本研究的重点是群体 Q 因子与群体 R 因子同时发生对不考虑 Q 因子的 R 因子分析的载荷估计的影响。
经过一些定义后,描述了基于 R 和 Q 因子的总体模型对观测变量的协方差和相关性的影响,以及对总体 R 因子载荷估计的影响。然后,进行模拟研究,以说明包含 R 因子和 Q 因子的总体模型对 R 因子分析的载荷估计的影响。最后,提出了一种指示数据集是否包含相关量的 Q 因子方差的方法,并通过模拟数据集进行了演示。
2. 定义
2.1. 独立的 R 和 Q 因子模型
3 Q 因子对 R 因子负载影响的仿真研究
3.1. 条件和规格
进行模拟是为了说明当数据基于 R 和 Q 因子时由 Q 因子引起的 R 因子载荷偏差。由于个体或案例的数量n是 Q 因子模型的一部分,因此模拟研究的有限总体必须包含给定n的大量样本。第一个群体基于n = 300 个病例的 2000 个样本,第二个群体包含n = 600 个病例的 2000 个样本,第三个群体包含n = 900 个病例的 2000 个样本。因此,模拟研究的条件为q R = 3、q Q = 3、p= 15。为了研究 Q 因子对 R 因子载荷估计变异性的影响,每个总体模型中的显着载荷大小设置为相等。
3.2. 结果
模拟研究最重要的结果是,显着载荷的标准偏差随着减小而增大。
4. Q 因子方差指标
由于基于相关 Q 因子方差量对总体数据进行 R 因子分析可能会导致 R 因子载荷有偏差,因此了解数据集中是否存在相关 Q 因子方差量是很有趣的。请注意,基于 R 和 Q 因子相加组合的总体模型意味着单个 R 因子得分的行中心矩阵与单个 Q 因子得分的行和列中心矩阵相结合(方程(15)和(16))。[] 证明了以行和列为中心的矩阵的 R 和 Q 因子分析的特征值是相同的,因此对于组合的 R 和 Q 因子模型,应该预期特征值具有高度相似性,即使结果是矩阵并不完全以列为中心。因此,即使数据可以通过 R 因子分析完美地描述,Q 因子分析也会产生许多重要的特征值。因此,Q 因子分析的特征值并不能明确地告知 Q 因子方差的量。
因此,建议考虑观察变量的双变量散点图,以确定可能由 R 因素引起的受试者间方差是否与可能由 Q 因素引起的大量受试者内方差相结合。可能由q Q > 1 Q 因子引起的不同受试者内概况意味着并非两个观察到的z标准化变量z 1和z 2之间的所有差异都相等。
该示例表明,明显基于q Q = 3 的二元分布可能会导致峰态偏离二元正态分布的峰度。即使可能出现平峰多元分布的不同原因,多元峰度检验也可能表明q Q > 1。当发生与多元正态分布的显着偏离时,可以对散点图进行目视检查,因为具有可分离点云的模式将为 Q 因子的存在提供进一步的证据。
5. 讨论
由于对大量个体观察到的变量进行 R 因子分析是社会科学多个领域中因子分析的主要形式,因此即使总体模型包含 R- 和 Q-,也可能会常规执行 R 因子分析。因素。例如,在人格研究领域,除了众所周知的 R 因素(例如,[ 17 ][ 32 ][ 33 ])之外,还假设 Q 因素或类型因素也可能相关。这就产生了这样的问题:对包含 R 因子和 Q 因子的总体模型中的数据进行 R 因子分析是否可能导致负载估计有偏差。因此,研究了包含 R 因子和 Q 因子的群体模型数据的 R 因子分析。
结果表明,基于包含 R 因子和 Q 因子的总体模型的数据 R 因子分析会导致 R 因子负载估计存在偏差。对于此类数据,R 因子分析将可变性引入到负载估计中。因此,当观测变量在包含 R 因子和 Q 因子的总体模型中具有相等的 R 因子载荷时,由观测变量的 R 因子分析产生的载荷估计将具有超出机会水平的变异性。模拟研究中也显示了 R 因子负载估计的这种偏差以及超出机会水平的 R 因子负载估计的变化。模拟研究表明,额外的负载变化可能会妨碍因子识别。这些结果表明模型误差的影响超出了次要因素的影响 [ 7] 可能与因子分析相关。R 因子载荷的变异性超出了由 Q 因子引起的机会水平,这意味着当从包含 R 因子和 Q 因子的总体中提取数据时,R 因子载荷的显着性检验不能完全防止错误结论。尽管本研究的术语是基于变量和个体的区别(这在社会科学中很重要),但只要将分数的共同方差与转置分数的共同方差相结合,当前的结果就具有相关性。分数的方式数组。
从应用的角度来看,目前的结果意味着 R 因子载荷的再现性可能不仅受到采样误差、变量可靠性不足和每个因子变量数量不足的阻碍,而且还受到 Q 因子的存在的阻碍。可重复性危机[ 34 ]导致人们更加关注统计能力、更强有力的研究设计、预注册和重复研究。本研究表明,当结果基于 R 因子分析时,不同形式的模型误差,更具体地说,Q 因子也可能被视为研究结果再现性不足的原因。
由于对基于 R 和 Q 因子的总体数据进行 R 因子分析可能会导致 R 因子载荷估计有偏差,因此检测观测变量中的 Q 因子方差作为先决条件可能会很有趣。 R因子分析。由于相关矩阵的特征值可能不明确,并且 Q 因子方差导致观察到的分数呈扁平态多元分布,因此建议使用多元正态性检验作为 Q 因子方差的指标。在模拟研究中,Mardia 的多元峰度检验对于相关 Q 因子方差的检测比 Srivastava 和 Small 的检验更敏感。然而,Mardia 的测试也发现了轻微的假阳性结果倾向,因此也可能推荐 Srivastava 和 Small 的测试。由于峰度偏离多元正态分布峰度的原因可能有多种,因此当数据的多元峰度检验显着时,建议检查散点图。散点图的检查可以与双变量峰度的成对检验相结合,以便从 R 因子分析中消除具有显着 Q 因子方差的观测变量。由于多元峰度偏离多元正态性可能有不同的原因,因此可以考虑对数据进行标准化(例如,[ 散点图的检查可以与双变量峰度的成对检验相结合,以便从 R 因子分析中消除具有显着 Q 因子方差的观测变量。由于多元峰度偏离多元正态性可能有不同的原因,因此可以考虑对数据进行标准化(例如,[ 散点图的检查可以与双变量峰度的成对检验相结合,以便从 R 因子分析中消除具有显着 Q 因子方差的观测变量。由于多元峰度偏离多元正态性可能有不同的原因,因此可以考虑对数据进行标准化(例如,[35 ])在应用多元峰度偏离正态性的测试之前,因为归一化可能会减少由于异常值和其他原因而导致的偏离正态性,而平行点云的 Q 因子相关散点图结构不太可能受到归一化的影响。在未来的模拟研究中,可能会研究通过归一化来提高多元峰度测试的特异性以识别 Q 因子模式的可能性。
总而言之,本文提出警告,对包含 R 因子和 Q 因子的群体模型数据进行 R 因子分析将导致 R 因子负载估计有偏差。偏差是由于 R 因子分析模型与包含 R 和 Q 因子的总体模型并不完全对应。多元峰度检验可用于检测 Q 因子方差,作为 R 因子分析的先决条件。进一步的研究应该将 Q 因子方差引起的模型误差对 R 因子分析结果的影响与基于次要因素的模型误差的影响进行比较,正如[ 7 ]所讨论的。未来研究的另一个途径是在并行因子分析的背景下研究 R 和 Q 因子的综合效应(PARAFAC,[36 ]),其中分析了几个双向数据数组。输入双向阵列进行 R 因子分析及其转置到 PARAFAC 中可能会很有趣,以便研究同时估计 R 和 Q 因子是否允许减少因子载荷的偏差。基于次要因素的模型误差和基于 Q 因子方差的模型误差的综合影响可能会在未来的研究中进行研究,因为它可能出现在实际数据中。