新闻资讯

青少年平均比较和筛查的心理健康和福祉测量

出于多种原因,准确测量青少年心理健康和福祉至关重要。首先,青春期作为一个以相当大的身体、社会、心理和环境变化为标志的发展阶段,很容易遭受心理健康困难和低幸福感(Blakemore,2019;Jones,2013;Solmi 等,2021)。最糟糕的结果通常出现在女孩和年龄较大的青少年身上(Campbell 等人,2021 年;NHS Digital,2018 年)。其次,最近的证据表明,此类困难在青少年中越来越普遍,特别是自 COVID-19 大流行爆发以来(Collishaw,2015;维扎德等人,2020)。第三,当前和未来的儿童和青少年心理健康对于生活质量、健康、劳动力市场和其他结果很重要(Goodman et al., 2015)。因此,准确的测量对于提高我们的理解(例如趋势和干预措施)、支持有需要的人以及预防工作至关重要(Humphrey & Wigelsworth,2016;Rutter & Pickles,2016)。为了支持这些目标,需要有证据来支持使用总分和感兴趣群体(例如性别和年龄)之间的测量等效性,以确保推论的准确性。

自我报告措施经常被使用,特别是在大规模研究中,并且可以直接了解年轻人的想法和经历(Bentley 等人,2019;Deighton 等人,2014)。鉴于这一时期情绪性和社会敏感性的增强,这些直接的见解可能对于提高我们对青春期心理健康的理解至关重要(Rapee et al., 2019)。存在一些青少年测量年龄适当性的标准,并且普遍认为青少年具有自我报告的认知能力(Bell,2007;de Leeuw,2011;Omrani 等,2018))。然而,必须审查自我报告措施的心理测量适用性。事实上,越来越多的证据表明,不良的发展实践可能会导致青少年心理健康和幸福数据的噪音(Bentley et al., 2019;Black et al., 2020;Black, Panayiotou, & Humphrey, 2022;Wolpert & Rutter, 2018)。因此,有必要从心理测量的角度进一步审视现有措施,以确保这些措施能够得到强有力的使用。

此外,心理健康和幸福感的定义远未得到普遍认可(Humphrey,2018),“叮叮当当”谬论盛行(Brookman-Byrne,2020)。一些研究将幸福感与症状或心理健康问题互换使用(例如,Fuhrmann 等人,2021 年;Orben 和 Przybylski,2019 年),而其他研究则认为它们是不同的概念(Iasiello 和 Agteren,2020 年)。此外,在一般心理健康和福祉框架内提出的领域,包括享乐、幸福和完整状态模型(Ryff 等人,2021;Westerhof 和 Keyes,2010)),通常在概念上相似(Alexandrova & Haybron, 2016;Black, Panayiotou, & Humphrey, 2022)。例如,享乐/主观幸福感被定义为生活满意度和情感的结合(Diener et al., 2018),从而分享具有内化症状的内容(Alexandrova & Haybron, 2016)。幸福/心理幸福也有一个有点分散的定义,可以包括自主性、环境掌控、乐观、个人成长、与他人的积极关系、生活目标和自我接受(Ryff et al., 2021)。因此,根据其操作化,它可能与许多领域和经验重叠,并且定义不明确(Kashdan 等人,2008)。然而,尽管理论上范围很广,但有一些证据表明,心理健康和幸福感的不同方面在统计上可能高度相关(Black 等人,2019 年;Disabato 等人,2016 年)。

因此,由于一般心理健康和福祉似乎陷入了概念不一致和孤立的泥潭(Black,2022),因此有必要对该领域内的方法进行比较和概述。此外,虽然基于症状的测量通常优先用于了解疾病负担(Costello,2015),但大型研究中越来越多地纳入积极的健康指标(例如,NHS Digital,2018)。几位作者认为,与仅测量症状相比,积极方法提供的额外见解可能有助于及早识别不良的心理健康结果(Bartels 等人,2013 年;Black 等人,2021 年;Greenspoon 和 Saklofske,2001 年;亚西洛和阿格特伦,2020)。然而,通常缺乏支持这一点的心理测量学见解,包括结果的可比性(Bentley et al., 2019;Black, Panayiotou, & Humphrey, 2022)。因此,我们在本文中着手解决这个问题。

鉴于这些问题,我们采取了广泛、包容的方法,反映了年轻人提出的心理健康和福祉的所有领域,这些年轻人在 #BeeWell 调查(一项重大福祉项目)的制定过程中接受了咨询(#BeeWell 研究)团队,2021 年;BeeWell 青年指导小组成员,2021 年)。我们优先考虑包括所有 #BeeWell 福祉领域,因为历史上有一种不让年轻人参与心理健康和福祉措施制定的趋势,这意味着面子(以及内容)的有效性往往不清楚(Black、Panayiotou) 、&汉弗莱,2022)。例如,我们的方法不是忽略潜在的更近端的领域(例如自治),而是试图在一定程度上缓解这个问题并提供广泛的见解。这种方法还得到了证据的支持,即使理论上不同的领域也可以强相关,这表明它们衡量相似甚至等效的体验(Black et al., 2019;Disabato et al., 2016)。这些领域映射到一系列理论领域,包括幸福感(例如,生活满意度)、幸福感(例如,自主性)和完整状态(例如,内化症状)模型。我们的方法还反映了在对简短的自我报告措施进行系统审查时,在广泛的方法(即非特定疾病)下一起考虑这些领域的工作(本特利等人,2019;布莱克、Panayotou 和汉弗莱,2022 年;Deighton 等人,2014)。

青少年心理健康和福祉措施的使用和问题
青少年心理健康和福祉措施通常以两种方式部署:使用研究等手段来了解趋势和对干预的反应,或使用削减分数或百分位数来估计患病率或进行筛查。无论应用如何,这些方法都依赖于这样的假设:支撑分数的所有项目都反映一维构造。需要基本证据来了解所提出的评分结构是否得到经验支持,还应该进行分析以考虑各组之间的测量功能是否相似(Flake et al., 2017)。当总分(观察到的未加权总分)用于组比较时,项目截距的不变性对于推断有效的均值比较尤其重要(Steinmetz,2013))。对于筛选应用或患病率报告(也经常使用切点,例如Deighton 等人,2019),还应评估非不变性(载荷和截距)对选择的影响(Millsap 和 Kwok,2004))。尽管有这些明确的指导方针,但当前的情况似乎很差,尤其缺乏维度和不变性的有力证据(Bentley 等人,2019 年;Black、Panayiotou 和 Humphrey,2022 年)。

建立此类属性对于外部研究的使用尤其重要,因为在外部研究中无法进行进一步的检查和细致入微的决策。然而,研究人员理想情况下应确保计划的分析适合他们的数据/问题,并检查/适应基础测量假设(Flake & Fried,2020)。然而,青少年心理健康和福祉测量工作通常集中在学校,学校越来越被视为收集评估/监测和/或筛查数据的适当场所(Humphrey & Wigelsworth,2016))。尽管这提供了重要的机会,但通常通过简单的总分来分析此类设置中的度量。至关重要的是,虽然复杂的建模(例如,结构方程模型,包括部分不变性)可能有助于阐明理想情况下应如何使用测量值,并有助于解决研究中的问题,但这不能应用于学校。因此,学校采用的措施应满足特别高的心理测量标准。依赖总分和常常任意的切分点(如果这些分数不合理),可能会漏掉那些需要帮助的人,并误解干预措施的反应或趋势。因此,尽管我们强调在学校部署存在特殊风险,弗莱克等人,2017;薄片和油炸,2020)。

与这种普遍较差的心理测量状况相一致,学校申请的基础证据基础的质量和数量仍然有限(Soneson 等人,2020)。使用定制的、未经验证的措施也是常态(NatCen 社会研究和国家儿童局,2017 年)。重要的是,数据收集的预期目的可能会对措施选择产生影响(Patalay & Fried,2020)。例如,与筛选相比,评估和监测可能会导致更简短的测量(因为它们通常作为电池的一部分提供)(更长的测量可能更可取;
Rammstedt & Beierlein,2014;Ziegler 等人,2014))。因此,显然需要深入了解哪些度量最适合简单求和评分、用于平均值比较和选择。
为了支持对学校的影响,我们特别关注年龄和性别平等,有两个实质性原因:首先,这些不平等通常是最明显的(Campbell et al., 2021;Casas & González-Carrasco, 2019;儿童协会,2021;NHS)数字,2018),因此经常引起人们的兴趣。其次,不同学校环境中性别和年龄的分布通常相似,这可能使我们的研究结果更具普遍性。出于务实的原因(即所使用的数据集的可用性),我们特别关注 12 岁和 13 岁与 14 岁和 15 岁之间的差异。然而,这一发展阶段也代表了一个问题急剧增加的时期(Rapee 等,2017)。 , 2019),以及与问卷回答相关的认知和阅读能力的变化(de Leeuw,2011)。这两个问题又与测量不变性高度相关。

除了评分和性别/年龄比较之外,考虑到不同领域有时可以互换使用(例如,Fuhrmann et al., 2021;Orben & Przybylski, 2019)或相加使用(Iasiello &阿特伦,2020)。因此,需要洞察力来了解结果根据测量/域操作化而变化的可能性有多大(Carlson & Herdman,2012)。这种收敛有效性证据也将为结构有效性提供必要(但不是充分)条件(Franke et al., 2021)。这种收敛信息与对维度和不变性的洞察相结合,还可以帮助决定选择哪些度量(例如,一组唯一但无偏的度量与一致但有偏差的度量)。

目前的研究
在本文中,我们利用了一个独特的当代数据集(#BeeWell 研究团队,2021),其中包含涵盖近 38,000 名青少年的多个候选幸福领域(自主性、乐观性、总体幸福感、自尊、压力、情绪调节、积极情感和内化症状)的一系列多项目测量数据12 至 15。这些数据用于通过一系列因子分析和网络心理测量方法来评估(单)维度,从而深入了解它们是否适合总评分。我们还考虑了跨性别和年龄的测量不变性,以确定任何不等价性对均值比较和选择的影响。最后,我们考虑了措施的融合,以深入了解选择给定措施/结果对结果的潜在影响。总的来说,我们的分析旨在深入了解一些最基本的测量问题,这些问题应该支撑患病率和筛查工作。鉴于此类措施的激增,它们越来越多地用于基于学校的评估、监测和筛查目的,以及相对缺乏严格的心理测量证据,此类见解非常重要。

方法
样本
#BeeWell time 的一个样本由来自 165 所学校的 37,978 名青少年组成(99.29% 就读于主流学校,但也包括一小部分特殊学校和替代学校)。我们排除了本研究中包含的所有调查变量都缺少数据的参与者,从而得到了 37,149 名对本文考虑的至少一项做出回应的样本。在这个样本中,49.34%是女性,50.66%是男性,53.63%是8年级(12-13岁),46.37%是10年级(14-15岁)。24.72% 的人在过去 6 年里有资格获得免费校餐,13.80% 的人被确定有特殊教育需求。就种族而言,17.73%来自亚洲背景,5.24%是黑人,0.78%是华人,5.68%是混血,1.83%未分类,64.60%是白人,2.22%来自任何其他种族背景(1. 92% 的人缺少种族数据)。总体而言,这些结果与英格兰的全国平均水平基本相似(几个百分点之内),尽管确切的免费学校膳食指标不具有可比性,而且当前样本中亚洲学生的比例高于全国数据(英国政府,2022)。

措施
#BeeWell 研究中的措施是通过广泛的咨询过程选择的。超过 150 名年轻人参加了研讨会,旨在帮助他们了解幸福对他们意味着什么,以及影响他们幸福的因素。这些研讨会与专家多利益相关者咨询小组(例如学术研究人员、心理健康专业人员、医疗保健代表、教育专家、家长)的意见相结合,为调查所涵盖的领域提供信息。#BeeWell 研究团队寻求既定(即一些有记录的研究发展历史)、非专有自我报告措施,为咨询小组提供选择,并寻求他们与年轻人的反馈(#BeeWell 研究团队,2021)。观点的多样性意味着最终选择的衡量标准要考虑一系列问题,包括(但不限于)表面效度、心理测量证据、完成负担、可及性和意义。当前论文中使用的所有项目的措辞可在https://gmbeewell.org/wp-content/uploads/2021/09/BeeWell-Questionnaires-Booklet.pdf上找到,其中可以将更广泛的调查视为一个整体。

统计分析
所有分析均在 R 1中使用https://osf.io/zqfxb/提供的代码(包括所使用的包)进行。此外,我们还在这里提供合成数据(完整的数据集在项目结束之前无法公开,因为这将是匿名的,并且参与者可以在此之前撤回他们的数据)。

维度评估
我们分三个阶段评估一维性。首先,我们拟合了单因素验证性因素分析 (CFA) 模型来确定是否支持某个度量的预期一维性。其次,如果 CFA 结果不可接受(见下文),我们进行了探索性图表分析 (EGA)。第三,在 EGA 建议多维性的情况下,我们估计了一个双因子模型,以通过附加指标考虑多维性的程度。每个步骤将在后续部分中进行更详细的解释。

验证性因素分析
我们使用动态拟合指数判断单维模型对每个度量的拟合度(DFI;McNeish & Wolf,2021)。该方法可以与最大似然 (ML) 估计一起应用,并且比典型拟合阈值具有多个优点 ( Hu & Bentler, 1999 )。首先,拟合指数对因子可靠性和项目/因子数量等问题敏感,这意味着一组截止值无法在建模场景中泛化(McNeish & Wolf,2021)。此外,应根据多维模型的不同类型的错误指定(例如,误差协方差而不是交叉加载)来判断一维模型,这使得定制方法变得更加必要(McNeish&Wolf,2022)。

DFI 方法是一种基于模拟的方法,重点关注给定模型的潜在错误指定。对于一维模型,如此处所考虑,标准化载荷和样本大小用于一系列模拟,以确定比较拟合指数 (CFI)、近似均方根误差 (RMSEA) 和标准化均方根残差的灵敏度(SRMR) 到四个级别的错误指定。这些是 0 级 (L0),没有错误指定;1 级 (L1),相当于三分之一项目的残差协方差 = .30;2 级 (L2),相当于三分之二项目的残差协方差 = .30;级别 3 (L3),相当于所有项目之间的残差协方差 = 0.30。对于少于六项的措施,由于没有足够的自由度来引入所有必要的误差协方差,因此无法计算全部错误指定水平。因此,对于 5 项测量(罗森伯格自尊量表 [RSS] 和积极和消极影响量表:儿童版 [PANAS-C-PA]),仅前两个级别可用,对于 4 项测量(参与度),只有前两个级别可用。坚持、乐观、连通性、幸福感 [EPOCH-O] 和感知压力量表 [PSS-4]),只有一级。由于目的是确定用于简单总分的最合适的衡量标准,因此如果所有三个指数均达到 L0,我们仅考虑 CFA 证据来表明一维性。如果不满足这一严格标准,我们会进行额外的分析(EGA 和双因子指数,见下文)以考虑多维性的程度。

除了 M&MF 内化(我和我的情感量表 [M&MF-I])之外的所有测量都有五个或更多响应类别,并且没有表现出实质性的非正态性(参见“结果”部分),这表明将项目视为连续的 ML 估计是适当的(Rhemtulla 等人,2012)。由于目前 DFI 框架内不提供将项目视为序数的方法,因此我们还使用对角加权最小二乘 (DWLS) 估计器来估计 M&MF-I 的 CFA,以解释其三点响应格式。DWLS 模型的拟合度根据广泛使用的截止值 CFI > .95、RMSEA < .06、SRMR < .08(Hu & Bentler,1999)进行判断,因为 DFI 方法目前无法应用于 DWLS。

探索性图表分析
如果测量结果不满足 CFA 的一维性,我们就进行 EGA(Golino & Epskamp,2017)。事实证明,这在识别项目测量的维度数量方面表现良好,并且在多个维度高度相关的情况下尤其有利(Golino 等人,2020),正如此处所预期的那样,因为测量是一维的。为了匹配此模拟工作中的分析条件,我们使用了 EGA 的默认参数,包括cor_auto函数,这意味着使用了多向相关性。当 EGA 只发现一个因素时,我们将其视为支持一维性的证据,而当发现多个因素时,这用于为双因素建模提供信息。

双因素建模
如果测量值不符合 CFA 模型中的一维标准,并且通过 EGA 发现了多个因素的证据,我们估计双因素模型。与我们的 CFA 分析一致,我们对除 M&MF-I 之外的所有指标都使用了 ML 估计。尽管双因子模型可能难以解释(Eid et al., 2017),并且会受到拟合偏差的影响(Greene et al., 2019),但在通过补充指标考虑一维性的程度时,它们可能很有用(Reise, Scheines, et等人,2013 年;罗德里格斯等人,2016 年)。因此,我们使用解释共同方差 (ECV) 和未污染相关性百分比 (PUC)。这些分别表示由一般因素解释的方差百分比,以及观察到的数据相关性的比率,这些数据相关性分别告知一般因素与特定因素。当 ECV 和 PUC 均 > 0.70 时,由于相对偏差可能很小,因此可以认为测量值基本上是一维的(Rodriguez 等人,2016)。因此,当测量结果满足这些阈值时,我们认为该证据支持单维性。

判断单维性
鉴于我们的单维性评估的复杂性,我们在此总结了如何整合结果。如果所有指标均满足 DFI L0,则无需进一步测试,并且该度量被判断为一维的。如果对 DFI 的支持有好有坏或有限,则进行 EGA。如果这仅显示一个因素,则不进行进一步的分析,并且该测量被认为是一维的(假设显着失配,例如,在 CFA 中没有看到 DFI 的 L3 错误指定)。当 EGA 显示多个因素时,使用双因素指数来考虑是否支持基本一维性。如果支持基本的一维性,我们认为该度量能够显示足够的证据被认为是一维的。因此,我们的方法是连续的,首先进行最严格的 CFA/DFI 测试。

可靠性
我们估计了 Cronbach 的 alpha 和 McDonald 的复合 ω 可靠性系数来评估内部一致性(假设是一维模型)。尽管 α 假设 tau 等价(所有项目的负载相等),因此通常是下限,但 ω 基于一维因子模型,这意味着项目负载可以变化,这通常更现实(McNeish,2018)。可靠性并不用于提供对一维性的洞察,而是用于评估以提供对总分的额外洞察。例如,相似且高的 α 和 ω 表明观察到的总分数可能得到支持(Widaman & Revelle,2022)。然而,如果明显违反局部独立性等假设,则任何一个系数都可能会受到破坏。因此,在显然不支持一维性的情况下,应谨慎对待可靠性结果。

测量不变性分析
为了使各组之间的测量具有可比性,各组的因子载荷和截距参数应保持一致。如果发现给定的测量是一维的,我们就会评估测量的不变性是否在性别和年龄上保持不变。如果发现了反对一维性的明确证据,则认为进一步的不变性分析是不合适的。
非不变参数的识别
首先,估计性别和年龄内各组(例如,分别男孩和女孩)的基线模型,并模拟新的 DFI 以解释样本量的变化。接下来,为总样本中的每个一维测量估计两个测量不变性模型:配置模型,其中参数在每组中自由估计,以及标量模型,其中载荷和截距参数被限制为跨组相等。此阶段未使用度量不变性(仅对载荷进行等式约束)来识别非不变载荷。这是为了简单起见,并避免与传统不变性测试相关的问题,即通过修改索引利用机会(Luong & Flake,2021)。然而,我们随后的对齐分析以确定非不变参数,考虑了截距和载荷。因此,非不变截距和载荷都被用来通知部分模型进行不变性测试。

因此,比较配置模型和标量模型是为了考虑标量不变性是否成立,而不是为了识别非不变参数。这只能通过自动对齐程序来完成(见下文)。判断比较结果的方法有多种:卡方差异检验、CFI 差异截止 = .002(Meade 等人,2008)以及 Akaike 信息准则(AIC)/贝叶斯信息准则(BIC)可以与两种情况下较低的数字进行比较,表明更好的模型(van de Shoot 等人,2012)。由于每种方法都对不同的问题敏感,例如因子可靠性(Kang et al., 2016)和样本量(Crede & Harms, 2019)),我们为了透明度而报告所有这些,而不是依赖于任何一个的单一截止点。此外,我们预计全标量不变性过于严格(Luong & Flake,2021),因此随后进行了对齐分析。

对齐方法根据配置模型的拟合优化近似不变的解决方案(Asparouhov&Muthén,2014)。这种方法自动化了不变性测试过程,而不是依赖于修改指数和研究人员的许多决定(Luong&Flake,2021)。在不满足完全标量不变性的情况下,该方法允许考虑具有近似测量不变性的测量,并允许识别非不变项。由于我们仅比较两个类别的组,因此我们使用固定优化对齐(Luong & Flake,2021)。尽管用于考虑维数的 DFI 方法只有 ML 可用,但对于对齐模型,我们选择使用稳健的最大似然 (MLR) 作为防止非正态性的额外保障。建议对于组均值与总分的比较,截距参数应保持不变(Steinmetz,2013)。因此,我们认为满足此标准的度量适合于给定组之间的平均值比较。

选择偏差
测量还可用于识别高于阈值的个体,以进行进一步评估、治疗或估计患病率。使用Millsap 和 Kwok (2004)提出并由Lai 等人详细阐述的方法。(2017),我们估计了测量非不变性对跨组选择的影响。将部分不变模型(使用 MLR 估计器)的结果(包括对齐分析中确定的任何非不变参数)与总分进行比较,以确定使用总分来选择幸福感最低的人的偏差。Lai 等人提供的方法。(2017)根据总样本中指定的选择比例自动计算切点。这种方法在这里是合适的,因为只有 M&MF-I 和短沃里克爱丁堡心理健康量表 (SWEMWBS) 公布了切点(Patalay 等,2014),而就 SWEMWBS 而言,这些切点不是通过对青少年的分析得出的。样本(Ng Fat 等人,2017;Shah 等人,2021)。鉴于除一项措施之外的所有措施都缺乏适当的切入点,并且为了应用一致的方法,我们在所有情况下都使用默认的 25% 选择比例。我们报告为每组选择的切点、敏感性、特异性和比例。我们认为筛查的敏感性和特异性最低为 0.70,与临床有效性的阈值一致(Sheldrick 等,2015)。对于积极的幸福感(即,除 M&MF-I 之外的所有衡量标准),所有项目都进行了编码,以便可以根据幸福感最低的项目来评估选择,这与筛选工作一致。

收敛效度
对于被认为是一维的测量,我们还估计了总分之间以及单个生活满意度项目之间的皮尔逊相关性(见表1)。这种分析允许深入了解每个领域的等价性(例如,作为试验的结果),因为如上所述,心理健康和福祉的不同领域有时可以互换或相加使用。Carlson 和 Herdman (2012)建议使用r > .70 的阈值来实现收敛有效性,因为低于此阈值,使用不同代理的研究之间的结果差异在 30% 的情况下高于r = .10。

结果
描述性统计
单个项目级别的缺失数据范围为 0.07 至 0.09%,性别方面的缺失数据 < 0.01%。年级组无缺失数据。个别项目的偏度绝对值范围为 0.01-0.93。因此,这些结果支持上述估计程序(Rhemtulla 等人,2012)。
维度评估
维度结果和可靠性的概述如表 2所示。为了便于解释,我们提供基于 DFI(如适用)的错误指定水平,以及我们根据上述标准的判断,而不是所有经验拟合指数。经验拟合和 DFI 截止值(包括适用的双因子模型)可在补充表 S1 和 S2中找到。EPOCH 乐观 (EPOCH-O) 测量和 SWEMWBS 显示没有错误指定,因此没有进行进一步的 EGA 或双因子分析。PANAS-C PA 量表显示 CFI、RMSEA 和 SRMR 的结果好坏参半。在 CFA(DWLS 模型)方面,M&MF-I 也处于类似的边缘(满足传统 CFI 和 SRMR,但不满足 RMSEA 截止值)。然而,根据 EGA,这两种测量都被确定为一维的。同样,RSS 在 DFI 方面显示 L1 错误指定,但根据 EGA 是一维的。因此,这五项措施被认为是一维的,受到广泛支持,并进行进一步分析。

相比之下,BPNSFS 自主性 (BPNSFS-A)、情绪调节(特质情绪智力问卷青少年简表 [TEIQue-ASF-ER])和 PSS-4 测量均在 CFA 模型中显示出严重问题,这是 EGA 中的两个因素,并且根据双因子指数缺乏基本的一维性。EGA 建议的因素以及双因素模型中使用的因素,均与积极/消极措辞相关:对于 BPNSFS-A,关于感受到压力和必须做“我被告知的事情”的项目与其余积极框架项目分开分组(例如,“我觉得我可以自由地自己决定如何生活”);对于 TEIQue-ASF-ER,积极框架的项目(例如“我能够应对压力”)与消极框架的项目(例如“我发现很难控制自己的感情”)分开分组;对于 PSS-4,两个压力项目是关于“无法控制”压力和“困难”。。。“堆积”与“对自己处理个人问题的能力充满信心”和“感觉事情正在按你的方式发展”这两个应对项目是分开的。

测量不变性
尽管对于总样本(单组)模型的 M&MF-I,模型拟合并未得出相同的 ML 和 DWLS 估计量相同的结论,但因子载荷(即可比参数)高度相关,r = 0.97。由于我们主要使用拟合作为优化问题,而不是差异测试,并且考虑到参数估计的这种相似性,我们选择将 M&MF-I 项目视为连续的不变性测试。这使我们能够在考虑选择偏差时使用一致的因子分析(而不是项目反应理论)框架,因为无法使用多分项目的选择偏差分析方法(Gonzalez & Pelham,2020))。此外,如上所述,我们能够使用 MLR 估计进行对齐和部分不变模型作为额外的保障。

非不变参数的识别
对于任何给定的拟合指数,每组(男性与女性以及 8 年级与 10 年级)的基线模型对于任何给定的拟合指数都趋于拟合不差于 L1 错误指定,我们认为足以继续进行配置模型(参见补充表 S3)。10 年级组的 RSS 基线模型和 M&MF-I 模型除外。然而,配置模型都被认为是可以接受的(见补充表S4)。在测量不变性分析所采取的五种措施中,没有一个明确地实现了标量不变性:在所有情况下,配置模型和标量模型之间的模型拟合都存在显着差异;成对配置/标量模型的 CFI 之间的差异范围为 0.001 到 0.035;AIC 持续恶化对于标量模型,BIC 在 10 个案例中有 8 个同样青睐配置模型(参见补充表 S4)。BIC 的这种行为可能与一种已知的过度偏爱更简约模型的趋势一致(Vrieze,2012)。基于这些结果的平衡,我们得出结论,任何度量都不支持标量不变性。尽管一些 RMSEA 值超出了配置/标量模型的规范拟合截止值,但与为整个样本模型生成的 DFI 相比(参见补充表 S1),这些值是 L1 或更好。
因此,我们对两组的五项措施中的每一项进行了一致性测试。对齐结果表明非不变参数的比例很高(参见表3和补充表 S5),因此,跨性别和年份组的五个一维模型中任何一个的均值比较可能应谨慎对待。根据比对分析的结果估计的部分不变模型的拟合以及为选择偏差测试提供信息可以在补充表S6中找到。

通常很少关注措施的基本结构特性(Flake et al., 2017;Flake & Fried, 2020),特别是在青少年心理健康和福祉方面(Bentley et al., 2019;Black, Panayiotou, & Humphrey, 2022)。因此,我们试图对大样本中的八项心理健康和福祉指标进行相关分析。进行此类分析对于避免研究中的偏见至关重要(Stochl 等人,2020)。此外,在非研究人员(例如在学校)应用的情况下,简短的青少年心理健康和福祉测量可能需要遵守特别严格的标准,因为适应单维性或部分不变性偏差的模型在这些中是不可行的。上下文。我们试图为广泛的研究和筛选应用提供证据。因此,我们的分析为研究中的稳健使用提供了至关重要的见解,并对从业者产生了明确的影响。
发现了五项措施(M&MF-I、EPOCH-O、PANAS-C-PA、SWEMWBS 和 RSS)支持一维性以及总评分的证据。在这五个中,大多数在性别和年龄上表现出相对较高数量的非不变截距,这表明这些组之间的平均比较可能存在问题(Steinmetz,2013)。一般来说,这种非不变性对筛选性能的影响似乎不太明显。然而,M&MF-I 在女孩和男孩中表现出显着不同的敏感性。我们的心理健康和福祉领域中没有任何一对测量值的相关性r > 0.70,这表明这些测量值如果用作替代方案,可能会产生具有实际意义的结果(Carlson & Herdman,2012))。总的来说,我们的分析提供了理想情况下可以在该领域更常规地进行的示例,对广泛使用的测量的具体见解,以及对测量不变性等一般问题的演示。

单维性研究结果
与 #BeeWell 使用既定措施的方法一致,大多数都显示出一些单维性的证据。我们的结果提供了必要但不充分的证据,表明满足我们的一维性标准的五种度量(M&MF-I、EPOCH-O、PANAS-C-PA、SWEMWBS 和 RSS)可用于总评分。尽管一些人强烈认为 CFA 不应该被用来证明总和评分的合理性(McNeish & Wolf,2020),但其他人强调了这项工作的问题,包括没有考虑可靠性的作用,以及对总和评分影响的错误假设(维达曼和雷维尔,2022)。此外,我们像其他人一样综合利用了多种方法(Stochl 等人,2020),对于总和评分问题具有特别的优势。首先,DFI 方法允许考虑与没有错误指定一致的定制拟合,这在旨在使总分和因子得分之间近似相等时可能是合适的。其次,EGA 方法已被证明在存在高度相关的子维度的情况下在估计维度方面表现得特别好(Golino 等人,2020),这意味着我们对这种情况提供了额外的检查。同样,我们允许基本一维性的可能性,其他人发现这对于整合心理测量模型的结果很有用(Stochl et al., 2020)。第三,我们的可靠性结果提供了特别的见解:对于有利于一维性的证据权重的五种度量,α和ω可靠性相当于小数点后第二位。这与其中一些度量没有错误指定的结果一致(即,没有错误协变,这是 alpha 的假设;Raykov & Marcoulides,2019),并且还意味着所有项目都与构造在相似的水平上相关。这些指标的 α 和 ω 也都很高 (> .81),表明观察到的分数和因子分数之间的结果相似 ( Widaman & Revelle, 2022 )。这些问题共同支持这五项指标的总评分,并表明结构模型存在偏差风险(Rhemtulla 等人,2020),或者不通过结构方程模型考虑测量(不)可靠性(Westfall & Yarkoni,2016)在样本水平上可能是最小的。然而,如下所述,按年龄和性别细分时,问题就很明显。

其余三个测量(BPNSFS-A、TEIQue-ASF-ER 和 PSS-4)可能不应该进行总分或谨慎对待,因为发现了多维性的明确证据,至少有 L1 错误指定,两个因素根据EGA,并且未能满足根据双因子指数的基本一维性阈值。BPNSFS-A 仅显示 L1 错误指定,并且 α 和 ω 相对接近且较高(α = .71,ω = .74)。鉴于该衡量标准只有六个项目,子维度级别的可靠性可能会降低,而单维度评分实际上可能更好(Reise、Bonifay 等人,2013 年)。鉴于该领域已知缺乏严格的心理测量学(Bentley et al., 2019 ; Black, Panayiotou, & Humphrey, 2022); Flake 等人,2017),如果项目所涵盖的具体体验特别令人感兴趣,则此措施可能是一个可行的选择。然而,理想情况下,将进行更多工作(例如 Rasch 建模)来验证 BPNSFS-A 总分的使用,或者应考虑或开发替代方案。

根据 DFI,PSS-4 和 TEIQue-ASF-ER 显示出更实质性的问题,这表明将这些问题视为一维和求和评分面临更大的挑战。尽管 TEIQue-ASF-ER 具有更高的 ω 可靠性,但其所基于的模型中的较大程度的错误指定 (L3) 表明这一点应该被忽略。

有趣的是,违反一维性的三个措施中的每一个似乎都是通过反向因素来实现的。例如,对于 PSS-4,有关管理问题的两个项目被合并在一起,而积极框架的应对项目是一个单独的因素,这与其他工作一致(Demkowicz 等人,2019)。众所周知,反向措辞会造成多维性和混乱(Irwing & Hughes,2018;van Sonderen 等,2013),建议在青少年问卷调查中避免这种情况(Omrani 等,2018))。此外,虽然可以包括反向项目来解释默许,但消极框架项目的单独因素的存在本身并不是默许的证据。例如,PSS-4 的研究认为,考虑到项目的内容,由此产生的因素可以解释为痛苦和应对(Demkowicz 等人,2019)。因此,如果包含反向项目来评估默认情况,则应以某种方式明确建模或解释(Kuru & Pasek,2016;Woods,2006)。鉴于所研究的措施迫切需要简单的方法,反向措辞项目的负面影响可能远远超过潜在的正面影响。

考虑到颠倒的项目反映的是实质性而非默许的情况,我们的结果呼应了为了可靠性和总评分,应避免颠倒的措辞。事实上,实际上,通过如此简短的测量,单独对这些子维度进行评分在心理测量上并不稳健。此外,考虑到总项目集的可靠性较低,将这些措施视为一维的错误指定程度可能与上述 BPNSFS-A 利用总可靠性的可能性不一致。尽管不应总是优先考虑可靠性,但包括反向编码在内的广泛方法可能会提高有效性(Clifton,2020),目前尚不清楚这将如何有利于青少年心理健康和福祉的有效性。需要开展工作来了解反向编码对反应的影响,并制定青少年一般心理健康的概念(Black、Panayiotou 和 Humphrey,2022)。总之,当在研究和学校申请中将 PSS-4 和 TEIQue-ASF-ER 视为代表单一维度的总分时,可能会造成重大问题。

测量不变性结果
尽管可靠性和结构建模相对频繁地包含在青少年心理健康和福祉的心理测量工作中,但对测量不变性的考虑要少得多(Bentley et al., 2019;Black, Panayiotou, & Humphrey, 2022)。然而,测量不变性对于进行有效的群体比较至关重要,除了样本水平的结果之外,通常还会寻求这种比较,特别是对于年龄和性别。就平均值比较而言,缺乏允许的非不变参数百分比的明确阈值,这具有统计和概念含义(即估计和可解释性;Luong & Flake,2021))。一个关键问题是,考虑部分不变性对准确组均值恢复的影响的工作通常会利用复杂的模型,这不适用于观察到的总分分析(Pokropek et al., 2019)。鉴于我们的目标是为此类总分应用提供信息,我们采用了可以说是严格的非不变截距标准,这与Steinmetz (2013)在该领域的工作一致。

所有五个一维测量都显示出跨性别和年龄的非不变截距(25-100%),因此,我们认为它们与总分均值比较不相容(Steinmetz,2013)。如上所述,考虑总分影响的工作相对较少,而且我们没有研究非不变性对均值比较的实际影响。因此,我们对于过于强烈地建议放弃这种观察到的比较持谨慎态度,特别是考虑到对非研究应用的直接兴趣在一定程度上推动了本文的发展。然而,这些结果表明需要特别分析和适应研究中的非不变性,因为这种建模是可行告知理解。尽管测量不变性在青少年一般心理健康方面的研究相对较少(Black,Panayotou,&Humphrey,2022),但当前的研究表明假设它在年龄和性别上保持不变(即不测试它)可能是有问题的。
就筛查和患病率而言,考虑到各项措施中 25% 的选择比例,不同性别和年龄的敏感性和特异性通常相似且良好,其中后者表现出特别小的差异。因此,在相应的切点(参见表4和表 5),尽管存在非不变截距的比例,但选择在性别和年龄上可能相对无偏,这与其他工作一致(Stark 等,2004))。一个特别的例外是针对性别的 M&MF-I,其中男孩的敏感性显着降低(女孩为 0.51,女孩为 0.94),女孩的特异性也相应较低(男孩为 0.83,男孩为 0.99)。根据我们对总样本 25% 的规范自动计算的切点为 9.86(年龄为 9.90),这非常接近已发布的临床阈值 10(Patalay 等人,2014 年)。因此,如果将其应用于筛查或研究,则可能会错过男孩。内化症状测量 (M&MF-I) 发现了最引人注目的结果,这一事实值得注意,因为这可能会吸引从业者和研究人员来估计需求(Costello,2015;Humphrey & Wigelsworth,2016); Soneson 等人,2020)。然而,我们的结果表明,这可能是#BeeWell 中的措施中最糟糕的选择,特别是在考虑男孩时。

正如最近的评论所强调的,测量不变性分析在青少年心理健康和福祉方面通常很少(Bentley et al., 2019;Black, Panayiotou, & Humphrey, 2022),而且这些方法很容易出现偏差(Crede & Harms, 2019;Kang 等人,2016;Luong 和 Flake,2021)。因此,将 M&MF-I 的结果与其他类似工具结合起来是一项挑战。例如,尽管我们没有进行彻底的审查,但我们发现考虑相关措施(内化、抑郁和焦虑)的研究似乎通常报告对标量不变性的支持。然而,这些依赖于并且通常接近甚至等于更宽松的 CFI 差异标准 0.01(布鲁内特等人,2014;丰塞卡-佩德雷罗等人,2012;卢等人,2018;罗马诺等人,2021)。该指标可能不可靠(Kang et al., 2016),并且无法深入了解选择偏差,尽管如此,一些人仍推断出这一点(Brunet et al., 2014)。然而,在当前的分析中,不同性别的 M&MF-I 确实显示出配置模型和标量模型之间 CFI(以及 AIC/BIC)的最大差异,并且 CFI 的差异为 0.04,甚至超过了更宽松的标准。因此,M&MF-I 可能会表现出跨性别的特殊问题(正如其他分析中也发现的那样;Black et al., 2019),包括平均值比较。然而,我们认为,考虑到该领域的这些差距,可能无法确定替代措施是否偏差较小,特别是在筛查方面。

在其余的选择结果中,不同措施的结果相对相似,通常对性别的影响比对年龄的影响更大,特别是对于 PANAS-C-PA。在这些措施中,我们认为 SWEMWBS 可能最适合筛查或患病率分析,因为它比其他措施涵盖了更广泛的经验。此外,尽管所有项目都是积极的措辞,但其中一些项目与诊断症状标准直接相关(例如,注意力和感觉放松;Black 等人,2021)。事实上,它已被用于英格兰对儿童和青少年心理健康的全国分析(Vizard et al., 2020),并且已经对成人样本进行了一些工作,将分数与抑郁和焦虑测量联系起来(Shah et al., 2021))。需要开展更多工作来考虑使用 SWMEWBS 进行青少年患病率或筛查工作的临床有效性。尽管如此,我们的研究结果为以下观点提供了初步支持:正如一些人所建议的那样,可以利用积极框架测量的心理测量益处来提高青少年的测量准确性(Bartels 等人,2013 年;Black 等人,2021 年;Greenspoon 和 Saklofske, 2001 年;Iasiello 和 Agteren,2020 年)。

收敛有效性研究结果
考虑到每项措施都可能与福祉的不同理论子领域相关联,五个一维措施的总分不可互换,这可以说并不令人惊讶。然而,这里发现的大小相关性 ( r = .54–.66) 与其他青少年心理健康收敛有效性分析中这些子域内的相关性非常相似,这些分析也通常r < .70。例如,戴顿等人。(2013)发现11 至 12 岁儿童的优势和困难问卷的情绪症状分量表与 M&MF-I 相关,r = 0.67。同样,对生活满意度测量的心理测量证据的系统回顾描述了相关性类似测量之间的 < .60(尽管并非所有明确的生活满意度)作为有效性的证据(Proctor 等人,2009)。因此,很难有力地证明我们的研究结果提供了措施之间分离的证据。

我们相关但不可互换的统计结果可能部分地可以通过最近的研究来解释,该研究表明心理健康和福祉的不同领域有很多共同的内容,但理论领域内和理论领域之间的个体测量在项目方面往往并不等同内容(Black、Panayotou 和 Humphrey,2022)。因此,当前的研究证明了这些理论问题的潜在影响,因为分数之间的相关性足够低,足以实际影响结果(Carlson & Herdman,2012)。这很重要,因为如引言中所述,构造和测量有时被描述为可以互换,并且存在从测量到构造跳跃的普遍趋势,夸大了给定发现的可能普遍性(Yarkoni,2020)。然而,应该如何在同一数据集中处理相似但不可互换的结果?我们提出这个问题是因为青少年心理健康和福祉研究中推荐了多种结果(Casas & González-Carrasco,2019;Horowitz & Garber,2006),并且在观察性研究中收集多种结果是很常见的(例如,Patalay &菲茨西蒙斯,2018)。此外,一整套学科是在比较积极和消极心理健康的基础上发展起来的(Iasiello & Agteren,2020)。

根据更广泛的文献,我们的研究结果表明研究人员和从业者应该仔细考虑与其场景相关的特定项目内容和心理测量属性。例如,如果对性别比较特别感兴趣,则可能会优先考虑性别测量不变性。我们强调这一点是因为青少年心理健康和福祉的心理测量和概念景观普遍不发达(Bentley et al., 2019;Black, Humphrey, et al., 2022)可能使其特别容易受到结果挖掘或推断效应的影响(例如结构之间的差异),这可能归因于未充分研究的测量问题(Flake & Fried,2020)。因此,我们认为该领域特别需要开放的科学实践,其中结果被预先注册并透明地报告。这也表明青少年心理健康和福祉测量尚未充分发展,无法像一些研究所呼吁的那样推荐通用措施(Krause 等人,2021)。

优势、局限性和未来方向
本文通过全面而稳健的分析,根据年轻人在非常大的数据集中选择的领域,为研究人员和从业者提供了针对关键措施的广泛而具体的见解。然而,必须承认一些限制。首先,尽管我们提供了具有广泛影响的广泛见解,但研究结果仅针对此处考虑的措施和人群。例如,结果可能是特定于英语的(Flake et al., 2017),并且 #BeeWell 数据集中仅提供相对较窄的年龄范围。此外,数据是在 2021 年秋季收集的,当时 COVID-19 大流行仍然极大地影响了正常生活。因此,与在此期间进行的任何研究一样,该研究的普遍性可能会受到影响。同样,我们只考虑自我报告措施和横截面数据。当研究人员采用此处使用的测量和分析时,可能需要其他额外的考虑因素,例如纵向不变性。

其次,考虑到当前论文的范围,我们没有提供直接证据来证明显示一维性的五项指标的总分的充分性。这可以在未来的工作中通过 Rasch 建模或交叉验证相关性来实现(Widaman & Revelle,2022)。尽管如此,我们整合了一系列在其他地方使用的方法来评估单维性(Stochl 等人,2020),并通过 DFI 进行稳健的截止。此外,可靠性研究结果提供了良好的证据,表明观察到的总分是适当的(Widaman & Revelle,2022)。同样,我们没有直接测试非不变性对均值比较的影响,因此在未来的工作中也应该考虑这一点。除了年龄和性别之外,还应该考虑其他群体的测量不变性分析,例如种族和特殊教育需求。

第三,再次考虑到当前论文的范围,我们没有探索小的修改(例如,删除项目)来提高措施的一维性。然而,考虑到这些措施的简短性,我们的目标是为从业者(他们没有足够的能力进行此类调整)提供见解,并且不想过于数据驱动,我们认为这种方法是合理的。然而,可能可以应用简单的修改来解决问题,特别是在研究环境中。同样,尽管每个单独组中的一些基线模型的拟合度存在问题,但我们没有进行修改(例如,误差相关性)。尽管这可能影响了测量不变性分析,但它似乎得到了更可接受的配置模型的支持,并且与我们对总分的关注一致。

第四,测量不变性分析和非不变参数的识别具有挑战性,并且容易受到一系列样本和结构问题的影响(例如,Kang 等人,2016)。为了尽可能解决这些问题,我们透明地报告了一系列方法来判断配置模型和标量模型之间的差异,并使用自动对齐过程来避免多重测试问题和传统方法的过度严格(Luong&Flake,2021))。同样,正如所描述的,在我们的测量不变性分析中,M&MF-I 被视为连续的,并得到了可用证据的支持,表明参数与总样本模型的 DWLS 结果高度相似。未来的工作可能会考虑通过选择不变性的项目响应理论框架对此类低类别测量进行建模(Gonzalez & Pelham,2020)。

结论
我们进行了一系列稳健的分析,以深入了解总评分、平均比较和筛查部署是否可能对旨在评估青少年心理健康和福祉的八项指标产生偏差。发现了五项措施的一维性证据。在这五者中,大多数在性别和年龄上表现出一定程度的非不变性,这可能与平均值比较不相容。除了内化症状测量外,对筛查的影响不太明显,男孩对内化症状测量的敏感性要低得多。

根据这些发现,我们认为在应用这些措施时需要谨慎行事。由于心理测量标准普遍较低,这种谨慎态度也可能应该扩展到更广泛的青少年心理健康和福祉测量领域(Bentley et al., 2019;Black, Panayiotou, & Humphrey, 2022))。在考虑建议时,特定措施的预期目的很重要。例如,我们的分析表明许多措施都适合总评分。然而,其中大多数中度到显着的非不变性表明,观察到的跨性别和年龄的分数平均值比较(很可能被认为是感兴趣的)可能存在问题。在可能的情况下,即在研究中,应检查测量不变性并对非不变性明确建模,以更好地恢复真实的均值差异。尽管大多数措施看起来具有可比性并且满足选择目的的最低可接受性,但鉴于女孩和男孩之间的敏感性存在巨大差异,M&MF-I 存在问题。最终,在考虑我们的全部研究结果时,并且总评分是唯一的选择

最后,我们认为,研究人员应该经常应用这里提出的分析类型来识别(并在可能的情况下纠正)青少年心理健康和福祉测量中的偏见。然而,我们的研究结果也强调了改进开发实践的必要性,因为那些在研究背景(例如学校)之外使用此类措施的人不太可能获得适应单维性或测量不变性偏差的模型。改进的标准应该支持学校和其他机构使用的“最终产品”适合其用途。与青少年的合作也特别需要,但却缺乏(Black, Panayiotou, & Humphrey, 2022),并应侧重于理解此处发现的问题,例如心理健康和福祉的概念化、反向项目的解释以及女孩和男孩之间的潜在差异。

发布日期:2024-02-22