新闻资讯

8岁儿童阅读理解能力远程测试

笔记本电脑、平板电脑或智能手机等数字媒体日益影响心理评估(例如,Steger 等人,2019 年;Wright,2020 年;Zinn 等人,2021 年)。特别是,对于教育环境中的认知测量,计算机化能力测试已成为许多应用领域的事实上的标准。例如,许多高风险大学录取或能力认证程序采用计算机化测试格式(例如,Hurtz & Weiner,2022;Steedle 等人,2022))因为它们可以更好地标准化测试说明、项目演示和响应编码,从而减少出错率并提高测量的公平性。甚至许多教育大规模研究最近也改用计算机作为他们的首选评估媒介,这也允许管理创新项目格式(例如基于模拟的项目)并收集辅助信息(例如过程数据)以更精确地捕获新颖的结构(参见von Davier 等人,2019)。

近年来,心理评估面临着另一个重大转变。通常,它们必须在考生的私人住宅中远程(通过互联网)进行,而没有监督人员在场(例如,Cherry 等人,2021 年;Hurtz 和 Weiner,2022 年;Papageorgiou 和 Manna,2021 年))因为出于经济或健康原因,在专门的考试中心或教室进行传统的现场考试是不可行的。尽管这些测试可以以一种或另一种方式进行监考,例如由人类监督者通过视频和屏幕共享或由人工智能系统自动分析考生的计算机活动或视频捕获以检测可疑活动(Langenfeld,2022)),这些程序的典型特征是对测试设置的限制性大大减少。相反,环境条件的差异(例如照明、计算机设备)、干扰(例如噪音、进入房间的人)或父母不可接受的支持和未经授权的辅助工具可能会威胁到在家中认知评估的可比性(例如,Bridges 等人) ., 2020 ; Dendir & Maxwell, 2020 ; Passell 等人, 2021 )。然而,标准化的评估程序是根据考生之间的个体差异来解释心理测试中表现差异的先决条件(Flake & Fried, 2020;Schroeders & Gnambs, 2020)。

到目前为止,远程认知测试的研究结果主要是针对青少​​年和(年轻)成年人的研究,通常来自临床人群(例如,Cherry 等人,2021 年;Guo,2022 年;Hurtz & Weiner,2022 年;Kim & Walker,2021 年)。Leong 等人,2022 年;Segura 和 Pompéia,2021 年)。远程测试是否也代表了幼儿的一种可行方法,目前在很大程度上尚未被探索。因此,本研究评估了经过验证的德语基本阅读理解测试的测量等效性(ELFE-II;Lenhard、Lenhard 和 Schneider,2017)该试验是在偏远地区的私人住宅或学校现场对 8 岁儿童样本进行的。与之前的研究相比,我们试图理清模式和设置效果,以突出测试设置的差异或从纸质测试到计算机化测试的转换在多大程度上导致了远程测试潜在的不可比性。

阅读理解的组成部分
阅读能力是成功参与现代社会的基本技能。熟练的阅读能力不仅是在教育和职业环境中取得成功的重要先决条件(例如,Spengler等人,2018),而且还塑造其他特定领域能力的发展,例如数学(Gnambs&Lockl,2022)。因此,获得适当水平的阅读理解能力是小学的中心目标。阅读需要多个认知过程,这些过程可以被视为一个层次系统(Ahmed et al., 2014)。在最基本的层面上,这包括快速准确的单词解码和句子的句法分析以建立局部连贯性(Cain & Oakhill,2011); 辛德勒和里希特,2018)。相比之下,在更高的层次上,阅读理解需要能够将单个单词和句子中包含的信息整合成一个连贯的文本整体图景,即所谓的情境模型(van Dijk & Kintsch,1983)。因此,阅读能力的特点是能够整合信息的各个方面并重建编码的含义,通过先验知识丰富该含义并得出补充或延续文本中呈现的信息的推论。因此,现代阅读能力测量工具采用多过程视角,捕捉单词、句子和文本层面的阅读(例如,Lenhard、Lenhard 和 Schneider,2017)。

远程测试的特点
远程测试代表了不同考试条件的混合(参见Kroehne、Gnambs 和 Goldhammer,2019)。最值得注意的是,它涉及从几十年来主导教育评估的传统纸质考试到计算机化管理格式的模式转换。此外,它通常还指无监督和非标准化的评估,因为它可以在考生私人住宅中的高度可变的环境中在没有考试管理员在场的情况下进行。这些因素中的每一个或其组合都可能导致测量结果出现系统性扭曲,从而妨碍考生之间进行公平比较。到目前为止,关于评估期间测试主管在场的情况,已经有最明确的调查结果。荟萃分析证据(Steger 等人,2020)强调,与考试管理员监督的情况相比,考生在无人监督的环境下(例如,在互联网上搜索正确答案)更有可能作弊,从而导致考试成绩显着提高,而与为阻止而实施的潜在反制措施无关作弊。因此,大多数认知能力的远程测试都会实施某种形式的监督,特别是在高风险的情况下。相比之下,关于模式和设置效果的现有研究结果不太清楚。

阅读理解测试的模式效应
大量研究表明,从传统的纸质评估格式转向计算机化评估格式平均而言对功率测试的测试结果的影响可以忽略不计(例如,Schroeders & Wilhelm,2011;Zinn 等人,2021)。尽管各自的模式效应通常很小,但早期的荟萃分析表明它们可能取决于不同的因素,例如测量的结构或目标人群(例如,Kingston,2009;Wang et al., 2007,2008 ))。特别是对于阅读理解测试,最近对更大且异质样本的调查导致了更加矛盾的情况。例如,与纸质阅读测试相比,15 岁学生在国际学生评估计划 (PISA) 阅读测试中的机考成绩明显较差(Jerrim 等人,2018 年;Robitzsch 等人,2020 年)。德国的强制性全州学生表现评估也出现了类似的模式(Wagner 等人,2022)导致八年级学生在计算机化测试版本的阅读测试中成绩较低,尤其是成绩较差的学生。其他研究在 10 至 13 岁儿童等较年轻的年龄组中复制了这些结果(Golan 等人,2018 年;Kerr & Symons,2006 年;Støle 等人,2020 年)。基于这些发现,对阅读表现的模式影响进行的多项荟萃分析(Clinton,2019;Delgado 等人,2018;Kong 等人,2018)发现,平均而言,计算机化测试中的得分较低,汇总效应与 Cohen 的相对应d s 介于 –0.25 和 -0.54 之间。
尽管对不同给药模式之间的平均水平差异进行了大量研究,但并非所有研究结果都同意所有测试和样本的显着模式效应(例如,Porion 等人,2016 年;Rockinson-Szapkiw 等人,2013 年)。一些作者还发现了两种评估模式之间结构等效的证据(Kroehne、Buerger 等,2019),因此,很少支持数字阅读作为与纸质阅读不同的结构。即使对于 ELFE-II 测试,也可以为一年级至六年级的学生建立纸质测试和计算机化测试版本之间的近似测量不变性(Lenhard、Schroeders 和 Lenhard,2017 年);尽管孩子们在计算机上犯的错误稍微多一些。

观察到的模式效应背后的原因仍然存在争议。一些作者认为,模式效果是特定于项目的,并且取决于某些项目属性,例如响应格式或项目排序(参见Buerger 等人,2019)。因此,转向计算机化管理不应影响整个测试,而只会影响选定的项目。与这一猜想一致,在 15 岁青少年样本的阅读理解测试中,35 个项目中只有 6 个显示出显着的模式效应(Kroehne,Buerger 等,2019)。其他人提出应试行为的差异作为可能的解释。例如,考生倾向于在计算机上花费更少的时间并更快地完成考试,同时表现出更高的猜测行为,特别是在成绩不佳的学生中(卡拉伊等人,2015;辛格等人,2019);尽管有时也会观察到相反的结果(Steedle 等人,2022)。一项独立改变阅读文本的呈现媒介(纸质与计算机)和测试项目的实验研究表明,阅读理解的模式效应主要是数字阅读的结果,而不是媒体引起的测试效应(Ben-Yehudah &埃谢特-阿尔卡莱,2021)。因此,对于数字文本理解的劣势提出了不同的认知解释。例如,一些作者认为数字媒体发出的光可能会导致视觉疲劳,从而增加认知负荷

(Benedetto et al., 2013)),而其他人则强调人们在数字设备上采用的较差学习策略,从而导致阅读速度较高,但对阅读材料的处理较浅(例如,Isaacson,2017;Morineau 等,2005;Singer 等,2019) 。另外,也有人认为,人们在计算机上阅读时对自己的表现过于自信,这可能会导致测试结果较差(Ackerman & Goldsmith,2011)。最后,模式效应也可能是受访者对计算机的访问和使用经验有限的结果,这可能会导致数字技能较差(参见 Lynch 的评论,2022)。例如,只要开放式回答格式是测试的一部分,较高的计算机熟悉度往往与较高的计算机化评估分数相关(Bennett 等人,2008 年;Chan 等人,2018 年)。相反,对于较简单的项目格式(例如多项选择)的测试,计算机技能的差异几乎不会影响测试表现的模式差异(Higgins et al., 2005)。

总而言之,现有的研究结果表明,阅读理解测试中的小模式效应不利于计算机化评估。然而,这些影响的大小似乎根据所进行的测试和检查的样本而有所不同。到目前为止,只有少数研究探讨了幼儿阅读表现测试中的模式效应(Golan et al., 2018;Kerr & Symons, 2006;Lenhard, Schroeders, & Lenhard, 2017;Støle et al., 2020)。

在远程测试中设置效果
虽然标准心理评估通常是通过在高度受控的条件下进行测试来进行的,以确保所有考生的测试结果一致(例如,在专用考试中心的类似计算机上),但远程测试将标准化的负担强加给了考生。尽管测试管理员可以推荐最佳测试条件,但在实践中,考生将在不同的情境中使用不同的技术设备(例如笔记本电脑、平板电脑、智能手机)(参见Davis,2015;Leeson,2006)。这些差异可能会不自觉地限制测量的可比性。例如,不同的输入设备(例如触摸屏或鼠标)可能会影响计算机化任务的性能(例如,Cockburn 等人,2012)。更重要的是,这些差异可能会受到考生特征的影响,例如年龄或计算机经验(Findlater et al., 2013)。尽管设备效应对于定时评估更为明显(例如,Bridges 等人,2020;Passell 等人,2021),但屏幕尺寸或分辨率等方面的差异也可能会影响不定时的功率测试,特别是当它们需要阅读或测试时。辨别复杂的刺激

(Bridgeman et al., 2003)。除了技术差异之外,测试情况可能无法同样可控,从而导致干扰,例如令人不安的噪音或人们进入房间。对于自我调节能力仍在发展的幼儿来说,这可能尤其成问题,因为保持持续的注意力可能特别具有挑战性。据估计,考生在进行基于网络的认知测试时经历环境干扰的患病率在 7% 到 33% 之间(Backx 等人,2020 年;Madero 等人,2021 年))。然而,到目前为止,尚不清楚这个比率是否比课堂上的小组测试要大得多,更重要的是,这些干扰是否会对测试表现产生有意义的影响。迄今为止,初步研究比较了考试中心管理的计算机化许可计划与基于网络的监考考试的历史数据,发现两种评估设置之间的差异可以忽略不计(Cherry 等人,2021 年;Hurtz 和 Weiner,2022 年;Kim 和 Walker, 2021年)。总的来说,关于心理认知测试中环境效应的系统研究还相当有限。此外,大多数研究涉及(有时是高度选择性的)青少年和成人样本。目前尚不清楚自我调节能力仍在发展中的幼儿(参见Montroy 等人,2016 年,各自的纵向轨迹)是否更容易受到设备影响或环境干扰,因此体验远程测试更具挑战性。

本研究的目的
如果可以建立可比较的心理测量特性并且模式或设置效应不会系统地扭曲测量结果,则远程认知测试可能会发展成为传统心理评估的有价值的替代方案。先前对远程测试不同方面的研究通常依赖于相当小的和选择性的样本;例如,阅读能力模式影响的荟萃分析中样本量的中位数为 67(Delgado 等人,2018)。更重要的是,除了明显的例外(Golan 等人,2018 年;Kerr & Symons,2006 年;Lenhard、Schroeders 和 Lenhard,2017 年;Støle 等人,2020 年)),他们主要关注青少年和成人,但很少关注幼儿。因此,本研究探讨了在偏远环境中测试 1,500 多名 8 岁德国儿童阅读理解能力的可行性。与大多数以前的研究相比,我们试图通过利用准实验设计来理清潜在测量偏差的不同来源,该设计在纸上或计算机设备(模式效应)上远程在家或在学校现场测试儿童(设置效果)。此外,通过在平板电脑或笔记本电脑上呈现远程测试版本来检查潜在的设备影响。根据上述总结的现有研究,我们预计会产生以下效果:克林顿,2019;德尔加多等人,2018;Kong等人,2018)。(b) 尽管先前对成人样本的研究表明环境影响可以忽略不计(Cherry et al., 2021;Hurtz & Weiner, 2022;Kim & Walker, 2021),但可以想象的是,偏远环境中的环境干扰可能会导致测试表现较差为儿童。(c) 因为我们进行的功率测试没有很高的速度,所以预计不会出现重大的设备效应。为此,进行了差异反应功能 (DRF) 分析,以评估 ELFE-II 测试的心理测量特性(Lenhard、Lenhard 和 Schneider,2017 年))以及这些可能如何受到不同评估条件的影响。

方法
参加者
通过结合来自远程和现场评估的两个独立样本来检查模式和设置效果。远程样本是纵向国家教育小组研究(NEPS;Blossfeld & Roßbach,2019)的一部分,该研究跟踪多个年龄组的整个生命历程。我们重点关注最初使用分层整群抽样设计抽取的新生儿队列,涵盖 2012 年 1 月至 6 月期间在德国出生的儿童(参见Aßmann 等人,2019 年)。最近的评估包括来自德国所有联邦州的N = 1,319 名小学二年级学生。我们排除了患有阅读障碍、注意力缺陷多动障碍或特殊教育需要的儿童(n= 69)和重修课程的学生(n = 3)。因为我们有兴趣检查明确的设备效果,所以样本进一步限于使用平板电脑(带触摸屏)或笔记本电脑(带鼠标)的儿童,因此排除了n = 64 名使用带触摸板笔记本电脑的额外儿童。分析样本包括 1,183 名儿童(51% 是女孩),平均年龄为 8.26 岁(SD = 0.12)。其中约 81% 的人表示在家说德语。大多数儿童 ( n = 998) 使用平板电脑工作,而其余儿童 ( n = 185) 使用笔记本电脑工作(参见表1)。所有儿童均在小学二年级的最后 2 个月(即学月)接受了测试1 10 或 11)或进入三年级之前的暑假期间(即第 12 学月)。

现场样本是修订后的阅读理解测试 ELFE-II(Lenhard、Lenhard 和 Schneider,2017 年)2的标准数据的一部分,其中包括来自德国 9 个联邦州的N = 502 名截至 2017 年年底就读小学的儿童。二年级(即第 9-11 个学月)和三年级开始(即第 1 个学月)。为了更接近地匹配远程样本的年龄范围,我们排除了68名年龄在 7.5 至 9.0 岁范围之外的儿童。因为患有阅读障碍或特殊教育需要的儿童 ( n = 11) 和重读课程的儿童 ( n= 16)也被排除在本分析之外,分析样本包括 407 名儿童(52% 是女孩)。他们的平均年龄为 8.34 岁(SD = 0.34),其中约 70% 的人表示在家说德语。大约一半的孩子(n = 207)进行了纸质测试,而其余的孩子(n = 200)则进行了同一测试的计算机版本(见下文)。
程序和管理设置
远程评估是由调查机构的专业测试管理人员于 2020 年夏天在孩子们的私人住宅进行的。几周前,通过电话采访对家庭中必要的计算机设备进行了评估。尽管平板电脑是首选,但屏幕尺寸最小的笔记本电脑也可以作为替代评估设备。如果可用设备允许孩子参加远程测试,测试管理员会在预先安排的测试日期通过电话给家长打电话,以协助设置平板电脑或笔记本电脑(例如,将设备放在桌子上)并启动网络。基于测试(例如,打开浏览器,输入正确的链接和密码)。随后,家长被要求离开房间,让孩子独自进行远程测试。在测试管理期间,测试管理员使用实时显示孩子当前访问的测试页面的仪表板远程监督孩子的测试进度。通过电话向孩​​子提供帮助和口头支持。因此,在整个测试过程中,测试管理员可以与孩子进行持续的沟通。虽然测试管理员无法直接看到孩子或具体的测试情况,例如孩子所在的房间或评估过程中是否有其他人在场,但他们可以监控孩子在测试中的进度,聆听提出的问题或背景噪音,并与孩子交谈。尽管,设计上很少需要测试管理员的直接协助,因为远程测试使用介绍任务的视频指令,因此允许高水平的标准化。测试管理员的作用主要限于协助开始测试、在不同的测试之间激励孩子以及帮助解决测试期间不可预见的问题。阅读理解测试嵌入在包含不同认知测试的测试组中,并且始终在完成时长为 2 分钟的阅读速度测试后第二个进行。
现场数据是2015年由不同学校受过培训的本科生收集的。在学校,孩子们被分成小组,每组最多 8 名(针对计算机条件)或 25 名学生(针对纸质条件)。然后,孩子们单独进行测试,而督导员则一直在房间里监视孩子们,并在遇到困难时提供支持。
仪器和管理模式
阅读理解能力通过 ELFE-II 测试(Lenhard、Lenhard 和 Schneider,2017)进行测量,该测试是广泛用于衡量一年级至七年级儿童的德语阅读能力的指标。尽管该测试包括单词级别、句子级别和文本级别的三个子测试来衡量阅读理解能力,但目前的研究仅进行了文本级别的子测试。子测试呈现几个简短的文本(包括两到八个句子),并附有一到三个项目。26 个多项选择题中的每一个都包括四个回答选项,其中一个是正确的,三个回答选项起到干扰项的作用(即,它们是不正确的)。遵循既定的文本理解模型(Zwaan & Singer,2003),这些项目的理论构建原理指定了三个独立因素。每个项目所涉及的文本呈现一个虚构或非虚构的主题(因素类型:非虚构与虚构),需要检索文字信息或从所呈现的信息中进行类比(因素信息:文字与类比) 。此外,每个项目都需要在相邻句子之间或多个句子之间绘制连接(因素连贯性:局部与全局)。这些项目涵盖了衡量一维阅读理解结构的三个因素的所有组合。这些项目大致按难度排序,测试开始时较容易的项目,测试结束时较困难的项目。该子测试具有良好的可靠性1 个月重新测试间隔后, r tt = .85,与教师对儿童阅读能力的总体主观评分 ( r = .64) 以及其他阅读能力测试非常吻合,并且已对性别的影响进行了系统评估、语言背景和学习障碍(Lenhard、Lenhard 和 Schneider,2017)。
在远程设置中,孩子们使用自己的私人计算机进行测试。大多数儿童通过触摸平板电脑与评估设备进行交互,而子样本则使用需要鼠标交互的笔记本电脑(参见表1))。在现场设置中,计算机化测试是在各学校的技术设备上进行的,因此,包括使用鼠标作为输入设备的不同类型的个人计算机。在所有管理条件下,孩子们都收到相同的指示。在远程和现场计算机条件下,孩子们单独完成练习项目,并接收来自测试环境的自动反馈,而在现场纸质条件下,指示由督导员给出。每个项目都显示在单独的页面上,并且在远程和计算机条件下不需要滚动。在所有条件下,孩子们都以相同的顺序收到相同的项目内容,并且必须在 7 分钟内完成测试。
远程平板电脑和笔记本电脑条件下的可靠性估计值分别为 0.88 和 0.88,而现场计算机和纸张条件下的相应值为 0.81 和 0.90,因此表明四个评估组之间没有明显的可靠性差异。由于时间限制,很多孩子没有完成所有测试项目。按照Lenhard、Lenhard 和 Schneider (2017)著作中的评分说明,缺失值将被评分为不正确的答案。然而,我们还计算了回答项目的数量(正确和错误的回答)作为回答努力的指标,其理论范围为 0 到 26。
统计分析
项目响应建模
按照测试手册中概述的评分方案(Lenhard、Lenhard 和 Schneider,2017),使用边际最大似然估计将单参数项目响应模型(Rasch,1960)拟合到项目分数。为了将四种管理条件下的测量结果放在共同的尺度上,我们使用了多组项目响应模型,对选定的锚项目具有不变性约束。锚定项目是根据Woods (2009)确定的首先估计一个完全不受限制的多组模型。远程平板电脑条件(即参考组)的总体均值和方差分别固定为 0 和 1,以进行模型识别,而在其他组中自由估计相应参数。然后,项目难度在各组之间一次释放一个项目。使用似然比检验和Benjamini 和 Hochberg (1995) 的修正对完全限制模型和较少限制模型之间的模型比较确定了五个在评估条件下具有测量不变参数的锚项目。
模型比较检查模式和设置效果是否针对特定项目或在所有项目中均质。为此,将链接的多组模型与另外对剩余项目参数施加等式约束并且仅允许潜在均值差异的模型进行了比较。后者的优越拟合将表明四个评估组之间存在同质差异,因为潜在的模式或设置效应被吸收在潜在手段中。
差异反应功能
通过检查单个项目和整个测试的 DRF,分析了远程平板电脑和笔记本电脑条件以及计算机或纸质管理的两种现场条件之间的模式和设置影响。尽管潜在熟练程度保持不变,但当组之间的预期项目或测试分数不同时,测试就会表现出差异性项目或测试功能(DIF、DTF)(Millsap,2011;Penfield&Camilli,2007))。例如,如果性别显着预测某个项目的结果高于一个人的估计能力,那么男性和女性的难度是不同的。如果效果在所有能力级别上都是恒定的,则称为均匀 DIF。如果该效应还与能力相互作用(非均匀 DIF),那么能力低下的某一性别的人在该项目中的表现会比预期的更差,而该性别的能力高的人的能力变化会更大成功。DIF 通常用于评估测试的公平性,可比分析不仅可以应用于单个项目,还可以应用于完整的量表。因此,DIF 检查项目参数中的偏差,而 DTF 评估偏差如何在项目之间累积并导致用于组比较的有偏差的测试分数。
根据Chalmers (2018)的工作,基于链接的多组模型,通过计算远程平板电脑条件与其他三种条件之间的项目和测试分数函数的差异,对 DIF 和 DTF 进行量化。这些差异由补偿性DRF统计cDIF(补偿性差异项目功能)和cDTF(补偿性差异测试功能)捕获。)代表项目和总分中特定条件的偏差。DRF 统计数据以原始评分指标给出,在本例中,cDIF 的范围介于 –1 和 1 之间(因为每个项目均采用二分法评分,1 表示正确答案)或 –26 和 26 之间(因为最大可能的测试cDTF 的得分分别为 26)。负值表示参考组平均获得比对照组更低的项目或测试分数,尽管两组的潜在熟练程度具有可比性。相反,正值表示参考组得分较高。除了原始分数指标的偏差之外,我们还报告了偏差百分比 cDIF% 和 cDTF%(Chalmers 等人,2016 年))反映了比较组(与参考组相比)项目或测试分数的相对增加。最后,对整个样本以及潜在变量的特定区域进行 DRF 评估,以检查评估条件是否具有更明显的影响,例如,在低能力儿童中。在这些分析中,通过对从参数估计的渐近方差-协方差矩阵中随机抽取的不同项目参数重复 DRF 分析 1,000 次,确认了项目参数的不确定性(参见Chalmers,2018)。这允许构建 cDIF 和 cDTF 统计数据的置信区间,并进行推理测试来检查无 DRF 的原假设。
倾向得分加权
由于该研究并未采用真正的实验设计,并随机分配四种评估条件,因此不同的组在多个维度上存在差异(见表1)。为了解释儿童之间预先存在的差异,通过估计倾向得分权重,在五个背景特征(即性别、年龄、家庭语言、学月和德国地区)上对各组进行平衡(Imai & Ratkovic,2014)。这些权重用于检查四种评估条件的无偏模式和设置效果(参见Kim & Walker,2021,了解类似方法)。补充材料中总结了重量估计的详细信息。
统计软件
分析在R版本 4.1.2(R 核心团队,2021 )中进行。对于项目响应模型和 DRT 分析,我们使用mirt版本 1.36.1(Chalmers,2012)。倾向得分权重是使用CBPS版本 0.23(Fong 等人,2022)和WeightIt版本 0.12.0(Greifer,2021 )创建的。

透明度和开放性
对于远程评估,研究团体可以在NEPS Network (2022)上获取研究材料、测试程序的详细信息以及阅读理解评分数据。由于由于法律限制,现场数据无法公开共享,因此我们还在https://osf.io/qp6gk上提供了使用Synthpop版本 1.7-0(Nowok 等人,2016 )创建的合成数据集,允许复制我们的数据分析。该存储库还包括计算机代码和报告结果的分析输出。

结果
测量模型说明
项目响应模型在每个评估条件下都提供了令人满意的拟合。正如预期的那样,测试中三分之一的项目最适合样本,项目难度参数范围为 –1.42 到 3.12 ( Mdn = 0.52)。由于该测试是针对一年级到七年级的孩子设计的,因此涵盖的能力范围比较广,所以对于当前样本来说,测试开始的项目比较容易,而测试结束的项目则比较困难。 。补充材料中总结了估计项目参数和模型拟合的详细结果。我们在四个评估组中使用了五个具有相当难度参数的项目,将不同的测量结果放在一个共同的量表上。因此,对这五个项目的项目难度具有不变性约束且对其余项目没有约束(Akaike 信息准则 [AIC] = 29,626,贝叶斯信息准则 [BIC] = 30,142)的多组模型相当于完全无限制的模型模型(AIC = 29640,BIC = 30220),χ 2 (12) = 10.37,p = .583,从而证实了所采用的不变性约束。
与所有项目均具有不变性约束的模型相比,对锚项目进行约束的链接多组模型的拟合效果明显更好 (AIC = 29850,BIC = 30027),χ 2 (63) = 350.00,p < .001。这表明不同的评估条件会影响项目参数,并且在某种程度上对研究项目的影响有所不同。平均而言,与现场计算机(科恩的d = –0.30)或远程平板电脑和笔记本电脑条件(科恩的d s = –0.10 和 –0.22)相比,纸质测试的项目难度稍小。相比之下,现场计算机评估的难度比科恩实验室的两个远程条件要大一些。= 0.21 和 0.09。由于测试组之间的差异在某种程度上是特定于项目的,因此组之间难度参数的相关性可以了解异质性的大小。然而,各自的相关性相当大,在所有比较中均下降到 0.98 左右。这表明,尽管存在特定项目的差异,但它们可能相当小。

阅读理解的模式和设置效果
通过计算不同评估组之间项目特征曲线的成对差异来检查 DIF。表 2总结了反映项目评分中特定条件偏差的相应 cDIF 统计数据。cDIF 为 0 表示没有项目偏差,而负值表示参考组(第一行)与对照组(第二行)相比平均项目得分较低,尽管两组的潜在熟练程度保持不变。这些结果凸显了显着性(p< .05) 多个项目的项目偏差。然而,大多数影响都很小,因此重要性可能可以忽略不计。在测试的前三分之一中观察到最明显的效果,其中评估模式和设置产生了一些 cDIF。例如,对于第 6 项,远程设置导致的项目分数比现场计算机测试平均高出约 0.18 和 0.28 分。相比之下,模式效应导致现场计算机和纸质比较的预期项目得分较小,为 –0.21。这些结果表明,与现场评估相比,远程设置导致的项目分数略高,而与基于计算机的测试相比,模式效果反映了纸质测试的更高分数。重要的是,这些效果是特定于项目的,并且在不同程度上

所有项目的累积 cDIF 效应都反映在各自的差异测试功能统计 cDTF 中,如表 3所示。同样,cDTF 为 0 表示没有测试偏差,而负值表示参考组(第一列)与对照组(第二列)相比平均预期测试分数较低,尽管两组均保持潜在熟练程度持续的。各自的结果突出显示不显着(p> .05) 远程设置内的测试偏差,cDTF = 0.49,95% CI [–0.19, 1.10],因此没有显示设备影响。相反,我们观察到显着的模式和设置效果。尽管两组的熟练程度分布相当,但远程平板电脑评估的预期测试分数平均约为 0.95 分,95% CI [0.26, 1.57],高于现场计算机条件。然而,这种效应转化为百分比偏差仅为约 3.65%;因此,考试成绩被高估了不到4%。而且,对于远程笔记本电脑测试,设置效果更小且不显着。相比之下,现场计算机与纸质测试条件的比较突出了模式效应,cDTF = –0.90, 95% CI [–1.70, 0.16],反映出纸质测试的预期分数较高。为了检查 DTF 是否因潜在熟练程度的不同水平而变化,我们还计算了低、中、高阅读能力的这些指数(见表3))。这些分析表明,模式和设置效果在较低熟练程度时更为明显,而对于较高熟练程度,不同的管理条件则没有影响。例如,在熟练程度较低的情况下,远程平板电脑和笔记本电脑评估显示的预期测试分数明显高于现场计算机评估,对应的百分比偏差约为 6.43% 或 4.51%。相反,在高熟练度时,各自的影响要小得多,并且与零没有显着差异。类似地,众数效应对应于较低熟练度时约 7.17% 的百分比偏差和较高熟练度时约 1.73% 的百分比偏差。这种交互效果也如图 1所示作为四个评估组各自的测试特征曲线(左图),它显示了取决于潜在熟练程度的预期测试分数。这些突出显示了较低熟练程度的曲线与现场计算机条件下的曲线之间的显着差异,在相同熟练程度的条件下产生较低的预期总分。因此,这些差异导致四种评估条件的测试分数分布略有不同(右图),尽管所有组中的潜在熟练程度都是相同的。响应努力的模式和设置效果

平均响应数量被用作响应努力的指标。控制儿童阅读理解能力的协方差分析 (ANCOVA),F (1, 1585) = 1,353.55,p < . 001, η 2 = .44,发现四组之间的响应努力存在显着差异,F (3, 1,585) = 17.15,p < . 001,η 2 = .02。这些主要反映了模式效应,因为与计算机条件相比,现场纸质条件下的儿童​​尝试的项目较少,科恩的d = 0.50(见表4)。设置效果的各自成对差异揭示了科恩的ds 为 –0.32,表明与现场计算机条件相比,远程条件下的工作量较低(所有p s < .001)。

错误率的 ANCOVA,即错误答案相对于所有有效答案的百分比,控制儿童的阅读理解能力,F (1, 1,585) = 439.30, p < . 001, η 2 = .21, 还发现四组之间存在显着差异, F (3, 1585) = 34.41, p < . 001,η 2 = .05。与使用纸质测试的孩子或远程环境中的孩子相比,在教室中使用计算机工作的孩子产生的错误显着增加 ( p < .05)(见表4)。

讨论
当在新条件下实施心理评估时,重要的是评估这些经过调整的测试程序可能会在多大程度上影响相应的测量。否则,测试可能会捕获有效性未知的略有不同的结构,从而扭曲基于它们的实质性结论(参见Flake & Fried,2020;Schroeders & Gnambs,2020))。近年来,许多认知测试的实施方式发生了显着变化。除了转向计算机化测试形式外,这些评估通常是在标准化程度较低的环境中进行的,例如考生的私人住宅。因此,模式和设置的影响可能会使测量的结构产生偏差。本研究通过在 8 岁儿童的德语阅读理解验证测试中检查 DRF,为不断发展的认知远程测试领域增添了新的内容。与大多数以前的研究相比,准实验设计使我们能够将模式与设置效果分开,并研究每个因素如何对潜在的测量偏差产生独特的影响。这些分析得出三个主要结论。

首先,从纸质管理转向计算机管理导致了模式效应,尽管每个项目在某种程度上有所不同(类似的结果,请参见Buerger 等人,2019 年,以及Kroehne, Buerger 等人,2019 年))。这种管理模式影响了所有管理项目的不到四分之一,并且平均而言,当这些项目在计算机上呈现时,使这些项目对儿童来说更加困难。因此,这些特定于项目的差异转化为测试分数的系统偏差,导致纸质考试的预期分数更高。计算机阅读成绩较差的一个原因可能是,基于计算机的测试在小学中仍然相当少见,因此,孩子们还不习惯这种评估形式。不熟悉计算机化测试可能会对儿童提出额外的认知要求,从而导致对实际项目内容的处理较浅并且猜测更加随机(参见Karay 等人,2015 年;Leeson,2006 年))这反过来又导致了计算机测试的较差表现。在本研究中,儿童对计算机上更多项目的反应间接支持了这一假设,但同时也产生了更大比例的错误反应。在计算机条件中,在平板电脑上进行的工作与纸质条件最为相似,这表明平板电脑可能是以数字格式适应纸质测试的首选媒介。
其次,尽管实施了一种有监督的远程测试形式,由训练有素的监督员监控儿童的测试情况,但小的环境影响会导致远程环境中的预期分数更高。同样,这些设置效果是特定于项目的,并且仅影响所有管理项目的大约四分之一。一个明显的猜测可能是,在远程环境中实施的监考类型不足,并且一些孩子获得了不可接受的支持(例如来自父母的支持),从而导致了更高的测试分数。尽管这可能在某种程度上对观察到的结果有所贡献,但这不太可能是唯一的解释。在最近一项针对大学生的研究中(Zinn 等人,2021),环境对联合国的影响受监督的远程测试甚至比当前研究中观察到的效果还要小。因此,个人环境可能发挥了一些作用,因为,特别是对于复杂的任务,其他人的存在可能会损害绩效(即社会促进现象;Zajonc,1965)。为了支持这一假设,对个人与团体智力测试管理进行对比的研究的荟萃分析审查显示,当没有其他受试者在场时,任务表现稍高(Becker 等,2017)。从积极的方面来看,目前的研究没有发现设备在远程条件下产生影响的证据。因此,用于响应测试的输入设备对测试结果的影响可以忽略不计。

第三,一个一致的发现是模式和设置的影响并没有对所有儿童产生同等程度的影响。相反,观察到的差异的大小取决于他们的潜在熟练程度。虽然阅读能力较高的儿童几乎不受管理条件变化的影响,但对于阅读能力较低的儿童,观察到了较大的测量偏差。总体而言,这些结果复制了之前在青少年( Wagner 等人,2022)和年轻人(Zinn 等人,2021)中发现的类似模式)。然而,必须强调的是,本研究中发现的所有影响都相当小。最大的偏差约为最高测试分数的 8%,而大多数偏差远低于 5%。因此,模式和设置效果是否代表了有意义的扭曲,并对应用实践产生了值得注意的影响,还有待观察。

对远程认知测试的影响
远程测试本身似乎并不逊于现场测试,甚至可能具有特定的优势。首先,当封锁、长途旅行或其他障碍等实际情况阻碍现场测试时,它当然可以进行评估。其次,它甚至可以提高检索结果的精度。现场计算机测试和纸质测试之间的差异大于远程测试条件下的设备效果。这种差异可能是基于小组与个人评估的结果,并且在个人远程测试中,它们基本上消失了。因此,远程测试被证明是有效的,而相比之下,使用平板电脑或笔记本电脑等设备影响问题似乎只是一个次要方面。然而我们,我认为只有在能够确保在家进行标准化测试的情况下,这种优势才能发挥出来。为此,必须控制或避免家中的干扰源(拥挤的房间、其他媒体产生的噪音和音乐、测试期间与其他人的互动),例如,将测试者放置在单独的房间中。我们也更喜欢有监考的测试交付,就像我们研究中的情况一样。根据测试结果的重要性,特别是在高风险测试的情况下,实施防止作弊的措施非常重要。我们也更喜欢有监考的测试交付,就像我们研究中的情况一样。根据测试结果的重要性,特别是在高风险测试的情况下,实施防止作弊的措施非常重要。我们也更喜欢有监考的测试交付,就像我们研究中的情况一样。根据测试结果的重要性,特别是在高风险测试的情况下,实施防止作弊的措施非常重要。

局限性和展望
一些弱点可能会限制所提出的研究结果的普遍性。首先,与之前的研究类似(例如,Cherry 等人,2021;Hurtz 和 Weiner,2022),我们没有采用真正的实验设计,将儿童随机分配到不同的管理环境。相反,我们使用倾向得分匹配创建了可比较的组,该倾向得分匹配已被证明可以对模式效应进行有意义的分析(Kim & Walker,2021)。然而,如果群体之间的系统性差异仍未得到解释,则可能会在某种程度上扭曲报告的结果。例如,我们不能排除队列效应可能在某种程度上扭曲了已确定的环境效应,因为远程测试是在新冠大流行开始时进行的,而现场测试是在更早的时候进行的。因此,鼓励未来的研究以更严格的实验严谨性来复制这些发现。其次,根据定义,管理设置相当异构,并且在不同维度上有所不同。例如,设置可能因测试位置和其他人的存在而有所不同。由于目前的研究是在学校进行小组现场评估,因此我们无法将这两个因素分开。还可以想象的是,在学校计算机实验室中创造有序的测试条件存在困难,这在大多数小学仍然是一种相当非常规的评估方法,导致现场计算机条件更加分散注意力,从而在一定程度上促成了观察模式影响。为了确定可能影响性能的测试设置的进一步特征,需要进行更具体的实验比较。第三,在本研究中,远程测试是通过电话和指示测试当前页面的仪表板进行监督的。虽然可以通过视频共享来实现更全面的监督,从而可以彻底监控整个考试情况,但这对技术要求(例如网络摄像头、互联网连接质量)要高得多。在实践中,需要平衡控制权的增加是否超过系统地排除某些不满足必要的计算机要求的群体。最后,本分析仅限于所进行的阅读理解测试的测量特性。未来的研究应该将这些发现扩展到有效性指标,以检验不同的管理模式和环境是否可能扭曲相关结果(例如学校成绩)的预测。最近的研究还表明,测试条件可能会影响考生的看法(目前的分析仅限于所进行的阅读理解测试的测量特性。未来的研究应该将这些发现扩展到有效性指标,以检验不同的管理模式和环境是否可能扭曲相关结果(例如学校成绩)的预测。最近的研究还表明,测试条件可能会影响考生的看法(目前的分析仅限于所进行的阅读理解测试的测量特性。未来的研究应该将这些发现扩展到有效性指标,以检验不同的管理模式和环境是否可能扭曲相关结果(例如学校成绩)的预测。最近的研究还表明,测试条件可能会影响考生的看法(格南布斯,2022)。尽管测试表现相当,但考生认为远程测试的表面有效性和测量质量远低于同类现场测试。

结论
总而言之,在远程测试情况下,数据收集可以与现场测试一样精确,因此,我们可以鼓励更积极地使用这种评估格式。同时,与纸质测试相比,触摸屏提供的评估中的模式效应在整个潜在能力范围内非常小。因此,使用平板电脑可能会减少纸质测试和数字测试情况之间的差异。

发布日期:2024-02-22