新闻资讯
介绍
移动医疗(mHealth)应用可以为加强全球医疗保健系统做出巨大贡献:它们可以支持医务人员治疗各种医疗状况,方便患者进行健康自我管理,预防各种不同的疾病,从而拯救医疗保健系统成本。1 – 5作为世界上第一个这样做的国家,德国向患者提供通过法定健康保险报销移动医疗应用程序费用的权利。6世界各地的医疗保健系统对移动医疗应用的兴趣与日俱增。随着移动医疗应用程序数量的增加,对这些服务进行科学评估的需求也在强劲增长。7 , 8尽管移动医疗应用程序越来越受欢迎,但报告可用性结果的强度与报告的电子医疗实施研究的数量并不相关。
可用性是此类应用程序的主要质量因素,决定患者是否继续使用应用程序或停止使用它。11 – 13根据国际标准化组织(ISO)9241-11,可用性是指“特定用户在特定环境下有效、高效和满意地使用系统、产品或服务来实现特定目标的程度”使用”。14停止移动医疗应用程序的主要原因是高数据输入负担、数据隐私问题、兴趣丧失和隐性成本。13为了使移动医疗应用程序适合其目标用户,需要可靠的可用性评估和标准化方法。
评估电子和移动医疗技术可用性最常用的方法是调查问卷。9移动医疗应用程序的可用性研究中通常采用通用且独立于技术的调查问卷,例如系统可用性量表 (SUS) 和研究后系统可用性调查问卷 (PSSUQ)。15 – 17然而,这些调查问卷是为通用软件系统创建的,无法可靠地识别移动医疗中可能出现的特定问题,例如患者健康自我管理或获得医疗保健服务时可能出现的问题。此外,这些调查问卷并未经过移动医疗应用程序的目标用户(例如患者)验证,而是由其他人群验证。15 , 17 号因此,许多应用程序开发人员设计了个人调查问卷,并仅对少数研究参与者进行验证。
根据 ISO 定义,以前对移动医疗应用程序的可用性评估不合格,研究人员应该更喜欢使用经过充分验证的调查问卷,例如移动医疗应用程序可用性问卷 (MAUQ) 进行可用性分析。10 , 19 MAUQ 目前是黄金标准,专为移动医疗应用程序设计10 ; 它考虑其目标用户(患者或提供者)以及应用程序的类型(交互式或独立)。19近年来,MAUQ 已从原始英语翻译成多种其他语言,并用于众多可用性研究。
在英语国家,只有少数经过验证的调查问卷可用于评估移动医疗应用程序。16到目前为止,用于从患者作为目标用户的角度评估移动医疗应用程序可用性的标准化德语问卷数量有限。
这些事实表明需要更经过验证和标准化的调查问卷来评估移动医疗应用程序的可用性,尤其是德语版本。
为了弥补可用性评估领域缺乏德语问卷的问题,我们将 MAUQ 翻译成德语,并通过标准化问卷进行验证。在此过程中,我们的目标是为未来的研究创建高质量的德国评估工具,从而为改善其他德语国家的数字化患者护理做出贡献。
方法
MAUQ 概述
mHealth 应用程序可用性调查问卷是由 Zhou 等人设计的经过验证且可靠的英文调查问卷。专门评估移动医疗应用程序的可用性。已获得作者同意将 MAUQ 翻译成德语并进行验证。MAUQ 是根据 38 个选定的现有可用性调查问卷开发的,其中包括经过充分验证的调查问卷,例如 SUS、研究后系统可用性调查问卷以及感知有用性和易用性调查问卷。总的来说,这些调查涵盖了用户体验和可用性的各个方面。共有四个版本:两个用于独立移动医疗应用程序,两个用于交互式移动医疗应用程序,每个版本用于患者,每个版本用于提供者(作为目标用户)。25本研究中使用的独立应用程序的患者版本包含 18 个问题,可分为三个子量表:易用性(五个项目)、界面和满意度(七个项目)以及有用性(六个项目)。该版本的Cronbach alpha为0.914,表现出很强的内部一致性。研究参与者按照 7 点李克特量表对问题进行评分,从 1(不同意)到 7(同意),或者选择“不回答”。在数据分析中,缺失的数据用值 4 代替。总体平均值是通过确定所有响应的总和和平均值来计算的,应用以下规则:总体平均值越高,可用性越高。19
SUS 概述
系统可用性量表 (SUS) 是 J. Brooke 常用的问卷。16 , 17该调查问卷易于理解,可靠地衡量了通用系统的可用性。SUS 由 10 个问题组成,其中一半是正面的,一半是负面的。这 10 个项目按照 5 点李克特量表进行评分,评分介于 1(= 非常同意)和 5(= 非常不同意)之间。响应编码为 0 到 4,具体取决于否定或肯定的措辞。SUS 分数的计算方法是将各个分数相加,然后将该总和乘以 2.5。结果是 0 到 100 之间的分数,其中 100 是最佳分数。SUS 已被翻译成多种语言并经过验证。26SUS 并未具体指出患者在使用移动医疗应用程序时可能遇到的个人问题。
翻译过程和文化适应
专家小组根据翻译和跨文化适应的科学指南,将 MAUQ 问卷的所有四个原始版本从英语翻译成德语。27 , 28由于本研究的重点是验证独立 mHealth 应用程序的患者版本,因此在认知访谈中仅询问了该版本。
翻译过程可以分为五个步骤。第一步:正向翻译:第一步,精通英语的德语母语者 AM 和 PN 对原始 MAUQ 进行独立翻译。AM和PN是全科医学领域的医生,在问卷和患者调查的开发方面拥有丰富的经验。第 2 步:专家小组:专家小组对翻译内容进行了讨论,专家小组包括 CG、AM 和 PN 以及另外两名医学科学家,他们在问卷开发方面都有丰富的经验。专家小组发现了翻译中的表达不当和差异。结果,前两个翻译版本被协调为最初的完整翻译。第三步:回译。下一步,两位不同的英语母语人士独立回译原始调查问卷。在随后的 MAUQ 共识会议上,包括 CG、AM 和 PN 在内的六位专家组成的小组讨论了反向翻译。他们对回译中的项目差异进行了调整、改写和改进。因此,翻译后的调查问卷的第二个版本就产生了。步骤4:预测试和认知访谈:以下认知访谈设计的原因是,科学话语领域对于适当的样本量、参与者选择标准、最佳资格和培训尚未达成普遍共识访谈员的标准以及适当认知探针的选择。对回译中的项目差异进行了改写和改进。因此,翻译后的调查问卷的第二个版本就产生了。步骤4:预测试和认知访谈:以下认知访谈设计的原因是,科学话语领域对于适当的样本量、参与者选择标准、最佳资格和培训尚未达成普遍共识访谈员的标准以及适当认知探针的选择。
对回译中的项目差异进行了改写和改进。因此,翻译后的调查问卷的第二个版本就产生了。步骤4:预测试和认知访谈:以下认知访谈设计的原因是,科学话语领域对于适当的样本量、参与者选择标准、最佳资格和培训尚未达成普遍共识访谈员的标准以及适当认知探针的选择。29根据科学建议,TT 和 CG 之前曾通过问卷调查对其他项目进行认知访谈,他们为后续程序制定了使用有声思考方法的方案。30 – 32最后一步,TT 在对三个个人进行认知访谈时审查了患者独立应用程序的版本,这些人的个人资料与所选 mHealth 应用程序的实际目标用户相似: 所选应用程序的目标用户,将对此进行更详细的解释在下面的部分中,主要是患有心血管疾病或有心血管疾病风险的中年人以及有兴趣在智能手机上监控自己的健康状况的人。因此,选择了两名患有慢性心血管疾病的人和一名没有慢性心血管疾病的人。
参与者年龄在 52 至 63 岁之间,拥有自己的智能手机,并且个人对该应用程序及其提供的功能感兴趣。他们的母语都是德语。认知访谈以面对面的对话形式进行。在完成问卷之前,所有三名参与者都在智能手机上测试了所选的移动医疗应用程序。该设备是配备 Retina IPS LCD 显示屏的 iPhone 8,4.7 英寸(对角线)屏幕,分辨率为 1334 x 750 像素,分辨率为 326 页。它包含 Apple A11 Bionic 芯片,该芯片是基于 ARM 的 64 位系统。33在预测试期间,参与者被要求大声朗读翻译后的 MAUQ 问卷中的问题,表达他们对问题和个人答案的想法,指出模棱两可或未知的术语,并提出替代措辞的建议。预测试的目的是深入了解受访者的理解和应对策略。参与者的思考过程没有被采访者打断。TT 针对第 3、8、9、14 和 18 项提出了具体问题:例如,在第 9 项“我在社交环境中感到舒服”中,询问了参与者对“社交环境”一词的理解。访谈通过外部技术设备进行记录,TT 以笔记的形式记录了参与者的观察和评论。
原始数据包括第二版翻译问卷的回复以及 TT 的注释和引文。随后对访谈进行定性内容分析,重点关注识别似乎难以理解的项目。31对三次访谈进行分析后,由于结果一致,决定总共进行三次访谈就足够了。步骤5:最终版本:根据预测试的结果,由CGPN和TT创建翻译后的MAUQ调查问卷的最终版本。该版本称为德国mHealth App可用性调查问卷,简称GER-MAUQ,对应于独立 mHealth 应用程序的 mHealth 应用程序可用性调查问卷患者版本的德语翻译。完整的调查问卷可以在多媒体附录中找到(图 A1)。
研究设计和设置
用于验证 GER-MAUQ 的 mHealth 应用程序
GER-MAUQ 的验证是使用 HerzFit 应用程序进行的,该应用程序是在 DigiMed Bayern 的框架内开发的,DigiMed Bayern 是巴伐利亚州推进数字医学的旗舰项目,在德国心脏中心和计算、信息与医学学院的指导下慕尼黑工业大学技术。34 HerzFit 应用程序是一款生活方式应用程序,旨在改善心血管疾病的预防并为其用户的日常生活提供指导和支持。HerzFit 是与德国心脏基金会(欧洲心脏病领域最大的非营利性患者倡导团体(>100,000 名成员))35和德国高血压联盟共同开发的。36该应用程序由德国心脏基金会运营,在德国、奥地利和瑞士免费提供。HerzFit 是一个独立的应用程序,因为用户和医疗保健提供者之间无法进行通信。
研究参与者
本验证研究的参与者是通过德国心脏基金会和德国高血压联盟的渠道招募的,作为 HerzFit Beta 测试阶段的一部分。研究参与者主要是患有心血管疾病的人或与患有心血管疾病的人有密切接触的人。因此,这些成员被认为是HerzFit潜在目标群体的代表。研究参与是自愿的,并且需要同意声明。除了拥有装有下载的 HerzFit 应用程序的智能手机/平板电脑外,排除标准尚未确定。必须回答所有问题才能将结果纳入分析。
样本量
我们根据 MAUQ 原始研究中计算的量表和子量表的相关系数,使用BiAs 程序37估计样本量。我们分别选择了子量表“有用性”与 MAUQ 总体量表之间的相关性,并以 SUS 量表作为主要结果变量。我们进行了显着性校正并选择显着性水平 α = 0.025。结果表明,至少应纳入 55 名患者,以收集有关有效性分析的统计显着结果。
可用性研究和研究工具
首先,招募自助小组成员。此外,德国心脏基金会的社交媒体渠道上发布了公告,允许任何有兴趣的人报名。两个合作患者基金会的员工被排除在外。有关该研究的信息和同意声明已发送给所有感兴趣的人。随后,返回同意声明的研究参与者被邀请进入 HerzFit 应用程序(版本 0.9.101)的测试阶段,为期 7 天。没有给出有关如何使用该应用程序的具体说明。此后,调查门户的链接将通过电子邮件发送给所有研究参与者。LimeSurvey 软件用于提供在线调查。39在完成在线调查问卷之前,研究参与者收到了有关研究过程和目标的简要说明。还强调,数据将以严格保密和匿名的方式存储。
在线调查问卷包括三个部分。第一部分询问参与者本人的信息,包括年龄、性别、婚姻状况、总体受教育程度、最高专业学位、居住地和就业情况。第一部分还包括一个关于智能手机/平板电脑上应用程序的使用的问题和一个关于使用记录个人表现的技术设备的问题。此外,参与者被要求表明他们在过去 7 天内使用 HerzFit 应用程序的频率。第二部分是 GER-MAUQ 的 18 个问题,第三部分是 SUS 经验证的德语翻译的 10 个问题(图 A2)。
统计方法
描述性分析
通过电子邮件发送了总共 57 份电子邀请函,并可访问在线调查问卷。该研究纳入了 53 份问卷,其中 4 份问卷因答复不完整而被排除。GER-MAUQ 的答案选项“无法回答”在分析中被评估为缺失数据。我们还通过对缺失数据使用值 4 来验证主要结果指标、相关性分析以及可靠性分析。对于 GER-MAUQ,参与者的回答范围从 1(强烈不同意)到 7(同意);对于 SUS,参与者的回答范围从 1(非常不同意)到 5(强烈同意)。
进行描述性分析以获得研究参与者人口统计数据和总体结果的概述。在此步骤中,计算 GER-MAUQ 子量表分数、GER-MAUQ 总分以及平均值和标准差。为了分析 SUS,使用标准分数转换程序确定总体分数,并将其转换为 0 到 100 之间的值。
数据分布
使用 Kolmogorov-Smirnov 检验和 Shapiro-Wilk 检验对人口统计数据、SUS 和 GER-MAUQ 量表及其子量表进行正态分布检验。如果两项检验之一中 P 值 > 0.05,则认为数据呈正态分布。
人口特征
我们评估了人口统计因素对个人反应和 GER-MAUQ 总体得分的影响。对于非正态分布,我们使用 Mann-Whitney U 检验进行两组之间的比较,使用 Kruskal-Wallis 检验进行三个或更多组之间的比较。如果 Kruskal-Wallis 检验显示组间存在统计学显着差异,则使用 Dunn-Bonferroni 检验进行成对比较。
有效性和可靠性测试
使用SPSS 29.0.0.0版本进行统计数据分析。首先,进行了项目分析。项目分析的目的是确定是否应从调查问卷中删除 GER-MAUQ 的任何项目。为了检查第 1-18 项集中趋势的差异,进行了曼-惠特尼 U 检验。因此,按照中国 MAUQ 验证研究中的百分位数数据分组,将参与者分为低分组和高分组。如果 GER-MAUQ 总分低于第 27 个百分位数 (≤3.70199),则相应参与者被分配到低分组。如果高于第 73 个百分位(≥5.5000),则参与者被分配到高分组。40P < 0.05 表示项目平均分之间存在统计显着性差异,代表低分组和高分组之间存在可接受的差异。随后,这些项目与总体 GER-MAUQ 评分相关。对于正态分布数据,进行 Pearson 相关分析;对于非正态分布数据,进行 Spearman 相关分析。
为了检验翻译问卷的有效性,确定了 GER-MAUQ 总分、三个分量表分数和 SUS 分数之间的相关系数。同样,Pearson 相关性用于正态分布数据,Spearman 相关性用于非正态分布数据。计算每个问题的 Cronbach alpha,以评估问卷的内部一致性。Cronbach alpha 值较高表示可靠性良好。在研究中,Cronbach α 值在 0.7 到 0.8 之间被认为是可以接受的,而大约 0.9 的值被认为是优秀的。
结果
认知访谈的结果
根据认知访谈的结果和参与者的评论,对 GER-MAUQ 的五个问题进行了修改,以提高可理解性、阅读流程和语言表达。由于第 3 条“在屏幕之间移动时导航是一致的”无法理解,因此添加了以下内容:“界面在各个区域之间保持相似。” 第4项的句子结构打乱了阅读流程,因此将“如输入信息、回复提醒、查看信息”部分放在句末。第 9 项中的“社交场所”一词在德语中无法清楚理解,因此在括号中添加了以下解释:“在其他人在场的情况下,例如,在医生的候诊室或健身房中”。为了使第14条“该应用程序改善了我获得医疗保健服务的机会”对所有参与者来说更加清晰,对“医疗保健服务”一词解释如下:“医疗保健服务是医疗保健系统为患者提供的所有服务,例如,去看医生”。第 18 项“此 mHealth 应用程序提供了一种可接受的方式来接受医疗保健服务,例如获取教育材料、跟踪我自己的活动和进行自我评估”更改为“此应用程序提供了一种可接受的方式来获取信息材料、进行自我评估”。评估并跟踪我自己的活动。”
研究参与者
参与调查的女性 (26 人) 和男性 (27 人) 人数相似。大多数参与者年龄在 50 岁至 69 岁之间(71.7%)。近四分之三的参与者已婚(73.6%),超过一半的参与者拥有最高的普通学校学历——高中毕业(56.6%)。在“最高专业资格”类别中,近一半的参与者表示他们已经完成了认可的职业培训(49.1%)。与智能手机/平板电脑应用相比,没有参与者更喜欢书籍、词典、日记和袖珍日记等模拟选项 (0.0%)。在参与者中,58.5% 的人根据具体情况决定是选择应用程序还是模拟选项。83% 的参与者患有慢性心血管疾病,并定期服用药物治疗。此外,超过 90% 的受访者有过使用技术设备的经验,例如带有计步器的腕带,可记录身体表现。
描述性数据
表 2和图 1显示了 GER-MAUQ 第 1-18 项、GER-MAUQ 分量表、GER-MAUQ 和 SUS 总分的描述性统计。由于 GER-MAUQ 的答案选项“不回答”在分析中被评估为缺失数据,因此参与者数量 (n) 在第 1-18 项之间有所不同。特别是第 9 项和第 17 项,缺失数据量很大,这意味着许多参与者无法回答与 HerzFit 应用程序相关的这些问题。附录中的表 A1 显示了使用值 4 表示缺失数据时的描述性统计。
子量表 GER-MAUQ_I 和 GER-MAUQ_U 以及 GER-MAUQ 和 SUS 的总分根据 Kolmogorov-Smirnov 检验呈正态分布(所有情况下 P 值 > 0.05)。根据 Kolmogorov-Smirnov 检验和 Shapiro-Wilk 检验,人口统计数据、子量表 GER-MAUQ_E 的分布以及大部分 GER-MAUQ 项目的分布均不呈正态(除以下情况外,所有情况下 P 值 < 0.05):第 4、10、12、14、16 项)。
GER-MAUQ 的项目分析
表 3显示了 Mann-Whitney U 检验的结果。项目分析的结果显示,除第 4 项外,所有项目的平均分之间存在统计显着性差异。这表明,在这种情况下,无法很好地区分低分组和高分组。如表 4所示,所有项目均与总体 GER-MAUQ 评分相关。在任何情况下相关系数都不低于0.3。第 3 项和第 4 项与总分呈中等相关,而所有其他项目均呈强相关。所有项目均表现出相关性的统计显着性。
内部一致性
可靠性测试的结果如表5所示。Cronbach alpha值显示三个分量表和GER-MAUQ整体具有较强的内部一致性。整个问卷的 Cronbach alpha 为 0.966,这表明 GER-MAUQ 具有出色的可靠性。38分量表的 Cronbach alpha 值:易用性(五个项目,GER-MAUQ_E)、界面和满意度(七个项目,GER-MAUQ_I)和有用性(六个项目,GER-MAUQ_U)也显示出较高的内部一致性。它们的值分别是 0.814、0.910 和 0.909。使用缺失数据值 4 重新检查可靠性分析。两种插补技术都提供相似的值,如附录中的表 A2 所示。
建构效度
为了评估 GER-MAUQ 的结构有效性,根据数据的正态分布进行了 Pearson 或 Spearman 相关分析。GER-MAUQ的三个分量表的分数、GER-MAUQ的总分和SUS问卷的分数相互相关。表6和图2显示了GER-MAUQ和SUS各自得分的相关系数和显着性,以及各自的95%置信区间。
分析结果表明,所有三个分量表均与 GER-MAUQ 的总分显着相关(所有情况下 P < 0.05)。GER-MAUQ 的易用性、界面和满意度、有用性三个分量表之间的相关系数与总分分别为 0.665、0.967 和 0.850。此外,SUS 评分与 GER-MAUQ 的所有三个分量表均呈强相关,相关系数显示:0.642、0.866 和 0.643(所有情况下 P < 0.001)。GER-MAUQ 的总体得分与 SUS 得分密切相关 (r = 0.854)。总体而言,各个分数的相关性分析表明了标准和结构的有效性。我们通过用值 4 替换缺失数据来验证相关性分析。附录中的表A3显示了相应的相关系数。两种计算均显示相似的值,并强调了 GER-MAUQ 的并发有效性。
人口特征的影响
表7呈现对 GER-MAUQ 项目有影响的人口统计特征。Mann-Whitney U 测试分析表明,应用程序的使用时间影响了第 17 项(“即使互联网连接较差或不可用,我也可以使用该应用程序。”,P = 0.002)。使用该应用程序 5 至 7 天的参与者对第 17 项的回答(中位数 6)高于使用该应用程序 2 至 4 天的参与者(中位数 3)。患有慢性心血管疾病的人对第 18 项的回答(“这个应用程序提供了一种可接受的方式来访问信息材料、进行自我评估和跟踪我自己的活动。”)与没有慢性心血管疾病的人显着不同(P = 0.007)。
Kruskal-Wallis 测试表明,第 4 项(“应用程序的界面允许我使用应用程序提供的所有功能(例如输入信息、回复提醒、查看信息)。”)的答案受到显着影响居住地(P = 0.031)。Bonferroni 校正表明,与生活在大城市(20,000-100,000 名居民)相比,生活在村庄(<5000 名居民)对第 4 项具有统计显着性影响 (P = 0.042)。均值计算表明,村庄居民倾向于对项目 4 的评分(中位数 3)低于大城市居民(中位数 5.5)。就业类型被证明对第 9 项的反应行为有影响(“我在社交场合(在其他人在场的情况下,例如在医生的候诊室)使用这个应用程序感到很舒服” 或在健身房)。”,Kruskal-Wallis 检验 P = 0.028)。在两两比较中,在职人员和退休人员之间的差异具有统计学意义(P = 0.044)。在职人员(中位数 6)对问题 9 的评分高于退休人员(中位数 5)。
如附录中的表 A4 和 A5 所示,所有人口统计信息对 GER-MAUQ 的总体评分均没有显着影响(所有情况下 P > 0.05)。
结果还表明,参与者偏好应用程序或模拟选项的行为对 GER-MAUQ 上的各个项目没有统计上的显着影响(所有情况下 P > 0.05)。这也适用于参与者之前使用测量身体活动的技术设备(在所有情况下 P > 0.05)。附录中的表 A6 和 A7 列出了 Mann-Whitney U 检验的结果。
讨论
主要成果
本研究旨在将独立应用程序的移动医疗应用程序可用性调查问卷的患者版本从英语翻译成德语,并使用众所周知的常用调查问卷进行验证。心理测量分析的结果表明,翻译后的问卷 GER-MAUQ 是一种可靠且有效的测量工具,可以从患者的角度评估 mHealth 应用程序的可用性。GER-MAUQ 代表了一种新颖的标准化德国调查问卷,用于从患者的角度评估移动医疗应用程序的可用性。未来,移动医疗应用程序的研究人员和开发人员可以使用它轻松、快速且经济高效地识别可用性问题。
57 名参与者中共有 53 人回复了在线调查,这意味着与电子健康研究领域的其他在线调查相比,退出率非常低,表明研究设计的可用性很高。42项目分析表明,低分组和高分组的平均值可以很好地区分。这些统计上显着的结果适用于除第 4 项之外的所有项目。因此,认为有必要讨论是否可能从 GER-MAUQ 中删除第 4 项。在相关性分析中,我们看到第4项与GER-MAUQ的总分呈显着正相关。在与其他使用MAUQ的研究进行比较后,根据相关性分析的结果,我们决定保留第4项。我们认为该陈述有助于衡量易用性,因此对于可用性的评估很重要。
数据分析证明了GER-MAUQ的高可靠性和有效性。整个调查问卷以及三个分量表(易用性、界面和满意度以及有用性)的 Cronbach alpha 值很高(0.966、0.814、0.910 和 0.909),表明内部一致性很强。此外,相关性分析清楚地表明,各分量表的分数、GER-MAUQ的总分和SUS的分数彼此高度相关。SUS 与 GER-MAUQ 总分的相关系数为 r = 0.854,各分量表与 SUS 的相关系数为 r = 0.642、r = 0.866 和 r = 0.643,证明了良好的标准效度和结构效度。糖尿病和心脏病学领域移动应用程序的可用性研究,其人群与我们的研究队列的人群相当,43 , 44尽管如此,还是建议在更大的人群中进行验证。总体而言,分析表明翻译后的问卷 GER-MAUQ 是一种可靠且有效的测量工具,用于从患者的角度评估独立移动医疗应用程序的可用性。
本研究的结果与英语MAUQ的开发和验证研究的结果相似。在这两项研究中,MAUQ 和 GER-MAUQ 的量表和子量表的 Cronbach α 值显示出高度的内部一致性:MAUQ 为 0.914,GER-MAUQ 为 0.966。此外,关于结构有效性的检查,还计算了 MAUQ 和 SUS 的子量表和量表之间的相关系数。在原研究的分析中,MAUQ总分与SUS的相关系数为0.7168,在GER-MAUQ的数据分析中,相关系数为0.854。在开发研究中,还使用研究后系统可用性问卷来分析有效性。由于文献中没有经过验证的德语版问卷,因此本研究未使用该问卷。在原来的研究中,进行了探索性因素分析。结果显示分为三个因素。由于病例数较少,我们没有进行因子分析。
研究现状概述
正如文献研究表明,之前没有有效的调查问卷可以专门从患者和提供者的角度衡量移动医疗应用程序的可用性。周等人。认识到需要并专门为此目的开发了一种工具。
ISONORM 9241-110-S 23和 ISOMetrics 24调查问卷是用于评估可用性的著名德语测量工具。ISONORM 9241-110-S 包含 21 个问题,每个问题都有一个积极和消极的陈述,这些问题将按照从非常消极到非常积极的七分制进行评估。所需时间为 5-10 分钟。问卷经过信度和效度检验,具有较高的内部一致性。23 , 45不建议使用 ISONorm 对患者或移动医疗应用程序的目标用户进行调查,因为问题的措辞对他们来说很难理解。ISOmetrics 调查问卷评估交互式软件系统的可用性。该问卷分为七个子量表,并由五点量表组成。其特点是使用简单、有效性高。问卷的一个主要缺点是需要大量的时间。长版至少需要 2 小时,短版需要 30 至 60 分钟。
Health-ITUES 调查问卷是卫生信息技术的另一个可用性评估工具。46调查问卷包含 20 个类别的项目:工作质量、感知有用性、感知易用性和用户控制。然而,问题必须根据用户进行调整,这对于没有问卷开发经验的研究人员来说是困难的。同样,有效的德语翻译尚未进行。
广泛使用的移动应用程序评级量表 (MARS) 评估移动医疗应用程序的质量并包含可用性组件。47 MARS 包含 23 个项目,评估移动健康应用程序的质量,分为五个类别:参与度、功能、美观、信息质量和主观质量。存在经验证的 MARS 德国版本;然而,这个版本是为健康专业人士设计的,例如研究人员、临床医生和移动医疗领域的专家,而不是专门为患者设计的。48使用 MARS 进行评估的先决条件是用户拥有移动医疗领域的专业知识,并接受过使用 MARS 项目和子量表的培训。考虑到这一点,用户版本 uMARS 是用英语开发和验证的。49到目前为止,该用户版本还没有德语翻译。
MARS 和 uMARS 是衡量移动医疗应用质量最常用的问卷,而 SUS、PSSUQ 和计算机系统可用性问卷 (CSUQ) 是最常用的可用性评估问卷。16 PSSUQ 和 CSUQ 相似,旨在评估用户对系统可用性的满意度。15令人惊讶的是,与其他调查问卷相比,MAUQ 的使用频率较低,尽管它是专门为与移动医疗应用程序一起使用而设计的。对此的一种解释可能是 MAUQ 是在四年前发布的。我们将其翻译成德语可以提高 MAUQ 的实用性并引起更多关注。为了实现这一目标,我们的工作提出了一种新版本的德语问卷,用于从患者的角度评估移动医疗应用程序的可用性。
局限性
我们的验证研究仅使用了一款移动医疗应用程序。测试期持续7天。由于这两个限制因素,并非所有参与者都能回答李克特量表上的几个 GER-MAUQ 问题。例如,只有 25 名参与者回答了第 17 项,即在互联网连接较差或不可用的情况下是否可以使用该应用程序。大量缺失数据导致统计分析检验效能较低。因此,不能排除使用不同的应用程序或更长的测试周期,验证结果会有所不同。
该研究的参与者是通过德国心脏基金会、德国高血压联盟和社交媒体等渠道招募的。因此,我们假设参与者对处理自己的健康感兴趣,并且可能比其他人花更多的时间使用该应用程序。参与者的人口特征也不同于德国总体人口的特征。超过80%的参与者年龄超过50岁,超过90%的人有测量身体活动的经验。此外,超过一半的参与者拥有最高学历毕业证书,这表明参与者的普通教育水平高于总体人口的平均水平。评估表明,参与者的个人特征对 GER-MAUQ 个人问题的回答具有统计上的显着影响。这涉及第 4、9、17 和 18 项。将来使用 GER-MAUQ 的研究人员应在其反应评估中考虑到这一点。
为了验证 GER-MAUQ,仅提供了 53 名参与者的小样本。对于更大的队列,可以进行进一步的分析,例如进行因素分析。尽管如此,参与者的数量足以计算总体 GER-MAUQ、子量表和 SUS 分数之间的相关系数。由于心理测量分析的结果清楚地证实了 GER-MAUQ 的有效性,因此没有必要进行因子分析。50未来应收集更广泛的数据,根据分量表确定三个维度,通过因子分析,加强维度分析。考虑制定和验证调查问卷的已知标准50 –52应该记住,我们的样本量很小,项目间和项目总相关性的结果很大程度上取决于开发研究中进行的分析。此外,跳过了项目缩减分析,以保持初始英文 MAUQ 版本结果到当前研究的可转移性。德文翻译中的某些项目可能被认为是多余的,因此没有得到答复。
此外,我们无法进行测试再测试分析,因为研究参与者不再能够使用相同的应用程序版本,并且重新测试的结果会有偏差。
此外,没有使用双语样本对翻译工具的预最终版本进行初步心理测量测试,因为这会进一步减少样本量。然而,它并不总是被执行,因此有理由被省略。
最终,我们决定将“不回答”响应选项算作缺失数据,这意味着我们假设数据不是随机缺失的。54由于 MAUQ 的原始验证研究使用值 4 表示缺失,因此我们补充了统计分析并进行了进一步的测试,检查有或没有插补的结果。尽管如此,不能排除通过拒绝多重插补我们增加了分析的偏差。
结论
这项研究为患者提供了一种经过德国验证的新颖版本的移动医疗应用程序可用性问卷,从而能够对德国患者的独立移动医疗应用程序的可用性进行标准化评估。数据分析证明,翻译后的问卷 GER-MAUQ 是一种可靠且有效的测量工具,可以从患者的角度评估独立移动医疗应用程序的可用性。由于验证依赖于心血管疾病患者的结果,因此建议使用更大的样本和其他样本进行进一步研究。鉴于数字化转型对德国医疗保健的影响越来越大,以及对快速成功实施移动医疗应用程序的要求不断增长,GER-MAUQ 提供了一种有效的工具来评估移动医疗应用程序的可用性。