新闻资讯

ChatGPT 使用分诊和敏锐度量表在急诊科执行分诊任务的可靠性

介绍
分诊系统普遍用于世界各地的急诊科 (ED)。曼彻斯特分诊系统 (MTS)、紧急严重程度指数 (ESI) 和加拿大分诊敏锐度量表 (CTAS) 是分诊系统的一些示例。1 – 4分诊算法可用于对患者进行优先排序和分类,以确定可接受的医疗等待时间并优化紧急护理的效率。5 分诊需要根据背景信息和出现的症状对患者进行分类,以便及时识别需要紧急护理的患者。5

在韩国,韩国分诊和敏锐度量表 (KTAS) 得到普遍使用,适用于所有急诊科收治的患者。6患者超负荷以及医护人员和病床短缺是韩国急诊室面临的众所周知的挑战。KTAS 是由卫生和福利部于 2012 年开发的,旨在解决这个问题。7自 2016 年以来,KTAS 已在韩国的急救中心实施。6这些设施到 2022 年将服务约 720 万名患者,对应的病床比为 1009。8三级医院的区域急救医疗中心主要收治较危重的患者,一级(需要复苏)和二级(急诊)病例的比例较高,而这些机构的劳动力短缺影响了护理质量。9

KTAS 是一种基于症状的分类工具,用于评估患者。它包括评估患者给人的初步印象,进行基本的访谈和检查,并考虑出现的症状。适用于常见症状的主要考虑因素和特定症状的次要考虑因素用于确定患者病情的严重性和紧迫性。6然而,一般分诊系统对于每种疾病都不够具体,3 , 4并且进行分诊的人员的不同背景是另一个问题。症状的复杂性以及分类者的能力、知识和经验水平可能会导致分类结果的差异。10

急诊医师初次体检的建议时间分为五个级别,从立即到 120 分钟内,按以下顺序确定:(a)年龄(以 15 岁为区分成人和儿童的年龄标准),( b) 主要症状,(c) 意识和生命体征,(d) 疼痛模式,以及 (e) 其他因素,例如妊娠和心理状态。该系统总共利用了 155 种成人症状和 165 种儿童症状,分为 17 个常见组。症状的选择以及第一和第二标准的考虑被设计为使得第一考虑标准包括意识、基于生命体征的血流动力学状态、呼吸窘迫的程度、发烧、疼痛、是否存在出血性疾病、以及损伤机制——一致适用于大多数症状。第二个考虑标准适用于特定症状。例如,如果选择“视力突然变化”作为主要症状,则在第二考虑标准中如果存在“视力突然变化”,则进一步将其分类为2级。值得注意的是,“视力突然变化”仅限于某些与眼睛相关的症状。6
优先级最高的患者将首先接受治疗,而级别较低的患者可能会等待治疗。11鉴于准确分类的重要性,有必要加强分类者的能力和敏锐度。分诊系统已开始融入人工智能 (AI) 技术来支持临床决策过程。之前对各种用于分诊分类的临床决策支持系统的系统回顾发现决策有所改进,从而带来更好的患者治疗结果。12

从逻辑回归到神经网络,各种技术都利用机器学习方法来提高患者优先排序的准确性。13使用可穿戴设备进行准确的远程分诊分类有望替代人力。13最近的研究证明了聊天生成预训练变压器 (ChatGPT) 14在协助医疗服务提供者做出明智决策方面的潜力。15 – 17 ChatGPT 分析输入神经网络的各种书面材料。18 , 19这种人工智能技术以类似人类的方式理解并响应对话输入。
ChatGPT 由 OpenAI 开发,是一个大型语言模型(LLM)。14 GPT3.5 使用约 1750 亿个参数,并根据来自各种来源(包括万维网、书籍和维基百科)的约 753.4 GB 数据进行训练。ChatGPT 使用 GPT3.5 模型,该模型是通过人类反馈强化学习(RLHF)增强的 GPT3 版本,以提高响应准确性和表达能力。ChatGPT4 使用一万亿个参数,可以理解和构造更长、更复杂的句子。GPT4 在内存中保留更多上下文数据的能力使其更加智能。14

ChatGPT 不仅从每个可用来源收集数据,而且还在各种数据之间建立连接。11鉴于其预测能力,之前的研究已经检验了其在医疗执照考试中的表现20以及医疗问题数据集的使用。21本研究旨在检验用于建立 KTAS 级别的 ChatGPT 评级的可靠性。ChatGPT 分类的准确性是通过与人类评估者一起评估评估者间的可靠性来确定的。一项实质性协议将表明 ChatGPT 在急诊和医疗保健服务中推广使用的潜力。

方法
设计
这是使用书面分类案例场景进行的评估者间可靠性研究。各个场景是根据 KTAS 1.6 版指南虚拟构建的,并结合了急诊医学专家(第一作者)的临床经验。评估包括17个主要项目和详细的子类别。每个病例都注重临床意义,以确保复杂性。

乐器
分诊量表
KTAS 是 CTAS 的修改版本,适合韩国的紧急医疗环境。7这是一个五级分类量表,将患者分为 KTAS 1-5 级(1,复苏;2,紧急;3,紧急;4,不太紧急;5,非紧急)。护理的优先级是根据此分类确定的。
虚拟患者场景
本研究使用了 202 个需要分类评估的临床病例场景。根据 Rotondi 和 Donner 的建议, 22使用置信区间 (CI) 方法,23根据之前的研究,K 的预期值设置为 0.66,上限为 0.56,下限为 0.76。4名评估者的最小样本量为81个。考虑到虚拟患者特征的比较分析,总共使用202个虚拟患者场景(100个有文字的案例和102个无文字的案例)进行统计分析。使用 Walter 等人描述的方法,24并考虑 0.80 的目标类内相关系数 (ICC),这个样本量是足够的。
该场景描述了患者的人口统计特征(年龄、性别)、主诉、生命体征、病史和其他信息(例如,疼痛数字评定量表(NRS)评分)。根据之前在三级医院急诊中心进行的研究,确定了25 – 27个个体五个分诊级别的患病率估计值。虚拟患者的平均年龄为56.04岁,其中成人患者占92.1%,儿童患者占7.9%。最常见的入院原因是疼痛(23.3%),其次是创伤(10.9%)和呼吸困难(7.9%)

参加者
目前在 ED 工作并担任分诊角色的所有医疗保健专业人员都有资格。评估者间的可靠性评估至少需要两名评估者。评估者人数的样本量没有受到任何先前研究的指导;然而,之前的一项研究表明,增加评估者的数量可以提高精确度。28这项研究使用了由教育署负责人从愿意参加这项研究的工作人员中挑选的四名工作人员的有目的样本。所有参与者在研究前均接受过培训,具有使用 KTAS 的经验,并在急诊科有至少 3 年的工作经验。

KTAS评级
评分由四名人工评分员(一名急救医学专家和三名急救医疗技术人员)和 ChatGPT3.5 和 4.0 进行。四名人类评估者根据生命体征、格拉斯哥昏迷量表(GCS)评分、NRS评分、主诉和其他相关参数的临床数据独立进行KTAS分类。所有人类评估员目前都在韩国的一个地区紧急医疗中心工作。

ChatGPT 的 KTAS 评级
为了评估 ChatGPT 确定急诊患者病情的准确性,我们要求 GPT3.5 和 GPT4 根据 KTAS 分类对患者的紧急程度进行评级。ChatGPT3.5 被要求使用其应用程序编程接口 (API) 评估 KTAS 分类。29在本例中,模型为 GPT3.5-turbo,温度变量设置为 0。为了评估 ChatGPT4,我们使用 GPT PLUS 在网络上提问,但我们无法更改温度变量。GPT3.5和GPT4提出的问题,包括患者信息和基本医疗信息,都是韩语,组织如下:
请对具有以下症状的患者进行韩国分诊和敏锐度量表(KTAS)评分的严重程度分类,并以KTAS形式回答,例如,性别:F,年龄:26,主要症状:头痛,意识:警觉,GCS评分:15,生命体征:血压180/100-110-15-36.5,疼痛NRS评分:3,怀孕34周。

统计分析
使用 Fleiss' kappa 和 ICC 分析评估者间的可靠性。KTAS 一致性作为分类变量和紧急评级的序数分数进行比较。Fleiss' kappa 用于衡量分类数据 KTAS 分类的评估者间可靠性(1,复苏;2,紧急;3,紧急;4,不太紧急;5,非紧急)。ICC 用于评估 ChatGPT 与黄金标准(评分者 1)之间作为序数变量(KTAS 评分 1-5)的整体可靠性程度。根据 Landis 和 Koch 30, Fleiss 的 kappa 值被解释为一般 (.21–.40)、中等 (.41–.60)、实质性 (.61–.80) 和几乎完美 (.81–1.00)。ICC 低于 0.50 被认为表明相关性较差,>.50 和 ≤.75 为中等相关性,>.75 和 ≤.90 为良好相关性,>.90 为优良相关性。31根据问题是否包含带有患者病情描述的文本,对每次分析进行了额外的计算。
结果
表 2列出了四位评估员的特征。排除黄金标准,人类评估者的平均年龄和职业经验分别为 26.7 岁和 3.7 岁。

总体而言,人类评估者之间存在很大的一致性(kappa = .646,95% CI = .610–.682)(表 4)。然而,当添加 ChatGPT3.5(kappa = .320,95% CI = .294–.346)和 4.0(kappa = .523,95% CI = .496–.551)作为评估者时,该值较低。当根据包含文本描述对案例进行划分时,添加 ChatGPT3.5 和 4.0 时,没有文本的案例的 kappa 值在人类评分者之间更好。最低一致性是在带有文本的分类级别 1 案例中添加 ChatGPT3.5 时(kappa = .067,95% CI = .006–.129)。
评估者 1 和 ChatGPT3.5 之间分类级别的评估者间可靠性的 ICC 被归类为中等。评分者 1 和 ChatGPT4.0 之间具有良好的评分者间可靠性。当案例有文字描述时,该值较高(表 5)。

讨论
随着技术的进步,人们已经做出了一些尝试来解决阻碍人工智能在医疗保健中最佳使用的现有障碍。及时治疗患者是急诊室的当务之急。因此,开发一个支持患者准确、快速分类的系统至关重要。分诊是一种通过对患者进行准确分级来确定治疗优先级的工具。利用人工智能技术进行患者分诊可以确保客观性。本研究评估了人类评分者与 ChatGPT3.5 和 4.0 之间分类级别确定的评分者间可靠性。在确定案件紧急程度方面,人类评估者之间存在很大的评估者间可靠性。ChatGPT 和人工评分者的评分者间可靠性根据 ChatGPT 的版本和 KTAS 级别而变化。

总体而言,ChatGPT4.0 在确定患者水平方面的表现比 ChatGPT3.5 好得多,并且接近金标准和人类评分者的表现。这一结果表明了将这种人工智能技术纳入临床决策支持系统的潜力。结果与之前的研究结果一致,其中ChatGPT4.0的性能远远超过ChatGPT3.5,并且ChatGPT4.0表现出一致的性能,对复杂的临床信息有充分的理解。32 , 33然而,另一项研究表明,与其他软件(例如 Ada 或 WebMD)相比,ChatGPT4.0 的不安全分类更高。34作者建议,在应用于临床之前,需要使用真实世界的临床数据进行更严格的大样本评估,以验证 ChatGPT。

Fleiss 的 kappa 分析结果表明,人类评分者在 KTAS 1 级和 5 级以及使用 ChatGPT3.5 和 4.0 时的一致性最低。分诊结果分布的不一致是由于 ChatGPT 的过度分诊倾向造成的。考虑到最大限度降低风险和过度利用资源的重要性,分类不足和分类过度的可接受目标分别建议为 <5% 和 25% 至 30% 之间。35在之前的研究中,对症状的误解和选择不正确的项目被认为是卫生工作者之间 KTAS 分级差异的原因。36、37 ChatGPT也会犯同样的错误。38由于这些原因,之前的研究表明需要对 ChatGPT 进行监督学习,其中问题和正确答案是由人类创建的。39这种严格的监督学习可以提高答案的准确性。输入大量真实案例的正确答案将提高人工智能评分的准确性。

然而,如何构造最佳提示的问题仍然没有解决。在之前调查 GPT4 可靠性的研究中,重复明确的提示可以提高其生成一致评分的能力,而不适当的提示会降低一致性。40制定全面而清晰的提示非常重要,因为其含义和翻译的质量受其影响极大。41之前的一项研究发现,不同的表现取决于用于优化法学硕士的提示。42特别是,当查询在提示中提供额外的基于文本的信息时,ChatGPT4.0 的性能得到了改善。

尽管 ChatGPT4 已经表现出足够的医学知识来通过医学检查,43 , 44由于它是通用的人工智能模型,因此对其在医学领域的应用仍然存在担忧。因此,正确评价KTAS分数还不够,需要了解更多与急诊医学相关的信息。未来,ChatGPT 可以通过少量的短期学习45和微调来改进,以用于紧急医疗用途。46还可以开发类似于 Impression ChatGPT 的专门针对急诊医学的新法学硕士。

未来的实施
当前的研究证明了使用 ChatGPT 作为 KTAS 评估者的可能性及其在医疗保健环境中的应用。然而,虚拟场景的使用是本研究的局限性,我们的研究结果可能无法推广到现实世界的环境。确实,ChatGPT的应用并非没有挑战。此外,根据场景的复杂程度,其评级也不一致。例如,在识别需要复苏的患者方面,它的表现明显较差。在这种背景下,之前的研究已经探索了在医疗环境中组建人类人工智能团队的方法。48尽管人工智能能力不断增强,但人类评估者提供的态势感知在医疗环境中仍然至关重要。在将人工智能技术应用于临床之前,需要对人类评估者的信息需求进行广泛的研究,并对人工智能技术的最终用户进行研究。

与人工评分相比,使用 ChatGPT 和其他人工智能工具的流程预计会稍微快一些,利用输入数据来实现更准确和客观的评估。然而,对这种系统的可靠性的担忧仍然存在。因此,人工智能系统需要经过充分的培训和测试,以减轻对公共健康产生负面影响的可能性。已确定的问题,例如人工幻觉(人工智能生成的信息与任何现实世界输入不对应的现象)49对其在医疗保健中的应用构成了重大风险。先前的研究强调了监测和验证 ChatGPT 生成的结果的必要性。38因此,需要更多的研究来证明其可靠性并确保在医疗保健环境中的安全使用。

在之前的一项研究中,ChatGPT 在进行基本文本分类方面优于人类,展示了其提高效率的潜力。基于算法的深度学习的使用被证明可以改善 ChatGPT 在紧急医疗保健情况下的使用。50训练有素的卫生专业人员和护理人员对 KTAS 评级的了解有限,而且患者就诊率相对较低,这给评估输入数据带来了挑战。具体而言,计划于 2023 年 12 月在韩国院前环境中实施 KTAS 分级(Pre-KTAS)。在 KTAS 分级数据输入过程中利用人工智能辅助可能会比在紧急护理环境中产生更客观的分类结果,而紧急护理环境通常依赖于训练有素的人类评估者。

结论
本研究是首次尝试使用 KTAS 分数探索人类评分者和 GPT 之间的同步性。我们的结果证明了使用 ChatGPT 作为 KTAS 评估者的可能性,并揭示了一定程度的可靠性。一些因素影响其性能,包括提示和 KTAS 级别。然而,ChatGPT 并未与其他人类评分者达成足够的一致。因此,进一步研究ChatGPT如何学习有助于提高评分的准确性。ChatGPT 在应急系统中应用的精确设计可以在院前环境中进行优化,因为需要训练有素的医疗服务提供者快速做出决策。

发布日期:2024-03-12