新闻资讯
介绍
在教育环境中,学术剽窃的情况不断升级,这种现象在各种学生作业中都被发现,包括报告、作业、项目等。学术剽窃可以被定义为使用想法、内容或结构而没有提供足够的来源归属的行为(Fishman 2009)。学生的抄袭策略各不相同,最令人震惊的例子涉及直接复制源材料。其他方法包括通过修改语法结构进行部分改写、用同义词替换单词以及使用在线释义服务重新措辞文本(Elkhatat 2023;Meuschke & Gipp 2013;Sakamoto & Tsuda 2019))。学术剽窃违反了道德原则,是最严重的不当行为之一,因为它危及能力的获取和评估。因此,实施减少抄袭的策略对于维护学术诚信并防止学生未来的学术和专业活动中出现此类不诚实行为至关重要(Alsallal et al. 2013;Elkhatat 2022;Foltýnek et al. 2020)。文本匹配软件产品 (TMSP) 是教育机构用来检测特定抄袭行为的强大工具,这归因于其复杂的文本匹配算法和包含网页、期刊文章、期刊和其他出版物的广泛数据库。某些 TMSP 还通过合并索引先前提交的学生论文的数据库来提高识别抄袭的效率(Elkhatat 等人,2021)。
最近,人工智能 (AI) 驱动的 ChatGPT 作为一种工具出现,可帮助学生使用自然语言处理 (NLP) 技术根据提示创建定制内容(Radford 等人,2018)。最初的 GPT 模型展示了将无监督预训练与监督微调相结合以应对广泛的 NLP 任务的潜力。随后,OpenAI 推出了 ChatGPT(模型 2),通过扩大架构和使用更全面的预训练数据集来增强模型的性能(Radford 等人,2019 ))。随后推出的 ChatGPT(模型 3 和 3.5)代表了 ChatGPT 发展的重大进步,因为它在生成类人文本方面表现出了卓越的能力,并在各种 NLP 基准线上取得了最高的结果。该模型能够根据用户提示生成上下文适当且连贯的文本,使其适合发布 ChatGPT,这是一款人工智能驱动的聊天机器人,旨在帮助用户生成文本并参与自然语言对话(Brown 等人,2020 年; OpenAI 2022) 。
OpenAI 最近于 2023 年 3 月 14 日推出的 ChatGPT(模型 4)是 NLP 技术的一个重要里程碑。凭借增强的网络安全措施和卓越的响应质量,它在应对复杂挑战方面超越了前辈。ChatGPT(模型 4)拥有丰富的常识和解决问题的技能,使其能够以更高的精度管理艰巨的任务。此外,其创造性和协作性功能有助于生成、编辑和迭代各种创意和技术写作项目,例如歌曲创作、剧本开发和个人写作风格改编。然而,重要的是要承认 ChatGPT(模型 4)的知识仅限于 2021 年 9 月的截止日期(OpenAI 2023),尽管最近嵌入的插件允许它访问当前的网站内容。
这种发展带来了作弊和剽窃的潜在风险,可能会导致严重的学术和法律后果(Foltýnek et al. 2019)。这些潜在增加的作弊和剽窃风险包括但不限于通过其广泛的知识库轻松获取信息以及生成连贯且与上下文相关的响应的能力。此外,适应个人写作风格可以生成与学生写作紧密匹配的内容,这使得教育工作者更难识别语言模型是否生成了作品(OpenAI 2023)。
使用 ChatGPT 的本科教育中的学术不端行为已得到广泛研究(Crawford et al. 2023;King & chatGpt 2023;Lee 2023;Perkins 2023;Sullivan;et al. 2023)。尽管 ChatGPT 在支持学生论文写作和其他学术任务方面具有优势,但人们对聊天机器人出于学术目的生成的内容的真实性和适用性提出了疑问(King & chatGpt 2023)。此外,ChatGPT 因生成不连贯或错误的内容而受到正确的批评(Gao et al. 2022;Qadir 2022),提供肤浅的信息(Frye 2022 )),并且由于截至 2021 年 9 月缺乏互联网接入和依赖数据,知识库受到限制(Williams 2022)。尽管如此,文本匹配软件检查了 GPT-3.5 和 GPT-4 中真实性功能的可重复性(在同一聊天机器人提示中重复生成响应)和再现性(在新的聊天机器人提示中重复生成响应),表明生成反应仍然持续升高和连贯,这主要证明传统文本匹配工具很难检测到(Elkhatat 2023)。
最近,开放式人工智能分类器工具已被用来区分人类书写和人工智能生成的内容,从而确保各种应用程序中文本的真实性。例如,开发 ChatGPT 的 OpenAI 推出了人工智能文本分类器,可以帮助用户确定文章是由人类撰写还是由人工智能生成。该分类器根据人工智能生成的可能性将文档分为五个级别:非常不可能、不太可能、不清楚、可能和可能是人工智能生成的。OpenOpen AI 分类器已使用各种人类书写文本进行训练,但训练数据并不涵盖所有类型的人类书写文本。此外,开发人员的测试表明,分类器准确地将 26% 的 AI 编写文本(真阳性)识别为“可能是 AI 生成的”2023)。因此,OpenAI 建议用户将分类器的结果视为补充信息,而不是仅仅依赖它们来确定 AI 生成的内容(Kirchner 等人,2023)。其他人工智能文本分类器工具包括 Writer.com 的人工智能内容检测器,它提供了基于有限应用程序编程接口 API 的解决方案,用于检测人工智能生成的内容,并强调其对内容营销的适用性。Copyleaks 是一种人工智能内容检测解决方案,声称准确率高达 99%,并提供与许多学习管理系统 (LMS) 和 API 的集成。GPTZero 由 Edward Tian 开发,是一款开放式人工智能分类器工具,面向教育机构,通过检测学生作业中人工智能生成的文本来打击人工智能抄袭。最后,CrossPlag 的人工智能内容检测器采用机器学习算法和自然语言处理技术,利用从广泛的人类和人工智能生成的内容数据集中识别的模式和特征来精确预测文本的来源。
人工智能内容检测器和分类器工具的开发和实施凸显了区分教育和内容营销等各个领域的人类编写的内容和人工智能生成的内容的重要性和需求。迄今为止,还没有研究全面检验这些人工智能内容检测器和分类器区分人类和人工智能生成的内容的能力。本研究旨在调查最近推出的几种人工智能内容检测器和分类器工具在识别人类编写和人工智能生成的内容方面的能力。
方法
ChatGPT 聊天机器人生成了两个关于“冷却塔在工程过程中的应用”的 15 段回复。第一组是使用ChatGPT的Model 3.5生成的,第二组是使用Model 4创建的。最初的提示是“写100字左右关于冷却塔在工程过程中的应用”。五个人工编写的样本被纳入作为对照样本,以评估 AI 检测器的误报响应,如表1所示。这些样本选自化学工程本科生撰写的五份不同实验室报告的引言部分。这些报告于 2018 年提交和评估,这是有计划的选择,以确保当时可用的人工智能工具不会干扰。
选择并评估了五个人工智能文本内容检测器,即 OpenAI、Writer、Copyleaks、GPTZero 和 CrossPlag,以评估它们区分人类和人工智能生成内容的能力。这些人工智能探测器是根据广泛的在线研究和研究时个别教育工作者的宝贵反馈而选择的。值得注意的是,这一领域正在不断发展,新的工具和网站预计很快就会推出。Turnitin AI 检测器等一些工具已经推出,但尚未在教育机构中广泛采用或激活。此外,该文件必须包含至少 300 个字的长篇写作格式的散文文本 (Turnitin 2023 )。
值得注意的是,不同的人工智能内容检测工具以不同的表示方式显示其结果,如表2所示。为了标准化所有检测工具的结果,我们根据 OpenAI 主题对它们进行标准化。这种标准化是基于人工智能含量百分比的。人工智能内容低于 20% 的文本被归类为“非常不可能由人工智能生成”,人工智能内容为 20-40% 的文本被视为“不太可能由人工智能生成”,人工智能内容为 40-60% 的文本被视为“不清楚是否由人工智能生成”。 -生成”,那些人工智能含量为 60-80% 的被标记为“可能是人工智能生成的”。那些人工智能内容超过 80% 的内容被归类为“可能是人工智能生成的”。使用 Minitab (Minitab 2023 )进行统计分析和能力测试。
表2 AI内容检测器的结果表示
全尺寸桌子
根据原始内容的性质(人工智能生成的或人工编写的),人工智能检测器响应的诊断准确性分为阳性、阴性、假阳性、假阴性和不确定。如果原始内容是人工智能生成的,并且检测器输出是“可能是人工智能生成的”,或者更广泛地说,“可能是人工智能生成的”,则人工智能检测器的响应被分类为肯定。当原始内容是人类生成的,并且检测器输出“非常不可能是人工智能生成的”,或者更广泛地说,“不太可能是人工智能生成的”时,就会出现负面响应。当原始内容是人类生成的,并且检测器输出是“可能是 AI 生成的”或“可能是 AI 生成的”时,就会出现误报响应。相比之下,当原始内容是人工智能生成的,并且检测器输出是“非常不可能是人工智能生成的”或“不太可能是人工智能生成的”时,就会出现假阴性反应。最后,不确定的响应是指检测器输出“不清楚是否是人工智能生成的”,无论原始内容是人工智能生成的还是人类生成的。该分类方案假设“可能由人工智能生成”和“不太可能由人工智能生成”的响应可以被视为边界情况,根据分类中所需的包容性或严格程度分为阳性/阴性或假阳性/假阴性类别过程。不确定响应是指检测器输出“不清楚是否是人工智能生成”的响应,无论原始内容是人工智能生成还是人类生成。该分类方案假设“可能由人工智能生成”和“不太可能由人工智能生成”的响应可以被视为边界情况,根据分类中所需的包容性或严格程度分为阳性/阴性或假阳性/假阴性类别过程。不确定响应是指检测器输出“不清楚是否是人工智能生成”的响应,无论原始内容是人工智能生成还是人类生成。该分类方案假设“可能由人工智能生成”和“不太可能由人工智能生成”的响应可以被视为边界情况,根据分类中所需的包容性或严格程度分为阳性/阴性或假阳性/假阴性类别过程。
本研究评估了 OpenAI、Writer、Copyleaks、GPTZero 和 CrossPlag 这五种检测器,重点关注它们的特异性、灵敏度、阳性预测值 (PPV) 和阴性预测值 (NPV)。这些指标用于生物统计学和机器学习,以评估二元分类测试的性能。灵敏度(真阳性率)是指正确识别出实际阳性病例的比例。在这种情况下,灵敏度被定义为检测器正确识别的人工智能生成内容在所有人工智能生成内容中的比例。它的计算方式为真阳性(人工智能生成的内容被正确识别)与真阳性和假阴性(人工智能生成的内容被错误识别为人类生成)之和的比率(Nelson et al. 2001 ); 努等人。2020)。
另一方面,特异性(True Negative Rate)是实际阴性病例被正确识别的比例。在这种情况下,它指的是检测器正确识别的人类生成内容在所有实际人类生成内容中的比例。它的计算方式为真阴性(正确识别的人类生成内容)与真阴性和假阳性(人类生成的内容被错误识别为人工智能生成)之和的比率(Nelson 等人,2001 年;Nhu 等人,2020 年))。
预测能力是探测器功效的重要决定因素,分为阳性预测值(PPV)和阴性预测值(NPV)。阳性预测值(PPV)是统计和诊断测试中的阳性结果实际上是阳性结果的比例。在这种情况下,它是检测器识别为人工智能生成的所有内容中实际人工智能生成的内容的比例。它的计算方式为真阳性与真阳性和假阳性之和的比率。相反,阴性预测值(NPV)是统计和诊断测试中阴性结果为准确阴性结果的比例。在这种情况下,它是检测器识别为人类生成的所有内容中实际人类生成的内容的比例。2001年;努等人。2020)。这些指标为评估人工智能文本内容检测器的性能提供了一个强大的框架;总的来说,它们可以称为“分类性能指标”或“二元分类指标”。
结果
表3概述了人工智能内容检测工具在 ChatGPT 模型 3.5 生成的 15 个段落、ChatGPT 模型 4 生成的另外 15 个段落以及人类编写的 5 个控制段落上实现的结果。需要强调的是,如方法部分所述和表2中详细说明,不同的人工智能内容检测工具以不同的表示方式显示其结果。例如,GPTZERO 将内容分为两类:人工智能生成的内容或人类生成的内容。相比之下,OpenOpen AI 分类器将内容分为五元分类系统:可能是 AI 生成的、可能是 AI 生成的、不清楚是否是 AI 生成的、不太可能是 AI 生成的、非常不可能是 AI 生成的。值得注意的是,GPTZERO 和 OpenOpen AI 分类器都没有透露内容中 AI 或人类贡献的具体比例。相比之下,其他人工智能检测器在提交的文本中提供详细说明人工智能或人类贡献的百分比。因此,为了标准化所有 AI 检测器的响应,对百分比数据进行标准化以适应 OpenOpen AI 分类器的五层分类系统,其中每个类别代表 20% 的增量。该表还包括每个类别中人工智能贡献的准确百分比表示,以提高清晰度和特异性。
表3 五个AI文本内容检测器对GPT-3.5、GPT-4和人类书写内容的响应
全尺寸桌子
另一方面,表4展示了这些 AI 检测工具在区分 AI 生成的内容和人类编写的内容方面的诊断准确性。GPT 3.5 生成的内容的结果表明工具之间具有高度的一致性。人工智能生成的内容通常被正确地识别为“可能是人工智能生成的”。然而,在少数情况下,这些工具提供了不确定或假阴性分类。GPT 3.5_7 和 GPT 3.5_14 获得了 GPTZERO 的“非常不可能由 AI 生成”评级,而 WRITER 将 GPT 3.5_9 和 GPT 3.5_14 分类为“不清楚是否由 AI 生成”。尽管存在这些差异,大多数 GPT 3.5 生成的内容都被所有工具正确识别为 AI 生成。
表4 AI探测器响应的诊断准确性
全尺寸桌子
这些工具在 GPT 4 生成的内容上的性能明显不太一致。虽然一些人工智能生成的内容被正确识别,但仍存在一些漏报和不确定的分类。例如,GPT 4_1、GPT 4_3 和 GPT 4_4 获得了 WRITER、CROSSPLAG 和 GPTZERO 的“非常不可能由 AI 生成”评级。此外,GPT 4_13 被 WRITER 和 CROSSPLAG 归类为“非常不可能是 AI 生成的”,而 GPTZERO 将其标记为“不清楚是否是 AI 生成的”。总体而言,这些工具在准确识别 GPT 4 生成的内容方面比 GPT 3.5 生成的内容更困难。
在分析控制响应时,很明显这些工具的性能并不完全可靠。虽然一些人类编写的内容被正确分类为“非常不可能由人工智能生成”或“不太可能由人工智能生成”,但仍存在误报和不确定的分类。例如,WRITER 将人类 1 和 2 列为“可能由 AI 生成”,而 GPTZERO 为人类 2 提供“可能由 AI 生成”分类。此外,人类 5 还收到了 WRITER 的“不确定”分类。
为了有效地说明离散变量的分布情况,采用了Minitab中的Tally individual Variables函数。这种方法促进了不同类别或结果频率的可视化,从而为数据集中的固有模式提供了有价值的见解。为了进一步增强理解,Tally 分析的结果使用条形图进行描述,如图 1 和 2 所示。1、2、3、4、5和6 。 _ _ _ _ _ _ _ _ 此外,这五种人工智能文本内容的分类性能指标如图7所示 ,表明不同指标的性能不同。从 GPT 3.5 的结果来看,OpenAI 分类器显示出最高的灵敏度,得分为 100%,这意味着它正确识别了所有 AI 生成的内容。然而,其特异性和 NPV 最低,为 0%,这表明在正确识别人类生成的内容以及在真正是人类生成的内容时给出悲观预测方面存在局限性。GPTZero 表现出均衡的性能,灵敏度为 93%,特异性为 80%,而 Writer 和 Copyleaks 则在灵敏度方面表现不佳。GPT 4 的结果普遍较低,Copyleaks 的灵敏度最高,为 93%,CrossPlag 保持 100% 的特异性。OpenAI 分类器表现出很高的敏感性和 NPV,但没有特异性。
讨论
该分析重点关注 OpenAI、Writer、Copyleaks、GPTZero 和 CrossPlag 公司开发的五种 AI 文本内容检测器的性能。这些工具用于评估生成的内容,并确定每个检测器在正确识别文本并将其分类为人工智能生成的文本或人工编写的文本方面的有效性。结果表明,这些工具在 GPT 3.5、GPT 4 和人工生成的内容中的性能存在差异。虽然这些工具在识别 GPT 3.5 生成的内容方面通常更成功,但它们在处理 GPT 4 生成的内容方面遇到了困难,并且在分析人类编写的控制响应时表现出不一致。
OpenAI 分类器在两个 GPT 版本中都具有高灵敏度但低特异性,这表明它可以有效识别 AI 生成的内容,但可能难以准确识别人类生成的内容。CrossPlag 的高特异性表明它能够正确识别人类生成的内容,但难以识别人工智能生成的内容,尤其是在 GPT 4 版本中。这些发现引发了对其在快速发展的人工智能领域的有效性的质疑。
GPT 3.5 和 GPT 4 结果之间的差异凸显了 AI 生成的内容检测不断变化的挑战,这表明检测器性能可能会因 AI 模型的复杂程度而显着变化。这些发现对抄袭检测具有重大影响,凸显了检测工具不断进步的必要性,以跟上不断发展的人工智能文本生成能力的步伐。
值得注意的是,该研究的结果强调需要对这些技术的功能和局限性进行细致的了解。虽然这项研究表明人工智能检测工具可以在一定程度上区分人类和人工智能生成的内容,但它们的性能不一致,并且根据用于生成内容的人工智能模型的复杂程度而变化。这种不一致引起了人们对这些工具可靠性的担忧,特别是在学术诚信调查等高风险背景下。因此,虽然人工智能检测工具可能有助于识别人工智能生成的内容,但它们不应被用作学术诚信案件的唯一决定因素。相反,应该采用更全面的方法,包括人工审查和考虑背景因素。
需要强调的是,人工智能和其他数字技术的出现需要重新思考传统的评估方法。教育机构不应仅仅采用不易受人工智能作弊影响的方法,而应考虑利用这些技术来加强学习和评估。例如,人工智能可以提供个性化反馈,促进同行评审,甚至创建更复杂、更现实且难以作弊的评估任务。此外,值得注意的是,学术诚信不仅仅是为了防止作弊,还在于培养诚实和责任的文化。
局限性
需要承认这项研究的局限性,例如使用的工具、所包含的统计数据以及评估这些工具所依据的学科特殊性。值得注意的是,本研究中分析的工具仅是 OpenAI、Writer、Copyleaks、GPTZero 和 CrossPlag 公司开发的工具。这些人工智能探测器是根据广泛的在线研究和研究时个别教育工作者的宝贵反馈而选择的。值得注意的是,这一领域正在不断发展,新的工具和网站预计很快就会推出。Turnitin AI 检测器等一些工具已经推出,但尚未在教育机构中广泛采用或激活。此外,该文件必须包含至少 300 字的长文写作格式的散文文本。而且,用于测试工具的内容由 ChatGPT 模型 3.5 和 4 生成,仅包含五个人工编写的控制响应。样本大小和内容的性质可能会影响研究结果,因为这些工具的性能在应用于其他人工智能模型或更广泛、更多样化的人类编写内容时可能会有所不同。
值得一提的是,这项研究是在特定时间进行的。因此,这些工具的性能可能已经发生了变化,并且它们在本研究进行后发布的不同版本的人工智能模型上的表现可能有所不同。考虑到人工智能内容生成快速发展的性质,未来的研究应该探索同时提高灵敏度和特异性的技术,以实现更准确的内容检测。
结论
本研究旨在评估 AI 文本内容检测器的性能,包括 OpenAI、Writer、Copyleaks、GPTZero 和 CrossPlag。这项研究的结果表明,这些工具正确识别文本并将其分类为人工智能生成的文本或人工编写的文本的能力存在很大差异,总体趋势显示,与 GPT 4 生成的内容相比,识别 GPT 3.5 生成的内容时具有更好的性能内容或人工编写的内容。值得注意的是,不同的性能凸显了区分人工智能和人类生成文本的复杂性,以及人工智能文本生成能力的进步所带来的挑战。
该研究强调了人工智能检测器之间的显着性能差异,OpenAI 在检测人工智能生成的内容方面表现出高灵敏度,但特异性低。相比之下,CrossPlag 显示出很高的特异性,但在处理 AI 生成的内容时遇到了困难,尤其是来自 GPT 4 的内容。这表明这些工具的有效性在快节奏的 AI 进化世界中可能受到限制。此外,检测 GPT 3.5 和 GPT 4 内容的差异凸显了人工智能生成的内容检测面临的日益严峻的挑战以及抄袭检测的影响。这些发现需要改进检测工具,以跟上复杂的人工智能文本生成模型的步伐。
值得注意的是,虽然人工智能检测工具可以提供一些见解,但其性能不一致以及对人工智能模型复杂程度的依赖,需要对学术诚信案例采取更全面的方法,将人工智能工具与人工审查和情境考虑相结合。研究结果还呼吁面对人工智能和数字技术重新评估传统教育方法,建议转向人工智能增强的学习和评估,同时营造学术诚实和责任感的环境。该研究承认与选定的人工智能探测器、用于测试的内容的性质以及研究的时间安排相关的局限性。因此,未来的研究应考虑扩大探测器的选择,增加测试内容的种类和规模,并定期评估探测器的性能。随着时间的推移,性能可以跟上快速发展的人工智能领域的步伐。未来的研究还应侧重于同时提高灵敏度和特异性,以实现更准确的内容检测。
总之,随着人工智能文本生成的发展,用于检测它的工具也必须不断发展。这就需要持续开发和定期评估,以确保其有效性和可靠性。此外,涉及人工智能工具和传统方法的平衡方法最能在不断发展的数字环境中维护学术诚信。