新闻资讯

使用新闻标题数据集进行讽刺检测

1 . 介绍
过去有许多关于讽刺检测的研究,要么使用小型高质量标记数据集,要么使用大型噪声标记数据集。使用基于标签的监督来收集更大的数据集,例如(Bamman 和 Smith,2015 )使用某些主题标签或Khodak 等人从 Twitter 收集的数据集 。(2018)使用“/s”标签从 Reddit 收集数据集。具有高质量标签的较小数据集需要手动标记,例如(Oraby 等人,2017)贡献讽刺注释的对话或 Semeval 挑战1贡献基于 Twitter 的数据集。在每种类型的场景中,讽刺的可解释性都可能因缺乏接触大而广泛的信息而受到限制。高质量的数据集有以下几个原因:


基于社交媒体的数据集是使用基于标签的监督来收集的。根据 Liebrecht 等人之前的研究。(2013)和乔希等人。(2017),此类数据集可能具有嘈杂的标签。此外,人们在社交媒体上使用非常非正式的语言,这导致词汇量稀疏,并且对于许多单词来说,无法使用预训练的嵌入。最后,许多帖子可以回复其他帖子,在这种情况下检测讽刺需要上下文信息的可用性。因此,由于多个方面存在噪声,使用这些类型的数据集训练的深度学习框架在发现真正的讽刺元素方面面临着挑战。


由于获取质量标签的成本很高,手动标记的数据集通常具有有限数量的讽刺实例。发生这种情况是因为每个人对讽刺的理解不同,并且在许多情况下一致性较低。使用这些数据集训练的深度学习框架仍然不够强大,因此无法揭示真正的讽刺表征。


在先前可用的数据集上训练的模型可以进行有限的定性分析,以展示模型正在学习什么以及在哪些情况下它们可以准确识别讽刺。


我们知道,检测讽刺需要理解常识知识,否则模型可能无法真正理解讽刺是什么,并且可能只会拾取一些歧视性的词汇线索。据我们所知,之前的研究尚未涉及这个方向。由于这些限制,人们很难理解和解释讽刺这个难以捉摸的概念。为了应对这些挑战,我们将我们在这项工作中的贡献总结如下:


我们首先介绍一个用于讽刺检测的高质量且(相对)大规模的数据集,并展示与该领域以前可用的基准数据集相比,它在标签和语言方面的优越性。


接下来,我们使用具有注意力机制的混合神经网络来展示如何在新贡献的数据集上可靠地训练深度学习模型,并进行定性分析以通过其注意力模块解释讽刺的概念。


最后,我们调查了讽刺检测领域的一些最新NLP研究,以展示我们的工作自 2019 年以来所产生的影响。


本文的其余部分按以下方式组织:在第 2节中,我们描述了我们收集的数据集,以克服以前使用的基准数据集的局限性。在第 3节中,我们描述了混合神经网络架构,我们用它来展示数据集的定量和定性结果。在 第 4节和第 5节中,我们提供实验设计细节、结果和分析。在第 6节中,我们根据 2019 年以来的贡献介绍了著名的 NLP 研究。总之,我们在第 7节中提供了一些尚未探索的未来方向。

2 . 新闻标题数据集
为了克服基于社交媒体的数据集中与标签和语言噪声相关的限制以及其他手工标记数据集的低规模性质,我们提出了新闻标题数据集。2摘自两个新闻网站:TheOnion。3和HuffPost 4 TheOnion 生成时事的讽刺版本,我们收集了《简讯》和《图片新闻》类别中的所有标题来构建语料库的讽刺部分。我们使用美国在线新闻媒体公司《赫芬顿邮报》的新闻档案页面收集真实且非讽刺性的新闻标题。为了探索从两个来源收集的文本的语言,我们将图 1中的词云可视化展示每个类别中经常出现的单词类型。我们没有注意到每个类别中的单词有任何直接区别,这可能是因为讽刺是在特定上下文中定义的,不一定必须使用特定的单词。我们将数据集的一般统计数据与表 1中的一些基准讽刺检测数据集进行比较,并强调了一些独特的特征。综上所述,News Headlines 数据集相对于现有的讽刺数据集具有以下优势:


由于新闻标题是由专业人士以正式方式撰写的,因此不存在拼写错误或非正式用法,如基于社交媒体的数据集(Semeval 或 SARC)。这减少了词汇稀疏性,也增加了找到预训练嵌入以提高性能的机会。从我们能够在新闻标题数据集中找到 word2vec 嵌入的单词百分比可以明显看出这一点(
77%)与 Semeval 基于 Twitter 的数据集相比(
64%)。


由于TheOnion的唯一目的是发布讽刺新闻,因此我们获得了相对大量的高质量标签。从这个意义上说,与 SARC 等自注释数据集相比,标签的质量受到控制,同时数据集的规模比 IAC 或 SemEval 等手动标记的数据集大得多。


在基于社交媒体的数据集中,讽刺帖子可能不是独立的,因为数据集可能包括回复不属于数据集的其他帖子的帖子。然而,我们从两个新闻网站获得的新闻标题是独立的,没有遇到这个问题。这最终将有助于从语料库中区分出真正的讽刺元素。

3 . 混合神经网络
我们从Amir 等人关于讽刺检测的开创性研究中获得灵感 。(2016) ,它将预训练的用户嵌入(上下文)和推文(内容)作为基于 CNN 的模型的输入,并输出推文讽刺性质的二进制值。为了从我们新收集的新闻头条数据集中获取见解,我们调整了此架构以删除用户上下文建模路径,因为此数据集中提及的讽刺并不依赖于作者,而是依赖于当前事件和常识。除此之外,我们添加了一个新的LSTM模块来在每个时间步对句子中单词的左(和右)上下文进行编码。该 LSTM 模块补充了一个注意力模块,以在每个时间步重新权衡编码的上下文。

我们假设 LSTM 模块中编码的顺序信息将补充Amir 等人的原始架构中的 CNN模块。(2016)它捕获整个句子长度中的规则 n 元词模式。我们还假设注意力模块可以有益于讽刺检测任务,并从我们的数据集中产生有关讽刺线索的有用见解。它可以有选择地强调不一致的同时出现的单词短语(具有对比隐含情感的单词)。例如,在“majority of states civicengagementcentered around oppressing other people”这句话中,我们的注意力模型可以强调“公民参与”和“压迫其他人”的出现,从而将这个句子归类为讽刺。我们模型的详细架构如图2所示。

带有注意力的 LSTM 模块类似于在神经机器翻译任务中用于联合对齐和翻译的模块(Bahdanau 等人,2014)。

4 . 实验
设计这些实验的目的是展示我们可以在数据集上可靠地训练深度神经网络,同时产生有用的见解。

4.1 . 基线
有了新的数据集,我们调整了Amir 等人的模型 。(2016)通过删除作者嵌入组件,因为现在讽刺与作者无关(它基于当前事件和常识)来形成基线。我们保持CNN模块完好无损。

4.2 . 实验装置
为了表示单词,我们使用 word2vec 模型中的预训练嵌入,并在两个模型中随机均匀地初始化缺失的单词。然后在训练过程中对这些进行调整。我们通过以 80:10:10 的比例随机分割数据来创建训练集、验证集和测试集。我们使用网格搜索调整超参数,如学习率、正则化常数、输出通道、滤波器宽度、隐藏单元和丢失分数。通过最小化预测和真实标签之间的交叉熵误差来训练模型,通过反向传播计算网络参数的梯度,并使用 AdaDelta 规则更新模型权重。GitHub 上提供了这两种方法的代码。5

5 . 结果与分析
5.1 . 定量结果
我们报告了基线和混合神经网络在分类准确性方面的定量结果,因为数据集基本上是平衡的。超参数调整后的最终分类精度如表2所示。

5.2 . 定性结果
为了从我们的数据集中收集更多见解,我们将测试集中一些讽刺句子的注意力可视化,这些句子被正确分类为高置信度分数。这有助于我们更好地了解我们的假设是否正确,并为讽刺检测过程提供更好的见解。图 4显示,注意力模块强调每个句子中不一致短语的共现,例如左侧的“公民参与”和“压迫其他人”以及“兴奋”和“疯狂的韩国流行音乐*t”在开幕式期间'在右边。

这种不一致对于我们人类来说也是一个重要的线索,并支持我们在第 3节中提到的第二个假设。Joshi 等人对此进行了广泛的研究 。(2015)。图5(左)显示,“光头男”的存在表明该新闻标题相当不真诚,可能是为了嘲笑某人。同样,图 5 (右)中的“停止关注”更有可能出现在讽刺句子中,而不是出现在真诚的新闻标题中。

6 . 值得注意的应用
在我们的贡献于 2019 年首次发布后,已经有相当多最先进的NLP研究依赖于本工作中讨论的工件(其中 50
引用6并在 Kaggle 平台上广泛采用7 )。我们在本节中介绍了我们工作的一些重要应用,以展示其影响。

6.1 . 在讽刺和非讽刺文本之间转换风格
Yang(2022)开发了一种自然语言处理工具,可以准确地检测文本中的讽刺部分,并以非讽刺的形式重新表述它们,而不改变文本的整体含义。为了学习讽刺和非讽刺文本的语义,作者寻找具有高质量语言和讽刺注释的数据源。他们仅仅依靠我们的新闻头条数据集来微调 GPT-2 模型,以获得能够准确识别讽刺的鉴别器。使用 SHAP,作者计算了各种特征在讽刺检测中的作用,并使某些讽刺属性的删除更加直观和精确。最后,他们使用了 Dathathri 等人开发的 即插即用语言模型。(2019)以非讽刺的风格生成被删除的部分,从而实现风格迁移。

6.2 . 使用情感线索检测讽刺
约克大学实验室开展了一系列工作,  Babanejad et al., 2020a、Babanejad et al., 2020b和Agrawal et al., 2020b 。(2020),探索情感特征(如人类的快乐、悲伤、惊讶等情绪)在计算讽刺检测中的作用。 阿格拉瓦尔等人。(2020)开发了一种基于 LSTM 的模型 Emotrans,该模型将我们的新闻标题数据集中的文本中的情感转变结合起来,以准确识别讽刺文本。 巴巴内贾德等人。(2020a)全面分析预处理技术的作用来自 NLP 中基于词向量模型的情感任务(即涉及情感识别的任务)。由于情感任务之一是讽刺检测,因此他们利用我们的新闻标题数据集得出结论,情感任务(情感分析、讽刺检测和情感分类)中最显着的改进是通过否定处理(即预处理文本以删除否定)获得的,而情感分类的好处是最大的。 巴巴内贾德等人。(2020b)训练基于 BERT 的模型,从我们的新闻头条数据集中学习情感特征嵌入,以在计算讽刺检测任务上实现最先进的性能。

6.3 . 用于检测葡萄牙语中的讽刺和讽刺的语料库
Marten 和 de Freitas (2021)仔细研究了我们 2019 年的初步贡献,并遵循类似的方法构建葡萄牙语的讽刺和讽刺检测语料库,葡萄牙语通常是一种资源匮乏的语言,并且社交媒体平台上没有太多可用数据。他们指出,用于讽刺检测的从英语到葡萄牙语的翻译语料库可能不起作用,因为讽刺或讽刺可能因一种语言而异,并且基于标记者对讽刺的理解,文本的手动标记也可能存在错误。由于这些原因,他们依靠我们从不同新闻网站收集讽刺和非讽刺数据的方法来实现我们在第 2节中提到的所有好处。

7 . 结论和未来工作
总之,我们为讽刺检测任务提供了一个相对大规模和高质量的数据集,并通过训练具有深度学习模型的注意力机制的混合神经网络来展示能够以富有表现力的方式从文本中可靠地学习讽刺线索。论文中提出的定量和定性结果强调了所提出的框架的强大性能,我们还介绍了最近利用我们在这项工作中的贡献进行的一些 NLP 研究。我们留下了几个可以在未来探索的开放方向。一个方向是使用本工作中提出的数据集或方法作为预计算步骤,并为下游任务调整特定领域数据集的参数。我们对这个方向的直觉是,这个预计算步骤将使我们能够捕获讽刺的一般线索,这在较小或特定领域的数据集上很难学习(考虑到它们的小尺寸或低质量标签)。这种类型的迁移学习当可用数据有限时,该方法被证明是有效的(Pan and Yang,2010)。此外,我们观察到讽刺的检测很大程度上取决于常识(时事和常识)。因此,另一个方向是将这些知识整合到建模工作中,以便我们能够根据哪些句子偏离常识来检测讽刺。 杨等人。(2017)将这些知识整合到对话系统中,并且提到的想法也可以适用于讽刺检测设置。

发布日期:2024-03-11