新闻资讯
1 . 介绍
词义的自动识别是自然语言处理中的一个悬而未决的问题,称为“词义归纳”(WSI)。WSI 与词义消歧任务(WSD)密切相关。后者依赖于预定义的意义清单(即 WordNet(Fellbaum,1998,Wallace,2007,Feinerer 和 Hornik,2020))并旨在根据上下文对单词的意义进行分类,而前者则侧重于根据以下条件对句子集合进行聚类:目标词的意义。例如,图 1显示了使用我们的方法2在 3000 个包含单词bank的句子上获得的不同集群从维基百科收集。请注意,在这种情况下,感官及其数量不是预定义的,这突出了 WSI 和 WSD 之间的区别。
对于各种任务,包括信息检索,词义比简单的词形式更有益(Pantel 和 Lin,2002)。词义通常表示为来自手动构建的词汇数据库的固定定义列表。然而,词汇数据库缺少重要的特定领域的含义。例如,这些数据库通常缺乏概念和定义之间明确的语义或上下文链接(Agirre 等人,2009)。手工制作的词汇数据库也经常无法传达特定上下文中目标单词的精确含义(Véronis,2004)。为了解决这些问题,WSI 打算以无监督的方式进行学习给定单词的各种含义。尽管当前最先进的方法合理地解决了这个问题,但它们具有应该解决的重大局限性。例如,Ansell 等人在他们的方法中。(2021)以及Amrami 和 Goldberg (2019)选择固定数量的含义,而不管目标词如何,而没有明确的理由说明他们的选择。另一方面,安塞尔等人。(2021)方法需要使用特定于任务的固定词汇来预训练新的语言模型。将他们的方法应用于新词汇或新语言将需要大量计算,这可能会阻碍实验过程。
下载:下载高分辨率图像 (204KB)
下载:下载全尺寸图像
图。1。词库的不同基于意义的集群以及相应上下文中使用最频繁的单词。我们使用 PCA 将簇的质心投影到二维空间。每种颜色对应一个簇。点的大小代表单词在其相应簇中的频率。
本文包括以下贡献:
(1) 我们提出了一种新的无监督方法,利用预训练语言模型、层次聚类和互信息最大化。我们的方法解决了以前的努力的一些局限性,同时提供了有竞争力的性能。
(2)我们应用一种新方法来估计目标词的动态语义数量。该方法依赖于单词多义量化(Xypolopoulos 等人,2021)。
(3) 我们研究性能随所选层深度的变化。我们在第6节中的研究结果涵盖了四种不同的模型,对于研究人员开展 WSI 的未来工作非常有价值。
2 . 相关工作
先前的 WSI 工作使用生成统计模型来解决此任务。主要是,他们使用潜在狄利克雷分配(LDA)将此任务作为主题建模问题来处理( Lau et al., 2012, Chang et al., 2014, Goyal and Hovy, 2014, Wang et al., 2015, Komninos and Manandhar, 2016)。AutoSense( Amplayo 等人,2019)是最新性能最好的 LDA 方法之一,它基于两个原则:首先,语义表示为主题的分布。其次,该模型生成由目标词及其邻近词组成的对,从而根据词汇语义将主题分布分离为细粒度的含义。AutoSense 通过删除不属于任何实例的主题分布来丢弃垃圾感知。此外,它根据生成的(目标,邻居)对添加新的,这意味着不需要通过模型固定感官的数量。虽然大多数 WSI 方法都会固定所有单词的簇数,但在我们的工作中,我们探索了两种簇数设置:固定和动态。其他作品(Song et al., 2016 , Corrêa and Amancio, 2018)在应用聚类方法之前,使用静态词嵌入Word2Vec(Mikolov et al., 2013)来获取多义词的表示。
上下文词嵌入出现后,预训练语言模型如 ELMo ( Peters et al., 2018 )(基于 BiLSTM)和BERT(Devlin et al., 2019)(基于 Transformers)(Vaswani et al., 2017))与其他技术一起使用来诱导目标词的含义。Amrami 和 Goldberg (2018)以及Amrami 和 Goldberg (2019)连续使用 ELMo 和 BERT
预测目标词的可能替代品。接下来,它给出每个实例
代表,其中每个代表包含从语言模型预测的单词分布中随机抽取的多个可能的替代品。每个代表都是从 TF-IDF 进行的向量。接下来,使用凝聚聚类对代表进行聚类,簇数固定为7。最后,每个实例将根据每个代表对应的簇被分配到一个或多个簇。我们的工作没有使用单词替代方法,而是使用从预训练语言模型中提取的上下文单词嵌入。
PolyLM(Ansell 等人,2021)是最新的词义归纳技术之一,它使用 MLM(掩码语言模型)来归纳词义。PolyLM 采用了一种新颖的方法来解决学习词义的问题。它使用 Transformer 架构来预测每个单词的八个概率,其中每个概率代表一个单词被分配给八种不同含义之一的概率。它建立在两个假设之上:一个单词在被屏蔽的地方被预测的机会与其不同含义的总和成正比,并且对于特定的上下文,该单词的其中一个含义更有可能被使用。该模型的缺点是假设所有单词具有相同的固定数量的含义。
3 . 方法
我们的方法由四个主要步骤组成:首先,我们构建一个成对的合成数据集,每个数据集由一个句子与一个随机扰动版本配对组成,如第3.1节所述。其次,我们使用预训练的语言模型(例如 RoBERTa)提取目标词的一对隐藏状态表示。在我们的实验中,我们主要使用RoBERTa
。此外,我们考虑两种广泛采用的语言模型:BERT
和德伯特
在消融研究中。第三,我们训练 MIM(互信息最大化)模型,其中:(1)考虑隐藏状态表示对的实例,网络使用两个目标进行训练:最大化互信息并最小化两者输出之间的匹配损失向量。(2)根据预先定义的测试集上较小的损失来选择模型的最佳实例。(3)我们将第一层的输出视为目标词的新向量表示。第四,对于评估数据集中的每个目标词,我们对新的向量表示应用凝聚聚类方法以获得聚类解决方案。为了选择预定义的簇数,我们遵循两种方法: (i) 将意义(簇)的数量固定为 7,如下所示Amrami 和 Goldberg,2018 年、 Amrami 和 Goldberg,2019 年以及 (ii) 根据每个目标单词的多义性得分( Xypolopoulos 等人,2021 年)使用动态数量的簇。
主要步骤将在以下小节中详细介绍(见图 2)。
下载:下载高分辨率图像 (305KB)
下载:下载全尺寸图像
图2 . 我们方法的流程:对于选择作为目标的单词“live”,提供了一个句子列表。BART 用于生成其相应的释义。隐藏表示 X
目标词的 是从预训练语言模型的第l层中提取的。虚线表示共享参数。
3.1 . 数据集设置
巴特。
刘易斯等人。(2020)是一种用于预训练序列到序列模型的去噪自动编码器。它是通过训练模型使用任意噪声函数重建原始句子的损坏版本来训练的。它基于标准的基于 Transformer 的神经机器翻译架构,可以看作是 BERT(由于双向编码器)、GPT( Radford 和 Narasimhan,2018)(使用从左到右的解码器)的泛化,以及其他最近的预训练计划。BART 也可以用作给定输入的生成模型,即句子完成、翻译、摘要等。
生成随机扰动的重复。
为了将我们的方法应用于文本输入,我们需要创建一对目标单词具有相同含义的句子。为了实现这一点,需要一个函数来向输入句子引入随机扰动,同时保留含义。该句子及其扰动版本保持了目标引理的相同含义。因此,我们可以生成一对属于同一簇的句子。首先,我们屏蔽了 40% 的原始句子,同时在大多数情况下防止屏蔽目标单词。其次,我们使用以下方法预测了屏蔽标记
光束尺寸为一。
3.2 . 向量提取
训练集用于训练小型网络的参数,而测试集用于执行感官归纳。使用每个预训练语言模型的最佳层,我们从不同的训练和测试实例中提取目标单词的表示。每个预训练语言模型的最佳层是根据 WMT16 To-English Pearson在 BERTScore( Zhang* et al., 2020 )上的最佳性能来选择的。3
在这个阶段,如果目标词被分解为多个标记,我们计算相应词片的平均向量。请注意,使用 BART 对输入文本生成扰动时
,释义可能不包含目标词的可能性很小。因此,训练集中的所有句子及其相应的释义被剥夺了目标单词。
使用Adam 优化器进行训练,涉及 5 个时期的 8 次运行,批量大小为 32 (Kingma 和 Ba,2015)。学习率从 2e−5 开始,然后在剩余训练时间内线性降低到零。最好的模型来自最小化验证损失的时代。验证集代表从训练数据集中随机抽取的 10% 的句子对。
训练完成后,将为原始句子的每个测试词向量提取第一层的隐藏状态表示。因此,目标词具有新的投影表示。
3.5 . 聚类
为了将实例聚类成意义,我们使用了凝聚聚类方法。凝聚聚类是一种用于无监督机器学习的层次聚类技术用于将相似的数据点分组为簇。它是一种自下而上的方法,其中每个数据点都从其自己的集群开始,然后根据定义的距离度量和链接函数迭代地与最近的集群合并。链接函数获取距离信息并根据对象对的相似性将其分组为簇。接下来,这些新形成的簇相互链接以创建更大的簇。迭代此过程,直到原始数据集中的所有对象在分层树中链接在一起。凝聚聚类的优点在于它能够产生聚类的层次结构,从而可以根据当前的问题灵活地选择聚类的数量。凝聚聚类广泛应用于各个领域,包括生物学、图像分割、社交网络分析和市场细分等,了解数据点之间的层次关系是有益的。
为了公平比较,使用与Amrami 和 Goldberg,2018 年、Amrami 和 Goldberg,2019 年相同的设置以及余弦距离作为距离度量和平均链接。为了选择每个目标单词的簇(含义)数量,我们遵循两种方法:(i)固定含义数量,如Amrami 和 Goldberg,2018、Amrami 和 Goldberg,2019以及Ansell 等人。(2021)。(ii) 根据使用无监督单词多义量化获得的多义分数,使用 4 到 8 之间的动态簇数(Xypolopoulos 等人,2021))。对于动态聚类,我们使用论文中的最佳配置,维度 D 等于 3,级别 L 等于 8。
4 . 评估
组织了一些竞赛来系统地评估应用于 WSI 的各种方法,包括SemEval-2007 任务 02(Agirre 和 Soroa,2007)、SemEval-2010 任务 14(Manandhar 和 Klapaftis,2009)和SemEval-2013 任务 13(Jurgens 和 Klapaftis, 2013)。SemEval-2010和SemEval-2013这两个任务被认为是WSI的基准。在本节中,我们发布并分析前面描述的模型在两个提到的任务上运行 8 次的平均值和标准差:SemEval-2010 任务 14和SemEval-2013 任务 13。
4.1 . SemEval-2010 任务 14
一方面,SemEval-2010 WSI 挑战赛的主要目标是比较无监督词义归纳系统。它提供了一种使用 WSD 数据集评估 WSI 系统的映射机制。目标词数据集由从 OntoNet 中提取的 100 个标记词、50 个名词和 50 个动词组成(Hovy et al., 2006)。在测试集中,每个目标词有大约一百个实例需要聚类。为了学习其含义,为每个目标单词提供了包含大约 10,000 个实例的训练集。训练集是使用半自动基于网络的方法创建的。对于 WordNet 中目标词的每种含义(Fellbaum,1998),查询使用 Yahoo! 抓取包含其相应词干和引理的所有句子。搜索API。此任务中测试数据集中的每个实例仅用一种含义进行标记。
此任务中的性能通过 V-Measure(Rosenberg 和 Hirschberg,2007)(偏向于大量簇)和 F-Score(偏向于少量簇)来衡量。我们报告总体性能(AVG),定义为这两个指标的几何平均值。在哪里:
- V-measure 通过明确测量聚类解决方案的同质性和完整性来评估聚类解决方案的质量。同质性是指每个簇由主要属于单个黄金标准类的数据点组成的程度,而完整性是指每个黄金标准类由主要分配给单个簇的数据点组成的程度。
- 在F-Score中,精度可以定义为两个集合(聚类解决方案和黄金标准)之间的公共实例对(来自同一聚类的实例之间形成的对)的数量与聚类解决方案中的对总数的比,而召回率可以定义为两个集合之间的公共实例对的数量与黄金标准中的总实例对的数量之比。最后,将精确率和召回率结合起来产生称为 F 分数的调和平均值。
4.2 . SemEval-2013 任务 13
另一方面,SemEval-2013 任务 13是一项在实例被标记有许多意义的上下文中评估词义归纳和消歧系统的任务,这些意义的适用性被相应地加权(模糊设置)。该任务的重点是消除 50 个目标引理的含义歧义:20 个名词、20 个动词和 10 个形容词。ukWac 语料库(Baroni et al., 2009)作为训练语料库提供。它包含从网络上爬取的大量实例,可以通过引理、POS 标签和更多过滤器进行过滤。4测试数据取自开放美国国家语料库(Ide 和 Suderman,2004 年),涵盖各种流派以及语料库的口语和书面部分。
该任务的表现是用模糊 B-Cubed (F-BC) 来衡量的(Bagga 和 Baldwin,1998)。它是 B-Cubed 的通用版本,处理模糊设置和模糊归一化互信息 (F-NMI)。前者根据两个解决方案中共享一个集群的项目数来估计两个集群解决方案之间的拟合度。而后者是处理多义注释的互信息的广义版本。我们还报告了整体表现(AVG)。
4.3 . 实验
为了准备SemEval 2010 任务 14的训练集,我们从该任务提供的训练数据集中为每个目标词随机选择 3500 个句子。对于SemEval 2013 任务 13,我们从 ukWac 中为每个标记的目标单词提取了多达 3500 个随机句子。请注意,如果SemEval 2013 任务 13中的某些目标词在 ukWac 上没有 3500 个句子,我们就提取所有可能的句子。
接下来,我们通过整合第 3.1节中描述的随机扰动来生成两个数据集的释义。表 1列出了每个数据集的平均扰动百分比。
7 . 结论
在这项工作中,我们为 WSI 任务引入了一种无监督方法,该方法基于从预训练语言模型中提取的上下文词嵌入的调整。该方法生成输入句子的释义。因此,两个句子属于同一意义簇。接下来,它使用两个句子来训练 MIM神经网络,最大化两个句子输出之间的互信息并最小化综合匹配损失。该方法改进了两个 WSI 任务之一的最新技术。
我们还使用多义分数来测试动态数量的感官设置,因为它在六分之二的实验中声称优于固定设置。在大多数情况下,MIM 方法证明可以提高分数,同时不会降低其他方法的性能。
目标词表示的提取取决于从所使用的预训练语言模型中选择的层。因此,受到以前作品的启发,我们进行了比较,以帮助未来的研究做出选择。
8 . 局限性
上述方法对 WSI 任务的一些最先进的解决方案进行了重要改进。然而,它有一些值得强调的局限性:
(1) 该方法针对每个目标词从头开始训练 MIM 模型,缺乏通用性。因此,进一步的研究可以通过从所有目标词的预训练语言模型开始训练 MIM 模型来完成这项任务。应用这一点可能会产生一个通用模型,该模型可以在应用凝聚聚类之前为所有可能的目标词提供意义嵌入。
(2) 与PolyLM相比,在我们的管道中部分使用预训练的语言模型使得我们的方法在计算时间方面成本高昂。因此,我们的方法面临着更多参数的问题,尤其是对于 DeBERTa 等较大尺寸的模型。因此,进一步的方法是使用较小的模型(即 DitilBERT)进行测试,这些模型可以通过更快的训练和推理时间保持相同的良好性能。最后,我们必须强调训练数据质量的关键作用确定我们的模型在 SemEval-2013 任务 13 上的性能。与 SemEval-2010 任务 14 中使用的全面且精心构建的训练句子不同,来自 ukWac 的 SemEval-2013 任务 13 的训练句子的特点是简洁、不完整、以及从网络中的不均匀提取。为了说明这两项任务的训练集之间的差异,我们在附录中提供了示例。