发布时间:2022-09-07 03:00
关系抽取任务是为了预测文本中两个实体中的语义关系,是 NLP 中的重要任务。基于图的模型由于其在关系推理中的有效性和强度而被广泛采用,许多研究依赖于外部解析器将文本序列转换为依赖树来初始化图,但是,解析器产生的错误会传播到图中。本文主要介绍如何直接从文本中构建图来避免上述问题,将通过三篇顶会文献综述基于对话文本的关系抽取最新进展。
GDPNet
论文标题:
GDPNet: Refining Latent Multi-View Graph for Relation Extraction
收录会议:
AAAI 2021
论文链接:
https://www.aaai.org/AAAI21Papers/AAAI-3290.XueF.pdf
代码链接:
https://github.com/XueFuzhao/GDPNet
1.1 论文工作
由于基于 BERT 等序列模型与基于图模型算法是关系抽取任务的研究前沿,这篇文献构造了利用潜在的多视图来捕获 token 之间各种可能的关系,随之对这个图进行精炼以选择重要的词进行关系预测,最后将改进的图表示和基于 BERT 模型的表示连接起来进行关系抽取。
论文的重要创新点在于提出了 GDPNet (Gaussian Dynamic Time Warping Pooling Net),利用高斯图生成器 (Gaussian Graph Generator, GGG)来产生多视图的边,这个图通过 Dynamic Time Warping Pooling (DTWPool)来精炼。
1.2 论文方法
GDPNet 的总体架构如图 1 的左侧所示。其中有三个关键组件:BERT 模块、图模块和 SoftMax 分类器。BERT 模块将 token 编码为相应的特性表示形式。如图 1 的右侧所示,图模块从 BERT 中获取 token 表示,并使用高斯图生成器构造一个多视图。然后通过图卷积和 DTWPool 的多次交互来细化图。最后,将改进后的潜在图输入 SoftMax 分类器预测关系类型。
1.2.1 BERT Module
论文使用 BERT 作为特征编码器来提取 token 表示,将序列 映射为 BERT 的输入序列,,对应的 BERT 产生的 token 表示为 ,在 GDPNet 中,通过图模块充分利用了整个 token 表示。
1.2.2 Graph Module
图模块由高斯图生成器 (GGG)、多层图卷积和 DTWPool 组成。GGG 用于生成潜在的多视图,而图卷积和 DTWPool 层用于图的精炼。
1.2.2.1 Gaussian Graph Generator
BERT 模块中的 部分用来生成多视图用以建模 token 之间的关系。论文使用潜在图的初始节点表示 ,其中每个节点表示对应于 token 表示,接着,基于 利用 GGG 初始化多视图的边。具体来说,首先将每个节点 编码为多个高斯分布如下:
与 表示两个可训练的神经网络, 表示非线性激活函数, 表示多视图中的视图数量。对于多视图的第 个试图会得到一些高斯分布 ,每个高斯分布会对应于节点表示 。论文使用高斯分布之间 KL 散度来建模边的关系:
在计算每个视图节点边的关系之后,会得到多个邻接矩阵 ,因此多视图可以表示为 。
1.2.2.2 Multi-view Graph Convolution
多视图卷积记为:
是初始节点表示和子层生成的节点表示的串联特征。
1.2.2.3 Dynamic Time Warping Pooling
在图卷积通过消息传播更新节点表示后,引入 Dynamic TimeWarping Pooling (DTWPool)来精炼潜在多视图。首先利用 SAGPool 来计算每个视图的注意力系数:
对于潜在多视图中的第 n 个视角,会得到分数集 ,论文保留了 SAGPool 的节点选择方法,即使在图的大小和结构发生变化时,也保留了输入图中的一部分节点。在节点选择之后,第 个视角保留的节点是 的子集,因为潜在图通常有多个视角,所以会发现多个 不同的子集。
由于多视图的特性,DTWPool 通过从不同视图获取节点的联合集,自适应地对图进行了细化:
其中 是从所有不同视图中选择的子集的并集。在图模块中,论文对图卷积和 DTWPool 进行迭代操作,从而得到一个图序列 。
信息节点的数量在不同的文本序列中是不同的。在图的池化过程中,保持重要信息是很重要的。这个图中的节点嵌入了丰富的上下文信息,因此将上下文总结到 pooling 节点中是有益的。为了这个目的,作者提出了使用 SoftDTW 来指导图池化操作。SoftDTW 是一个可微分的损失函数,用于寻找不同长度的两个序列之间可能的最佳对齐方式:
在 GDPNet 中,论文利用 SoftDTW 损耗最小化原始图与最后池化图之间的距离:
使用 SoftDTM 损失,DTWPool 可以在不丢失大量上下文信息的情况下细化图。
为了最小化信息损失,论文将池化过程中创建的中间图的节点表示连接起来,从而得到最终的图 ,类似于学习图的残差连接。由于池中的图具有不同的大小,论文对所有节点只连接其中的节点表示,因此,最终图 的节点与 1 相同。
1.2.3 Classifier
给定最终的图 ,论文采用最大池的神经网络来计算图的表示。然后将计算的表示与 [CLS] 令牌 的表示连接起来,形成最终的表示。
1.3 实验
论文提出的 GDPNet 可以应用于句子级和对话级的 RE 任务。由于数据格式、适用的基线模型以及处理主体和客体实体 和 的方式的不同,论文进行了两组实验,将 GDPNets 和 SoTA 模型在两项任务上进行了比较。表 2 与表 5 总结了在 DialogRE 和 TACRED 上的结果。论文还展示了如何容易地修改 GDPNet,如表 4 所示,以便在每个任务上与 SoTA 模型进行公平比较。
SOLS
论文标题:
Speaker-Oriented Latent Structures for Dialogue-Based Relation Extraction
收录会议:
EMNLP 2021
论文链接:
https://arxiv.org/abs/2109.05182
2.1 论文工作
由于基于对话的关系抽取(Dialogue-based relation extraction ,DiaRE)任务涉及多个说话人,会存在逻辑纠缠和信息稀疏的问题。为了解决这一问题,论文提出了 Speaker-Oriented Latent Structures(SOLS),可以明确地诱发说话人导向的潜在结构,以获得更好的 DiaRE。在学习过程中,论文针对说话人的正则化方法逐步突出与说话人相关的关键线索,并删除无关线索,缓解了信息稀疏性问题。
2.2 论文方法
该模型旨在通过探索面向说话者的潜在结构来获得更好的 DiaRE。论文提出的模型有四个模块:
1. 对话编码器(Dialogue Encoder)使用对话作为输入,输出是语境的相关表示。
2. 上下文化的表示将被输入到 SOLS 诱导器(SOLS Inducer)中,以自动生成两个面向说话者的潜在结构和一个新的正则化项,旨在缓解纠缠的逻辑和数据稀疏问题。
3. 然后将潜在结构馈给 SOLS 编码器(SOLS Encoder),该编码器是一个图卷积网络(GCN),主要用于信息聚合。
4. 分类器(Classifier)。
2.2.1 Dialogue Encoder
表示一个对话拥有 n 个 token 和 m 个话语 ,然后将 视为一个长的序列,并将它送入对话编码器,例如 BiLSTM,或者基于预训练的 BERT 模型,来产生上下文的语境表示 。
2.2.2 SOLS Inducer
SOLS 的直觉是学习一种潜在的对话结构,能够找出与说话者相关的语境,而忽略不相关或不太相关的语境。论文使用离散-连续分布通过采样边缘分数接近 0 或 1 来明确学习面向说话者的对话结构。因此,将图中的边缘分数视为一个门,接近 1 或 0 的分数分别表示打开或关闭两个令牌之间的连接。直观上,分数值接近 1 表示两个符号之间有很强的关系。
取样器主要有四个模块,主要包括 MLP 模块、分布生成器、Stretcher & Rectifier 和门生成器。
对于每个 令牌对,MLP 模块将它们的表示作为输入,并执行非线性转换 ,并输出标量值 ,。
分布生成器构造了一个 Binary Concrete(BC)分布,,BC 分布是由连续离散随机变量组成的,基于 Gumbel-Max 方法。使用 来控制概率质量使 BC 分布向 0 或向 1 倾斜,分别在负和正的位置。从这样的分布中采样值类似于生成一个门,可以打开或关闭两个令牌之间的连接。
由于 BC 的随机条件,是由之前步骤生成的,因此定义为(0,1)开区间,值 0 和 1 不能被采样到。因此,作者依靠 Hard Concrete(HC)分布将采样从开区间拓展到闭区间。
最后,从 HC 分布中对于第 和第 个 token 采样一个分数 :
2.2.3 Speaker-Oriented Structures
2.2.3.1 Latent Structure
依据以上的步骤,在对话 中,论文采样每一对节点的门来构建图 ,对于目标关系,为每个 speaker 生成两个不同的图,直观的说,每个图将不依赖于话语边界强调每个说话者不同 token 之间的特定的潜在依赖关系。图 4 展示了对于两个说话者如何产生两个结构。
直接将两个图输入 GCNs 可能会为关系分类引入噪声,因为对话中的许多上下文可能与关系分类任务无关。
2.2.3.2 Controlled Sparsity
为了缓解这个问题,在两个图诱导过程中引入正则化损失 来突出关键线索,同时丢弃不相关的连接,从而最小化要选择的上下文标记的数量。 可以看错可控的稀疏机制以完全可微的方式使两个图中预测的非零数最小化。
2.2.4 SOLS Encoder
对于两个邻接矩阵 与,论文使用 GCN 作为图编码器来进行信息聚合,对于第 层,第 个节点的卷积操作,使用之前层的输出 作为卷积的输入并更新表示:
对两个说话者使用相同的 GCN,并获得更新的上下文化对话表示:
2.2.5 Classifier and Loss Function
作者使用 MLP 作为分类器来预测目标参数对 之间的关系:
整体的损失可以被计算为:
2.3 实验
2.3.1 Dataset
主要用了三个数据集:
1. dialogue - English version,为第一个来自美国著名喜剧《老友记》的人类注释对话级别 RE 数据集;
2. DialogRE Chinese version,翻译自 DialogRE-EN;
3. Medical Information Extractor(MIE),涉及从一个中国医疗咨询网站收集的医患对话。
论文将提出的 SOLS 方法与如下所述的各种基线进行比较,主要有以下四种方法:
Sequence-based Models
Rule-based Graph Models
Latent Graph Models
BERT-based Models