首页>>科技 >>内容

excel如何在文本后统一添加内容,统一的文本到结构生成框架——UIE

发布时间:2023-10-03 19:24:28编辑:温柔的背包来源:

很多朋友对excel如何在文本后统一添加内容,统一的文本到结构生成框架——UIE不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

excel如何在文本后统一添加内容,统一的文本到结构生成框架——UIE

简介:信息提取终于到了这一步:进入大一统时代!今天要介绍的是好朋友陆博士写的一篇ACL22论文《Unified Structure Generation for Universal Information Extraction》,也是中科院和百度联合发表的信息抽取统一建模作品一篇。UIE官方链接:https://universal-ie.github.io本文的组织架构如下:1 .统一建模是工业工程发展的必然趋势。

众所周知,信息抽取是一个从文本到结构的转换过程。常见的实体、关系和事件分别采取跨度、三联体和记录的形式。曾几何时,当我们面对各种复杂多样的IE任务时,我们总是会构建各种各样的IE模型的轮子,以满足不同复杂任务的变化需求。

如上图所示,由于抽取目标多样、结构复杂程度不同、领域需求多变,信息抽取模型的统一建模一直难以实现,极大地限制了IE系统的高效架构开发、有效知识共享和快速跨领域适配。比如,一个真实的情况是,对于不同的任务设置,需要建模一个特定的领域模式,不同的IE模型单独训练,不共享。一个公司可能需要管理许多IE模型。

我们每次造不同的IE轮子,都要喝不同的肥宅开心水来解忧(这不是开玩笑)。但是,在今天的各种NLP任务的生成式统一建模中,也可以提取信息进行统一建模。不久前,JayJay在文章《信息抽取的"第二范式"》中指出:生成式统一建模可能是信息抽取领域正在发生的一场“深刻变革”。

因此,开发一个通用的IE结构是非常有益的,它可以以统一的方式对不同的IE任务进行建模,并从各种资源中自适应地预测异构结构。总之:童一、通用IE势不可挡!在这篇ACL2022论文中,@ Lu博士提出了面向信息抽取的统一文本到结构生成框架,可以:统一建模不同的IE任务;适应性地生成目标结构;从不同的知识来源中学习通用的信息提取能力。具体来说,UIE:

通过结构化抽取语言统一编码不同的信息抽取目标结构;通过结构化模式提示器自适应地生成目标结构;通过大规模结构化/非结构化数据进行模型预训练,捕捉常见的IE能力;实验结果表明,本文提出的统一生成框架已经在基于T5模型的IE中进行了预训练,在实体、关系、事件和情感等四个信息抽取任务上取得了SOTA性能,13个数据集的全监督,低资源和少样本设置。

接下来,我们将具体介绍UIE是如何统一建模以及如何进行预训练的。2.UIE统一建模方法:从文本到结构提取信息的任务可以表述为一个“文本到结构”的问题,不同的IE任务对应不同的结构。UIE旨在通过单一框架对不同IE任务的文本到结构转换进行建模,即不同的结构转换在模型中共享相同的底层操作和不同的转换能力。这里有两个主要挑战:

IE任务的多样性需要提取许多不同的目标结构,如实体、关系、事件等。IE任务是通常由不同模式定义的特定需求(不同模式),需要自适应地控制抽取过程。因此,鉴于上述挑战,有必要设计一种结构化抽取语言(SEL)对异构抽取结构进行统一编码,即编码实体、关系和事件的统一表示。

结构化模式指导器(SSI)是一种基于模式的提示机制,用于控制不同的生成需求。上图显示了UIE的整体框架。总体框架是:SSI Text-SEL。总之,SSI是输入具体抽取任务的图式,SEL是用一种语言表达不同任务的抽取结果。1)SEL:结构化抽取语言不同的IE任务可以分解成两个原子操作:

定位:找出与定位名称相对应的信息跨度,如实体或触发词;关联:找出Asso Name对应的Info Span,链接Info Span片段之间的关系,比如两个实体之间的关系,论元和触发词之间的关系;如上图(a)所示,SEL语言可以统一表示为(spot name:Info Span(assoname:Info Span)的形式.),具体来说就是Spot Name:Spotting操作的infospan的类别信息,比如实体类型;

Assoname:关联操作信息范围的类别信息,如关系类型、关系类型;InfoSpan:文本span相关信息Span:定位或关联操作;如上图(b)所示,蓝色部分代表关系任务:person是实体类型Spot Name,work for是关系类型assoname红色部分代表事件任务:start-position是事件类型Spot Name,employee是参数类型assoname黑色部分代表实体任务:组织和时间是实体类型spotname

上图给出了一个中文案例:被调查事件为事件类型Spot Name,主角/时间/地点为论元类型Asso Name。2)SSI:结构化模式提示SSI的本质是一种基于模式的提示机制,用于控制不同的生成需求:在文本之前拼接相应的模式提示,输出相应的SEL结构化语言。不同任务的形式有:实体提取:[spot]实体类别[text]关系提取:[spot]实体类别[asso]关系类别[text]

事件提取:[spot]事件类别[asso]论据类别[text]意见提取:[spot]评价维度[asso]意见类别[text]下图为不同任务数据集的SSI形式:3 .UIE的预训和微调方法。在本节中,我们将介绍:1)预训练:如何1)预训练大规模UIE模型以捕捉不同的。2)Finetune:如何通过快速Finetune让UIE适应不同设置下的不同IE任务。1)预培训:大规模异构监管预培训。

UIE预训练语料主要来源于维基百科、维基数据和ConceptNet,构建了三种预训练数据:D _对:通过维基百科对齐维基数据,构建text-to-struct的并行语料库:(SSI,Text,SEL)D_record:构建仅包含SEL语法的结构化记录数据:(None,None,SEL)D_Text:构建非结构化的原始文本数据:(None,Text 'Text ' ')根据上述数据分别构建三个预训练任务,整合大规模异构数据进行预训练:

文本到结构的预训练:为了建立从文本到结构的基本映射能力,训练平行语料库D_pair,构造负样本作为噪声训练(引入负图式)。结构生成预训练:为了具备SEL语言的结构能力,对于D_pair数据只训练UIE的解码器部分。改装语义重表示:为了具备基本的语义编码能力,对D_text数据进行span corruption训练。最终的职前培养目标包括以上三个部分;

2)Finetune:拒绝噪声注入的模型微调机制为了解决自回归教师强迫的暴露偏差,构造了一个拒绝噪声注入的模型微调机制:随机采样SEL中不存在的SpotName和ASSONAME的类别,即,(SPOTNAME,[NULL])和(AssoName,[NULL]),学习拒绝生成错误结果的能力,如下图所示:4 .UIE的主要实验结论1)全监督实验如上图所示,SEL代表未训练的UIE模型。可以看出:

1、 UIE在4类信息抽取任务、13个数据集和7个IE任务上取得SOTA性能;2、 SEL与UIE结果比较:异质监督预训练显著提高了UIE的一般信息提取能力,具有更好的跨任务迁移能力;2)小样本实验小样本实验可以发现1、大规模异构监督预训练可以学习一般信息提取能力,使得模型具有更好的小样本学习能力。

2、移除SSI结构化模式提示时,发现索引下降,因此结构化fetch指令具有更好的定向迁移能力。3)烧蚀实验上述烧蚀实验表明,基于拒绝噪声注入的模型微调机制可以有效缓解自回归生成过程中的暴露偏差问题。总结与展望

本文介绍了一个统一的文本到结构生成框架——UIE,它可以通用地对不同的IE任务进行建模,自适应地生成目标结构,并从不同的知识源中学习通用的信息抽取能力。实验结果表明,UIE在监督和低资源条件下实现了SOTA性能,验证了其普适性、有效性和可移植性。审核编辑:李倩

以上知识分享希望能够帮助到大家!