面向领域实体关系联合抽取的标注方法

文献类型: 中文期刊

第一作者: 吴赛赛

作者: 吴赛赛;梁晓贺;谢能付;周爱莲;郝心宁

作者机构:

关键词: 垂直领域;实体关系联合抽取;序列标注;端到端模型

期刊名称: 计算机应用

ISSN: 2694-6114

年卷期: 2021 年 41 卷 010 期

页码: 2858-2863

收录情况: 北大核心 ; CSCD

摘要: 针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在"一实体(主实体)同时与多个实体之间存在重叠关系"的特点,提出一种面向领域实体关系联合抽取的新标注方法.首先,将主实体标注为一个固定标签,将文本中与主实体存在关系的其他每个实体标注为对应实体对间的关系类型,这种对实体和关系进行同步标注的方式节省了至少一半的标注成本;然后,直接对三元组进行建模,而不是分别对实体和关系进行建模,通过标签匹配和映射即可获取三元组数据,从而缓解重叠关系抽取、实体冗余以及错误传播等问题;最后,以作物病虫害领域为例进行实验,测试了来自转换器的双向编码器表征量(BERT)-双向长短期记忆网络(BiLSTM)+条件随机场(CRF)端到端模型在1619条作物病虫害文档的数据集上的性能.实验结果表明该模型的F1值比基于传统标注方式+BERT模型的流水线方法提高了47.83个百分点;与基于新标注方式+BiLSTM+CRF模型、卷积神经网络(CNN)+BiLSTM+CRF等经典模型的联合学习方法相比,该模型的F1值分别提高了9.55个百分点和10.22个百分点,验证了所提标注方法和模型的有效性.

分类号: TP391.1

  • 相关文献
作者其他论文 更多>>