您好,欢迎访问北京市农林科学院 机构知识库!

基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究

文献类型: 中文期刊

作者: 余礼根 1 ; 郭晓利 2 ; 赵红涛 2 ; 杨淦 1 ; 张俊 1 ; 李奇峰 1 ;

作者机构: 1.北京市农林科学院信息技术研究中心

2.华北电力大学数理学院

关键词: 畜禽疫病;文本分词;预训练语言模型;双向长短时记忆网络;条件随机场

期刊名称: 农业机械学报

ISSN: 1000-1298

年卷期: 2024 年 002 期

页码: 287-294

收录情况: EI ; 北大核心 ; CSCD

摘要: 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。

  • 相关文献

[1]基于连续提示注入与指针网络的农业病害命名实体识别. 王春山,张宸硕,吴华瑞,朱华吉,缪祎晟,张立杰. 2024

[2]畜禽疫病智能防控技术发展现状与展望. 蒋瑞祥,余礼根,丁露雨,高荣华,马为红,李奇峰,崔晓东. 2020

作者其他论文 更多>>