基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究

文献类型: 中文期刊

第一作者: 余礼根

作者: 余礼根;郭晓利;赵红涛;杨淦;张俊;李奇峰

作者机构:

关键词: 畜禽疫病;文本分词;预训练语言模型;双向长短时记忆网络;条件随机场

期刊名称: 农业机械学报

ISSN: 1000-1298

年卷期: 2024 年 002 期

页码: 287-294

收录情况: EI ; 北大核心 ; CSCD

摘要: 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。

分类号: TP391.1%S818.9

  • 相关文献

[1]基于词向量+BiLSTM+CRF的农业技术需求文本实体提取. 宋林鹏,刘世洪,王翠. 2021

[2]基于连续提示注入与指针网络的农业病害命名实体识别. 王春山,张宸硕,吴华瑞,朱华吉,缪祎晟,张立杰. 2024

[3]基于Self-Attention-BiLSTM网络的西瓜种苗叶片氮磷钾含量高光谱检测方法. 徐胜勇,刘政义,黄远,曾雨,别之龙,董万静. 2024

[4]面向数字人文的馆藏方志古籍地名自动识别模型构建. 李娜,包平. 2018

[5]基于条件随机场的高光谱遥感影像农作物精细分类. 余铭,魏立飞,尹峰,李丹丹,黄庆彬. 2018

[6]农业中文期刊论文信息自动识别与抽取模型构建及实现. 薛欢欢,赵瑞雪,寇远涛,鲜国建. 2019

[7]基于图像处理的温室黄瓜霜霉病诊断系统. 马浚诚,温皓杰,李鑫星,傅泽田,吕雄杰,张领先. 2017

[8]融合BERT-WWM和注意力机制的茶叶知识图谱构建. 刘永波,黄强,高文波,何鹏,许钰莎. 2022

[9]畜禽疫病智能防控技术发展现状与展望. 蒋瑞祥,余礼根,丁露雨,高荣华,马为红,李奇峰,崔晓东. 2020

[10]胶体金免疫层析技术及其在畜禽疫病诊断中的应用. 荣光,徐向东,彭维祺,孙卫平,夏万良,张润峰. 2022

[11]中国畜禽重大疫病防治的数字化监控体系. 陆昌华,王长江,胡肄农,侯继波,吴孜忞,陈昕. 2005

[12]重大畜禽疫病病原大分子结构与功能研究进展. 谢庆阁. 2003

[13]万头猪场的建设设计. 焦福林. 2009

[14]影响畜产品质量安全的主要问题与控制对策. 薛艳蓉,梁茂文,王呈,赵瑞生,田歌. 2013

[15]“绿色动物”——新世纪;预防兽医学新使命. 白侠. 1999

[16]面向主战场科研结硕果. 曲连东. 1997

[17]依靠技术服务;促进新型疫苗和诊断技术的开发与应用. 周琦,张萍,魏凤祥,叶喜永,刘明团. 2001

[18]全球气温变暖现状及其对西藏畜禽疫病的影响. 鲁志平,色珠,姚海潮,董禄德,拉巴次旦,吴金措姆,四郎玉珍,刘建枝,曾江勇,次仁多吉,夏晨阳,杨德全,巴桑次仁. 2011

[19]充分利用预防兽医学资源;有效服务于畜禽疫病防制. 付朝阳,高友兰,张洪英. 2003

[20]畜禽疫病风险防控模型研究进展及展望. 于超,胡向东. 2024

作者其他论文 更多>>