文献类型: 中文期刊
作者: 余礼根 1 ; 郭晓利 2 ; 赵红涛 2 ; 杨淦 1 ; 张俊 1 ; 李奇峰 1 ;
作者机构: 1.北京市农林科学院信息技术研究中心
2.华北电力大学数理学院
关键词: 畜禽疫病;文本分词;预训练语言模型;双向长短时记忆网络;条件随机场
期刊名称: 农业机械学报
ISSN: 1000-1298
年卷期: 2024 年 002 期
页码: 287-294
收录情况: EI ; 北大核心 ; CSCD
摘要: 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。
- 相关文献
[1]基于连续提示注入与指针网络的农业病害命名实体识别. 王春山,张宸硕,吴华瑞,朱华吉,缪祎晟,张立杰. 2024
[2]畜禽疫病智能防控技术发展现状与展望. 蒋瑞祥,余礼根,丁露雨,高荣华,马为红,李奇峰,崔晓东. 2020
作者其他论文 更多>>
-
山羊数字化育种管理系统设计及应用效果分析
作者:王龙威;樊红灯;杨红远;梁家充;姚新荣;叶朗惠;刘廷丹;李贺;白俊艳;张俊
关键词:山羊;数字化育种;种质资源挖掘;可视化;示范应用
-
融合注意力机制的开集猪脸识别方法
作者:王荣;高荣华;李奇峰;刘上豪;于沁杨;冯璐
关键词:猪脸识别;开集识别;注意力机制;模型轻量化
-
基于改进FlowNet 2.0光流算法的奶牛反刍行为分析方法
作者:姬江涛;刘启航;高荣华;李奇峰;赵凯旋;白强
关键词:奶牛;FlowNet 2.0;光流;反刍行为;咀嚼频次
-
肉牛联合育种关键技术应用的研究进展
作者:马为红;李嘉位;王志全;丁露雨;秦瑞;李奇峰
关键词:性状评定标准;性状评定技术;育繁推模式;肉牛联合育种
-
农业反刍动物重要乳性状表型测定方法及研究进展
作者:王语浓;唐永杰;张雅丽;苏峰;张俊;张毅;王雅春;俞英
关键词:农业反刍动物;泌乳性状;乳成分;表型测定方法;高通量测定
-
畜禽种质资源大数据平台应用场景分析与架构研究-以反刍家畜为例
作者:张俊;李凯;邵庆勇;马兴跃;孙强;吴建伟;王丽丽;梁家充;李卫娟;欧阳依娜;辛岢锋;乔晓婷
关键词:种质资源;应用场景;维度模型;架构技术;大数据平台
-
山羊智慧养殖数据描述规范的研制与应用
作者:张俊;梁家充;王丽丽;洪琼花;邵庆勇;马兴跃;李凯;樊红灯;王龙威;吴建伟
关键词:产业链;智慧养殖;数据描述规范;山羊