文献类型: 中文期刊
作者: 余礼根 1 ; 郭晓利 2 ; 赵红涛 2 ; 杨淦 1 ; 张俊 1 ; 李奇峰 1 ;
作者机构: 1.北京市农林科学院信息技术研究中心
2.华北电力大学数理学院
关键词: 畜禽疫病;文本分词;预训练语言模型;双向长短时记忆网络;条件随机场
期刊名称: 农业机械学报
ISSN: 1000-1298
年卷期: 2024 年 002 期
页码: 287-294
收录情况: EI ; 北大核心 ; CSCD
摘要: 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。
- 相关文献
[1]基于连续提示注入与指针网络的农业病害命名实体识别. 王春山,张宸硕,吴华瑞,朱华吉,缪祎晟,张立杰. 2024
[2]畜禽疫病智能防控技术发展现状与展望. 蒋瑞祥,余礼根,丁露雨,高荣华,马为红,李奇峰,崔晓东. 2020
作者其他论文 更多>>
-
智慧果园关键应用场景研究进展
作者:吴建伟;张琳;郑文刚;秦向阳;吴忠高;方锡红;王永泉;芦天罡;王健;朴香淑;王芳;岳巧云;张海合;季婧;丛小蔓;李奇峰
关键词:智慧果园;大数据;模型;数智化
-
对农业科研院所专利管理工作的思考-以北京市农林科学院为例
作者:马明远;李奇峰;杨国航
关键词:农业科研院所;专利;管理;高质量发展
-
山羊数字化育种管理系统设计及应用效果分析
作者:王龙威;樊红灯;杨红远;梁家充;姚新荣;叶朗惠;刘廷丹;李贺;白俊艳;张俊
关键词:山羊;数字化育种;种质资源挖掘;可视化;示范应用
-
基于ROI融合特征的柑橘炭疽病诊断方法
作者:熊晓菲;王秀琴;庄翠珍;郭家贤;谢新锐;吴建伟;李奇峰
关键词:炭疽病;深度学习;目标检测;分类识别;病害诊断;SVM
-
农业科研院所大型科研仪器设备开放共享管理实践与探索-以北京市农林科学院为例
作者:马明远;李奇峰;杨国航
关键词:农业科研院所;大型仪器设备;开放共享;管理;北京市农林科学院
-
融合文本与知识图谱的蛋鸡疫病智能诊断模型
作者:王书君;童勤;刘羽;李奇峰;王朝元;高荣华;余礼根;李海燕
关键词:蛋鸡疫病;知识图谱;文本;BERT模型;智能诊断
-
融合注意力机制的开集猪脸识别方法
作者:王荣;高荣华;李奇峰;刘上豪;于沁杨;冯璐
关键词:猪脸识别;开集识别;注意力机制;模型轻量化