基于词性标注规则的马铃薯文献信息抽取方法

文献类型: 中文期刊

第一作者: 王腾阳

作者: 王腾阳;赵小丹;胡林

作者机构:

关键词: 马铃薯;词性标注;信息抽取;自然语言处理

期刊名称: 科学技术与工程

ISSN: 1671-1815

年卷期: 2023 年 23 卷 027 期

页码: 11562-11569

收录情况: 北大核心

摘要: 马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,文献格式为PDF文档,人工整理文献内的种质资源数据费时费力.为了快速、准确地从育种文献中提取种质资源数据,使用基于词性标注规则和预设词的方法抽取文献数据.对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(optical character recognition,OCR)获取文本内容.采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用 自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据.对115篇文献的1 490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础.

分类号: S532%TP391.1

  • 相关文献

[1]地理标志农产品品牌管理政策注意力分析模型构建及应用. 霍梦佳,刘娟,黄杰. 2023

[2]基于深度学习的设施甜樱桃水肥一体化智能控制系统. 王冉冉,孔祥鲁,王栋,周菲,刘伟云,崔冬冬. 2024

[3]一种自适应的Web信息抽取规则自动生成方法. 黄锋,吴华瑞. 2010

[4]村镇产业信息自动获取与可视化展示方法. 彭程,吴华瑞,朱华吉. 2011

[5]文本挖掘技术在农业知识服务中的应用述评. 孙坦,丁培,黄永文,鲜国建. 2021

[6]农业中文期刊论文信息自动识别与抽取模型构建及实现. 薛欢欢,赵瑞雪,寇远涛,鲜国建. 2019

[7]基于Web的农业信息自动抽取方法研究. 王文生,谢能付. 2007

[8]水稻本体实例构建研究. 李嘉锐,崔运鹏,张学福,苏晓路,郝心宁,鄂志国. 2014

[9]基于Web的农业知识问答系统研究. 钟娟,谢能付. 2007

[10]基于多语义信息融合的事件检测模型. 魏建香,陆谦,韩普,黄卫东. 2023

[11]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019

[12]基于特征增强的多方位农业问句语义匹配. 王奥,吴华瑞,朱华吉. 2023

[13]基于Attention_DenseCNN的水稻问答系统问句分类. 王郝日钦,吴华瑞,冯帅,刘志超,许童羽. 2021

[14]基于卷积模型的农业问答语性特征抽取分析. 张明岳,吴华瑞,朱华吉. 2018

[15]基于BERT-Attention-DenseBiGRU的农业问答社区问句相似度匹配. 王郝日钦,王晓敏,缪祎晟,许童羽,刘志超,吴华瑞. 2022

[16]面向农业图书资源语义挖掘的主题模型应用设计研究. 龚浩,崔运鹏,钱平. 2018

[17]农业文本语义理解技术综述. 吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳. 2022

[18]基于深度学习的自然语言处理技术的发展及其在农业领域的应用. 崔运鹏,王健,刘娟. 2019

[19]种植密度及行距对马铃薯宣薯2号产量与效益的影响. 秦智慧,邓禄军,夏锦慧. 2012

[20]不同密度和施肥量对高海拔地区马铃薯会-2号产量的影响. 孙伟,李标,邓宽平,雷尊国. 2011

作者其他论文 更多>>