基于词向量的检索扩展方法与农业领域实证

文献类型: 中文期刊

第一作者: 吴蕾

作者: 吴蕾;梁晓贺;乌吉斯古楞;王瑞

作者机构:

关键词: 大数据;检索扩展;词向量;随机森林;数据挖掘;自然语言处理;机器学习;深度学习

期刊名称: 农业大数据学报

ISSN:

年卷期: 2019 年 1 卷 2 期

页码: 114-120

摘要: [目的]目前,科技文献大数据中存在着主题词不规范、 不统一的情况,因此在构建检索式时很难既满足查全要求,又满足查准要求.针对这一问题,本文提出了一种基于词向量的检索扩展方法,并在"基于多组学大数据的功能基因挖掘与辅助育种技术"领域进行了实验验证.[方法]首先清洗数据集,并将文本映射成词向量,一篇文章可以用其所有词向量的平均向量表示;然后用训练集中文章的平均词向量训练随机森林分类器;最后在测试集中对文本进行分类,从而得到正例数据即检索数据集.[结果]针对"基于多组学大数据的功能基因挖掘与辅助育种技术"领域构建检索式,通过对比检索式所提取的小数据集、 扩展检索式数据集和该方法提取的检索数据集的主题词云并对其进行主题共现聚类,结果发现相比小数据集和扩展检索式数据集,检索数据集能够表现另外两个数据集所体现的主题词和主题聚类,同时能够展现更多属于该主题领域的主题词和主题聚类.[结论]结果表明该方法具有较好的查全性和查准性,构建了满足分析的"基于多组学大数据的功能基因挖掘与辅助育种技术"领域数据集,同时在构建其他领域数据集时具有可扩展性,在未来研究中可以被应用到其他目标领域的数据集构建中.

分类号: G354.2

  • 相关文献

[1]基于深度学习的自然语言处理技术的发展及其在农业领域的应用. 崔运鹏,王健,刘娟. 2019

[2]农业文本语义理解技术综述. 吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳. 2022

[3]基于文献计量的植物表型组学研究进展分析. 李晓曼,张扬,徐倩,谢能付. 2019

[4]基于随机森林算法的草原地上生物量遥感估算方法研究. 邢晓语,杨秀春,徐斌,金云翔,郭剑,陈昂,杨东,王平,朱立博. 2021

[5]基于机器学习和大数据平台的陆地生态系统碳收支遥感监测. 高帅,侯学会,汪云,王倩,陈悦,邢瑞,王晶. 2022

[6]基于Hadoop的农业大数据挖掘系统构建. 侯亮,王新栋,高倩,刘素英. 2018

[7]渔业科学数据中心建设研究. 鲁峰,王立华,徐硕. 2019

[8]智慧农险——农业保险信息化发展的展望. 李舒,赵思健,张峭. 2016

[9]安徽省植保大数据平台建设与应用展望. 张萌,董伟,钱蓉,杨前进,张立平. 2020

[10]植物表型组学大数据及其研究进展. 赵春江. 2019

[11]中国饲料营养大数据分析平台研制. 熊本海,赵一广,罗清尧,郑姗姗,高华杰. 2022

[12]基于无人机遥感的盛花期薇甘菊爆发点识别与监测. 孙中宇,荆文龙,乔曦,杨龙. 2019

[13]机器学习在植物病害识别研究中的应用. 王聃,柴秀娟. 2019

[14]基于深度学习的作物基因组学和遗传改良. 辛志奇,赵航,汪海,路铁刚. 2021

[15]农业大模型:关键技术、应用分析与发展方向. 郭旺,杨雨森,吴华瑞,朱华吉,缪祎晟,顾静秋. 2024

[16]机器学习全基因组选择研究进展. 李竟,张元旭,王泽昭,陈燕,徐凌洋,张路培,高雪,高会江,李俊雅,朱波,郭鹏. 2024

[17]机器学习在动物基因组选择中的研究进展. 李棉燕,王立贤,赵福平. 2023

[18]栽培苜蓿草地智能感知系统关键生物物理指标实时监测及分析算法研究. 苗春丽,李仲贤,赵志成,伏帅,高金龙,刘洁,冯琦胜,梁天刚. 2023

[19]基于大数据的遥感参数人工智能反演范式理论形成与工程技术实现. 毛克彪,袁紫晋,施建成,武胜利,胡德勇,车进,董立新. 2023

[20]"数字蔗田"生产模式大数据标准体系框架. 王泽平,黄启厅,黄海荣,方辉,颜梅新,李修华,李翔. 2022

作者其他论文 更多>>