基于BERT和深度主动学习的农业新闻文本分类方法

文献类型: 中文期刊

第一作者: 石运来

作者: 石运来;崔运鹏;杜志钢

作者机构: 中国农业科学院农业信息研究所;淄博市数字农业农村发展中心

关键词: 深度学习;农业新闻;文本分类;BERT模型;主动学习

期刊名称: 农业图书情报学报

ISSN: 1002-1248

年卷期: 2022 年 008 期

页码: 19-29

摘要: [目的 /意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法 /过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果 /结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。

分类号: TP18%TP391.1%G210

  • 相关文献

[1]主动学习策略融合算法在高光谱图像分类中的应用. 崔颖,徐凯,陆忠军,刘述彬,王立国. 2018

[2]网络农业新闻信息的采集与发布方式初探. 雍春玲,杨晓容,文竹,龙海. 2014

[3]基于深度学习的细粒度命名实体识别研究-以番茄病虫害为例. 任妮,鲍彤,沈耕宇,郭婷. 2021

[4]我国农业新闻传媒的发展对策. 丁麟. 2009

[5]融合文本与知识图谱的蛋鸡疫病智能诊断模型. 王书君,童勤,刘羽,李奇峰,王朝元,高荣华,余礼根,李海燕. 2024

[6]基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取. 杜若鹏,鲜国建,寇远涛. 2019

[7]人工神经网络在渔业高价值专利筛选中的应用-以中国水产科学研究院为例. 金武,王书磊,刘晓萌,夏晔,刘建伟. 2021

[8]基于朴素贝叶斯算法的水产类专利文本分类. 范秀梅,张胜茂,岳冬冬. 2014

[9]地理标志农产品品牌管理政策注意力分析模型构建及应用. 霍梦佳,刘娟,黄杰. 2023

[10]深度学习方法在农业领域的研究及应用. 马聪,张建华,陈学东,朱丹. 2020

[11]基于深度卷积神经网络的红树林物种无人机监测研究. 黄亦其,刘琪,赵建晔,黄文善,孙中宇,乔曦. 2020

[12]基于卷积神经网络的农机图像自动识别研究. 雷雪梅,张光强,姚旗,刘伟渭,邱帅. 2022

[13]基于迁移学习和金字塔卷积网络的河蟹个体图像识别方法研究. 冯裕清,杨信廷,徐大明,罗娜,陈枫,孙传恒. 2022

[14]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019

[15]基于神经网络的文献主题国别标引方法研究. 王新. 2019

[16]基于无人机遥感的盛花期薇甘菊爆发点识别与监测. 孙中宇,荆文龙,乔曦,杨龙. 2019

[17]基于YOLOv3深度卷积神经网络的田间百香果定位. 林营志,卢依琳,刘现. 2019

[18]基于深度学习的无人机影像玉米倒伏区域提取. 郑二功,田迎芳,陈涛. 2018

[19]机器学习在植物病害识别研究中的应用. 王聃,柴秀娟. 2019

[20]蛋鸡设施养殖环境质量评价预测模型构建方法及性能测试. 李华龙,李淼,詹凯,刘先旺,杨选将,胡泽林,郭盼盼. 2020

作者其他论文 更多>>