文献类型: 中文期刊
作者: 张辉 1 ; 串丽敏 1 ; 郑怀国 1 ; 赵静娟 1 ; 齐世杰 1 ;
作者机构: 1.北京市农林科学院数据科学与农业经济研究所
关键词: LDA模型;语步标注;主题短语;主题分析
期刊名称: 数据与计算发展前沿
ISSN: 2096-742X
年卷期: 2023 年 005 期
页码: 107-118
收录情况: CSCD
摘要: 【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。
- 相关文献
作者其他论文 更多>>
-
基于专利网络分析的作物生物育种核心技术研究
作者:贾倩;张辉;串丽敏;王爱玲;齐世杰;赵静娟
关键词:生物育种;核心专利;核心技术;核心特征测度模型;社会网络分析
-
美国NSF生物科学领域探索性项目研究布局及对我国科研资助的启示
作者:张辉;贾倩;赵静娟;秦晓婧;齐世杰;串丽敏
关键词:生物科学;探索性项目;项目资助
-
丹麦丹育发展经验对我国生猪种业企业的启示
作者:张晓静;赵静娟;串丽敏;颜志辉
关键词:丹麦;丹育;生猪;种业企业
-
基于核心专利识别视角的作物生物育种核心技术研究
作者:贾倩;叶飒;张辉;串丽敏;赵静娟
关键词:生物育种;核心专利;熵值法;核心特征测度指数;核心技术;文本挖掘
-
'紫叶'狼尾草高效繁育方法研究
作者:许悦;刘雪晴;岳跃森;张辉;范希峰;黄琳凯
关键词:‘紫叶’狼尾草;分株繁育;茎秆扦插;IBA浓度;增殖系数
-
农户节水灌溉技术采纳意愿与行为的悖离研究:基于京津冀地区的调查数据
作者:赵姜;孙玉竹;串丽敏
关键词:农户;农业节水;悖离;意愿与行为
-
基于CNN的作物分类识别图像获取平台研究进展
作者:张倩;王明;于峰;陶震宇;张辉;李刚
关键词:作物表型;机器学习;卷积神经网络;图像获取;作物分类识别