文献类型: 中文期刊
作者: 张辉 1 ; 串丽敏 1 ; 郑怀国 1 ; 赵静娟 1 ; 齐世杰 1 ;
作者机构: 1.北京市农林科学院数据科学与农业经济研究所
关键词: LDA模型;语步标注;主题短语;主题分析
期刊名称: 数据与计算发展前沿
ISSN: 2096-742X
年卷期: 2023 年 005 期
页码: 107-118
收录情况: CSCD
摘要: 【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。
- 相关文献
作者其他论文 更多>>
-
'紫叶'狼尾草高效繁育方法研究
作者:许悦;刘雪晴;岳跃森;张辉;范希峰;黄琳凯
关键词:‘紫叶’狼尾草;分株繁育;茎秆扦插;IBA浓度;增殖系数
-
农户节水灌溉技术采纳意愿与行为的悖离研究:基于京津冀地区的调查数据
作者:赵姜;孙玉竹;串丽敏
关键词:农户;农业节水;悖离;意愿与行为
-
基于CNN的作物分类识别图像获取平台研究进展
作者:张倩;王明;于峰;陶震宇;张辉;李刚
关键词:作物表型;机器学习;卷积神经网络;图像获取;作物分类识别
-
四倍体青绿苔草对低温的生理响应及耐寒性评价
作者:董双慧;贾明;张辉;滕珂;滕文军;温海峰;范希峰;岳跃森;武菊英;丁国昌
关键词:青绿苔草;四倍体;耐寒性;综合评价
-
基于CNKI的中国秸秆还田研究态势分析
作者:山楠;何艳洁;肖广敏;串丽敏;沈丽;冯占威;王一鸣
关键词:秸秆还田;可视化分析;CiteSpace;CNKI
-
支撑智库研究的信息资源保障体系建设
作者:邸小康;张辉;秦晓婧;程旭;王彩虹;唐朝
关键词:智库;信息资源保障;资源建设;工程化思维
-
北京市设施蔬菜产业现状、问题与对策
作者:王爱玲;李凌云;串丽敏;秦晓婧
关键词:设施蔬菜;发展现状;发展对策