基于LDA和语步标注的主题识别与分析方法研究
文献类型: 中文期刊
第一作者: 张辉
作者: 张辉;串丽敏;郑怀国;赵静娟;齐世杰
作者机构:
关键词: LDA模型;语步标注;主题短语;主题分析
期刊名称: 数据与计算发展前沿
ISSN: 2096-742X
年卷期: 2023 年 005 期
页码: 107-118
收录情况: CSCD
摘要: 【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。
分类号: TP391.1
- 相关文献
[1]全球植物科学领域发展态势分析. 李楠,李晓曼,张学福. 2020
[2]作物科学重点领域研究主题识别方法研究——以中美法国家级农业研究机构为例. 陈露,颜蕴,王婷. 2016
[3]基于LDA模型的欧盟框架计划近10年农业科研项目研究主题发现. 王德川,赵瑞雪,寇远涛,鲜国建. 2017
[4]基于专利与论文关联的潜在科学前沿识别-以生物农药领域为例. 曾海娇,孙巍. 2020
作者其他论文 更多>>
-
土壤含盐量对滨海盐渍农田土壤氮素转化和淋失特征的影响
作者:董岳;胡奕婷;张辉;徐聪;聂亚锋;马艳;汪吉东
关键词:滨海盐渍土;土壤盐分;硝化作用;硝态氮淋失;氮素迁移转化
-
甜菜单胚种种子发育过程生理特性动态变化
作者:张必周;孙梦媛;付增娟;赵尚敏;鄂圆圆;张辉;张自强;王良;张惠忠;李晓东;韩平安;郑文哲
关键词:甜菜;单胚种;种子发育;动态变化;生理特性
-
基于专利网络分析的作物生物育种核心技术研究
作者:贾倩;张辉;串丽敏;王爱玲;齐世杰;赵静娟
关键词:生物育种;核心专利;核心技术;核心特征测度模型;社会网络分析
-
致奶牛乳房炎大肠埃希菌的分离鉴定及耐药分析
作者:丁颖;张伟;魏铭清;刘非凡;张倩;周霞;王震;张辉
关键词:大肠埃希菌;分离鉴定;药敏试验;致病性试验
-
不同整形修剪对新疆早实核桃微环境的影响
作者:张辉;韩立群;马凯;赵钰;刘立强
关键词:核桃;整形修剪;光合能力;光照强度
-
噬菌体与细菌生物膜相互作用的研究进展
作者:万启旸;包红朵;张辉;朱树娇;王冉;周艳
关键词:噬菌体;细菌生物膜;抗菌;噬菌体应用
-
美国NSF生物科学领域探索性项目研究布局及对我国科研资助的启示
作者:张辉;贾倩;赵静娟;秦晓婧;齐世杰;串丽敏
关键词:生物科学;探索性项目;项目资助