文献类型: 中文期刊
第一作者: 谢方立
作者: 谢方立;周国民;王健
作者机构:
关键词: DOM;节点类型标注;主题信息抽取
期刊名称: 计算机科学
ISSN: 1002-137X
年卷期: 2016 年 43 卷 S2 期
页码: 31-34+49
收录情况: 北大核心 ; CSCD
摘要: 提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。
分类号: TP391.1`TP393.092
- 相关文献
[1]活性有机质有关指标及其与土壤养分关系研究进展. 王永生,杨世琦. 2010
[2]Fe2O3-TiO2/UV/O3+PSAF协同处理猪场废水效果及其除碳脱氮机制. 肖艳春,陈彪,黄婧,刘瑞来. 2021
[3]不同水分条件下活性污泥对土壤中DOM产生及DDT降解的影响. 邓晓,武春媛,李怡,刘景坤,李勤奋. 2017
[4]基于像素工厂的DOM快速制作方法探讨. 吴辉,严志雁. 2016
作者其他论文 更多>>
-
智慧果园关键应用场景研究进展
作者:吴建伟;张琳;郑文刚;秦向阳;吴忠高;方锡红;王永泉;芦天罡;王健;朴香淑;王芳;岳巧云;张海合;季婧;丛小蔓;李奇峰
关键词:智慧果园;大数据;模型;数智化
-
基于大语言模型的智能问答系统研究综述
作者:任海玉;刘建平;王健;顾勋勋;陈曦;张越;赵昌顼
关键词:大语言模型;智能问答;自然语言处理;检索增强生成;提示学习;知识图谱
-
水稻DMP1、DMP2、DMP3基因突变体的创制及其单倍体诱导能力鉴定
作者:胡风越;王健;王春;王克剑;刘朝雷
关键词:水稻;单倍体诱导;DMP;Os MTL
-
饲料鳜"陆基圆池+池塘"循环水养殖模式研究
作者:吴明林;蒋阳阳;周蓓蓓;孙永旭;王健
关键词:饲料鳜;陆基圆池;池塘;循环水养殖;经济效益
-
芒果花粉培养基的优化及33份种质资源萌发特性的观测
作者:庞雅丽;赵志常;黄璐瑶;王健;罗睿雄;高爱平
关键词:芒果;花粉萌发;培养基优化
-
黄皮叶绿素酶(CLH)家族基因克隆与表达分析
作者:庞雅丽;黄璐瑶;王健;高爱平;罗睿雄;赵志常
关键词:黄皮;CLH家族基因;表达分析
-
基于人工智能的蛋白质挖掘与设计研究进展
作者:何远;牟强;和玉兵;赵晓燕;王健;周国民;张建华
关键词:人工智能;蛋白质设计;语言模型;蛋白质挖掘
