基于节点类型标注的网页主题信息抽取方法

文献类型: 中文期刊

第一作者: 谢方立

作者: 谢方立;周国民;王健

作者机构:

关键词: DOM;节点类型标注;主题信息抽取

期刊名称: 计算机科学

ISSN: 1002-137X

年卷期: 2016 年 43 卷 S2 期

页码: 31-34+49

收录情况: 北大核心 ; CSCD

摘要: 提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。

分类号: TP391.1`TP393.092

  • 相关文献

[1]活性有机质有关指标及其与土壤养分关系研究进展. 王永生,杨世琦. 2010

[2]Fe2O3-TiO2/UV/O3+PSAF协同处理猪场废水效果及其除碳脱氮机制. 肖艳春,陈彪,黄婧,刘瑞来. 2021

[3]不同水分条件下活性污泥对土壤中DOM产生及DDT降解的影响. 邓晓,武春媛,李怡,刘景坤,李勤奋. 2017

[4]基于像素工厂的DOM快速制作方法探讨. 吴辉,严志雁. 2016

作者其他论文 更多>>