基于PDF版式特征的文献篇章结构细粒度抽取方法研究

文献类型: 中文期刊

第一作者: 赵婉婧

作者: 赵婉婧;刘敏娟;刘洪冰;王新;段飞虎

作者机构:

关键词: 版式特征;篇章结构;章节标题;细粒度抽取;机器学习

期刊名称: 农业图书情报学报

ISSN: 1002-1248

年卷期: 2021 年 009 期

页码: 93-103

摘要: [目的 /意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法。[方法 /过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取。根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组。[结果 /结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作。

分类号: TP391.1

  • 相关文献

[1]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019

[2]基于无人机遥感的盛花期薇甘菊爆发点识别与监测. 孙中宇,荆文龙,乔曦,杨龙. 2019

[3]机器学习在植物病害识别研究中的应用. 王聃,柴秀娟. 2019

[4]基于图像特征的水稻叶片全氮含量估测模型研究. 杨红云,罗建军,孙爱珍,万颖,易文龙. 2020

[5]基于机器学习的高分辨率遥感影像农业大棚提取. 马海荣,罗治情,陈聘婷,官波. 2020

[6]多源遥感数据特征优选的大兴安岭沿麓不同农作物提取. 于利峰,乌兰吐雅,李继辉,于伟卓,敦惠霞. 2020

[7]农业领域本体构建方法研究 -以番茄病虫害为例. 任妮,孙艺伟,鲍彤,郭婷. 2021

[8]基于支持向量机技术预测丙戊酸钠血药浓度. 马攀,贾运涛,刘芳,程林,王红迁,严波,陈勇川. 2021

[9]基于长短时记忆模型的包虫病爆发风险预测混合模型的建立. 陈春蓉,赵瑾,贺兆源,李家宝,陈海兰,贾耿介. 2024

[10]稀疏分层概率自组织图实例迁移学习方法. 吴蕾,田儒雅,张学福. 2016

[11]机器学习在智慧农业中的应用. 杨嘉鹏,董荣. 2024

[12]基于深度学习的作物基因组学和遗传改良. 辛志奇,赵航,汪海,路铁刚. 2021

[13]食品中甜味分子发掘模型构建. 任海斌,冯宝龙,范蓓,贺斌彬,李知陆,王清华,高飞,王玉堂. 2021

[14]高分遥感驱动的精准土地利用与土地覆盖变化信息智能计算模型与方法研究. 骆剑承,胡晓东,吴田军,刘巍,夏列钢,杨海平,孙营伟,徐楠,张新,沈占锋,周楠. 2021

[15]融合多环境参数的鸡粪氨气排放预测模型研究. 丁露雨,吕阳,李奇峰,王朝元,余礼根,宗伟勋. 2022

[16]基于改进的WOA-LSSVM樱桃番茄内部品质检测方法研究. 康明月,王成,孙鸿雁,李作麟,罗斌. 2023

[17]基于机器视觉技术的动物行为自动识别和分类. 钱蓉,詹凯,王重龙. 2016

[18]知识图谱驱动的科研档案大数据管理系统构建研究. 雷洁,赵瑞雪,李思经,鲜国建,寇远涛. 2020

[19]基于黄河鲤体质量性状的全基因组选择模型评估. 方家璐,海佳薇,周林燕,徐庆磊,冯莉,许建. 2024

[20]线性模型与机器学习模型对牦牛体重预测的比较. 巴桑旺堆,平措占堆,朱彦宾,达娃央拉,俄广鑫,周东珂,杨柏高,彭阳洋,郭怡. 2019

作者其他论文 更多>>