数据匹配算法应用对比研究——以期刊数据融合中作者和机构匹配为例

文献类型: 中文期刊

第一作者: 盛怡瑾

作者: 盛怡瑾;张学福;孙巍;郝心宁

作者机构:

关键词: 数据清洗;数据匹配;期刊;作者;机构

期刊名称: 数字图书馆论坛

ISSN: 1673-2286

年卷期: 2015 年 10 期

页码: 14-20

收录情况: CSSCI

摘要: 为了评价数据匹配算法中常用的四种字段匹配算法——Smith-Waterman算法、编辑距离(Edit Distance)、Q-gram算法和Jaro-Winkler算法的效果和表现,本文选取由水稻领域18个重点期刊集成得到的作者和机构数据设计实验,使用Febrl清洗工具包对相似重复记录进行匹配。结果表明,四种算法适用条件不同,Smith-Waterman算法运行时间特别长,但综合表现以及精度和召回率都不错;编辑距离(Edit Distance)性价比比较高;Q-gram算法运算快但召回率低;Jaro-Winkler算法在此例中表现比较差。

分类号: TP202`TP391.1

  • 相关文献

[1]基于菊花为研究对象的近30年学术论文统计分析. 卢珍红,郑进烜,桂敏,莫锡君,周旭红,余蓉培,田敏. 2015

[2]文献计量数据准备之数据采集与清洗——以中国水产科学研究院中文期刊论文分析为例. 闫雪,欧阳海鹰,曾首英,葛长水,唐琳,邵萍,陈柏松. 2014

[3]基于工作流的统计年鉴数据清洗模型构建. 张辉,魏东,乔璐,李丹丹,张玉尧,郑国清,冯晓. 2021

[4]面向领域分析的文献数据清洗策略研究. 盛怡瑾,黄政,张学福. 2015

[5]对虾剥壳设备的设计与研究. 金金,徐鹏云,袁兴茂,王泽河. 2014

[6]开拓创新 锐意进取 不断提高农业科技情报研发服务能力. 洪建军,郑业鲁,杨小平,侯建国. 2007

[7]基于文献计量学的中国机构作物学科竞争力分析. 刘敏娟,王婷,袁雪,颜蕴,续玉红,陈露. 2015

[8]2015-2020年《河南农业科学》载文的研究生作者群分析. 冯丽丽,段俊枝,燕照玲. 2022

[9]链条输送式施肥系统装置及试验. 许斌星,马标,朱德文,吴爱兵,陈永生,韩柏和,王振伟,王长波,曹杰,陈明江,谢虎. 2018

[10]单人电动茶叶采摘机主要机构设计. 刘彪,肖宏儒. 2018

[11]四川省农业科技发展咨询中心的建设与经营模式——兼论我国农业信息咨询服务业的发展策略. . 2000

[12]近10《作物学报》论文及作者统计分析. 康世云,尹顺芬. 2000

[13]2012—2013年《农技服务》载文分析. 姜萍,冯卫,陈静. 2014

[14]《农技服务》2010年载文与作者情况分析. 冯卫,姜萍,杨林,杨晓容,聂克艳,陈静. 2011

[15]从问卷调查看《贵州农业科学》办刊水平. 杨林,聂克艳,杨晓容,高红卫. 2008

[16]2006~2010年《玉米科学》期刊文献计量学分析. 张立娜,李万良,杨波,杨信东,张英. 2011

[17]科技论文变更作者署名情况剖析. 潘淑君,李无双,李丹. 2014

[18]学术期刊编辑与作者有效沟通的优化策略. 贾淑萍. 2017

[19]提高学术期刊编辑服务质量和效率的探讨. 朱丽娜,马丹丹. 2018

[20]浅谈科技期刊编辑对作者的培养作用. 杨春英,达龙珠,刘毓侠,陈海燕,李清州. 2010

作者其他论文 更多>>