数据匹配算法应用对比研究——以期刊数据融合中作者和机构匹配为例
文献类型: 中文期刊
第一作者: 盛怡瑾
作者: 盛怡瑾;张学福;孙巍;郝心宁
作者机构:
关键词: 数据清洗;数据匹配;期刊;作者;机构
期刊名称: 数字图书馆论坛
ISSN: 1673-2286
年卷期: 2015 年 10 期
页码: 14-20
收录情况: CSSCI
摘要: 为了评价数据匹配算法中常用的四种字段匹配算法——Smith-Waterman算法、编辑距离(Edit Distance)、Q-gram算法和Jaro-Winkler算法的效果和表现,本文选取由水稻领域18个重点期刊集成得到的作者和机构数据设计实验,使用Febrl清洗工具包对相似重复记录进行匹配。结果表明,四种算法适用条件不同,Smith-Waterman算法运行时间特别长,但综合表现以及精度和召回率都不错;编辑距离(Edit Distance)性价比比较高;Q-gram算法运算快但召回率低;Jaro-Winkler算法在此例中表现比较差。
分类号: TP202`TP391.1
- 相关文献
[1]基于菊花为研究对象的近30年学术论文统计分析. 卢珍红,郑进烜,桂敏,莫锡君,周旭红,余蓉培,田敏. 2015
[2]文献计量数据准备之数据采集与清洗——以中国水产科学研究院中文期刊论文分析为例. 闫雪,欧阳海鹰,曾首英,葛长水,唐琳,邵萍,陈柏松. 2014
[3]基于工作流的统计年鉴数据清洗模型构建. 张辉,魏东,乔璐,李丹丹,张玉尧,郑国清,冯晓. 2021
[4]面向领域分析的文献数据清洗策略研究. 盛怡瑾,黄政,张学福. 2015
[5]对虾剥壳设备的设计与研究. 金金,徐鹏云,袁兴茂,王泽河. 2014
[6]开拓创新 锐意进取 不断提高农业科技情报研发服务能力. 洪建军,郑业鲁,杨小平,侯建国. 2007
[7]基于文献计量学的中国机构作物学科竞争力分析. 刘敏娟,王婷,袁雪,颜蕴,续玉红,陈露. 2015
[8]2015-2020年《河南农业科学》载文的研究生作者群分析. 冯丽丽,段俊枝,燕照玲. 2022
[9]链条输送式施肥系统装置及试验. 许斌星,马标,朱德文,吴爱兵,陈永生,韩柏和,王振伟,王长波,曹杰,陈明江,谢虎. 2018
[10]单人电动茶叶采摘机主要机构设计. 刘彪,肖宏儒. 2018
[11]四川省农业科技发展咨询中心的建设与经营模式——兼论我国农业信息咨询服务业的发展策略. . 2000
[12]近10《作物学报》论文及作者统计分析. 康世云,尹顺芬. 2000
[13]2012—2013年《农技服务》载文分析. 姜萍,冯卫,陈静. 2014
[14]《农技服务》2010年载文与作者情况分析. 冯卫,姜萍,杨林,杨晓容,聂克艳,陈静. 2011
[15]从问卷调查看《贵州农业科学》办刊水平. 杨林,聂克艳,杨晓容,高红卫. 2008
[16]2006~2010年《玉米科学》期刊文献计量学分析. 张立娜,李万良,杨波,杨信东,张英. 2011
[17]科技论文变更作者署名情况剖析. 潘淑君,李无双,李丹. 2014
[18]学术期刊编辑与作者有效沟通的优化策略. 贾淑萍. 2017
[19]提高学术期刊编辑服务质量和效率的探讨. 朱丽娜,马丹丹. 2018
[20]浅谈科技期刊编辑对作者的培养作用. 杨春英,达龙珠,刘毓侠,陈海燕,李清州. 2010
作者其他论文 更多>>
-
科技循证政策制定实践路径探索
作者:何莹;孙巍;马晓敏
关键词:循证政策;科技政策;政策制定;实践路径
-
2024全球农业研究热点前沿分析解读
作者:孙巍;李周晶;吴蕾;张学福
关键词:全球农业研究热点前沿;遴选;作物园艺;农业资源与环境;农业信息与农业工程学;植物保护;农产品质量与加工;水产渔业;畜牧兽医;林业;农业经济与政策
-
融合多维特征测度与神经网络的技术前沿识别方法
作者:廖姗姗;姜楠;康娅;孙巍;吴蕾;李周晶
关键词:技术前沿;技术识别;主题识别;机器学习;神经网络;多维特征;作物育种
-
数智驱动的科研领域创新路径识别方法
作者:林巧;胡智杰;吴俣;鲜国建;孙坦;张学福
关键词:创新路径识别;知识抽取;关联网络;数智化;技术预见
-
美国国家科学基金会(NSF)跨学科项目分布及对中国的启示
作者:姚茹;串丽敏;齐世杰;张学福;张辉
关键词:美国国家科学基金会;跨学科项目;资助时长;资助金额
-
2023中国农业科技论文与专利全球竞争力分析
作者:中国农业科学院农业信息研究所;中国农业科学院战略研究中心;农业农村部农业大数据重点实验室;田儒雅;王红彦;孙巍;张学福
关键词:
-
面向技术创新过程表征和描述的技术要素关联概念模型
作者:邬金鸣;胡智杰;姚茹;林巧;张学福
关键词:技术创新;创新要素;创新要素关联;技术创新机理;融合创新
