您好,欢迎访问河南省农业科学院 机构知识库!

基于工作流的统计年鉴数据清洗模型构建

文献类型: 中文期刊

作者: 张辉 1 ; 魏东 1 ; 乔璐 1 ; 李丹丹 1 ; 张玉尧 1 ; 郑国清 1 ; 冯晓 1 ;

作者机构: 1.河南省农业科学院农业经济与信息研究所

关键词: 工作流;统计年鉴;数据清洗;Alteryx;质量控制

期刊名称: 河南农业科学

ISSN: 1004-3268

年卷期: 2021 年 010 期

页码: 172-180

收录情况: 北大核心 ; CSCD

摘要: 为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。

  • 相关文献

[1]牛胚胎生产的全程质量控制. 徐照学,魏成斌,辛晓玲,贺文杰. 2004

[2]动物源性饲料的质量控制及安全性指标. 欧阳雅连,李明凤,侯自花. 2007

[3]DDGS在猪鸡日粮中的应用及其质量控制研究进展. 马慧慧,魏凤仙,徐彬,李绍钰. 2017

[4]蛋品色变的影响因素、形成机制及控制方法. YANG Jin-chu,杨金初,CHEN Li-juan,陈丽娟,LI Bin,李斌. 2013

作者其他论文 更多>>