网络爬虫技术在农业生产数据获取中的研究和应用

文献类型: 中文期刊

第一作者: 王晓楠

作者: 王晓楠;李杨;张海峰;张宇;杨雪峰

作者机构:

关键词: 爬虫;分布式;Nutch框架;二级哈希

期刊名称: 农业工程技术

ISSN: 1673-5404

年卷期: 2021 年 41 卷 003 期

页码: 49-51

摘要: 该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等.为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算.实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高.

分类号:

  • 相关文献

[1]基于Nutch框架的农业信息垂直搜索引擎研究与设计. 高亮亮,阮怀军,陈英义. 2015

[2]基于REST架构和XML的农情数据共享研究. 戴建国,王克如,李少昆,赖军臣,肖春华,李栓明,王琼. 2012

[3]分布式多源农林物联网感知数据共享平台研发. 陈栋,吴保国,陈天恩,董静. 2017

[4]分布式种质资源管理系统的建立. 侯亮,李鑫玉,张文英,王变银,柳斌辉,蔡海燕. 2019

[5]江苏县域农村屋顶分布式光伏发电系统建设自然社会影响因素实证分析. 朱涛,常向阳,朱方林,邓艾东,朱林. 2023

[6]餐厨/厨余垃圾分布式昆虫转化就地处理设备的设计与应用. 徐猛,孟雪松,孔祥平,王聪,杜静. 2023

[7]基于Hadoop的气象大数据分析GIS平台设计与试验. 李涛,冯仲科,孙素芬,程文生. 2019

[8]分布式异构数据库备份恢复机制研究. 梁永利. 2011

[9]基于遗传算法的主题信息搜索系统研究. 罗长寿,康丽,刘国靖. 2009

[10]基于查准率的网页信息搜索技术研究分析. 罗长寿,孙素芬,张峻峰,于峰,刘月仙. 2007

[11]农业信息资源整合系统研究与应用. 孙素芬,罗长寿,张峻峰,于峰,张树亮. 2007

[12]基于概念空间的领域信息爬虫设计研究. 谢能付,王文生,段延娥. 2008

[13]基于Scrapy的农业网络数据爬取. 李乔宇,尚明华,王富军,刘淑云. 2018

作者其他论文 更多>>