基于农业垂直搜索引擎中文分词词典的构建研究

文献类型: 中文期刊

第一作者: 张启宇

作者: 张启宇;于辉辉;陈英义;王磊

作者机构:

关键词: 中文分词;农业词典;My SQL;词性编码

期刊名称: 广东农业科学

ISSN: 1004-874X

年卷期: 2015 年 42 卷 03 期

页码: 165-169

收录情况: 北大核心 ; CSCD

摘要: 在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。

分类号: S126`TP391.3

  • 相关文献

[1]基于Nutch农业搜索引擎的研究与设计. 周鹏,吴华瑞,赵春江,杨宝祝,朱华吉. 2009

[2]基于Nutch框架的农业信息垂直搜索引擎研究与设计. 高亮亮,阮怀军,陈英义. 2015

[3]基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计. 郭承坤,陈国松,阮怀军,陈英义,屠星月. 2015

[4]文章关键词和标题分词多样性及其绘制知识图谱的比较. 李继红,徐桂珍,江珊,王洪江. 2021

[5]渔业科学数据智能RSS阅读器的设计研究. 肖慧,王立华,徐硕,陈孟婕. 2013

作者其他论文 更多>>