基于深度学习的方志物产资料实体自动识别模型构建研究

文献类型: 中文期刊

第一作者: 徐晨飞

作者: 徐晨飞;叶海影;包平

作者机构:

关键词: 深度学习;方志物产;命名实体识别;模型构建;数字人文

期刊名称: 数据分析与知识发现

ISSN: 2096-3467

年卷期: 2020 年 08 期

页码: 86-97

收录情况: 北大核心 ; CSCD ; CSSCI

摘要: 【目的】探究古籍方志物产资料中物产别名、人物、产地及引书等4种实体的自动识别,用于方志物产知识库的构建。【方法】以机构特藏《方志物产》云南卷为基础语料,在文本预处理与语料标注基础上,采用4种深度学习模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT进行实验,并对实验结果进行对比分析。【结果】Bi-LSTM-CRF模型与Bi-LSTM模型相比,P值提高5.54%,F值提高3.51%;BERT模型的R值达到了83.36%,优于其他模型;Bi-LSTM-CRF模型对引书实体识别效果最好,F值为89.71%;BERT模型对人物实体识别效果最好,F值为87.90%。【局限】由于古籍方志文本语料特性,以及相关实体的认定需掌握领域知识,在人工标注过程中或存在一些漏标与错标的情况,导致模型未能最优化。【结论】研究表明深度学习方法对古籍方志文本实体识别任务的可行性与优越性。

分类号: TP391.1`TP18

  • 相关文献

[1]面向农史领域的数字人文研究基础设施建设研究——以方志物产知识库构建为引. 徐晨飞,包平. 2019

[2]基于关联数据的方志物产史料语义化知识组织研究. 徐晨飞,包平,张惠敏,姜霖. 2020

[3]基于注意力机制的农业文本命名实体识别. 赵鹏飞,赵春江,吴华瑞,王维. 2021

[4]面向葡萄知识图谱构建的多特征融合命名实体识别. 聂啸林,张礼麟,牛当当,吴华瑞,朱华吉,张宏鸣. 2024

[5]古农文语义检索模型构建及其应用研究. 刘楠竹,崔运鹏,王末. 2023

[6]元数据方法在数字人文视域下的应用探索——以农业文化遗产为例. 胡以涛,惠富平. 2019

[7]基于《方志物产》的物产分类体系智能化研究——以《方志物产》山西分卷为例. 李娜,包平. 2016

[8]方志类古籍中物产名与别名关系的可视化——基于社会网络分析技术视角. 李娜,包平. 2017

[9]创新人文研究范式的数字人文——基于数字人文在史学研究领域应用渗透的文献考察. 陈海珠,包平. 2017

[10]基于深度学习的细粒度命名实体识别研究-以番茄病虫害为例. 任妮,鲍彤,沈耕宇,郭婷. 2021

[11]基于连续提示注入与指针网络的农业病害命名实体识别. 王春山,张宸硕,吴华瑞,朱华吉,缪祎晟,张立杰. 2024

[12]基于人工智能大模型技术的果蔬农技知识智能问答系统. 王婷,王娜,崔运鹏,刘娟. 2023

[13]基于ERNIE-BiLSTM-CRF模型的土壤肥力命名实体识别研究. 周乐乐,陈磊,季丰,任竹,刘楠楠. 2023

[14]基于RoFormer预训练模型的指针网络农业病害命名实体识别. 王彤,王春山,李久熙,朱华吉,缪祎晟,吴华瑞. 2024

[15]基于词向量+BiLSTM+CRF的农业技术需求文本实体提取. 宋林鹏,刘世洪,王翠. 2021

[16]1~2年生浙南绿竹地上生物量分配与模型构建. 夏海涛,王月英,李效文,卢小琴,林化忠. 2014

[17]基于Pro/E的四杆机构设计与运动分析. 李艳芳,卢绪振. 2013

[18]芝麻株高和叶龄对盛花期渍水响应的定量分析. 李国强,张建涛,李亚丽,周萌,陈丹丹,胡峰,辛银平,郑国清. 2020

[19]中国农产品膳食暴露评估模型构建初探. 宋雯,陈志军,钱永忠,徐辰武,刘贤金. 2014

[20]云南水稻直链淀粉含量近红外模型的创建研究. 陈建华,郭咏梅,刘义富,辜琼瑶,谭春艳,刘小丽,卢义宣. 2008

作者其他论文 更多>>