面向中文科学数据集的句子级语义匹配模型

文献类型: 中文期刊

第一作者: 刘建平

作者: 刘建平;初新涛;王健;顾勋勋;王萌;王影菲

作者机构:

关键词: 文本匹配;语义匹配;预训练模型;科学数据集;自然语言处理

期刊名称: 郑州大学学报(工学版)

ISSN: 1671-6833

年卷期: 2024 年 45 卷 006 期

页码: 56-64

收录情况: 北大核心

摘要: 针对现有以词为粒度的语义匹配模型难以理解句子级科学数据集元数据的问题,提出了一个面向中文科学数据集的句子级语义匹配(CSDSM)模型。该模型使用CSL数据集对SimCSE和CoSENT进行训练生成CoSENT预训练模型。基于CoSENT模型,引入多头自注意力机制进行特征提取,通过余弦相似度与KNN分类结果加权求和得到最终输出。以国家地球系统科学数据中心开放的语义元数据信息作为自建科学数据集进行实验,实验结果表明:与中文BERT模型相比,所提模型在公共数据集AFQMC、LCQMC、Chinese-STS-B和PAWS-X上的Spearman指标ρ分别提升了0.044 8,0.029 0,0.177 7和0.050 9;在自建科学数据集上的F1和Acc分别提升了0.078 8和0.063 4,所提模型能够有效地解决科学数据集句子级语义匹配问题。

分类号: TP391.1

  • 相关文献

[1]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019

[2]基于特征增强的多方位农业问句语义匹配. 王奥,吴华瑞,朱华吉. 2023

[3]基于Attention_DenseCNN的水稻问答系统问句分类. 王郝日钦,吴华瑞,冯帅,刘志超,许童羽. 2021

[4]基于卷积模型的农业问答语性特征抽取分析. 张明岳,吴华瑞,朱华吉. 2018

[5]基于BERT-Attention-DenseBiGRU的农业问答社区问句相似度匹配. 王郝日钦,王晓敏,缪祎晟,许童羽,刘志超,吴华瑞. 2022

[6]基于词性标注规则的马铃薯文献信息抽取方法. 王腾阳,赵小丹,胡林. 2023

[7]面向农业图书资源语义挖掘的主题模型应用设计研究. 龚浩,崔运鹏,钱平. 2018

[8]地理标志农产品品牌管理政策注意力分析模型构建及应用. 霍梦佳,刘娟,黄杰. 2023

[9]农业文本语义理解技术综述. 吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳. 2022

[10]基于深度学习的自然语言处理技术的发展及其在农业领域的应用. 崔运鹏,王健,刘娟. 2019

[11]基于大语言模型的智能问答系统研究综述. 任海玉,刘建平,王健,顾勋勋,陈曦,张越,赵昌顼. 2025

作者其他论文 更多>>