面向中文科学数据集的句子级语义匹配模型
文献类型: 中文期刊
第一作者: 刘建平
作者: 刘建平;初新涛;王健;顾勋勋;王萌;王影菲
作者机构:
关键词: 文本匹配;语义匹配;预训练模型;科学数据集;自然语言处理
期刊名称: 郑州大学学报(工学版)
ISSN: 1671-6833
年卷期: 2024 年 45 卷 006 期
页码: 56-64
收录情况: 北大核心
摘要: 针对现有以词为粒度的语义匹配模型难以理解句子级科学数据集元数据的问题,提出了一个面向中文科学数据集的句子级语义匹配(CSDSM)模型。该模型使用CSL数据集对SimCSE和CoSENT进行训练生成CoSENT预训练模型。基于CoSENT模型,引入多头自注意力机制进行特征提取,通过余弦相似度与KNN分类结果加权求和得到最终输出。以国家地球系统科学数据中心开放的语义元数据信息作为自建科学数据集进行实验,实验结果表明:与中文BERT模型相比,所提模型在公共数据集AFQMC、LCQMC、Chinese-STS-B和PAWS-X上的Spearman指标ρ分别提升了0.044 8,0.029 0,0.177 7和0.050 9;在自建科学数据集上的F1和Acc分别提升了0.078 8和0.063 4,所提模型能够有效地解决科学数据集句子级语义匹配问题。
分类号: TP391.1
- 相关文献
[1]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019
[2]基于特征增强的多方位农业问句语义匹配. 王奥,吴华瑞,朱华吉. 2023
[3]基于Attention_DenseCNN的水稻问答系统问句分类. 王郝日钦,吴华瑞,冯帅,刘志超,许童羽. 2021
[4]基于卷积模型的农业问答语性特征抽取分析. 张明岳,吴华瑞,朱华吉. 2018
[5]基于BERT-Attention-DenseBiGRU的农业问答社区问句相似度匹配. 王郝日钦,王晓敏,缪祎晟,许童羽,刘志超,吴华瑞. 2022
[6]基于词性标注规则的马铃薯文献信息抽取方法. 王腾阳,赵小丹,胡林. 2023
[7]面向农业图书资源语义挖掘的主题模型应用设计研究. 龚浩,崔运鹏,钱平. 2018
[8]地理标志农产品品牌管理政策注意力分析模型构建及应用. 霍梦佳,刘娟,黄杰. 2023
[9]农业文本语义理解技术综述. 吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳. 2022
[10]基于深度学习的自然语言处理技术的发展及其在农业领域的应用. 崔运鹏,王健,刘娟. 2019
[11]基于大语言模型的智能问答系统研究综述. 任海玉,刘建平,王健,顾勋勋,陈曦,张越,赵昌顼. 2025
作者其他论文 更多>>
-
智慧果园关键应用场景研究进展
作者:吴建伟;张琳;郑文刚;秦向阳;吴忠高;方锡红;王永泉;芦天罡;王健;朴香淑;王芳;岳巧云;张海合;季婧;丛小蔓;李奇峰
关键词:智慧果园;大数据;模型;数智化
-
桑资源中生物活性成分及其应用综述
作者:任晓蓉;齐沛沛;王新全;王萌;张善英;章程辉
关键词:桑资源;生物活性成分;应用
-
基于大语言模型的智能问答系统研究综述
作者:任海玉;刘建平;王健;顾勋勋;陈曦;张越;赵昌顼
关键词:大语言模型;智能问答;自然语言处理;检索增强生成;提示学习;知识图谱
-
水稻DMP1、DMP2、DMP3基因突变体的创制及其单倍体诱导能力鉴定
作者:胡风越;王健;王春;王克剑;刘朝雷
关键词:水稻;单倍体诱导;DMP;Os MTL
-
橡胶草MADS-box转录因子基因TkSOC1-1克隆与表达模式分析
作者:陈家奇;杨玉双;陈秋惠;聂秋海;王萌;覃碧;刘实忠
关键词:橡胶草;TkSOC1-1;表达分析;生长发育;逆境
-
基于Fuzzy-PID的棉花打顶升降装置设计与试验
作者:薛星星;胡斌;贾首星;王健
关键词:棉花打顶机;升降装置;高度控制;模糊PID;仿真研究
-
海岛棉种质资源机采农艺性状相关性分析
作者:黄幸磊;王为然;王萌;朱家辉;林峰;秦国礼;杨静;阿里甫·艾尔西;吴全忠;孔杰
关键词:海岛棉;种质资源;机采;多样性评价