大语言模型驱动的科学数据自动分类研究

文献类型: 中文期刊

第一作者: 黄永文

作者: 黄永文;马玮璐;鲜国建;李娇;罗婷婷;孙坦

作者机构:

关键词: 大语言模型;科学数据分类;提示模板;少样本学习;监督式微调

期刊名称: 情报理论与实践

ISSN: 1000-7490

年卷期: 2025 年 48 卷 006 期

页码: 170-177,194

收录情况: 北大核心 ; CSSCI

摘要: [目的/意义]将科学数据分类到特定的学科领域,可以增强信息检索效果以及提高资源的可发现性,不过以人为主体对科学数据进行分类已难以应对海量数据处理的需求,因此有必要探索科学数据自动分类的有效方法。[方法/过程]提出大语言模型驱动的科学数据自动分类的研究思路。首先,利用数据期刊“Data in Brief”构建高质量标注数据集;然后,设计提示模板和遴选少样本数据,使开源模型Qwen2.5-7B快速适配分类任务,并利用标注数据进一步对大语言模型进行监督式微调;最后,进行少样本学习实验以及利用微调后的大语言模型分别针对元数据和全文进行分类实验。[结果/结论]将提示模板、少样本学习以及监督式微调相互结合,可以有效提高大语言模型的自动分类性能。同时,用于模型微调的标注数据的数量和学科分布,决定了大语言模型在不同学科分类的效果。

分类号: G301%G254.1

  • 相关文献

[1]GPT技术驱动的农业发展范式研究与展望. 李灯华,李干琼,许世卫,陈威. 2023

[2]基于多模态数据表型特征提取的番茄生长高度预测方法(英文). 宫宇,王玲,赵荣强,尤海波,周沫,刘劼. 2025

[3]基于大语言模型推理的数字孪生平台蔬菜作物生长模型研究. 赵春江,李静晨,吴华瑞,杨雨森. 2024

[4]基于大语言模型的《中国小麦品种志》信息提取. 韦一金,陈彦清,王秀东,樊景超. 2025

[5]大语言模型在蛋白质设计中的应用综述. 张锦雄,孟雪莉,陈燕,韦松键,吕丽兰,胡小春. 2024

[6]基于多模态融合大模型架构Agri-QA Net的作物知识问答系统. 吴华瑞,赵春江,李静晨. 2025

[7]基于大语言模型的个性化作物水肥管理智能决策方法. 吴华瑞,李静晨,杨雨森. 2025

[8]农业垂直领域大语言模型构建流程和技术展望. 张宇芹,朱景全,董薇,李富忠,郭雷风. 2024

[9]基于大语言模型的智能问答系统研究综述. 任海玉,刘建平,王健,顾勋勋,陈曦,张越,赵昌顼. 2025

[10]基于GraphRAG的中国马铃薯新品种知识图谱构建. 韦一金,任有强,赵慧,樊景超,方沩,闫燊. 2025

[11]具身智能农业机器人关键技术与发展趋势. 苗中华,朱子煜,张伟,薛振锋,孙腾,张异凡,谢涛,何创新,李楠,苑进,赵春江,刘成良. 2025

作者其他论文 更多>>