大语言模型驱动的科学数据自动分类研究
文献类型: 中文期刊
第一作者: 黄永文
作者: 黄永文;马玮璐;鲜国建;李娇;罗婷婷;孙坦
作者机构:
关键词: 大语言模型;科学数据分类;提示模板;少样本学习;监督式微调
期刊名称: 情报理论与实践
ISSN: 1000-7490
年卷期: 2025 年 48 卷 006 期
页码: 170-177,194
收录情况: 北大核心 ; CSSCI
摘要: [目的/意义]将科学数据分类到特定的学科领域,可以增强信息检索效果以及提高资源的可发现性,不过以人为主体对科学数据进行分类已难以应对海量数据处理的需求,因此有必要探索科学数据自动分类的有效方法。[方法/过程]提出大语言模型驱动的科学数据自动分类的研究思路。首先,利用数据期刊“Data in Brief”构建高质量标注数据集;然后,设计提示模板和遴选少样本数据,使开源模型Qwen2.5-7B快速适配分类任务,并利用标注数据进一步对大语言模型进行监督式微调;最后,进行少样本学习实验以及利用微调后的大语言模型分别针对元数据和全文进行分类实验。[结果/结论]将提示模板、少样本学习以及监督式微调相互结合,可以有效提高大语言模型的自动分类性能。同时,用于模型微调的标注数据的数量和学科分布,决定了大语言模型在不同学科分类的效果。
分类号: G301%G254.1
- 相关文献
[1]GPT技术驱动的农业发展范式研究与展望. 李灯华,李干琼,许世卫,陈威. 2023
[2]基于多模态数据表型特征提取的番茄生长高度预测方法(英文). 宫宇,王玲,赵荣强,尤海波,周沫,刘劼. 2025
[3]基于大语言模型推理的数字孪生平台蔬菜作物生长模型研究. 赵春江,李静晨,吴华瑞,杨雨森. 2024
[4]基于大语言模型的《中国小麦品种志》信息提取. 韦一金,陈彦清,王秀东,樊景超. 2025
[5]大语言模型在蛋白质设计中的应用综述. 张锦雄,孟雪莉,陈燕,韦松键,吕丽兰,胡小春. 2024
[6]基于多模态融合大模型架构Agri-QA Net的作物知识问答系统. 吴华瑞,赵春江,李静晨. 2025
[7]基于大语言模型的个性化作物水肥管理智能决策方法. 吴华瑞,李静晨,杨雨森. 2025
[8]农业垂直领域大语言模型构建流程和技术展望. 张宇芹,朱景全,董薇,李富忠,郭雷风. 2024
[9]基于大语言模型的智能问答系统研究综述. 任海玉,刘建平,王健,顾勋勋,陈曦,张越,赵昌顼. 2025
[10]基于GraphRAG的中国马铃薯新品种知识图谱构建. 韦一金,任有强,赵慧,樊景超,方沩,闫燊. 2025
[11]具身智能农业机器人关键技术与发展趋势. 苗中华,朱子煜,张伟,薛振锋,孙腾,张异凡,谢涛,何创新,李楠,苑进,赵春江,刘成良. 2025
作者其他论文 更多>>
-
AI4S背景下的知识服务变革:模式演化与应对策略
作者:赵瑞雪;杨潇;李娇;鲜国建;寇远涛
关键词:AI4S;知识服务;科研范式;模式演化;发展策略;国家农业图书馆
-
农业智能科研新范式:关键要素、面临挑战与路径建议
作者:赵瑞雪;杨潇;张丹丹;李娇;黄永文;鲜国建;寇远涛;孙坦
关键词:AI4S;农业智能科研;体系框架;路径建议;科研范式
-
作物性状调控基因知识图谱数据集
作者:张丹丹;赵瑞雪;寇远涛;鲜国建
关键词:作物;知识图谱;育种知识发现;优异多效基因
-
猪繁殖与呼吸综合征病毒NADC30毒株鉴别诊断荧光RT-PCR检测方法的建立
作者:覃国喜;米树运;孙竹筠;刘德清;罗婷婷;熊炜
关键词:猪繁殖与呼吸综合征病毒;NDAC30毒株;双重实时荧光RT-PCR
-
视觉与侧线器官对许氏平鲉趋礁行为的影响
作者:陈枫;李娇;公丕海;关长涛
关键词:许氏平鲉;视觉器官;侧线器官;人工鱼礁;趋礁行为
-
DeepSeek赋能领域知识图谱低成本构建研究
作者:史忠艳;雷洁;孙坦;赵瑞雪;李娇;黄永文;鲜国建
关键词:DeepSeek;知识抽取;知识图谱;零样本;知识底座;生猪;全产业链
-
数智驱动的科研领域创新路径识别方法
作者:林巧;胡智杰;吴俣;鲜国建;孙坦;张学福
关键词:创新路径识别;知识抽取;关联网络;数智化;技术预见
