您好,欢迎访问湖北省农业科学院 机构知识库!

一种处理非平衡数据集的优化随机森林分类方法

文献类型: 中文期刊

作者: 马海荣 1 ; 程新文 2 ;

作者机构: 1.湖北省农业科学院农业经济技术研究所

2.中国地质大学(武汉)信息工程学院

关键词: 随机森林;最大投票熵;广义欧几里得距离;不平衡数据集

期刊名称: 微电子学与计算机

ISSN: 1000-7180

年卷期: 2018 年 11 期

页码: 28-32

收录情况: 北大核心 ; CSCD

摘要: 利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投票熵与基于样本特征参数的广义欧几里得距离逐步添加具有最大投票熵的样本到训练样本集,解决传统RF模型随机抽取样本时训练样本集中包含不同类别样本数不平衡问题.对于分类过程中可能出现投票结果的平局现象,利用测试样本与邻近训练样本的广义欧几里得距离决定其分类结果,以消除投票平局现象造成的停滞问题.实验结果表明,本文优化RF模型对于非平衡数据集的分类可以取得较好的分类结果.

  • 相关文献
作者其他论文 更多>>