一种处理非平衡数据集的优化随机森林分类方法

文献类型: 中文期刊

第一作者: 马海荣

作者: 马海荣;程新文

作者机构:

关键词: 随机森林;最大投票熵;广义欧几里得距离;不平衡数据集

期刊名称: 微电子学与计算机

ISSN: 1000-7180

年卷期: 2018 年 11 期

页码: 28-32

收录情况: 北大核心 ; CSCD

摘要: 利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投票熵与基于样本特征参数的广义欧几里得距离逐步添加具有最大投票熵的样本到训练样本集,解决传统RF模型随机抽取样本时训练样本集中包含不同类别样本数不平衡问题.对于分类过程中可能出现投票结果的平局现象,利用测试样本与邻近训练样本的广义欧几里得距离决定其分类结果,以消除投票平局现象造成的停滞问题.实验结果表明,本文优化RF模型对于非平衡数据集的分类可以取得较好的分类结果.

分类号: TP181

  • 相关文献

[1]基于聚类权重分阶段的SVM解不平衡数据集分类. 王超学,张涛,马春森. 2015

[2]改进型加权KNN算法的不平衡数据集分类. 潘正茂,马春森,董丽丽,张涛. 2012

[3]面向不平衡数据集的改进型SMOTE算法. 张涛,马春森. 2014

[4]改进SVM-KNN的不平衡数据分类. 张涛,马春森. 2016

[5]基于聚类权重分阶段的SVM解不平衡数据集分类. 张涛,马春森. 2014

[6]改进SVM-KNN的不平衡数据分类. 张涛,马春森. 2014

[7]随机森林算法的水果糖分近红外光谱测量. 李盛芳,贾敏智,董大明. 2018

[8]基于EFAST方法的苹果叶片叶绿素含量估算. 杨福芹,沙从术,冯海宽,韩瑞芳,徐平. 2017

[9]基于高光谱的苹果叶片叶绿素含量估算. 杨福芹,冯海宽,李振海,杨贵军,戴华阳. 2017

[10]基于无人机高光谱长势指标的冬小麦长势监测. 陶惠林,徐良骥,冯海宽,杨贵军,苗梦珂,林博文. 2020

[11]倒伏胁迫下的玉米冠层结构特征变化与光谱响应解析. 束美艳,顾晓鹤,孙林,朱金山,杨贵军,王延仓,孙乾,周龙飞. 2019

[12]不同模型在渔业CPUE标准化中的比较分析. 杨胜龙,张禹,张衡,樊伟. 2015

[13]基于随机森林算法的冬小麦生物量遥感估算模型对比. 岳继博,杨贵军,冯海宽. 2016

[14]基于词向量的检索扩展方法与农业领域实证. 吴蕾,梁晓贺,乌吉斯古楞,王瑞. 2019

[15]PCA与随机森林相结合筛选高信息量SNP位点——应用于羊的品种鉴别. 刘月丽,覃锡忠,贺三刚,李文蓉,王悦,贾振红,刘明军. 2018

[16]青藏高原草地地上生物量和理论载畜量(英文). 张宪洲,李猛,武建双,何永涛,牛犇. 2022

[17]基于农田土壤镉污染修复后糙米镉的指标筛选. 林小兵,武琳,王惠明,刘晖,黄欠如,周利军. 2021

[18]利用无人机提取样本点的多源遥感影像分类方法研究. 张文,王志伟,吴红芝,毕玉芬,宋雪莲,阮玺睿. 2021

[19]基于GF-1号影像的南方水稻种植信息提取. 林娜,陈宏,李志鹏,赵健. 2021

[20]基于无人机数码影像和高光谱数据的冬小麦产量估算对比. 陶惠林,冯海宽,杨贵军,杨小冬,苗梦珂,吴智超,翟丽婷. 2019

作者其他论文 更多>>