节点文献

一种改进的不平衡数据集分类方法

Improved Unbalanced Dataset Classification Method

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 赵秀宽阳建宏黎敏徐金梧

【Author】 ZHAO Xiu-kuan~1,YANG Jian-hong~2,LI Min~2,XU Jin-wu~2 (1.Institute of Geology and Geophysics,Chinese Academy of Sciences,Beijing 100029,China; 2.School of Mechanical Engineering,University of Science and Technology Beijing,Beijing 100083,China)

【机构】 中国科学院地质与地球物理研究所北京科技大学机械工程学院

【摘要】 传统的机器学习方法在解决不平衡分类问题时,得到的分类器具有很大的偏向性,表现为少数类识别率远低于多数类。为此,在旋转森林分类方法的基础上,提出一种改进的不平衡数据处理方法——偏转森林。通过对少数类进行过抽样改变训练数据的分布以减小数据的不平衡,采用随机抽取的方式确保生成偏转矩阵的样本间存在荠异,从而提高集成分类器的分类精度。实验结果表明,该方法能取得较好的分类性能,具有较高的少数类识别正确率和较低的多数类识别错误率。

【Abstract】 Referring to unbalanced dataset,the traditional machine learning methods will achieve biased performance.Using traditional methods, the recognition rate of minority class will be lower than the recognition rate of majority class.In this paper,based on rotation forest,it proposes an improved unbalanced dataset learning method,which is called deflection forest.It reduces data unbalance by over-sampling the data of minority class.It uses random resampling to increase diversity of samples which generate the deflection matrix and then improves the accuracy rate. Experimental results show that the deflection forest method achieves better performance,which carries out higher recognition rate of minority class and also lower recognition error rate of majority class.

【基金】 国家自然科学基金资助项目(50705069,50905013,50934007);高等学校博士学科点专项科研基金资助项目(20090006120007);中央高校基本科研业务费专项基金资助项目(FRF-TP-09-014A)
  • 【会议录名称】 中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)
  • 【会议名称】中国科学院地质与地球物理研究所第11届(2011年度)学术年会
  • 【会议时间】2012-01-05
  • 【会议地点】中国北京
  • 【分类号】TP181
  • 【主办单位】中国科学院地质与地球物理研究所
节点文献中: 

本文链接的文献网络图示:

本文的引文网络