节点文献

基于位差的属性选择算法

Feature Selection Algorithm based on Potential Difference

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 刘光远董立岩苑森淼李永丽刘辉

【Author】 LIU Guang-yuan~(1a),DONG Li-yan~(1b),YUAN Sen-miao~(1b),LI Yong-li~2,LIU Hui~(1b)(1a.College of Communication Engineering,Jilin University,Changchun 130025,China;1b.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.College of Computer,Northeast Normal University,Changchun 130024,China)

【机构】 吉林大学通信工程学院吉林大学计算机科学与技术学院东北师范大学计算机学院吉林大学计算机科学与技术学院 长春130025长春130012长春130024

【摘要】 针对高维数据的数据分析或数据挖掘算法的时间复杂度随着维数增长,时间开销呈指数上升的问题,采用恰当的特征选择方法可以降低数据的维数,并且可以保持原有的数据分辨能力。使用卡方统计量为属性相关性的量化结果,根据卡方表查出独立性置信水平α。对于某属性子集,根据α给出两个有序序列,一个序列是所有属性与分类属性的α有序序列,另一个序列是所有属性与参照属性的α有序序列。利用各个属性在两个序列中位差(位置差异)选择属性。最后给出算法的理论分析,并且给出实验结果和分析。

【Abstract】 To avoid exponentially increased time expenses in data analysis and data mining for high degree of freedom of dimension of data and keep the same accuracy for the data analysis.Feature selection can decrease the dimensions of data.Chi2 statistic is used as quantity result of correlation in this paper.Based on the Chi2 statistic table,obtain the independent Confidence Level α.Two lists are provided based on α for a specific feature subset.One α list is a descendent list of correlation between class and all features.The other α list is a descendent list of correlation between reference feature and all features.Based on the different positions in two lists for each feature to accomplish the feature selection.At last paper provides the theoretical analysis and experiment results and analysis based on a sample data.The algorithm keeps the same accuracy of data analysis with less degree of freedom of dimensions of data.

【基金】 国家自然科学基金资助项目(60275026)
  • 【文献出处】 吉林大学学报(信息科学版) ,Journal of Jilin University(Information Science Edition) , 编辑部邮箱 ,2007年01期
  • 【分类号】TP311.13
  • 【被引频次】1
  • 【下载频次】95
节点文献中: 

本文链接的文献网络图示:

本文的引文网络