节点文献
基于加权频繁项集的文本分类规则挖掘
Mining Text Classification Rules Based on Weighted Frequent Itemsets
【摘要】 针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响。实验表明,解决上述两个问题将可以很好的提高文本分类的性能。
【Abstract】 The size of text and weight of elements in feature vectors may affect text classification rule.In order to improve the classification accuracy,new concepts of the weighted frequent items and a weighted frequent item-set mining algorithm to highlight great weight items were proposed.A pre-processing method for feature vectors was proposed to eliminate ill effects of the size of text on generating classification rules.Experiments demonstrated utility and feasibility of the method.
【关键词】 关联规则;
文本分类;
加权频繁项集;
【Key words】 association rule; text classification; weighted frequent itemsets;
【Key words】 association rule; text classification; weighted frequent itemsets;
【基金】 国家自然科学基金资助项目(60773169);国家“十一五”科技支撑计划资助项目(2006BAI05A01)
- 【文献出处】 四川大学学报(工程科学版) ,Journal of Sichuan University(Engineering Science Edition) , 编辑部邮箱 ,2008年06期
- 【分类号】TP311.13
- 【被引频次】5
- 【下载频次】192