中国学术期刊网络出版总库
  关闭
采用类别相似度聚合的关联文本分类方法  
   推荐 CAJ下载 PDF下载
【英文篇名】 Associative Rule-Based Text Categorization Method Using Category Similarity
【下载频次】 ★★★★★
【作者】 田丰; 桂小林; 杨攀; 王刚; 郭岳龙;
【英文作者】 TIAN Feng1; 2; GUI Xiaolin1; YANG Pan1; WANG Gang1; 3; GUO Yuelong1; 2(1.School of Electronics and Information Engineering; Xi'an Jiaotong University; Xi'an 710049; China; 2.Shaanxi Province Key Laboratory of Computer Network; 3.School of Information; Xi'an University of Finance and Economics; Xi'an 710100; China);
【作者单位】 西安交通大学电子与信息工程学院; 西安交通大学陕西省计算机网络重点实验室; 西安财经学院信息学院;
【文献出处】 西安交通大学学报 , Journal of Xi'an Jiaotong University, 编辑部邮箱 2012年 12期  
期刊荣誉:中文核心期刊要目总览  ASPT来源刊  中国期刊方阵  CJFD收录刊
【中文关键词】 文本分类; 关联规则; 类别相似度; 聚合;
【英文关键词】 text categorization; association rule; category similarity; aggregation;
【摘要】 针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.
【英文摘要】 Conventional association rule-based categorization methods have bottleneck in improving classifier's accuracy,since these methods only consider the rule confidence degree and use the pruning technique.A novel method to solve this problem is proposed,and is called associative rule-based classifier aggregating with category similarity(AACS).The method adopts the modified chi-square statistical technique to extract feature terms from each category,and employs the CR-tree to store classification rules.Algorithm...
【基金】 国家自然科学基金资助项目(60873071,61172090); 国家高技术研究发展计划重大专项资助项目(2012ZX03002001-004)
【更新日期】 2013-01-04
【分类号】 TP391.1
【正文快照】 随着Internet在线文本资源的爆炸式增长,如何对这些信息进行分类组织、获取有价值的内容,是目前研究的热点问题.海量文本信息处理需要特别考虑计算及存储资源的消耗,传统的基于统计理论的分类方法,例如KNN、Bayes、Nnet、SVM、LLSF等,必须提取大量的特征项才可获得较好的分类效

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号