节点文献

中文文本分类中特征抽取方法的比较研究

A Comparative Study on Feature Selection in Chinese Text Categorization

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 代六玲黄河燕陈肇雄

【Author】 DAI Liu ling 1,2 , HUANG He yan 2, CHEN Zhao xiong 2 (1 Department of Computer Science, NUST, Nanjing 210094,China; 2 Language Information Engineering, CAS, Beijing 100083,China)

【机构】 南京理工大学计算机科学系中国科学院计算机语言信息工程研究中心中国科学院计算机语言信息工程研究中心 南京210094北京100083北京100083

【摘要】 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

【Abstract】 This paper is a comparative study of feature selection methods in text categorization. Four methods were evaluated, including document frequency (DF), information gain (IG), mutual information (MI) and χ 2 test (CHI). A Support Vector Machine ( SVM) and a k nearest neighbor (KNN) were selected as the evaluating classifiers. We found IG, MI and CHI had poor performance in our test, though they behave well in English text categorization. We analyzed the reasons theoretically and put forwarded the possible solutions. A furthermore experiment proved that the combined feature selection method is effective.

【基金】 国家自然科学基金资助项目 (6 0 2 72 0 88)
  • 【文献出处】 中文信息学报 ,Journal of Chinese Information Processing , 编辑部邮箱 ,2004年01期
  • 【分类号】TP391.1
  • 【被引频次】792
  • 【下载频次】4784
节点文献中: