节点文献
一种新的自动文本分类的算法
A new algorithm for automatic text classification
【摘要】 研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.
【Abstract】 This paper studies the application of bigram model from statistical language model in the automatic text classification.Referring to the shortcoming of the hypothesis that the terms are independent from each other in VSM(Vector Space Model),a method is presented to improve the result of text classification with mutual words′ information and sequence.The experiment shows that this method is feasible and efficient.
【关键词】 统计语言模型;
自动文本分类;
平滑;
bigram模型;
【Key words】 statistical language model; text classification; smoothing; bigram model;
【Key words】 statistical language model; text classification; smoothing; bigram model;
【基金】 江苏省自然科学基金资助项目(BK2005046)
- 【文献出处】 扬州大学学报(自然科学版) ,Journal of Yangzhou University(Natural Science Edition) , 编辑部邮箱 ,2006年01期
- 【分类号】TP391.1
- 【被引频次】2
- 【下载频次】146