中国优秀硕士学位论文全文数据库
  关闭
基于图模型的中文小样本文本分类研究  
   在线阅读 整本下载 分章下载 分页下载本系统暂不支持迅雷或FlashGet等下载工具
【英文题名】 Text Categorization of Chinee Small Sample Based on Graph Model
【作者】 李兆雄;
【导师】 徐学洲;
【学位授予单位】 西安电子科技大学;
【学科专业名称】 计算机软件与理论
【学位年度】 2009
【论文级别】 硕士
【网络出版投稿人】 西安电子科技大学
【网络出版投稿时间】 2011-07-20
【关键词】 文本分类; 空间角度; 特征选取; 图模型; Graph-KNN;
【英文关键词】 text automatic categorization; space angle; feature selection; graph model; Graph-KNN;
【中文摘要】 随着互联网的快速发展,海量的信息以各种方式出现,其中最主要的还是文本信息,因此文本自动分类成为了国内外研究的热点,现在已经出现了大量有效的分类方法,例如:Naive Bayes、KNN、SVM、决策树以及神经网络等。在处理海量信息时,因为有大量的训练样本可供其学习,所以SVM方法是效果最好的。但在缺少样本的情况下,使用SVM, KNN等方法的分类效果并不出色,其原因是因为向量模型只选取了文本的数字信息,而忽视了文本中词的联系。 本文在分析特征选择时信息增益法和互信息方法的计算方式的差异的基础上,给出了一种基于空间角度的特征选取方法,以有效降低特征词的维数。在分析了向量空间模型的缺点的基础上,给出了基于图模型的方法,以及相似度比较和Graph-KNN分类算法,来提高小样本集下的文本分类的准确度。对各算法进行了仿真,进行了大量的训练和测试,对比了本文给出的方法和未改进的KNN方法的各项性能,证实该方法的确能提高小样本集下的文本分类的准确度。本文的最后分析了该方法应用在全文检索系统上的可行性。
【英文摘要】 With the rapid growth of the Internet, more and more information has been expressed as several kinds, where the text is the important one. Therefore text automatic categorization has been focused by home and foreign researchers. Now there are many effective methods that have been applied to this field, such as Naive Bayes, KNN, SVM, Neural Network, and Decision Tree, etc. When the huge texts are processing, because of the abundance documents existing for being trained, the performance of using SVM method is...
【更新日期】 2011-08-05

【相同导师文献】

导师:徐学洲    导师单位:西安电子科技大学    学位授予单位:西安电子科技大学
[1] 徐志伟.基于工作流的高校设备管理系统设计与实现[D]. 西安电子科技大学,2012
[2] 刘丽红.卫星力学参数测量系统的设计[D]. 西安电子科技大学,2011
[3] 李伟.基于TSC695F的星载数管计算机设计与实现[D]. 西安电子科技大学,2011
[4] 王雪.民办高校招生管理与分析系统的实现[D]. 西安电子科技大学,2011
[5] 吕岚.基于.NET自适应考试系统的研究与设计[D]. 西安电子科技大学,2011
[6] 谭沛.基于VxWorks的环控数据处理计算机软件的设计与实现[D]. 西安电子科技大学,2011
[7] 张牧.邮政金融客户管理系统中数据仓库的设计与实现[D]. 西安电子科技大学,2010
[8] 李成忠.ERP实施的研究和生产系统的二次开发[D]. 西安电子科技大学,2010
[9] 王金桥.钻井测控算法研究[D]. 西安电子科技大学,2009
[10] 胡化安.基于能量密度的无线传感器网络分簇路由协议研究[D]. 西安电子科技大学,2009

xxx
【读者推荐文章】中国期刊全文数据库 中国重要报纸全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号