中国优秀硕士学位论文全文数据库
  关闭
基于SVM的文本分类系统中特征选择与权重计算算法的研究  
   在线阅读 整本下载 分章下载 分页下载本系统暂不支持迅雷或FlashGet等下载工具
【英文题名】 Research of Feature Selection and Weighting Algorithm in Text Classification System Based on SVM
【作者】 段江丽;
【导师】 陈俊杰;
【学位授予单位】 太原理工大学;
【学科专业名称】 计算机应用技术
【学位年度】 2011
【论文级别】 硕士
【网络出版投稿人】 太原理工大学
【网络出版投稿时间】 2011-07-06
【关键词】 文本分类; 组合特征选择算法; 改进的TF-IDF算法; 类别分布; 支持向量机;
【英文关键词】 text classification; combination of feature selection algorithm; improved TF-IDF algorithm; category distribution; support vector machine;
【中文摘要】 近年来,随着互联网技术的飞快发展,人们已经从信息较为缺乏的时代过渡到信息丰富的数字化时代。面对如此庞大的电子信息,如何在较短的时间内获取对用户有用的信息也就成为当前的一个研究热点。文本分类技术是数据挖掘领域中的一项关键技术,它能够帮助用户快速、准确地定位所需要的信息。同时该技术作为信息过滤和搜索引擎的基础,有着广泛的发展前景,能够为社会带来巨大的经济效益。 文本分类的任务是将待分类的文本对象根据其具体内容自动划分到事先设置的类别内。它的研究内容主要包括文本预处理、特征选择、特征项权重计算、文本表示、分类器的训练与测试以及分类性能评价六个模块。其中特征选择和权重计算在文本分类技术中有着非常关键的作用。 本文的主要研究工作如下: (1)特征选择的目的是从原始的高维特征空间中,选取出对分类贡献程度大的特征来表示文本。经典的特征选择算法在统计特征项和类别之间的关联性信息时,仅仅考虑了特征项对文本分类的能力,却没有考虑特征项之间的相关性信息,因此使得具有同义或近义现象的特征项都被选择出来表示文本,降低了分类的准确度。鉴于此缺点,本文提出了一种新的特征选择算法——组合特征选择算法。该算法首先...
【英文摘要】 In recent years, with the fast development of Internet technologies, it has transited to the information-rich digital age from a lack of information era. Faced with such a large amount of electronic information, how to get useful information to users in a short time will become a research hotspot. Text classification, which can help users locate the information they need quickly and accurately, is a key technology in data mining. Meanwhile, this technology as the basis for information filtering and search e...
【更新日期】 2011-07-27

【相同导师文献】

导师:陈俊杰    导师单位:太原理工大学    学位授予单位:太原理工大学
[1] 李沛洋.面向规避僵尸网络检测的对抗样本生成方法研究[D]. 太原理工大学,2021
[2] 武斌.学生实习信息管理系统设计与实现[D]. 太原理工大学,2020
[3] 郭冬喜.基于多稀疏超图学习模型的特征选择方法研究[D]. 太原理工大学,2021
[4] 李鹏祖.基于重叠组套索及融合套索的脑功能超网络构建及分析[D]. 太原理工大学,2021
[5] 韩京辰.物联网设备轻量级认证技术研究[D]. 太原理工大学,2021
[6] 王旭.基于机器学习的密码体制识别研究[D]. 太原理工大学,2020
[7] 金弋然.基于网络测量的IP定位研究[D]. 太原理工大学,2020
[8] 郭慧利.基于多源信息融合的疲劳驾驶预警系统的研究[D]. 太原理工大学,2020
[9] 金炳初.基于多特征的恶意软件分类方法[D]. 太原理工大学,2020
[10] 张豪.基于线性混合效应的结构脑影像分析及分类研究[D]. 太原理工大学,2019

xxx
【读者推荐文章】中国期刊全文数据库 中国重要报纸全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号