中国优秀硕士学位论文全文数据库
  关闭
LSA与SOM相结合的文本聚类算法应用研究  
   在线阅读 整本下载 分章下载 分页下载本系统暂不支持迅雷或FlashGet等下载工具
【英文题名】 Research on Text Clustering Based on Latent Semantic Analysis and Self-organizing Maps
【作者】 张春炉;
【导师】 沈建京;
【学位授予单位】 解放军信息工程大学;
【学科专业名称】 计算机应用技术
【学位年度】 2010
【论文级别】 硕士
【网络出版投稿人】 解放军信息工程大学
【网络出版投稿时间】 2011-04-22
【关键词】 文本聚类; 潜在语义分析; 奇异值分解; 自组织映射; 词性标注;
【英文关键词】 text clustering; latent semantic analysis; singular value decomposition; self-organizing maps; part of speech tagging;
【中文摘要】 随着互联网的发展,信息的规模越来越巨大,增加速度越来越快,信息的类型和结构越来越复杂多样。人类所面临的问题由以前无法有效地从分散且不成规模的信息中获取有用的信息,转变成现在难于从海量而复杂的信息中高效而准确地获取和访问信息。作为数据挖掘领域的一个重要分支,文本聚类具有较强的灵活性和自动处理能力,已经广泛应用于许多领域。文本聚类通过高效的聚类、重新组织和导航文本数据,可以提高查询效率和精度。可以说,文本聚类的研究具有重要的理论意义和实际应用价值。 本文在对文本聚类的整个流程深入研究的基础上,利用潜在语义分析(Latent Semantic Analysis,LSA)在语义处理和空间降维方面的优势,以及自组织映射(Self-Organizing Maps,SOM)聚类算法在自组织、自适应、自动化、易于可视化和聚类效果好等方面的优良特性,探索和研究了潜在语义分析和自组织映射算法在文本聚类中的应用,并在实验语料库中进行验证分析。本文的主要研究内容如下: 首先,本文研究了文本预处理关键技术。文本预处理是文本聚类的基础,直接影响文本聚类的效果。主要包括:摘要内容提取,词性筛选,停用词过滤,和向量空间构建。...
【英文摘要】 With the development of Internet, the scale of information is more and more large, the increasing speed is more and more high, the type and structure of information is more and more complicated. The main problems human encounter now is how to efficiently and exactly access the useful information from the large scale of information, but before it was difficult to get the useful information from the scattered and little scale of information. With the flexibility and ability of auto-processing,text clustering ...
【更新日期】 2011-05-13

【相同导师文献】

导师:沈建京    导师单位:解放军信息工程大学    学位授予单位:解放军信息工程大学
[1] 张春炉.LSA与SOM相结合的文本聚类算法应用研究[D]. 解放军信息工程大学,2010
[2] 郑起莹.基于.NET的分布式应用系统访问控制技术研究与实现[D]. 解放军信息工程大学,2007
[3] 李晓婷.基于SOA架构的Web图表生成与打印系统[D]. 解放军信息工程大学,2007
[4] 尹祖伟.轻量级工作流引擎的研究与实现[D]. 解放军信息工程大学,2007
[5] 冯新扬.基于REST的Web服务架构理论与技术研究[D]. 解放军信息工程大学,2009
[6] 陈楚湘.中医诊疗标准建立及应用的智能方法研究[D]. 解放军信息工程大学,2011
[7] 郭晓峰.基于SOA和HLA的分布式仿真关键技术研究[D]. 解放军信息工程大学,2011

xxx
【读者推荐文章】中国期刊全文数据库 中国重要报纸全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号