中国优秀硕士学位论文全文数据库
  关闭
基于改进FCM算法的无字典中文文本聚类方法研究  
   在线阅读 整本下载 分章下载 分页下载本系统暂不支持迅雷或FlashGet等下载工具
【英文题名】 A Chinese Text Clustering without Dictionary Based on the Improved Fuzzy C-Means Algorithm
【作者】 郑晓亮;
【导师】 姚敏;
【学位授予单位】 浙江大学;
【学科专业名称】 计算机系统结构
【学位年度】 2007
【论文级别】 硕士
【网络出版投稿人】 浙江大学
【网络出版投稿时间】 2007-06-26
【关键词】 基于统计的分词算法; 半监督模糊c均值算法; 文本聚类;
【英文关键词】 word segmentation based on statistics; partial supervision fuzzy c-means(PSFCM) algorithm; text clustering;
【中文摘要】 如今,伴随着网络的快速发展和壮大,各式各样的信息也随之而来,其数量是难以估计的,其中又是以文本形式存在的数量最为巨大。对于这些数量巨大的文本信息,通过计算机的辅助,对其进行聚类或分类的操作再进行后继的处理,是目前一种常见的文本处理手段。 本文主要讨论研究了与中文文本相关的聚类处理过程,主要是如何通过分词统计,特征表示,模糊聚类来得到一个好的文本聚类集。 我们一般将一个文本表现为一个超空间矢量,矢量的各维坐标是文本中的各个词的词频相关信息。中文文本比起英文等外语文本,其聚类处理过程还要增加一个分词处理过程。本文重点研究了统计分词算法,通过引入字符串置信度概念,通过其进行冗余字符串的剔除,弥补了统计分词下伪字符串过多的缺点。对于最关键的聚类方法,重点研究了FCM算法的理论由来,处理方法以及缺点不足。针对FCM算法的三个主要缺点,我们引入模糊聚类有效性函数和半监督聚类方法进行弥补。通过对改进了的目标函数的数学推导,得到了改进了的隶属度函数。在此基础上,我们提出了一种新的PSFCM算法来作为文本聚类的算法,并对其进行了验证分析,证实了其主要优点...
【英文摘要】 Now, accompanying with the fast development of the network, various information is also follow. Its quantity is hard to estimate. The information has different forms, but among them the mostly probably form is the text. The popular text process is firstly doing the text clustering or text classification by computer, then deal with this classified information. The main discussion of this paper is to focus on the Chinese text clustering process. How to get a good clustering text set in the process ...
【更新日期】 2007-07-13

【相同导师文献】

导师:姚敏    导师单位:浙江大学    学位授予单位:浙江大学
[1] 官万先.基于虚拟细胞成像和深度学习的神经元分支点检测方法[D]. 浙江大学,2018
[2] 徐志鑫.极限学习机隐含层节点选择算法研究[D]. 浙江大学,2017
[3] 李明攀.基于深度学习的目标检测算法研究[D]. 浙江大学,2018
[4] 陈坤.面向智能车辆的基础软件平台设计与实现[D]. 浙江大学,2015
[5] 曾斌.商品导购方法与关键技术研究[D]. 浙江大学,2015
[6] 杨颖.一种多差分向量的自适应差分演化算法[D]. 浙江大学,2015
[7] 赖盛章.大鼠机器人迷宫实验系统的设计与实现[D]. 浙江大学,2016
[8] 陈浩杰.面向微小卫星的Smart-OSEK OS设计与实现[D]. 浙江大学,2013
[9] 唐凯.基于MPC5668G多功能车载网关的设计与实现[D]. 浙江大学,2013
[10] 吴星和.图像情感语义注释与检索研究[D]. 浙江大学,2013

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要会议论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理

工业技术
  自动化技术、计算机技术
   自动化基础理论
    人工智能理论
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号