中国学术期刊网络出版总库
  关闭
基于网络蜘蛛的新词自动发现算法研究  
   推荐 CAJ下载 PDF下载
【英文篇名】 Automatic extracting algorithm of new words based on web spider
【下载频次】 ★★★☆
【作者】 潘欣; 吕静波; 张素莉;
【英文作者】 PAN Xin; etc.(Faculty of Electrical & Information Engineering; Changchun Institute of Technology; Changchun 130012; China);
【作者单位】 长春工程学院电气与信息工程学院; 长春高新区长东北核心区管理委员会;
【文献出处】 长春工程学院学报(自然科学版) , Journal of Changchun Institute of Technology(Natural Sciences Edition), 编辑部邮箱 2011年 03期  
期刊荣誉:ASPT来源刊  CJFD收录刊
【中文关键词】 中文分词; 词典; 新词发现; 网络蜘蛛;
【英文关键词】 Chinese word segmentation; lexicon-based; new word extraction; web spider;
【摘要】 提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网上快速搜集新词,获得的词典在分词能力上较传统方法有很大提高。
【英文摘要】 This paper introduces a new word extracting algorithm based on web spider.This algorithm can timely and effectively find new information from the internet,and automatically find some new words.The experiment shows that the proposed method can extract new words from internet very fast,and greatly improve the word segmentation in the achieved lexicon than the traditional method.
【基金】 吉林省科技厅青年基金的资助(20100190); 吉林省教育厅基金项目资助(2010No.422)
【更新日期】 2011-11-30
【分类号】 TP391.1
【正文快照】 0引言文本分析技术广泛应用于搜索引擎、文本数据挖掘、舆情监控等领域。要进行文本分析首先要将句子拆分成独立的词。对于英文等西方语言文本,由于词和词之间本身就存在间隔,所以可以直接拆分;对于中文文本,由于句子是由无间隔的字组成的,所以需要进行中文分词操作[1]。中文分

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号