节点文献

基于统计的云搜索中文分词算法

On Chinese word segmentation in cloud search engine

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 曾田日王晋国

【Author】 ZENG Tian-ri;WANG Jin-guo;Library,Shenzhen University;Scholl of Science,Chang’an University;

【机构】 深圳大学图书馆长安大学理学院

【摘要】 针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。

【Abstract】 Most of the current cloud search system only used simple forward maximum matching algorithm or backward maximum matching algorithm to segment Chinese words,which caused wrong segmenting easily. To resolve this problem,maximum average word length algorithm and minimum standard deviation algorithm were proposed to segment Chinese word and eliminate the ambiguity. The test proved that the algorithm proposed is significantly better than forward maximum matching algorithm and backward maximum matching algorithm.

【基金】 陕西省科技攻关基金资助项目(2013k06-27)
  • 【文献出处】 西北大学学报(自然科学版) ,Journal of Northwest University(Natural Science Edition) , 编辑部邮箱 ,2015年04期
  • 【分类号】TP391.3;TP391.1
  • 【被引频次】12
  • 【下载频次】145
节点文献中: 

本文链接的文献网络图示:

本文的引文网络