节点文献

字串去重的快速算法研究

Research on Fast Algorithms for Removing Redundant Strings in a String Set

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 陈桂林王永成

【Author】 Chen Guilin and Wang Yongcheng (Computer Center of Shanghai Jiao Tong University,Shanghai 200030)

【机构】 上海交通大学网络信息中心!上海200030

【摘要】 针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。

【Abstract】 In this paper,we suggest several fast algorithms for removing redundant strings in a string set,their time complexity is O(n log n ) and space complexity is O(n). When processing Chinese strings,we first utilize hashing operation with the first Chinese character,then sort the string subset and remove redundant strings,which is superior to sorting by using quicksort directly.We spend only 50ms in removing 194 redundant items in a Chinese Biology Electronic Thesaurus including 11008 items.

【基金】 国家 8 6 3计划资助!合同号 :86 3 30 6 ZD0 3 0 4 1
  • 【文献出处】 情报学报 ,JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC AND TECHNICAL INFORMATION , 编辑部邮箱 ,2000年03期
  • 【分类号】G356.7
  • 【被引频次】7
  • 【下载频次】131
节点文献中: 

本文链接的文献网络图示:

本文的引文网络