节点文献
字串去重的快速算法研究
Research on Fast Algorithms for Removing Redundant Strings in a String Set
【摘要】 针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。
【Abstract】 In this paper,we suggest several fast algorithms for removing redundant strings in a string set,their time complexity is O(n log n ) and space complexity is O(n). When processing Chinese strings,we first utilize hashing operation with the first Chinese character,then sort the string subset and remove redundant strings,which is superior to sorting by using quicksort directly.We spend only 50ms in removing 194 redundant items in a Chinese Biology Electronic Thesaurus including 11008 items.
【关键词】 字串去重;
Hash;
快速排序;
时间复杂度;
【Key words】 removing redundant strings; hash; quicksort; time complexity.;
【Key words】 removing redundant strings; hash; quicksort; time complexity.;
【基金】 国家 8 6 3计划资助!合同号 :86 3 30 6 ZD0 3 0 4 1
- 【文献出处】 情报学报 ,JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC AND TECHNICAL INFORMATION , 编辑部邮箱 ,2000年03期
- 【分类号】G356.7
- 【被引频次】7
- 【下载频次】131