节点文献
一个基于特征向量的近似网页去重算法
An algorithm of Large Scale Duplicated Chinese Web Pages Detection
【Author】 Yujuan Cao~(1,2) Zhendong Niu~1 Xuepin Peng~1 Peng Jiang 1(School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China) 2(Beijing Aerospace Command Centre,Beijing 100094,China)
【机构】 北京理工大学计算机科学技术学院; 北京航天飞行控制中心;
【摘要】 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages)。试验证明,比起其它网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
【Abstract】 Reprinting information among websites produces a great deal redundant WebPages.To improve search efficiency and user satisfaction,an algorithm to Detect near-Duplicate WebPages based on feature selection (DDW)is proposed.In the course of developing a near-duplicate detection system for a multi-billion pages repository,we make two research contributions.The experimental results demonstrate that our approach outperforms I-Match algorithm.In large-scale test,approximate linear time and space complexity are gotten.
【Key words】 Duplicate Removal Algorithm; Features; Near Duplicate Web Pages; SVM Standard Deviatin;
- 【会议录名称】 中国索引学会第三次全国会员代表大会暨学术论坛论文集
- 【会议名称】中国索引学会第三次全国会员代表大会暨学术论坛
- 【会议时间】2008-11
- 【会议地点】中国北京
- 【分类号】G354
- 【主办单位】中国索引学会(China Society of Indexers)、北京理工大学