节点文献

一个基于特征向量的近似网页去重算法

An algorithm of Large Scale Duplicated Chinese Web Pages Detection

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 曹玉娟牛振东彭学平江鹏

【Author】 Yujuan Cao~(1,2) Zhendong Niu~1 Xuepin Peng~1 Peng Jiang 1(School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China) 2(Beijing Aerospace Command Centre,Beijing 100094,China)

【机构】 北京理工大学计算机科学技术学院北京航天飞行控制中心

【摘要】 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages)。试验证明,比起其它网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

【Abstract】 Reprinting information among websites produces a great deal redundant WebPages.To improve search efficiency and user satisfaction,an algorithm to Detect near-Duplicate WebPages based on feature selection (DDW)is proposed.In the course of developing a near-duplicate detection system for a multi-billion pages repository,we make two research contributions.The experimental results demonstrate that our approach outperforms I-Match algorithm.In large-scale test,approximate linear time and space complexity are gotten.

【基金】 教育部新世纪优秀人才项目计划;霍英东青年教师奖励资助基金;国防科研基础研究基金等支持。
  • 【会议录名称】 中国索引学会第三次全国会员代表大会暨学术论坛论文集
  • 【会议名称】中国索引学会第三次全国会员代表大会暨学术论坛
  • 【会议时间】2008-11
  • 【会议地点】中国北京
  • 【分类号】G354
  • 【主办单位】中国索引学会(China Society of Indexers)、北京理工大学
节点文献中: 

本文链接的文献网络图示:

本文的引文网络