èŠ‚ç‚¹æ–‡çŒ®

ä¸€ä¸ªåŸºäºŽç‰¹å¾å‘é‡çš„è¿‘ä¼¼ç½‘é¡µåŽ»é‡ç®—æ³•

An algorithm of Large Scale Duplicated Chinese Web Pages Detection

æŽ¨è CAJä¸‹è½½
PDFä¸‹è½½
ä¸æ”¯æŒè¿…é›·ç‰ä¸‹è½½å·¥å…·ï¼Œè¯·å–æ¶ˆåŠ é€Ÿå·¥å…·åŽä¸‹è½½ã€‚

ã€ä½œè€…ã€‘ æ›¹çŽ‰å¨Ÿï¼› ç‰›æŒ¯ä¸œï¼› å½å¦å¹³ï¼› æ±Ÿé¹ï¼›

ã€Authorã€‘ Yujuan Cao~(1,2) Zhendong Niu~1 Xuepin Peng~1 Peng Jiang 1(School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China) 2(Beijing Aerospace Command Centre,Beijing 100094,China)

ã€æœºæž„ã€‘ åŒ—äº¬ç†å·¥å¤§å¦è®¡ç®—æœºç§‘å¦æŠ€æœ¯å¦é™¢ï¼› åŒ—äº¬èˆªå¤©é£žè¡ŒæŽ§åˆ¶ä¸å¿ƒï¼›

ã€æ‘˜è¦ã€‘ åœ¨æœç´¢å¼•æ“Žçš„æ£€ç´¢ç»“æžœé¡µé¢ä¸,ç”¨æˆ·ç»å¸¸ä¼šå¾—åˆ°å†…å®¹ç›¸ä¼¼çš„é‡å¤é¡µé¢,å®ƒä»¬ä¸å¤§å¤šæ˜¯ç”±äºŽç½‘ç«™ä¹‹é—´è½¬è½½é€ æˆçš„ã€‚ä¸ºæé«˜æ£€ç´¢æ•ˆçŽ‡å’Œç”¨æˆ·æ»¡æ„åº¦,æå‡ºä¸€ç§åŸºäºŽç‰¹å¾å‘é‡çš„å¤§è§„æ¨¡ä¸æ–‡è¿‘ä¼¼ç½‘é¡µæ£€æµ‹ç®—æ³•DDW(Detect near-Duplicate WebPages)ã€‚è¯•éªŒè¯æ˜Ž,æ¯”èµ·å…¶å®ƒç½‘é¡µåŽ»é‡ç®—æ³•(I-Match),DDWå…·æœ‰å¾ˆå¥½çš„æŠµæŠ—å™ªå£°çš„èƒ½åŠ›åŠè¿‘ä¼¼çº¿æ€§çš„æ—¶é—´å’Œç©ºé—´å¤æ‚åº¦,åœ¨å¤§è§„æ¨¡å®žéªŒä¸èŽ·å¾—è‰¯å¥½æµ‹è¯•ç»“æžœã€‚æ›´å¤š è¿˜åŽŸ

ã€Abstractã€‘ Reprinting information among websites produces a great deal redundant WebPages.To improve search efficiency and user satisfaction,an algorithm to Detect near-Duplicate WebPages based on feature selection (DDW)is proposed.In the course of developing a near-duplicate detection system for a multi-billion pages repository,we make two research contributions.The experimental results demonstrate that our approach outperforms I-Match algorithm.In large-scale test,approximate linear time and space complexity are gotten.æ›´å¤š è¿˜åŽŸ

ã€å…³é”®è¯ã€‘ ç½‘é¡µåŽ»é‡ç®—æ³•ï¼› ç‰¹å¾å‘é‡ï¼› è¿‘ä¼¼ç½‘é¡µï¼› æ”¯æŒå‘é‡æœºï¼›
ã€Key wordsã€‘ Duplicate Removal Algorithmï¼› Featuresï¼› Near Duplicate Web Pagesï¼› SVM Standard Deviatinï¼›

ã€åŸºé‡‘ã€‘ æ•™è‚²éƒ¨æ–°ä¸–çºªä¼˜ç§€äººæ‰é¡¹ç›®è®¡åˆ’;éœè‹±ä¸œé’å¹´æ•™å¸ˆå¥–åŠ±èµ„åŠ©åŸºé‡‘;å›½é˜²ç§‘ç ”åŸºç¡€ç ”ç©¶åŸºé‡‘ç‰æ”¯æŒã€‚

ã€ä¼šè®®å½•åç§°ã€‘ ä¸å›½ç´¢å¼•å¦ä¼šç¬¬ä¸‰æ¬¡å…¨å›½ä¼šå‘˜ä»£è¡¨å¤§ä¼šæš¨å¦æœ¯è®ºå›è®ºæ–‡é›†

ã€ä¼šè®®åç§°ã€‘ä¸å›½ç´¢å¼•å¦ä¼šç¬¬ä¸‰æ¬¡å…¨å›½ä¼šå‘˜ä»£è¡¨å¤§ä¼šæš¨å¦æœ¯è®ºå›

ã€ä¼šè®®æ—¶é—´ã€‘2008-11
ã€ä¼šè®®åœ°ç‚¹ã€‘ä¸å›½åŒ—äº¬
ã€åˆ†ç±»å·ã€‘G354

ã€ä¸»åŠžå•ä½ã€‘ä¸å›½ç´¢å¼•å¦ä¼šï¼ˆChina Society of Indexersï¼‰ã€åŒ—äº¬ç†å·¥å¤§å¦

çŸ¥ç½‘èŠ‚ä¸‹è½½

èŠ‚ç‚¹æ–‡çŒ®ä¸ï¼š

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

æœ¬æ–‡çš„å¼•æ–‡ç½‘ç»œ

èŠ‚ç‚¹æ–‡çŒ®

èŠ‚ç‚¹æ–‡çŒ®

ä¸€ä¸ªåŸºäºŽç‰¹å¾å‘é‡çš„è¿‘ä¼¼ç½‘é¡µåŽ»é‡ç®—æ³•

An algorithm of Large Scale Duplicated Chinese Web Pages Detection

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

ä¸€ä¸ªåŸºäºŽç‰¹å¾å‘é‡çš„è¿‘ä¼¼ç½‘é¡µåŽ»é‡ç®—æ³•