èŠ‚ç‚¹æ–‡çŒ®

åŸºäºŽæ ·æœ¬å®žä¾‹çš„Webä¿¡æ¯æŠ½å–

Web Information Extraction Based on Samples

æŽ¨è CAJä¸‹è½½
PDFä¸‹è½½
ä¸æ”¯æŒè¿…é›·ç‰ä¸‹è½½å·¥å…·ï¼Œè¯·å–æ¶ˆåŠ é€Ÿå·¥å…·åŽä¸‹è½½ã€‚

ã€ä½œè€…ã€‘ å¼ ç»åŽï¼› å¾æž—æ˜Šï¼› æ¨æ–‡æŸ±ï¼› è–›æ–‡çŽ²ï¼› æŽå¤©æŸ±ï¼›

ã€Authorã€‘ ZHANG Shao hua, XU Lin hao, YANG Wen zhu, XUE Wen ling, LI Tian zhu(College of Mathematics and Computer,Hebei University,Baoding 071002,China)

ã€æœºæž„ã€‘ æ²³åŒ—å¤§å¦æ•°å¦ä¸Žè®¡ç®—æœºå¦é™¢ï¼› æ²³åŒ—å¤§å¦æ•°å¦ä¸Žè®¡ç®—æœºå¦é™¢ æ²³åŒ—ä¿å®š071002ï¼› æ²³åŒ—ä¿å®š071002ï¼› æ²³åŒ—ä¿å®š071002ï¼›

ã€æ‘˜è¦ã€‘ ä¸»è¦ç ”ç©¶äº†åŸºäºŽHTMLæ–‡æ¡£çš„ä¿¡æ¯æŠ½å– ,æå‡ºäº†ä¸€ç§åŸºäºŽæ ·æœ¬å®žä¾‹çš„Webä¿¡æ¯æŠ½å–çš„æ–¹æ³• .ç”¨æˆ·é¦–å…ˆé€‰å®šæ ·æœ¬é¡µé¢å’Œé¢„å…ˆå®šä¹‰æ¨¡å¼ (åŸºäºŽO -Ræ¨¡åž‹ ) ,ç„¶åŽå¯¹æ ·æœ¬é¡µé¢å’Œå…¶ä¸çš„æ ·æœ¬è®°å½•è¿›è¡Œæ ‡è®°ã€å¦ä¹ ,å½¢æˆä¿¡æ¯æŠ½å–è§„åˆ™ ,å¹¶å˜å…¥çŸ¥è¯†åº“ ;åˆ©ç”¨çŸ¥è¯†åº“å¯¹å…¶ä»–åŒç±»é¡µé¢è‡ªåŠ¨æŠ½å–æ‰€éœ€çš„ä¿¡æ¯ ,å˜å…¥æ•°æ®åº“ä¸ .æœ¬æ–¹æ³•å¯ç”¨äºŽWebæŸ¥è¯¢ ,ä¹Ÿå¯ç”¨äºŽä¿¡æ¯é›†æˆçš„åŒ…è£…å™¨ .æ›´å¤š è¿˜åŽŸ

ã€Abstractã€‘ This paper mainly discusses an approach of information extraction from HTML documents and presents a samples-based method of fast information extraction. User first chooses the sample pages,predefined scheme(based on O-R model) and marks sample reords,then the system automatically form extraction rules from userâ€™s marking behaviors on pages. All the rules are stored into knowledge base. The system can automatically extract information from other similar pages using the knowledge in knowledge base and the information extracted is stored into database. The method can be applied to Web query and wrappers for information integration.æ›´å¤š è¿˜åŽŸ

ã€å…³é”®è¯ã€‘ HTMLï¼› æ¨¡å¼ï¼› æŠ½å–å™¨ï¼› ä¿¡æ¯æŠ½å–ï¼› WebæŸ¥è¯¢ï¼›
ã€Key wordsã€‘ HTMLï¼› schemaï¼› information extractionï¼› Web queryï¼› wrapperï¼›

ã€æ–‡çŒ®å‡ºå¤„ã€‘ æ²³åŒ—å¤§å¦å¦æŠ¥(è‡ªç„¶ç§‘å¦ç‰ˆ) ,Journal of Hebei University(Natural Science Edition) , ç¼–è¾‘éƒ¨é‚®ç®± ,2001å¹´04æœŸ

ã€åˆ†ç±»å·ã€‘TP393
ã€è¢«å¼•é¢‘æ¬¡ã€‘74
ã€ä¸‹è½½é¢‘æ¬¡ã€‘336

çŸ¥ç½‘èŠ‚ä¸‹è½½

èŠ‚ç‚¹æ–‡çŒ®ä¸ï¼š

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

æœ¬æ–‡çš„å¼•æ–‡ç½‘ç»œ

èŠ‚ç‚¹æ–‡çŒ®

èŠ‚ç‚¹æ–‡çŒ®

åŸºäºŽæ ·æœ¬å®žä¾‹çš„Webä¿¡æ¯æŠ½å–

Web Information Extraction Based on Samples

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

åŸºäºŽæ ·æœ¬å®žä¾‹çš„Webä¿¡æ¯æŠ½å–