èŠ‚ç‚¹æ–‡çŒ®

åŸºäºŽBootstrappingçš„æ–‡æœ¬åˆ†ç±»æ¨¡åž‹

Semi-Supervised Text Categorization Using Bootstrapping

æŽ¨è CAJä¸‹è½½
PDFä¸‹è½½
ä¸æ”¯æŒè¿…é›·ç‰ä¸‹è½½å·¥å…·ï¼Œè¯·å–æ¶ˆåŠ é€Ÿå·¥å…·åŽä¸‹è½½ã€‚

ã€ä½œè€…ã€‘ é™ˆæ–‡äº®ï¼› æœ±æ…•åŽï¼› æœ±é–æ³¢ï¼› å§šå¤©é¡ºï¼›

ã€Authorã€‘ CHEN Wen liang, ZHU Mu hua, ZHU Jing bo, YAO Tian shun (Natural Language Processing Lab, Northeastern University, Shenyang, Liaoning 110004,China)

ã€æœºæž„ã€‘ ä¸œåŒ—å¤§å¦è‡ªç„¶è¯è¨€å¤„ç†å®žéªŒå®¤ï¼› ä¸œåŒ—å¤§å¦è‡ªç„¶è¯è¨€å¤„ç†å®žéªŒå®¤ è¾½å®æ²ˆé˜³110004ï¼› è¾½å®æ²ˆé˜³110004ï¼› è¾½å®æ²ˆé˜³110004ï¼›

ã€æ‘˜è¦ã€‘ æœ¬æ–‡æå‡ºä¸€ç§åŸºäºŽBootstrappingçš„æ–‡æœ¬åˆ†ç±»æ¨¡åž‹ ,è¯¥æ¨¡åž‹é‡‡ç”¨æœ€å¤§ç†µæ¨¡åž‹ä½œä¸ºåˆ†ç±»å™¨ ,ä»Žå°‘é‡çš„ç§åé›†å‡ºå‘ ,è‡ªåŠ¨å¦ä¹ æ›´å¤šçš„æ–‡æœ¬ä½œä¸ºæ–°çš„ç§åæ ·æœ¬ ,è¿™æ ·ä¸æ–å¦ä¹ æ¥æé«˜æœ€å¤§ç†µåˆ†ç±»å™¨çš„æ–‡æœ¬åˆ†ç±»æ€§èƒ½ã€‚æ–‡ä¸æå‡ºä¸€ä¸ªæƒé‡å› åæ¥è°ƒæ•´æ–°çš„ç§åæ ·æœ¬åœ¨åˆ†ç±»å™¨è®ç»ƒè¿‡ç¨‹ä¸çš„æƒé‡ã€‚å®žéªŒç»“æžœè¡¨æ˜Ž ,åœ¨ç›¸åŒçš„æ‰‹å·¥è®ç»ƒè¯æ–™çš„æ¡ä»¶ä¸‹ ,ä¸Žä¼ ç»Ÿçš„æ–‡æœ¬åˆ†ç±»æ¨¡åž‹ç›¸æ¯”è¿™ç§åŸºäºŽBootstrappingçš„æ–‡æœ¬åˆ†ç±»æ¨¡åž‹å…·æœ‰æ˜Žæ˜¾ä¼˜åŠ¿ ,ä»…ä½¿ç”¨æ¯ç±»10 0ç¯‡ç§åè®ç»ƒé›† ,åˆ†ç±»ç»“æžœçš„F1å€¼ä¸º 70 5 6 % ,æ¯”ä¼ ç»Ÿæ¨¡åž‹é«˜å‡º 4 70 %ã€‚è¯¥æ¨¡åž‹é€šè¿‡ä½¿ç”¨é€‚å½“çš„æƒé‡å› åå¯ä»¥æ›´å¥½æ”¹å–„åˆ†ç±»å™¨çš„è®ç»ƒæ•ˆæžœã€‚æ›´å¤š è¿˜åŽŸ

ã€Abstractã€‘ This paper proposes a semi supervised text categorization using bootstrapping. The System uses the Maximum Entropy Model as the text classifier. It learns more automatic labeled samples as new seed training samples from unlabeled samples using a small size of seed training samples. In this paper, we use a weighted factor to adjust the weight of new seed samples during the following training process. The experimental results show that the proposed system performs better than the conventional system with the same labeled documents. And it yields 70 56% F1 using only 100 labeled documents for each category, 4 7% over the conventional system does. And it can provide the same performance as the conventional system using 50% or less training samples. The results also show that the weighted factor can improve the performance.æ›´å¤š è¿˜åŽŸ

ã€å…³é”®è¯ã€‘ è®¡ç®—æœºåº”ç”¨ï¼› ä¸æ–‡ä¿¡æ¯å¤„ç†ï¼› æ–‡æœ¬åˆ†ç±»ï¼› æœ€å¤§ç†µæ¨¡åž‹ï¼› æƒé‡å› åï¼›
ã€Key wordsã€‘ computer applicationï¼› Chinese information processingï¼› text categorizationï¼› maximum entropyï¼› weight factorï¼›

ã€åŸºé‡‘ã€‘ å›½å®¶è‡ªç„¶ç§‘å¦åŸºé‡‘;å¾®è½¯äºšæ´²ç ”ç©¶é™¢è”åˆèµ„åŠ©é¡¹ç›® (6 0 2 6 0 319);æ•™è‚²éƒ¨ç§‘å¦æŠ€æœ¯ç ”ç©¶é‡ç‚¹èµ„åŠ©é¡¹ç›® (10 4 0 6 5 ) ;å›½å®¶è‡ªç„¶ç§‘å¦åŸºé‡‘èµ„åŠ©é¡¹ç›® (6 0 4 714 0 )

ã€æ–‡çŒ®å‡ºå¤„ã€‘ ä¸æ–‡ä¿¡æ¯å¦æŠ¥ ,Journal of Chinese Information Processing , ç¼–è¾‘éƒ¨é‚®ç®± ,2005å¹´02æœŸ

ã€åˆ†ç±»å·ã€‘TP391.1
ã€è¢«å¼•é¢‘æ¬¡ã€‘23
ã€ä¸‹è½½é¢‘æ¬¡ã€‘525

çŸ¥ç½‘èŠ‚ä¸‹è½½

èŠ‚ç‚¹æ–‡çŒ®ä¸ï¼š

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

æœ¬æ–‡çš„å¼•æ–‡ç½‘ç»œ

èŠ‚ç‚¹æ–‡çŒ®