节点文献

改进空间向量模型主题网络爬虫系统

Topic-Focused Web Crawler System

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 徐明子吕立李喜旺

【Author】 XU Ming-Zi1,2, LV Li2, LI Xi-Wang21(Graduate University,Chinese Academy of Sciences,Beijing 100049,China) 2(Shenyang Institute of Computing Technology,Chinese Academy of Sciences,Shenyang 110168,China)

【机构】 中国科学院研究生院中国科学院沈阳计算技术研究所

【摘要】 详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性.

【Abstract】 This paper researched key techniques of topic-focused web crawler at first,then designed and implemented a crawler system by using improved slef-adapted vector space model.It analysised documents both in text and links.As the same time,this paper also comed up with a web search stategy based on gene factor combined with manully control.This strategy can solve the problem of searching path blocked.In the end,we provide some experiment results to prove the feasibility and advantages of our system from recall ratio and precision ratio.

  • 【文献出处】 计算机系统应用 ,Computer Systems & Applications , 编辑部邮箱 ,2013年07期
  • 【分类号】TP391.3
  • 【被引频次】23
  • 【下载频次】279
节点文献中: 

本文链接的文献网络图示:

本文的引文网络