【英文题名】
Focused Web Crawling Technology
【作者】
李盛韬 ;
【导师】
白硕 ;
【学位授予单位】
中国科学院研究生院(计算技术研究所) ;
【学科专业名称】
计算机软件与理论
【学位年度】
2002
【论文级别】
硕士
【网络出版投稿人】
中国科学院研究生院(计算技术研究所)
【网络出版投稿时间】
2006-12-27
【关键词】
Web ;
信息采集 ;
主题 ;
受限 ;
搜索引擎 ;
PageRank ;
IPageRank ;
【英文关键词】
Web ;
Information Crawling ;
Information Gathering ;
Topic ;
Limited ;
Search Engine ;
PageRank ;
IPageRank ;
【中文摘要】
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。
根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:
在Hub特性、Linkage/Sibling Locality特性、站点主题特...
【英文摘要】
With information rapidly expanding in the Web, many Web services accordingly boom up. As a basic foundation and important component of these services, Web crawling is applying in the fields search engine, site structure analysing, Web graph evolution, users' interests mining, and individual information retrieval. However, facing with people requesting more and more rigorous and prolific, traditional scalable Web crawling technology do not satisfying people's needs well. It can not gather data a...
【更新日期】
2007-02-02
【相同导师文献】
导师:白硕 导师单位:中国科学院计算技术研究所 学位授予单位:中国科学院研究生院(计算技术研究所)
[1] 连浩.基于布尔模型的网页查重算法研究 [D]. 中国科学院研究生院(计算技术研究所),2006
[2] 邓晶.整体/高频优先原理 [D]. 中国科学院研究生院(计算技术研究所),1996
[3] 卜东波.命题逻辑的可满足性问题:复杂性和算法 [D]. 中国科学院研究生院(计算技术研究所),1997
[4] 王伟.虚拟专用网研究与系统实现 [D]. 中国科学院研究生院(计算技术研究所),2002
[5] 李盛韬.基于主题的Web信息采集技术研究 [D]. 中国科学院研究生院(计算技术研究所),2002
[6] 常毅.开放领域的问答系统研究 [D]. 中国科学院研究生院(计算技术研究所),2004
[7] 谢华刚.安全Web服务器 [D]. 中国科学院研究生院(计算技术研究所),2000
[8] 张健.基于实例的机器翻译的泛化方法研究 [D]. 中国科学院研究生院(计算技术研究所),2001
[9] 韩勇.DDoS攻击检测和响应技术研究 [D]. 中国科学院研究生院(计算技术研究所),2005
[10] 刘萍.面向网络内容筛选的串匹配技术研究 [D]. 中国科学院研究生院(计算技术研究所),2005
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。