节点文献

一种支持文本局部区域匹配的搜索引擎系统

A Novel Search Engine Supporting Text Area Matching

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 陈旻金苍宏吴明晖应晶

【Author】 Chen Min~1,Jin Canghong~1,Wu Minghui~(1,2),and Ying Jing~(1,2) 1(College of Computer Science,Zhejiang University,Hangzhou 310007) 2(Department of Computer Science and Engineering,Zhejiang University City College,Hangzhou 310015)

【机构】 浙江大学计算机学院浙江大学城市学院计算机科学与工程学系

【摘要】 使用索引可以提高管理文本信息的效率,但传统的搜索引擎返回结果为文本全文,表示该单词包含在文本文件中.其语义较为模糊,从而降低了信息管理、信息提取的有效性.针对文本特定上下文区域进行检索,可以获得关键词相关的语义环境,从而更有效地管理文本信息.介绍了一种基于上下文索引的文本局部匹配搜索引擎,该引擎包含上下文提取语言、上下文索引、匹配算法等模块,可以在文本的特定范围内提取模式信息,同时支持索引的随机访问和匹配.最后,以从20 Newsgroups数据集中提取出组织名称、发件人,邮件主题等为例,演示本引擎的功能.

【Abstract】 Using an index can improve the efficiency of the management of textual information,but traditional method returning the full text will reduce the effectiveness of information management and information retrieval.Retrieval for the specific context of the text area can get semantic environment related to keywords,which can extract text information more effectively.This article describes a partly match text search engine based on context index.This search engine contains several modules, such as context extract language,context index and matching algorithm that is used to extract pattern matching information within a specified range.Finally,we take extracting organization and sender from the message data set as an example,to show the function of the engine.

【基金】 国家科技重大专项课题(2011ZX0302-004-002,2009ZX07424-001);浙江省重点创新团队基金项目(2010R50009);清华腾讯互联网创新技术基金项目(2011-8)
  • 【会议录名称】 第29届中国数据库学术会议论文集(B辑)(NDBC2012)
  • 【会议名称】第29届中国数据库学术会议(NDBC2012)
  • 【会议时间】2012-10-12
  • 【会议地点】中国安徽合肥
  • 【分类号】TP391.3
  • 【主办单位】中国计算机学会(China Computer Federation)
节点文献中: 

本文链接的文献网络图示:

本文的引文网络