节点文献
基于样本实例的Web信息抽取
Web Information Extraction Based on Samples
【摘要】 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .
【Abstract】 This paper mainly discusses an approach of information extraction from HTML documents and presents a samples-based method of fast information extraction. User first chooses the sample pages,predefined scheme(based on O-R model) and marks sample reords,then the system automatically form extraction rules from user’s marking behaviors on pages. All the rules are stored into knowledge base. The system can automatically extract information from other similar pages using the knowledge in knowledge base and the information extracted is stored into database. The method can be applied to Web query and wrappers for information integration.
- 【文献出处】 河北大学学报(自然科学版) ,Journal of Hebei University(Natural Science Edition) , 编辑部邮箱 ,2001年04期
- 【分类号】TP393
- 【被引频次】74
- 【下载频次】336