节点文献
构造Web文档中半结构化信息的技术
Extracting Semistructured Information from Web
【摘要】 为了对 Web上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (OEM)建立了Web上信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .
【Abstract】 In order to integrate and query irregular and dynamic information on Web in a database like fashion, we use Object Exchange Model (OEM) to construct information model of Web. In order to express each component of pages as an OEM object, this paper designs an arithmetic which extracts semistructured data from HTML pages, shows testing results. Our method can extract structured and semistructured data. It has more applicability than other existing methods.
- 【文献出处】 计算机辅助设计与图形学学报 ,JOURAAL OF COMPUTER AIDED DESIGN & COMPUTER GRAPHICS , 编辑部邮箱 ,2000年03期
- 【分类号】TP311.13
- 【被引频次】10
- 【下载频次】92