节点文献

构造Web文档中半结构化信息的技术

Extracting Semistructured Information from Web

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 黄豫清戚广智张福炎

【Author】 HUANG Yu Qing QI Guang Zhi ZHANG Fu Yan (Institute of Multimedia Computer, Nanjing University, Nanjing 210093)

【机构】 南京大学多媒体计算机研究所!南京210093

【摘要】 为了对 Web上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (OEM)建立了Web上信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .

【Abstract】 In order to integrate and query irregular and dynamic information on Web in a database like fashion, we use Object Exchange Model (OEM) to construct information model of Web. In order to express each component of pages as an OEM object, this paper designs an arithmetic which extracts semistructured data from HTML pages, shows testing results. Our method can extract structured and semistructured data. It has more applicability than other existing methods.

  • 【文献出处】 计算机辅助设计与图形学学报 ,JOURAAL OF COMPUTER AIDED DESIGN & COMPUTER GRAPHICS , 编辑部邮箱 ,2000年03期
  • 【分类号】TP311.13
  • 【被引频次】10
  • 【下载频次】92
节点文献中: 

本文链接的文献网络图示:

本文的引文网络