信息抽取(IE, Information Extraction)是继信息检索和机器翻译之后,信息处理领域倍受关注的一个重要的研究方向。IE的目的是抽取出指定的事件、事实等信息并填入一个数据库中供用户查询使用,只有得到各个实体之间的正确关系,才能进行正确的数据库填充。实体关系抽取成为影响IE系统质量的一个关键技术,有着广泛的应用背景。随着Internet的快速发展和网上信息量的迅猛增长,及自然语言处理技术和机器学习技术的不断发展和成熟,从自由文本中抽取出有用的结构化信息已经成为可能。
目前实体关系抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像google的Powerset语义搜索引擎、apache软件基金会的Lucene全文检索引擎架构等等。但是,对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意,实体抽取技术仍然面临着很多困难。
本文以Triples<实体,属性,值>(Entity-Artribute-Value,EAV)为研究对象(本文称为细粒度关系,或EAV关系),以HNC (Hierarchical Network of Concepts...
【英文摘要】
Information Extraction is an important research direction in the field of information processing after information retrieval and machine translation. The purpose of IE is to extract appointed events or facts and fill them into a database for users to query it, and only when the relations between the entities are right, then the database can be correctly filled. Relation extraction has become one key technology that effect the performance of IE system and it has extensive application background. With the rap...