节点文献
《中国大百科全书》人物传记知识提取加工规范
The Specification for Biographic Knowledge Acquisition from Electronic Encyclopedia of China
【Author】 Yan Wei Wang Jie Shang Ying Song RouLanguage Information Processing Center Beijing Language and Culture University, Beijing 100083
【机构】 北京语言大学语言信息处理研究所;
【摘要】 将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投入。我们试图用计算机自动提取百科辞典中的知识,主要思路是降低要求,只提取有充分的、明确的形式特征的显性知识,并且先由人工模仿计算机进行提取,建立起显性知识的数据库,供计算机系统进行训练和测试。本文详细介绍了百科辞典中人物传记条目释文中显性知识的表示规范,包括知识点的取舍,简单知识和简单知识组的形式化表示方法,以及显性的复杂知识的提取方法。
【Abstract】 The formalization of cyclopedia knowledge is the base of knowledge service by computers. This can be achieved either by computers analyzing the syntactic or semantic structures of the texts, or by knowledge experts rewriting the contents of the lists. Both rely on the knowledge data acquired manually, which requires a high input of advanced manpower. Our effort, however, is to extract the knowledge in an automatic way with a lower requirement Firstly we acquire the knowledge with obvious features manually and build the knowledge base to be the training and testing corpus for automatic extraction. In this article we introduce our guideline for biographic knowledge acquisition from Electronic Encyclopedia of China, including the acceptance and rejection of knowledge items, the formalization of simple knowledge and simple knowledge group and the acquisition of dominant and complicated knowledge.
- 【会议录名称】 语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集
- 【会议名称】全国第七届计算语言学联合学术会议
- 【会议时间】2003-08
- 【会议地点】中国哈尔滨
- 【分类号】TP391.4
- 【主办单位】哈尔滨工业大学计算机科学与技术学院、清华大学智能技术与系统国家重点实验室