节点文献

基于HMM的百科辞典文本中知识点划分方法

A HMM Based Topic Categorization of Sentences in Encyclopedia Texts

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 许勇宋柔

【Author】 XU Yong SONG Rou(Dept. of Computer Science, Beijing University of Technology, Beijing 100022);2(Dept. of Computer Science, Beijing Language and Culture University, Beijing 100083)

【机构】 北京工业大学计算机学院北京语言大学计算机系

【摘要】 在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的条目文本中的分布有较强的规律性。在条目文本中划分出这些知识点是百科全书中知识提取过程的重要一环。本文中提出了一种基于隐马尔科夫(HMM)模型的划分方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别,从而达到划分知识点的目的。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。

【Abstract】 There is a certain common text structure shared by the articles dealing with the same kind items of encyclopedia. In other words, there are several common topics appear in most of these texts, and the sequences of the topics in these texts are similar to each other. In the case of articles dealing with Chinese City, every sentence is covered by one of the common topics, like Area and Population, Clime etc. Automatic categorization of each sentence according to common topics will be very useful in encyclopedia knowledge retrieval. This paper presented a HMM based method of sentence categorization according to common topics, which utilizes the topic transitional information. Experiment shows that this method can provide acceptable performance; the precision of the sentence categorization in the Chinese City articles is 91.8%

【基金】 国家自然科学基金(60272055);国家863计划(2001AA114111)的资助
  • 【会议录名称】 第二届全国学生计算语言学研讨会论文集
  • 【会议名称】第二届全国学生计算语言学研讨会
  • 【会议时间】2004-08
  • 【分类号】TP391.1
  • 【主办单位】中国中文信息学会
节点文献中: