节点文献
基于大规模调查的动词重叠形式自动识别方法与形式特征研究
A Study on Recognition and Features Investigation of Chinese Verb-reduplication Based on Large Corpus
【作者】 尚英;
【导师】 宋柔;
【作者基本信息】 北京语言大学 , 语言学及应用语言学, 2004, 硕士
【摘要】 动词重叠在现代汉语中是一种常见的语法现象,传统语言学领域对动词重叠进行过大量研究,但调查规模比较小,并且侧重于语法意义的研究。汉语教学、汉语研究、汉语信息处理都需要更大规模地调查研究动词重叠的形式特征。对动词重叠形式的计算机自动识别还没有见到过成果报道,但这是进行大规模调查的前提条件。动词重叠形式的自动识别和形式特征调查对用统计方法处理汉语将起到很重要的作用。 本文的研究主要包括两部分。一部分是对VV、V一V、V了V、V了一V等常见动词重叠形式自动识别方法的研究和分布的统计:一部分是在大规模的语料中对这些动词重叠形式的特征(包括句法功能特征及线性邻接特征)进行调查研究。这两方面的研究都采用人机结合的办法:计算机软件在基本保证召回率的条件下进行尽量准确的自动检索和统计,人在此基础上进行筛选并总结规则。 我们的识别工作在近8000万字的当代大陆小说文本库进行。我们的识别方法能够保证相当高的召回率。从准确率看,对于单字动词VV式重叠的识别用简单的规则还难以达到高准确率,其他各种动词重叠形式自动识别的准确率可以达到实用目标。单字动词VV式重叠利用一般化规则和实例化的个性规则也可以达到接近实用的准确水平。 分布统计工作在当代大陆小说、现代名家小说、人民日报、科技论文这4个文本库(共2亿多字)中进行。 对于VV、V一V、V了V、V了一V等几种主要的动词重叠形式的句法功能特征及线性邻接特征进行的调查研究,也建立在近8000万字规模的当代小说文本的基础上,这在以前的传统语言学领域中还没有人做过。因此我们所得的结果,一方面可以为相关研究提供可靠的数据,另一方面也启发我们从新的角度研究动词重叠形式。
【Abstract】 Verb-reduplication is a frequent grammatical phenomenon in contemporary Chinese. Extensive research has been made on it in traditional linguistics, but it is on the small scale and the focus is on the grammatical meaning. Chinese teaching, Chinese research and Chinese information processing need the investigation of verb-reduplication features on a larger scale. The automatic recognition of verb-reduplication is the precondition for the investigation of verb-reduplication features.The paper includes two parts. One is the automatic recognition and investigation of distribution of verb-reduplication which takes the form of W, V - V,V T V,V T - V, etc. The other part is the investigation of verb-reduplication’s features (both syntax function features and linear neighbouring features included) in the large scale corpus.Our recognition is based on a corpus of 80 million characters. The recognition method insures the high recall and applicable precision.The research and investigation of verb-reduplication’s features is also based on 80 million characters novels corpus. Our results can provide reliable data to related research, and also inspires the study on verb-reduplication from a new perspective.
【Key words】 verb-reduplication; automatic recognition; grammar features; linear neighbouring features;
- 【网络出版投稿人】 北京语言大学 【网络出版年期】2005年 01期
- 【分类号】H146
- 【被引频次】8
- 【下载频次】447