节点文献
文本相似度计算的一种新方法
A New Method for Text Similarity Computing
【摘要】 <正> 1 引言目前信息检索技术已应用于许多领域,尤其广泛应用在Internet网络、图书馆等领域,为快速查阅文本信息提供极大便利。文本信息检索利用文本相似度描述文本与查询式之间的匹配程度。计算文本相似度的传统方法有向量空间模型,它把文本和查询式表示成以词为元素单位的向量,根据词频tf以及逆文本频率idf,赋予该向量各个分量的权值,与欧氏空间的向量1-1对应,用向量夹角的余弦值定量表示文本和查询式之间的相似度,即
【Abstract】 The traditional methods for text similarity computing are to compute the cosine valve of angle between twovectors. A new formula is constructed based on Hamming distance. Experiments show that our method has some advantages over others.
【关键词】 Tests classification. Information retrieval;
Hamming distance;
【Key words】 Tests classification. Information retrieval; Hamming distance;
【Key words】 Tests classification. Information retrieval; Hamming distance;
【基金】 国家自然科学基金(项目编号69982001)
- 【文献出处】 计算机科学 ,Computer Science , 编辑部邮箱 ,2002年07期
- 【分类号】TP393.09
- 【被引频次】26
- 【下载频次】668