寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以非小细胞肺癌相关基因为研究主题,通过文献轮廓的方法,对与非小细胞肺癌特定基因相关的医学文献进行挖掘分析,从而发现基因之间的共性和个性关系,基本实现发现基因与疾病之间联系的目的,并对结果的有效性进行评价。
材料与方法
通过PubMed数据库,以TextWord(题名词和文摘词)中包含43种非小细胞肺癌相关基因的官方名称、缩写或别名的条目来获取基因的相关文献集合,基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Gene网站上获取。
检索时间为1963年到2009年9月23日,获得43个NSCLC相关基因文献集,将检索结果保存为XML格式,作为文本挖掘样本。
本研究应用BICOMB,分别分析43个基因文献集合中每个文献集主题词的频次、百分比指标。然后,根据高频、低频词分界临界值公式,分别提取出超过一定阈值的高频主题词,并且至少有两个基因中出现的主题词才保留下来,以此为基础生成43 x 163的基因/主题词关联矩阵,再通过Cluster软件的系统聚类算法进行聚类分...
【英文摘要】
Objective
We chose non-small-cell lung cancer related genes as the research topic. Major MeSH was used to analyse the co-occurrence of non-small-cell lung cancer related genes by literature profiling method. Clustering analysis is performed to discover the relationship between the general character and the individuality relation of genes, find the link between the disease and genes, and then evaluate the validity of the results.
Materials and Methods
Through PubMed, retrieved citat...