生物信息学是多学科的交叉产物,以计算机为工具对生物信息进行存储、检索和分析。本论文主要研究了生物序列可视化、比对以及蛋白质序列网络等有关问题。
从混沌游走中得到启发,引入CGR(Chaos Game Representation)的概念,定义了蛋白质混沌游走表示法(PCGR, Chaos game representation of protein)。针对蛋白质序列的多重分形性质及其Rényi熵率进行进一步研究。数学领域中的分形理论和信息论中的熵率概念被引入到蛋白质序列的分析中:把20种氨基酸以看作符号序列,由混沌游走表示的二维可视化延伸到n维空间中,用分形维数来体现蛋白质序列的性质;另外,蛋白质序列也可以被看作一组信号,可以用信息熵的概念来进行刻画。然后把多重分形维数和符号序列的Rényi熵率之间通过概率测度μ建立对应关系。
氨基酸按照不同的性质进行分类,其分类的依据和偏重不同,分类结果也不同。文中介绍了两种分类:根据HP模型分为4类和依照理化性质分为7类,结合提出的一种新的比对算法,把分类过的两条蛋白质序列进行比对。利用蛋白质序列的PCGR距离,给定阈值k,迅速判断相同片段...
【英文摘要】
Bioinformatics is the cross-product of a multidisciplinary, with the computer as the tool of biological information storage, retrieval and analysis. This paper studies the visualized biological sequences, alignment and protein network and so on.
Being enlightened from Chaos walk, and Combining gene sequence and Chaos Game Representation, we do further study on protein sequence multifractal nature and its Rényi entropy rate. Fractal theory from mathematics and entropy rate from information theory...