生物信息学的主要研究对象是DNA、RNA和蛋白质分子,因为这些生物大分子包含了遗传及物种进化的所有信息.随着DNA和蛋白质被测序,如何从这些DNA和蛋白质序列中获得更多的生物信息是具有挑战性的问题.随着碱基和氨基酸在基因数据库中的规模呈指数增长,利用新的理论方法去研究DNA和蛋白质序列就变得越来越重要.许多生物学家、物理学家、数学家和计算机专家都被吸引到这个研究领域中来.
在介绍了生物信息学的研究背景之后,本文首先介绍了研究生物序列特性的时间序列理论方法,对本文要用到的短记忆ARMA模型和长记忆ARFIMA模型作了详细的阐述,为研究DNA序列、蛋白质序列特性做了理论上的准备工作.
混沌游走表示(Chaos Game Representation,简记为CGR)是一种迭代映射技术,它可以把序列中的每一个单元,如DNA序列中的核苷酸,蛋白质序列中的氨基酸,映射到一个连续的坐标空间中去.我们基于CGR坐标提出了一种将DNA序列转换成一个时间序列(CGR-游走序列)的方法,并引入长记忆ARFIMA (p, d, q)模型来分析.我们分析了十条DNA序列的CGR-游走序列,发现都能用长记...
【英文摘要】
DNA, RNA and protein sequences are of fundamental importance in understanding living organisms, since all information of the hereditary and species evolution is contained in these macromolecules. After DNA and protein are sequenced, how to gain more bioinformation from these DNA and protein sequences is a challenging problem. The nucleotides and amino acids stored in GenBank have been growing exponentially. It has become important to improve on new theoretical methods to conduct DNA and protein seque...