当前位置: 首页 > 期刊 > 《新疆医科大学学报》 > 2006年第3期
编号:10966252
单体型分析:复杂疾病基因定位的新希望
http://www.100md.com 《新疆医科大学学报》 2006年第3期
2型糖尿病,1EM算法,2Clark′s算法,3Phase,4混合DNA样本(DNAPool)的单体型分析,参考文献:
     对复杂疾病如2型糖尿病、精神分裂症和原发性高血压进行基因定位是后基因组学的主要挑战之一。单核苷酸多态(single nucleotide polymerphisms, SNPs)作为遗传标记(SNP少见等位基因频率>0.1在基因组内大约每600 Kb出现一次)[1],因为其在人类基因内分布更为广泛和密集、低突变率和更加便于高通量检测,因而在关联研究较微卫星(Microsatellite)应用更加广泛。但是获得全基因组内SNP的基因型的信息其工作量巨大,因而几乎难以实现。人类基因组计划的发展为我们提供了更加密集的SNP图谱和染色体上海量的遗传信息。一项模拟研究提示,在一个普通人群或者隔离人群,连锁不平衡的范围平均不超过3 Kb, 因此推算全基因关联研究需要完成≥500 000个SNPs的基因型鉴定工作[2]。在美国进行的一项研究发现,北欧后裔的连锁不平衡范围可达60 Kb,即使这样,全基因组关联研究也需要50 000个SNPs的基因型资料[3]。有研究发现,在一个人群中,一些相邻的遗传标记的分布也相互关联,即单体型的频率可以代表他所涵盖的区域内所有遗传标记之间的关系;单体型作为遗传标记比单个SNP具有更高的多态性、更高的统计学效率[4,5]。显然单体型分析可以显著降低基因型鉴定的数量和成本,提高目前以SNP为基础的关联研究的效率,使全基因组关联研究成为可能。

    对人群资料的单体性估计有几种方法。常规的基因型鉴定方法费时费钱,不能提供个体单体型Phase的信息。以下将要介绍的方法都是依赖计算机和统计学的方法,大大降低了成本。最早的、应用最广的方法有通过期望极大化(EM)算法实现的极大似然估计法[6~8]和“极小化”的Clark算法[9],二者都以个体多个位点的基因型资料为基础。

    1EM算法

    假定有来自一个人群的n个双倍体个体。让G=(G1,…,Gn) 代表已知基因型的个体,让H=(H1,…,Hn) 代表未知的相应的单体型对, 让F=(F1,…,FM) 代表人群中未知单体型的频率的集合, 让 f=(f1,…,fM) 代表样本中位置单体型的频率(M个可能存在的单体型分别记为 1,…,M)。

    EM算法就是一种发现可以使似然估计极大化的F的方法。L(F)=Pr(G|F)=∏n[]i=1 Pr(Gi|F)这里, Pr(Gi|F)=∑[](b1,b2)∈Hi Fb1Fb2, Hi是所有(有序地)的与多个位点基因型Gi一致的单体型对的集合。值得注意的是,这种似然性知识根据观察样本基因型资料,在假设符合HardyWeinberg平衡的条件下对人群单体型频率的可能性的估计 ......

您现在查看是摘要页,全文长 12712 字符