当前位置: 首页 > 药学版 > 生命科学 > 基因 > 信息
编号:37282
关于人类基因组的有趣数字一览
http://www.100md.com 2001年4月8日 伽玛医生
     王羽中

    尽管科学家们已经宣布基因排序工作几近完成,但人类基因组包含的基因数量仍然只能大致地推算出来。无法得知准确数字的原因有以下几个:

    一、人类真正基因的数量太少而且分布过于分散。据估算,人类每一百万个DNA基中,只有十二个真正的基因,而果蝇的基因数量是一百一十七个,蛔虫的基因数量是一百九十七个,阿布属(Arabidopsis)的基因数量是二百二十一个。在这上百万个鱼龙混杂的DNA中寻找十二个真正的基因,其难度可想而知,这项艰巨的工作对于目前的计算机软硬件来说实在是个“难以完成的任务”。

    二、人类的基因与其它生物的基因相比,“碎片化”程度更高。在比细菌复杂的有机体中,基因大都呈现出“碎片化”的特征,这也就是说,包含遗传信息的基因并不是完整、纯粹地呆在那里,而是被分割成许多个碎片,被一些没有包含遗传信息的“连结物”连结在了一起。这就好比看电视剧一样,我们在看电视剧时经常碰到插播广告的情形,一个电视剧很少在从头到尾播放时没有插播过广告,而广告显然并不是我们想要看到的信息。基因就象是一个插播了很多广告的电视剧,我们在观看这个“电视剧”时需要了解的是它的“剧情”,而不是无用的广告。但在得到完整准确的剧情之间,我们不得不将这些广告的内容剔除,对于电视剧来说,这也许并不是什么复杂的任务,但对于基因研究来说,它的难度却大了何止千百倍。包括遗传信息的基因碎片通常比“插播”的那些无用信息小得多,这就好比一个四十五分钟的电视剧插播了数个长达十几分钟的广告一样。基因中的有用碎片被称为“exon”,无用碎片被叫作“intron”。研究发现,很多不包含遗传信息的DNA碎片有一万个碱基大小,这比包含遗传信息的那些碎要大好多。

    目前,已经发现的人类基因中最大的一个有二百四十万个碱基那么长,它构成了人类肌肉蛋白质“营养失调”时(dystrophin)的编码。不过,这个基因中大多数碱基都无用的DNA碎片。已知的有用基因碎片中最大的一个也是有关肌肉蛋白质的,它存在于一种名“titin”的肌肉蛋白质中。这个基因碎片包含了八万零七百八十个碱基,它们被分割成了一百七十八单元,最大的一个单元包括了一万七千一百零个碱基。

    果蝇和蛔虫的“intron”碎片长度比较适宜,通常只有几十个或者上百个碱基,人类的“intron”碎片长度相差很大,大多数都只有八十七个碱基长,但由于相当一部分的“intron”碎片的长度大得惊人,因此平均下来,人类的“intron”碎片的长度约为三千三百多个。相对而言,人类基因的“exon”碎片要小得多,目前已经发现有四十多个“exon”碎片只有十九个碱基大小。

    很明显,现在的问题并不是人类有多少基因,而是这些基因是如何被使用。基因“碎片化”意味着人类的各种蛋白质可以由相同的基因碎片组成,只要它们的组合方式不同,蛋白质的功能也就各不相同。目前,人类基因中至少有百分之三十五可以有不同的组合方式,因此,它们所能结合成的蛋白质种类比果蝇和蛔虫要多四倍。

    新浪科技, 百拇医药