当前位置: 首页 > 药学版 > 生命科学 > 专家综述
编号:10533500
编撰人类基因组的“百科全书”
http://www.100md.com 科学杂志
     揭示人类自身所有遗传信息是1990年代国际科学界启动“人类基因组计划”的根本目标。当2001年初国际人类基因组测序联合体(International Human Genome Sequencing Consortium, IHGSC )和美国的塞莱拉(Celera)公司分别在英国《自然》周刊和美国《科学》周刊上发表人类基因组的“草图”时,科学家们发现,尽管这项工作取得了生命科学上里程碑式的成就,但是要想达到预定的目标还面临着巨大的挑战。首先,还有占人类基因组30%左右的序列没有被测定,包括10%左右富含基因的常染色质(euchromatin)区域和20%左右基因含量很低、由高度重复序列组成的异染色质(heterochromatin)区域。更棘手的是,人类基因组的全部序列中仅有大约1.5%用于编码基因,其余部分属于非编码序列。如何解读这些非编码序列的功能成为了一个重要的问题。

    第一个难题在三年后得到了基本的解决。2004年10月,国际人类基因组测序联合体在《自然》周刊上发表了人类基因组常染色质全序列测定的论文,宣布人类基因组的常染色质部分中99%的序列已经被测定,其精度达到每10万个碱基中只有一个测量误差[1]。随着人类基因组精细图的完成,研究者发现,人类基因组拥有的编码蛋白质的基因数目大约在2万到2.5万个之间,比“草图”的估计数低33%[1]。显然,解读非编码序列的任务变得更为重要。
, 百拇医药
    为了攻克第二个难题,美国国立人类基因组研究所(National Human Genome Research Institute, NHGRI)在2003年9月,提出了一个“DNA元件的百科全书”(Encyclopedia of DNA Elements, ENCODE)研究计划,希望找出人类基因组序列中所有的结构和功能元件,形成一个完整的人类基因组的“元件目录”,包括:编码蛋白质的基因;非编码蛋白质的基因;转录调控元件;其他调节染色体结构和动态活动的功能序列,如DNA复制起始序列。这一计划分为3个部分,即示范期(pilot phase)、技术发展期(technology development phase)和产出期(production phase)[2]。目前,示范期部分已启动了20个研究项目,技术发展期部分启动了12个项目。这些项目涉及美国等5个国家的28个研究机构、大学和公司[2]。与人类基因组计划相比,“ENCODE计划”有三个明显的特点:一是采用综合性研究策略,二是重视新技术的研发,三是将计划向学术界和公司开放。

, 百拇医药     综合性研究策略

    人类基因组具有许多不同种类的结构和功能元件,这些元件涉及到DNA代谢和染色体构成的各个方面,如DNA的复制起始点、复制终止位点、基因、启动子、RNA剪切位点、DNA甲基化位点和DNA酶I超敏感位点等。显然,要想实现“ENCODE计划”拟定的科学目标,不可能像人类基因组计划那样只依赖于DNA测序仪一种手段,而要尽可能地采用和整合现有的各种研究手段。

    过去几十年中,研究者一直通过经典的实验生物学方法对基因组内的各种结构和调控元件进行研究。ENCODE计划中提出的每一类元件都曾经被发现过,所不同的是现在要在全基因组的范围内进行系统研究。因此,目前在实验生物学中常用的研究基因组的结构和调控元件的方法,如染色质免疫共沉淀(chromatin immunoprecipitation, ChIP)等,也成为了该计划的重要研究手段[2]。然而,为了满足同时进行基因组内成千上万个元件的大规模、高通量的分析需求,这些用于研究基因组内一两个元件研究的实验生物学技术,必须与生命大科学的研究方法进行整合。例如,在该计划中染色质免疫共沉淀技术采用的是与芯片相结合的研究策略,称为“ChIP-chip”技术[2]。可以说,生命科学领域的“小科学”与“大科学”研究方法的结合,是该计划的一个重要特征。
, 百拇医药
    大规模、高通量的分析必然要产生海量的数据。但值得注意的是,与人类基因组计划产出单一的测序数据相比,在ENCODE计划实施过程中获得的数据不仅量大,而且种类非常繁杂。如何将这些数据进行分类、整合和展现,是该计划面临的巨大挑战。为此,在示范期部分启动的20个研究项目中,发展新的数据处理工具或进行ENCODE数据处理的项目就有7个[2]。除了重视数据处理外,ENCODE计划还注重用计算生物学进行“干的实验”(dry experiment),如其中一个项目的题目就叫“确定所有编码基因:将计算预测和实验证实相结合的基因模型”[2]。可以看到,在大部分研究项目中都有计算生物学的参与。需要指出的是,该计划将比较基因组研究列为一个主要的内容,“要发展更强大的计算工具用来进行序列比较,从而推导出生物学功能”[2]。该计划为此选择了10种脊椎动物基因组序列作为比较的对象。

    ENCODE计划的主要任务是,从占基因组98%以上的非编码序列中鉴定出结构和功能元件。这是一个非常艰巨的任务,过去从事经典实验生物学的研究人员为此已经花费了许多精力,但取得的成绩相当有限。显然,ENCODE计划的制定者对其研究的难度有着清醒的认识,特别采取了一个“由点及面”的研究策略:把示范期的任务局限于研究按一定标准选择的分布在不同染色体上的44个小片段(ENCOD targets),每个片段大约是0.5万到200万个碱基序列;这些具有代表性的片段总共只占人类基因组中所有结构和功能元件序列的1%左右[2]。希望在获得示范期的研究经验之后,再在产出期对基因组全面开展研究。此外,该计划要求每一个项目的承担者必须对“ENCOD targets”规定的所有片段进行分析。这一策略使人们可以对不同研究手段得到的结果直接进行比较,从而保证结果的可靠和从中选择理想的研究方法。
, 百拇医药
    发展新方法和新技术

    过去在基因组领域的实验工作是典型的生命“小科学”研究,针对的是个别的结构或功能元件,在这些工作中所使用的研究手段显然难以满足ENCODE计划的需求。因此,ENCODE计划的制定者专门提出了一个与示范期平行的技术发展期,用来发展能够提供给未来产出期进行工作的新式“武器”。这一策略在过去启动的其他生命大科学计划中很少看到。

    对于ENCODE计划来说,开发大规模、高通量的分析基因组的结构和功能元件的方法是其首要任务。这一点自然成为了技术发展期的一些项目的研究目标。例如,有一个项目的研究内容是,发展用于检测染色质上DNA化学切割位点和酶切位点的高通量“作图”(mapping)方法[3]。当然,把经典实验生物学的研究方法如“ChIP”和生命大科学研究方法如芯片技术进行“嫁接”,也是研究者开发高通量研究新技术的一个主要思路。技术发展期的12个项目中有一半项目都采用了这一研究策略。
, 百拇医药
    从这些项目的研究内容来看,实验人员一方面试图开发全新的技术,如染色体构象捕获(chromosome conformation capture, 3C)技术、DNA退火的选择与连接(DNA annealing selection and ligation, DASL)技术等,但更多的是探索各种技术之间的整合。有10个项目在其研究目标中明确提出,要采用两种或两种以上的研究方法来开展工作。例如有一项目提出,要发展一种结合了ChIP、SAGE和FAIRE三种技术的综合性新技术——基因组富集的序列标签分析(sequence tag analysis of genomic enrichment, STAGE),用来确定在染色质上的转录调控元件[2]。

    在新方法和新技术的开发中,发展计算生物学方面的新手段也同样受到关注。高等真核生物基因组的大部分基因都是不连续的,并且常常有不同的剪切方式。不久前的研究发现,有些具有不同剪切方式的基因拥有不同的启动子,称为另路启动子(alternative promoter)。技术发展期的一个项目提出,要发展新的计算方法,用来预测另路启动子上的顺式调控元件(cis-regulatory elements)。
, 百拇医药
    向社会开放

    ENCODE计划还具有一个与以往生命大科学计划不同的特点,即向社会开放。最早的ENCODE联合体(ENCODE Consortium),是由获得美国国立人类基因组研究所ENCODE计划资助的科学家所组成。但是,ENCODE联合体随后宣布,“ENCODE联合体向所有对该项目有兴趣的学术机构、政府部门和私人公司的研究者开放”[2]。也就是说,任何研究者都有可能申请成为ENCODE联合体的成员。当然,ENCODE联合体并不是一个任意进出的“茶馆”,要想成为其成员必须同意遵守该联合体的有关规定。规定一共九条,主要涉及三个部分:进行研究的规则,管理数据的规则,交流学术的规则[3]。

    ENCODE联合体要求其成员遵守的研究规则很有意思——每个参加者必须对从人类基因组选出的44个片段全部进行分析,而不是仅仅分析这些片段中的一部分[3]。这一规定不仅要让所有研究者遵从上面所讨论过的“由点及面”的研究策略,而且还有一层潜在的含义,即利用这样的要求建立一个评估各个参加者研究工作的统一标准——每个人的研究对象都是一样的,从而形成鼓励竞争的机制。此外,规定还要求每个参加者不仅仅提供研究数据,还必须在学术和专业技术方面要对联合体有所贡献。这灰笙匀挥欣诖俳咸逶谛路椒ê托录际醴矫娴姆⒄梗⑶矣欣诖邮戮渖锸笛榭蒲У难芯孔榧尤肓咸濉D壳霸诟昧咸迥冢扔欣醋源邮律罂蒲У难芯炕谷缬⒐8瘢⊿anger)研究所和美国国立人类基因组研究所的研究者,也有来自从事生命小科学的研究机构如耶鲁大学和斯坦福大学的研究者。
, 百拇医药
    对于生命大科学的研究计划来说,在研究过程中获得的数据是否被及时公布并被无偿使用,一直是科学界最为关心的问题。ENCODE计划被美国国立人类基因组研究所限定为“公共资源项目”(community resource project),所有的研究数据一经核实,必须放入公共数据库并供所有研究者无条件使用[2]。因此,凡是ENCODE联合体的成员都要遵循这一原则,并且按照制定的数据管理规则操作。值得注意的是,四家美国私人公司的研究者进入了ENCODE联合体。在测定人类基因组全序列过程中那种国际人类基因组测序联合体与塞莱拉公司之间激烈竞争的情况已不再会出现。这一现象说明,由于ENCODE计划的高难度,不同研究实体的联合是很有必要的。

    组织一个大科学研究项目,项目成员之间良好的协调和互动是项目成功的关键。这一点对于ENCODE计划更是如此,因为参加研究工作的单位众多,涉及的技术复杂,研究的难度也很大。ENCODE联合体为其内部的学术交流作了4条规定:要求所有成员都要参与联合体的各种活动;成员之间要分享彼此的研究成果;参与者应该将其研究过程中使用的算法、软件源代码和研究方法等,提供给其他联合体成员进行评估;当然,成员不能将其他联合体成员之处获得的内部信息泄露出去[3]。
, 百拇医药
    世界上第一部百科全书诞生在18世纪的法国,共有28卷,含7万多辞条和近3 000幅插图。当时编撰百科全书的著名法国学者狄德罗等人希望,这部书不仅要涵盖人类知识的全部,而且要以此来启蒙人类的思想向新文明迈进。同样,ENCODE计划不仅要提供有关人类基因组知识的“百科全书”,而且要以此促进人类彻底和完整地认识自身和生命复杂性。

    [1] International Human Genome Sequencing Consortium. Nature, 2004, 431: 931

    [2] The ENCODE Project Consortium. Science, 2004, 306: 636

    [3] http://www.genome.gov/ENCODE, 百拇医药(吴家睿 )