当前位置: 首页 > 医学版 > 期刊论文 > 其它各类 > 各类论文6
编号:10500316
当前生物信息学的重要研究任务
http://www.100md.com 《生物工程进展》 1999年第19卷第4期
     中国科学院生物物理所 陈润生

    关键词:基因组信息 生物信息学

    近年来,随着人类基因组计划(HGP)在世界范围内的开展,破译人类及多种模式生物的遗传密码已成为生物学领域的重要学科。同时产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要内容,从而也促成了生物信息学的产生与发展。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此在基因组研究时代,基因组信息学、蛋白质的结构模拟以及药物设计必然有机地连接在一起,它们是生物信息学的三个重要组成部分。当前,生物信息学已在理论生物学领域占有了核心的地位,并提出了大量的紧迫任务。

    1 基因组相关信息的收集、储存、管理与提供
, 百拇医药
    到1998年12月GenBank中收集的核酸序列已达3044000条,它们包含的碱基数目是2162000000个。与此同时有二十个生物体的完整基因组已被破译,约有至少40个完整基因组正在破译当中。大量基因数据的出现促进了数据库、分析工具以及网络连接等的快速发展。

    1.1 生物信息数据库

    建立数据库是存储基因组相关信息的重要步骤,当前在互联网络上可找到与基因组信息相关的大量重要数据库、服务器。其中:GenBank、EMBL、GDB、PDB、PIR等数据库更是频繁地被用户检索。在基因组织关数据库的发展中,以及几方面特别引起人们的重视:

    a)、建立基因组信息的评估与检测系统

    b)、数据标准化

    c)、进行基因组信息的可视化和专家系统的研究
, 百拇医药
    d)、发展次级与专业数据库

    原始数据是庞大的。在原始数据的基因上,根据不同的特征将其加工,而构建出若干高级数据库,这不仅会给用户带来很多方便,更重要的是专业人员注入的知识会对用户有很大的启发。著名的二级数据库象:蛋白质结构分类数据库(SCoP),受体数据库,克隆载体数据库等……。

    1.2 以因特网(Internet)为基础的基因组信息学传输网络

    用户与数据库间迅速、有效地传递信息是基因组信息的收集、管理与使用的另一要素。目前与基因组信息相关的数据库都有了自己的Internet地址和主页(Homepage),同时在网上还出现了很多相关的在线(online)服务器。

    我国在基因组信息的收集与提供方面也有了一定的工作:北京大学物理化学研究所建立的PDB数据库的中国节点;北京大学生命科学院建立的EMBL数据库的中国节点。中国科学院生物物理所与日本JIPID的合作,收集了我国科学家测定的DNA和蛋白质序列并与国际相应数据库进行交流。中国医学科学院肿瘤研究所建立的MEE-HOW服务器等。在数据库研究中有两点特别重要,一是构建我国自己的数据库;二是与国际常用数据库的有效连接和及时更新。经过努力,相信这一领域在我国会迅速发展。
, http://www.100md.com
    2 新基因的发现与鉴定

    发现一个新的基因就能了解与其相关的生理功能或疾病的本质,从而为新药的开发、设计奠定基础。使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。使用EST序列信息寻找新基因是当前国际上基因争夺战的热点。

    2.1 利用EST数据库(dbEST)发现新基因

    EST序列(Expressed Sequence Tags)是从基因表达的短c-DNA序列,它们携带着完整基因某些片段的信息。到1998年12月中在GenBank的EST数据库中已收集了EST序列2,020,608条,其中人EST序列为1,201,241条,它大约覆盖了人类基因的80%。由于EST序列中包括了大量未发现的人类基因的信息,因此如何利用这些信息发现新基因成了近几年的重要研究课题。
, http://www.100md.com
    2.2 从基因组DNA测序数据中确定编码区

    这一研究已经进行了很多年,并建立了多种方法。这些方法概括说来分为两类,一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等,另一类是基于编码区的碱基组成不同于非编码区。这是由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因造成的。近年来一批新的确定编码区的方法出现了,例如,考虑高维分布的统计方法、神经网络方法、分形方法等。将密码学方法用于识别编码区,也取得了较好的结果。

    3 非编码区信息结构分析

    虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域编码特征,信息调节与表达规律是未来相当长时间内的热点课题。
, 百拇医药
    3.1 非编码区中各种组分的分类与确定

    非编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包含如下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(Microsatellite)DNA、非均一核RNA(简称hmRNA)短散置元(short interspersed elements,简称SINE)、长散置元(long interspersed elements,简称LINE)、伪基因(pseudogenes)等。除此之外顺式调控元件,如启动子、增强子等也属于非编码序列。一些科学家认为应当把染色体称为信息细胞器(information organelle)。了解“JunK”DNA是了解信息细胞器的关键步骤。

    3.2 寻找新的非三联体的编码方式
, http://www.100md.com
    是否在基因组中仅存在三联体的编码方式呢?是否传递不同的信息应有不同字长的码呢?人们熟知三联码是用于将4个字符组成的基因中的信息传递给由20个字符组成的蛋白质。只有碱基三联体数(43=64)才是大于20(氨基酸的种类数)且最接近20的碱基组合。所以三联体是DNA与蛋白质间传递信息的最经济编码。按照这样的推理人们可以认为由DNA到结构RNA间的信息传递是单联体码,因为DNA与RNA的结构单元是一一对应的。如果考虑到人类基因的总数约为5万到10万,那么要调节单独的一个基因的调节单元的数目也要与此相应,达到若干万个。此时三联体编码方式的区分度就远为不足。这就是生物信息学家寻找其他非三联体编码方式的原因。

    3.3 编码区和非编码区中信息调节规律的研究

    虽然Jacob和Monod的乳糖操纵子模型给出了基因表达调控的最基本模式,但近年来很多发现表明基因的调节是远为复杂与丰富的。随着基因组研究进入后基因组时代,功能基因的表达谱得以测定,这些深刻的问题会逐步得到解决。
, http://www.100md.com
    4 生物进化的研究

    自1859年Darwin的物种起源(Origin of Species)发表以来,进化是对人类自然科学和自然哲学发展的最重要贡献之一。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。并建立了一套依赖于核酸、蛋白质序列信息的理论方法。现在随着序列信息的大量出现开展分子进化的研究具有了极好时机。

    5 完整基因组的比较研究

    在后基因组时代,生物信息学家面对的不仅是序列和基因而是越来越多的完整基因组。科学家们对最早的七个完整基因组所做的分析得到了很多有意义的结论。这些生物体都是能独立存活的,最大的是啤酒酵母,它有5932个基因,最小的是生殖道枝原体,它只有470个基因。有了这些资料人们就能估计,最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?基因组研究还发现,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别不大于0.1%;人猿间差别不大于1%。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑染色体组织上的差异。总之,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。
, http://www.100md.com
    6 基因组信息分析的方法研究

    6.1 发展有效的能支持大尺度作图与测序需要的软件和数据库以及若干数据库工具,包括互联网络上的远程通讯工具,使之能容易地处理日益增长的物理图、遗传图和序列信息。改进现有的理论分析方法,象统计方法、隐含马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法等。创建一切适用于基因组信息分析的新方法、新技术。

    6.2 建立快速、严格的多序列比较方法

    多序列比较是解决同源性分析等重要问题的关键手段,但迄今为止只有近似方法。虽然两个序列比较有动态规划算法这样的精确方法,但要把它推广到多序列的情况是不现实的。为此发展精确的多序列比较方法是当务之急。

    7 大规模基因功能表达谱的分析

    目前,基因组的研究已从结构基因组(structural genome)逐渐过度到功能基因组(functional genome)。因此获得基因的功能表达谱,将存在于人类基因组上的静的基因图谱,向时间、空间维上展开是新一阶段基因组研究的核心。为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。在核酸层次上的新技术是DNA芯片,在蛋白质层次上则是二维凝胶电泳和测序质谱技术。由此导致了大规模基因功能表达谱的分析问题。它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,因此需要发展新的方法和工具。所以无论是生物芯片还是蛋白质组技术的发展都更强烈地依赖于生物信息学的理论、技术与数据库。
, 百拇医药
    8 蛋白质分子空间结构的预测、模拟和分子设计

    随着人类基因组计划的执行,找到人类5万到10万个基因的碱基序列是指日可待的事,因而确定人的上千个原癌基因和几万个与疾病相关基因表达产物的氨基酸顺序也会逐渐实现。这无疑给人类疾患的治疗带来了极大的希望。然而要了解他们的功能、要找到这些蛋白质致病的分子基础,只有氨基酸顺序的知识是不够的,必要知道它们的三维结构。与此同时,要设计药物治疗这些疾患也需要了解蛋白质的三维结构。这是摆在科学家面前的紧迫任务。

    当前不论是国际还是国内,蛋白质空间结构预测和蛋白质分子的改性设计都在广泛而快速地展开。近年来对蛋白质构象模式的研究取得了很大进展。比较公认的看法是:蛋白质的折叠类型是有限的,目前估计为几百至几千种。这要远小于蛋白质所具有的自由度数目。同时蛋白的折叠类型是与它们的组分和一级序列相关的,这样就有可能从蛋白质的初级信息中确定它们的最终折叠类型。

    9 药物设计
, http://www.100md.com
    传统的药物研制主要是从大量的天然产物,如动物、植物、微生物和合成有机、无机化合物中进行筛选。往往得到一个可供临床使用的药物要筛选1万种不同的化合物,要经过10年左右的时间和耗资2.5-3.0亿美元。当前随着组合化学和群集筛选的发展,这一状况有了一定程度的改善,但耗资、耗时仍然是巨大的。近年来由于结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构已被精确了解。因此,基于生物大分子结构知识的药物设计成为了当前的热点。生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互使用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷迁移、构象变化等。理论模拟还可研究包括生物分子及其周围环境(如水、离子等)的复杂体系和生物分子的量子效应。上述的不少方面当前是难以直接用分子生物学的实验手段加以研究的。这些模拟的结构对于在分子、亚分子和电子结构层次上了解生命现象的基本过程具有重要意义。并为天然生物大分子的改性和基于受体结构的药物分子设计提供了依据。

    10 应用与发展研究
, http://www.100md.com
    基因组信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。

    10.1 与疾病相关的人类基因信息的汇集以及病人样品序列信息检测技术的发展

    很多的人类基因是和疾病有关,有人估计与癌症相关的原癌基因约有一千个,抑癌基因约有一百个。约有六千种以上的人类疾患与各种人类基因的变化相关联。随着人类基因组计划的深入,当我们知道了全部八万到十万个人类基因在染色体上的位置和它们的序列特征以后,人们就可以有效地判定各种分子疾患。为了实现这一目标有两项工作是重要的,一是构建与疾病相关的人类基因信息数据库,二是发展快速、有效的对患者血液、体液、组织等样品进行测试和序列信息检测的技术。近几年国际上已出现了若干与疾病相关的数据库,其他技术也在发展中。

    10.2 建立与动、植物良种繁育相关的基因组数据库。

    随着人类基因组、水稻基因组以及各种模式生物基因组的解译,根据不同物种间的进化距离和功能基因的同源性,可以容易地找到各种家畜、经济作物与其经济效益相关的基因,进而对它们按照人们的愿望加以改造。
, http://www.100md.com
    10.3 发展基于序列信息的分子生物学技术

    分子生物学常用的表达载体、PCR引物以及各种试剂盒的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。

    总之,当前是人类基因组研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将赋予人们基因研究重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这是一个难得的机会,尽早利用这些数据就可能走在国际科学界的最前沿。

    校对:李夏阁

    校对时间:2000-2-29, 百拇医药