当前位置: 首页 > 期刊 > 《中华中西医杂志》 > 2003年第13期
编号:10400140
人类基因组与生物医学工程学
http://www.100md.com 《中华中西医杂志》 2003年第13期
     【文献标识码】 A 【文章编号】 1606-8106(2003)13-1972-05

    21世纪科学技术的特征之一是多学科综合和跨学科交叉,其典型的实例是人类基因组计划的被执行和提前完成,这对生物医学工程学的发展将会产生深远的影响,因为生物医学工程学包含了上述诸多特征。在今天,信息技术深刻地改变着生物科学乃至医学的面貌,Moore’s定律正有效地影响着生命科学变革的进程。人类基因组计划的国际合作和国家级研究机构和民间商业公司既合作又竞争的机制改变着传统科研的单一模式,充分体现了21世纪科学技术迅猛发展的多学科交叉的特点,其中包括科研与应用既分工又紧密结合的特征。

    基因亦称遗传因子,它是决定遗传性状的因子,早在孟德尔时代的定律中就把它作为基本概念推断相应的各个遗传性状的单位。1909年丹麦学者W.L.Johannsen建议将它称为基因(Gene),它通过自我增殖及通过细胞总线世代相传。各个基因虽然是相互独立的单位,但在物理上并不独立存在,在细胞分裂增殖间期内出现的染色体上各自占有固定的位置,并以线性顺序排列的方式形成稳定的长链结构,可受环境因素的影响发生突变,并在以后的世代中变异的基因就会传递下去。
, 百拇医药
    基因的概念模型经历了提出、放弃、修改和精炼等漫长的历程,使基因学取得巨大进展,但在很大程度上还是基于遗传研究为主。每一个新模型的提出都带来一系列问题,随后对基因的本质又产生新的和比较好的理解。1986年美国科学家和人类遗传学家Roderick.T和Mckusick提出基因组学(Genomics)名称,这是指一个物种的全部遗传基因的总和。

    自从1953年J.D.Watson和F.H.Crick提出DNA双螺旋结构模型以后,在较长时期内由于找不到分别降解腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)等四种脱氧核糖核酸的专一酶而使DNA测序无法开展,直到1977年英国Fred Sanger和美国的Alan Maxam及Walter Gilbert两个研究小组在差不多时间内发展了不同的DNA测序方法,使基因研究工作推向前进。在最初阶段,研究者都是从具体目标生物体基因组中分离和研究相关基因。1986年诺贝尔奖获得者R.Dullbecco在Scieme上提出有必要对人类基因组进行全面测序,不能满足于零打碎敲地个别研究目标基因。
, http://www.100md.com
    在经历了一场大争论之后,在1988年,美国技术评估局(OTA)应美国能源和贸易住房委员会的要求开展了关于基因组计划的可行性研究。OTA的研究报告把开展基因组研究时的数据管理列为执行基因组计划的首要任务,并提出几个与之相关的目标:(1)创建、维护和加强生物数据库,其中包含DNA序列数据、DNA标记和基因位点,标识基因以及其它有关的数据。(2)绘制由DNA标记组成的人类染 色体图谱,这将使科学家可以迅速地确定基因的位置。(3)创建研究材料的数据库,其中包括DNA片段顺序集,在人类染色体上完整地表达DNA。(4)发展其他生物体,即模式生物的类似资源,以便于生物医学研究和其他可能的研究。(5)确定人类基因组和其他生物有机体大片段的DNA序列。(6)要面对许多支持基因组研究机构参与带来很多管理上的复杂性,要解决好许多涉及资源分配和共享的问题。

    1988年美国国家科学院十分明确的提出,人类基因组研究的许多代价都与生物数据的独特管理有关。因为有大量数据要从定序和测绘工作产生出来,所以要有效地集中、存储、分析和提供,如果象目前全球范围内一般研究单位那种常规方式处理数据,那么人类基因组计划是没有什么使用价值的。因此需要数百万美元创建新的基因图谱和序列数据库,尤其强调要设计成满足基因研究的需要。
, http://www.100md.com
    这样,在美国能源部(DOE)和美国人类基因组研究中心(NCHGR)支持人类基因组计划正式实施以前,来自美国高层的咨询委员会的明确建议,为合适的数据管理和数据分析策略对后来人类基因组计划的成功执行起着十分关键的作用。这些明显的建议,使许多投资机构调拨重要资源,为创建、运行和维护相应的系统软件和设备奠定了基础。

    1990年10月美国能源部(DOE)与美国卫生研究院(NIH)共同启动人类基因组计划,原定投入30亿美元,15年完成,估计可测定基因5万到10万个。后来,英、日、法、德、中等国相继参加这一史无前例的获取人类生命基本数据的宏伟工程。

    1998年5月一批多国科学家在马里兰州罗克维尔成立了私营塞莱拉基因组技术(Celera Genomics)公司,董事长克莱格·文特尔宣称用3亿美元和一台超级计算机在3年内用“霰段法的测序策略”完成人类基因组测序。这是史无前例地由美国私营公司向美国国家科研机构公开的竞争和挑战。正由于这种既竞争又合作的机制,使原订2005年完成的人类基因组的测序和分析计划进度一再提前,总的方面得益于世界上1000多名科学家的全心投入和通力合作,以及符合Moore定律的大规模基因测序技术的不断完善,并降低了成本,这与以美国Celera公司为首的私营公司的参与挑战直接有关。这确实是一种在市场经济条件下合作与竞争机制的典范。
, 百拇医药
    1998年10月美国人类基因组研究所在“Science”杂志上发表声明说,人类基因组计划的全部基因测序工作将提前到2003年完成。

    1999年3月英国韦尔科姆基金会宣布,由于科学家加快工作节奏,人类基因组工作草图将提前到2000年完成。

    2000年4月美国Celera公司宣布破译出一名实验者的完整遗传密码,但不少欧美科学家对此表示怀疑,认为该公司“未提供有关基因序列的长度和完整的可靠数据”是疑点所在。不过,同年6月该公司后来接着宣布已将人类23对染色体上35亿个碱基对按照自然顺序排列出来,并在该公司号称“全球第三”的超级计算机上进行了480亿亿次计算。美国国家卫生研究院院长认为:“数据是正确和完整的”。

    2000年6月26日,多国合作的人类基因组计划的官方机构和私营Celera公司共同宣布人类基因组工作草图基本绘制完成,测定出人类90%以上的DNA碱基序列,终于提前完成了划时代的测定基因组的宏伟工程。
, 百拇医药
    1 基因组学

    自从1924年提出基因组的概念用来描述生物染色体上的全部基因之后,科学家经历了漫长岁月对基因进行了个别研究,直到1986年才提出基因组学的系统概念,这涉及包含所有基因的基因组作图、核苷酸序列分析、基因定位和功能分析,其中基因组作图由遗传图谱、物理图谱和序列图谱组成。人类基因组计划的核心就在于获得23对染色体完整的DNA序列图。

    前已述及,两个性质完全不同的研究组织使用不同的测序策略,在既合作又竞争的条件下争先恐后地很好完成了人类基因组的测序计划,他们现在都达到了预定目标,而且大大提前了执行时间表,使原定15年的测序计划竟提前了5年完成。以美国政府资助为首的研究计划是建立在作图产生人类基因组工作草图的策略,而私营公司Celera却采用完全不同的做法,他们把完整基因组先打碎,称为霰段法(Shotgun),然后测定人类基因组序列。这样一来,通过这二种不同的测序方法获得的序列数据大大提高了数据的有效率,并减轻了整个科学界解释基因数据的难度。最终绘制的三种图谱使人类基因组序列能够用作“工具”开展生命科学和医学的深入研究,这是具有划时代意义的。
, http://www.100md.com
    1.1 人类基因组测序策略 前已述及,由美国政府资助,后来由多国科学家参加的测序计划是采用标记的物理图谱中含有大量人类DNA大片段的作图策略,并利用了局部的细菌人工染色体(BACs)。在理论上说,这种测序策略是先复制人类基因组序列,因此是在不断克隆基础上完成的,每次获得最短的一段BAC,它具有最少的重叠部分,并且使处在整个基因组中的这段长度展直,再粘贴起来,将它们绘制到基因组的适当区域。由于染色体不能直接用来测序,故第一步必须将整个基因组序列进行分解,使之成为容易处理的小结构,根据所使用的标记和方法不同,绘成上述三张图,虽然在工作草图上会有某些空白区域和一些不明确的部分,但它在探索生命奥秘和确定与疾病有关的基因等方面将是非常有用的。

    Celera公司的理想策略是为了深入开展作图阶段避免受到次级克隆人类基因组产生随机片段的影响,以及在长度不同的片段库中,两种片段的测序结果便于整理,对于保存时间和一开始的研究计划,Celera方法使组装过程相当独立,不受算法和计算机时间的影响。Celera公司的霰段法是一个高度应用计算机的方法,它是先把基因组随机地分成已知长度的片段(2000个碱基对、1万个碱基对和5万个碱基对),然后用线性排序算法将这些片段连接成大片 段,并确定它们在人类基因组上的正确位置。
, 百拇医药
    进一步比较两种测序策略,由美国等国家出资的测序工作,工作人员在一开始要把较多的时间和精力放在克隆和绘制草图上面,而Celera公司的方法在后期则需要做大量的计算机工作。为了更好地达到他们各自的研究计划,理想的策略应该发展混合策略,其中HGP需要人为地选择更多的克隆,Celera公司使需要使用BAC图谱和由HGP产生的序列。两者的测序工艺流程图如图1所示。

    1.2 染色体基因分区 人类基因组是由许多序列的特性构成的复杂体,例如,高GC区和低GC区的内容、编码序列、调控因子和其他多种无编码的功能因子、基因族、许多不同类型的重复序列和重复族等,这些序列的差异和分布能够阐明基因组的进化。人类基因序列的最初分析表明,在这些特性密度引人注意的范围内,它们的组织结构对机制研究提供了新的思路,产生当前基因材料的组织结构。甚至归根结底将会使我们发现在基因组里只有一点点或者没有“无用的东西”,以及在这些序列中的各种因子或许具有高度进化的功能。此外,对真核生物染色体两臂端的特殊染色粒的分析将会使人们深入理解染色体结构及其动力学机制。
, 百拇医药
    1.3 基因 有了完整的基因组序列只是识别基因和确定它们功能的开始,序列实际检测结果认为人类基因组中的基因远远少于预计的10万个,目前的估计只有3万到4万个左右。基因预测目前是一种通量水平,值得考虑采用最好研究的方法,其目的在于从核苷酸序列识别基因。虽然许多研究动机可以给出各种线索,但是实验工作要求建立起相应的功能。阅读公开的由序列分析识别的框架,目前有不少地方还没有发现预计的功能。

    1.4 人的差异 人类基因组测序结果表明,在种群中,例如人,存在的差异相当少,任何两个人的DNA序列只差0.1%。具有重要社会意义的种属虽然是表征人类的一种方法,但从遗传学观点来说却是没有意义的。研究序列多态性可以作为深入了解人类迁移和疾病抵抗力基因的基础。人类基因组分析已经增加了许多基因序列差异性的分析,尤其是单核苷酸多态性(SNPS)在人群中预计有几百万个,那些重要的部分已经被发现了。实际上,人类是一个多态性的群体,不同种属和个体在生物性状及对疾病的易感性或抗性上存在的差别都与多态性有关,现在已有可能在完整基因组测序基础上进行基因组水平再测序来直接识别序列变异,以进行多基因疾病及癌症相关基因的研究。
, 百拇医药
    1.5 比较基因组学 关于测定和比较完整基因序列的能力,当前水平可以达到“比较解剖学”分解力的水平。为人、飞蝇、蠕虫,以及甚至细菌之间的相似性内容提供了生命具有共性的证据,然而若要弄清楚在人和灵长类动物之间的较小差别是什么?以保持某些什么样的特征把我们判别为人显得十分关键。预测人类基因组蛋白质补体的初步检测表明,脊椎动物基本上没有发生附加新蛋白质结构域的演变,但是通过新方法把这些模式放在一起制造蛋白质,主要是结构,而并非是构件把人从其他生物体区分开来。图1 测序工艺流程(Celera公司)

    2 信息技术与生物信息学

    随着人类基因组计划的顺利执行和提前完成,信息技术正在转变研究的工作方式。显然,信息技术可以缩短距离和时间,以及可以降低任务的性质和管理这两个方面的复杂性。计算机和机械手段可以帮助完成基因组测序;图形或序列分析的组装软件能够帮助分析结果;库存管理软件实行试剂管理;公共数据库帮助了多方面研究结果的汇总;文字处理、统计分析和图形设计等帮助准备了出版物, 以及硬件价格每年将降低大约30%~50%左右以提高性能价格比。这些因素配合起来,在10年或者更长一点时间内,总的发展趋势可以呈指数规律变化,上述列举的信息技术的方方面面深刻地影响着人类基因组计划的执行和完成,这是不折不扣的Moore定律产生的效应,也是信息技术的实际价值。过去国外发表的一些文章,“生物信息学”和“计算生物学”这二个名字有时候会交替使用,但在另外一些场合,生物信息学指生物数据管理,而计算生物学指生物数据分析,两者具有不同含义与分工。后来,随着人类基因组计划的不断进展,生物信息学一般被用来指生物信息—管理系统、分析工具和支持生物学的网络,尤其是支持人类基因组计划的通信网络等。在今天,随着全球网络的扩大,对于公用数据库和分析工具作为生物信息资源必须能在某种水平上一起工作和相互操作,因此研究工作者可以作为联合体的信息基础组织共同地对生物信息资源相互作用。这与其他学科的基础组织的独立相互作用是很不一样的。由此可见,协调维护这些设备所要求的水平要比大多数研究机构的基础组织的水平显然要高得多。从中可以看出生物信息学的多学科性质以及广泛的使用价值,尽管从现有水平来看,所谓生物信息学还只局限于生物数据的提取、处理、存储和传输等技术内容,显然这仅仅是生物信息学目前发展的初级阶段,所以尚不涉及信息的本质问题,表面上只是生物科学与信息科学,其中包括计算机科学、图书馆学、管理科学乃至信息技术等诸学科相互结合而产生的新学科。
, 百拇医药
    2.1 微阵列技术 微阵列技术是实现多点并行测量分析系统的基础,主要指数以千计甚至上万个样品点,可以密集排列在聚丙烯或尼龙膜、玻璃片或硅片等固相支持物上,经过生化反应几乎同时并行地获得被测物质的众多数据,目前新兴的DNA芯片是微阵列中最主要的一种。从历史观点来看,F.Sanger和W.Gillbert的研究工作是实现今天的生物芯片的基础,他们开创性的DNA测序方法获得了1980年诺贝尔奖。1983年K.Mullis发表的聚合酶链式反应(PCR),又使生物芯片的检测灵敏度提高到实用水平。1986年L.Hood创立DNA分子荧光测定法进一步使生物芯片得到完善,推进了DNA序列数据快速读出自动化。其他如杂交测序、基因标记鉴定和表达序列标记等一些重大技术不断成熟和被应用,其结果不仅推动了快速DNA测序和分析设备的迅速发展,也使微阵列应用技术更加成熟和系统化。我们肯定地认为,在21世纪的长河中,DNA芯片在基因表达研究、疾病诊断、发现新基因及药物筛选等领域都有广泛的应用前景。

    2.2 生物数据库系统 生物数据库系统有好几种,如GeneBank序列数据库和结构数据库等等,在此不予一一罗列,但是作为生物数据库系统与通用商业数据库的功能和用途有着很大区别。因此自从90年代初,基因序列数据库(GSDB)完成电子数据提交(EDP)范本第一版后经过了5年试用,由于不符合使用要求,当时就重新设计了数据库的全部操作,采用不断测试的方法和及时改进所提供服务的基本原则。后来重新进行设计的三个主要目标是:(1)EDP实现支持用户在线编辑;(2)简化第三方注解,支持登记已存在序列全部特征被发现过程的日期;(3)通过设计GSDB,并依靠其他公共数据库,使基因组数据服务模件化,这些公共数据库的数据对于DNA序列数据库来说是不重要的,而基因序列数据库是综合了所有DNA序列和有关注释。
, 百拇医药
    为了达到EDP成熟思路的新水平和完成数据库联合体,GSDB新设计实现了三个关键要求。

    第一,新系统支持数据库用户在线数据提交输入和在线编辑。自从1987年后,GSDB主要采用成批提交,例如,用Authorin程序产生那些结果,可以通过EMAIL或软盘与数据库通讯。接着,数据库工作人员处理这些成批提交的 数据,常常要花很多时间改正错误,这些错误往往发生在用户一开始输入的时间。随着近年来internet已有惊人的发展,提交数据的过程现在能够重新设计,以便于利用基于网络的用户可以通过在线编辑数据库直接输入数据。采用这种方法可以更直接地与他们的同级通讯,数据工作人员可以免去成批提交处理时的辅助操作。

    第二,系统支持有关人员而非原来的提交者对已存在的输入数据附加注释。这对于后来随时发现部分序列生物新功能的一些研究小组来说,这种要求变得越来越普通了。尤其是,在大规模测序操作产生的大量重要的序列数据时,一般都没有经过特性化。因此公共序列数据库在任何时候要允许对这些序列加上全部注释,这需要后继研究人员而不是原先测序人员能够对已存在的输入数据加上注释,当然,所有这些第三方的注释必须是经过严格归纳过的。
, 百拇医药
    第三,系统设计支持GSDS与其他公共数据库联合,这些数据库的数据对DNA序列数据库并不重要。在习惯上,公共DNA序列数据库必须具备允许容纳其他资源的功能,这是为了保存非序列数据,例如分类学内容、基因和产物名称,以及缩写字串等。由此可见,生物数据库设计要有联合体的操作,主要为了增加工作有效部分的可能性。GSDS的新设计满足了这种要求。

    总之,生物数据库系统的结构,即框架是整个体系结构的基础,要有好的使用性能,其焦点首先是序列数据的提交过程,而不是关于数据的生物学内容。上述EDP的概念和数据库的联合体是构建生物数据库的基础,两者有效结合才会使新型生物数据库系统更加有效,比其他可能的情况下具有更高的质量。显然,有效性是基础,因为EDP减少了数据库从一种数据容量到另一种数据域范围的维护任务,此外,参加联合体有利于削减规模,也增加了有效性。这样一来,同样会产生比较高质量的数据,因为每个数据库的工作人员可以集中精力处理极为重要的缺失数据。

    3 蛋白质组学
, http://www.100md.com
    随着人类基因组计划的顺利执行和几种典型模式生物基因组测序的完成,其工程非常宏伟,可称世界之最。可是各种完整的基因序列仅仅是在一定的有限条件下,并在局部静态水平上获得的综合结果,因此充其量在今后利用这些测试序列时也只能进行生物功能的静态分析,由于从mRNA序列是无法准确预测蛋白质的表达的,因为在表达过程中受到中心法则翻译过程中许多动态修饰因子的调控,所以人们是无法理解其因果关系的,尤其是蛋白质的生成、活化和降解受到生物体内外环境的直接影响,完全是一个十分复杂的多因素的生物动态过程。因此,蛋白质作为基因调控的产物,与细胞和机体生理过程代谢直接有关,至今机制尚未阐明,所以在基因组测序基本完成之后,接着的蛋白质研究理应受到重视。在美国,蛋白质组研究已经到了远比基因组研究更为热门的程度。

    蛋白质组学(Proteome)的概念是1994年澳大利亚Macˉquarie大学的Wilkin和Williams首次提出,它是指基因表达的全部蛋白质及其存在方式,旨在阐明生物体全部蛋白质,修饰形式、结构、功能和相互作用。因此,研究蛋白质组学是从一个机体和一个细胞的蛋白质整体活动的角度来揭示和阐明生命活动的基本规律。
, http://www.100md.com
    人们希望通过蛋白质组学的研究,比较研究体系内不同生长发育时期、给药前后、生理与病理状态等不同条件下蛋白质的表达谱,分析各类蛋白质的变化,要求从结果上了解生物体内的复杂代谢和生物功能调控等,这在世界上属于后基因组学,即蛋白质组学的内容,部分结果已经成功地应用于生物医学等众多领域,尤其对疾病产生机制的研究方兴未艾。不过,限于人们的认识水平,在现有基础上产生的概念和行为还是受到当前科学水平的限制,基因组学和蛋白质组学虽然都是当代科学技术宏伟的新进展,但离开人们认识生命本质的愿望和要求相距甚远,关键在于必须掌握生命活动的动态因果关系,但目前看来还不可能。

    4 多学科交叉的生物医学工程学

    生物医学工程学实际上是由生物科学、医学和工程学密切结合相互促进发展的典型多学科交叉的新兴领域,它包含了基因组学、蛋白质组学和信息技术的新进展。

    4.1 医学应用 在医学上若要识别单个基因变异如何导致疾病,这需要应用现代方法学和工程科学技术检测基因的影响和作用。全基因组的使用价值人们寄希望于将大大地便于解决非常复杂,但又十分常见的多发病,如许多类型的糖尿病、哮喘、癌症和精神病等,识别基因的组分是相当困难的问题。在这些问题中,识别多基因和确定环境因素的相互作用尤显重要。在工程上,现在可以使用一次可测定成千上万个基因的表达技术,使生物学和医学科学家从整体上开始寻找与基因表达差异有关的问题。例如,研究人体对不同药物反应的能力或对癌症病理状态的反应能力。
, http://www.100md.com
    4.2 生物硅片技术 生物硅片是综合了生物多点参数测量、分析和生物状态信息处理的生物芯片系统,这是随着人类基因组研究迅速发展起来的一个分支。随着后基因组时代的到来,需要研究基因组功能和发病机理,以及研究疾病易感性等,这些均涉及大量DNA数据和蛋白质数据的测量及比较,迫切需要高效检测技术,这就造就了微电子技术与生物基因组技术相结合的生物硅片的诞生,把成千上万个不同的DNA分子集中在很小的一块基片上,运用微细技术加工出用于生物样品制备、反应和检测的微系统。将生物界多少年来不连续进行分析的过程变成连续化和微型化,可用来检测核酸、蛋白质和生物组织碎片等。显然,用不了多长时间生物硅片技术将为生物学、基础医学和疾病诊断及治疗的临床医学、新药开发等应用领域开辟一条全新的 道路。

    4.3 药物研究与筛选 传统的药物研究与开发是一项费时耗资巨大而且只是药物研究工作者的工作,在过去漫长的岁月里,每一种新药从开始研究到投放市场,都要经过10年左右时间和耗资3亿左右美元。后来尽管发展了组合化学和群集筛选方法,这种状况在程度上是有一定改善,但从总体来讲仍比较费时间和耗资巨大。
, 百拇医药
    近年来,由于结构生物学和计算生物学的迅速发展,尤其通过计算机建模方法模拟各种生理和病理过程,选择各种不同信息源的数据进行计算机仿真,这样一来不仅可以提供生物大分子的空间结构的数据,还能在量子分子学和量子化学基础上提供电子结构的数据,如能级、表面电荷分布、分子轨道相互作用等,以及提供生化反应中的能量变化、电荷迁移、构象变化等动力学行为的数据,除此以外,建模与仿真技术还可以研究生物大分子及其周围的水和离子环境所形成的复杂体系和生物分子的量子效应,凡此种种,过去都无法采用常规的试验方法来确定的。但是,在今天可以通过初步的模型计算,在分子、亚分子和电子水平上了解药物对生物靶的相互作用,在此基础上再开展药物生物学实验不仅可以节省大量筛选的时间和经费,药物的研究周期也可以大大地缩短。这样的研究工作需要未来的生物医学工程学研究者参与,而且是生物医学工程学领域专家应该参与的多学科交叉领域之一。

    此外,应用生物筛选模型,在此基础上解释所发现的活性化合物及其作用机制,尽可能多发现病理过程涉及的基因。然后应用序列分析和计算生物学的方法学对实验工作进行验证。目前已有许多可对这些序列进行比较、分析和预测的计算机程序,如Wisconsin大学遗传学计算机研究小组研发的支持序列分析及其相关数据库软件包“Wisconsin Package”,该软件可以用来进行数据库检索,多重序列对比分析、片段装配、蛋白质性质和结构分析等等许多功能。

    只要病理过程涉及的相关基因的结构与功能一旦有所阐明,接着要进行药物作用靶验证,评估其作用的化合物成为有效治疗药物的可能性。凡此种种都说明药物研究和筛选已经成为生物科学、医学和工程科学密切合作的多学科交叉领域。

    作者单位:310027浙江大学生命科学学院生物医学信息研究所

    (编辑维 兰), 百拇医药(葛霁光)