当前位置: 首页 > 药学版 > 生命科学 > 专家综述
编号:10412151
生物信息学
http://www.100md.com 国外科技动态
     一、生物信息学的诞生及其重要性

    早在 1956 年美国田纳西州盖特林堡召开的首次 " 生物学中的信息理论研讨会 " 上便产生了生物信息学的概念。

    1987 年林华安博士正式为这一领域定下生物信息学 (Bioinformatics) 这一 " 称谓 "。目前 , 一般认为 , 生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统科学 , 通过其独特的桥梁作用和整合作用 , 使人们能够从各生物学科众多分散的观测资料中 , 获得对生物学系统和生物学过程运作机制的理解 , 最终达到自由应用于实践的目的。生物信息学的实质就是利用计算机科学和网络技术来解决生物学问题。

    在 21 世纪初 , 生物科学的重点已由 20 世纪的试验分析和数据积累 , 转移到数据分析及其指导下的试验验证上来 , 生物科学正在经历着从分析还原思维到系统整合思维的转变。
, 百拇医药
    二、生物信息学与基因组研究

    生物信息学的研究内容是伴随着基因组研究而发展的。广义地说 , 生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这个定义的含义是双重的: 一是对海量数据的收集、整理与服务 , 即管理好这些数据 ; 二是从中发现新的规律 , 也就是用好这些数据。

    具体地说 , 生物信息学是把基因组 DNA 序列信息分析作为源头 , 找到基因组序列中代表蛋白质和 RNA 基因的编码区 ; 同时 , 阐明基因组中大量存在的非编码区的信息实质 , 破译隐藏在 DNA 序列中的遗传语言规律。在此基础上 , 归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据 , 从而认识生物代谢、发育、分化、进化的规律。

    三、生物信息学的主要研究内容
, 百拇医药
    纵观当今生物信息学界的现状 , 可以发现大部分研究人员都把注意力集中在基因组、蛋白质组、蛋白质结构以及与此密切相关的药物设计上。

    1 、基因组

    1.1 、获取人和各种生物的完整基因组

    基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有 32 亿个碱基 , 要得到人的全部遗传密码首先要把人的基因组打碎 , 测完一个个小段的序列后再把它们重新拼接起来。

    迄今为止 , 人们对人类基因组真正掌握规律的只有 DNA 上 的编码蛋白质的区域 , 最新资料表明这部分序列只占基因组的 1.1%。 在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明非编码序列具有重要的生物功能。由于它们并不编码蛋白质 , 一般认为 , 它们的生物学功能可能体现在对基因表达的时空调控上。
, 百拇医药
    1.2 、发现新基因和新的单核普酸多态性

    发现新基因是当前国际上基因组研究的热点 , 使用生物信息学的方法是发现新基因的重要手段。

    (1) 发现新基因

    利用 EST(Expressed sequence Tags) 数据库发现新基因称为基因的 " 电脑克隆 " 。 EST 序列是基因表达的短 CDNA 序列 , 它们携带着完整基因的某些片段的信息。通过计算分析从基因组 DNA 序列中确定新基因编码区 , 已经形成许多分析方法 , 如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异等。截止到 2001 年 10 月 , 在 GenBank的 EST 数据库中 , 人类 EST 序列已超过 380 万条 , 它大约覆盖了人类基因的 90% 以上。
, 百拇医药
    此外 , 还可以从基因组序列预测新基因 , 其本质是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开。从方法上讲 , 就是找出在编码区和非编码区有哪些数学和物理学特征是不一样的 , 将这些序列与已知基因数据库进行比较 , 就可以发现新基因。

    (2) 发现单核苷酸多态

    有的人吸烟喝酒却长寿 , 也有人自幼就病痛缠身 ; 同一种治疗肿瘤的药物对一些人非常有效 , 对另一些人则完全无效。这是为什么 ? 答案是他们的基因组存在差异。这种差异很多表现为单个碱基上的变异 , 也就是单核苷酸的多态性 (single nucleotide polymorphism,SNP)。

    一般认为 ,SNP 研究是人类基因组计划走向应用的重要步骤。这主要是因为 SNP 将提供一个强有力的工具 , 用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。 SNP 在基因组中分布相当广泛 , 近年的研究表明 , 在人类基因组中每 300 个碱基对就出现一次。大量存在的 SNP 位点 , 使人们有机会发现与各种疾病相关的基因组突变。
, http://www.100md.com
    2 、蛋白质组

    基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行 , 由于基因芯片技术只能反映从基因组到 RNA 的转录水平上的表达情况 , 而从 RNA 到蛋白质还有许多中间环节的影响 , 这样 , 仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者一一蛋白质的整体表达状况。因此 , 近年在发展基因芯片的同时 , 人们还发展了一套研究基因组所有蛋白质产物表达情况的技术一一蛋白质组研究技术 , 从技术上讲包括二维凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况 , 通过质谱测序技术则可以得到所有这些蛋白质的序列组成。然而 , 最重要的是如何运用生物信息学的方法去分析获得的海量数据 , 从中还原出生命运转和调控的整体系统的分子机制。

    3 、蛋白质结构及新药设计

    基因组和蛋白质组研究的迅猛发展 , 使许多新蛋白序列涌现出来。然而 , 要了解它们的功能 , 只有氨基酸序列是远远不够的 , 因为蛋白质的功能是通过其三维结构来执行的 , 而且蛋白质的三维结构不一定是静态的 , 在执行功能的过程中 , 其结构会有所改 变。目前 , 除了通过诸如 X 射线晶体结构分析、多维核磁共振波谱分析和电子显微镜二维晶体三维重构等物理方法获得蛋白质的三维结构之外 , 广泛使用的一种方法是通过计算机辅助预测的方法。一般认为 , 蛋白质的折叠类型只有数百到数千种 , 远远小于蛋白质所具有的自由度数目 , 而且蛋白质的折叠类型与其氨基酸序列具有相关性 , 这样就有可能直接从蛋白质的氨基酸序列 , 通过计算机辅助方法预测出蛋白质的三维结构。
, http://www.100md.com
    四、国内外生物信息学的现状

    国外一直非常重视生物信息学的发展 , 各种专业研究机构和公司如雨后春笋般涌现出来 , 生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。由于对生物信息学的需求是如此迅猛 , 即使是美国这样的发达国家也面临着供不应求、人才匮乏的局面。

    目前 , 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的 3 家数据库系统产生 , 他们共同组成了DDBJ/EMBL/GenBank国际核酸序列数据库 , 每天交换数据 , 同步更新。其他一些国家 , 如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等 , 在分享网络共享资源的同时 , 也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术 , 服务于本国生物 ( 医学 ) 研究和开发 , 有些服务也对全世界开放。

, 百拇医药     国内对生物信息学领域也越来越重视 , 在一些著名院士和教授的带领下 , 在各自领域取得了一定成绩 , 有的在国际上还占有一席之地 , 如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在 EST 序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在 DNA 序列的几何学分析方面都取得重要成果。但从全国总体来看与国际水平差距很大。

    此外 , 国内生物 ( 医药 ) 科学研究与开发对生物信息学研究和服务的需求市场非常广阔。但是 , 真正开展生物信息学具体研究和服务的机构或公司却相对较少 , 仅有的几家科研机构主要开展生物信息学理论研究 , 生物信息学服务公司提供的服务仅局限于简单的计算机辅助分子生物学实验设计 , 而且服务体系也不完善。, 百拇医药