鄢仁祥 - Fuzhou Universitybio.fzu.edu.cn/attach/2018/01/17/299231.pdf ·...

157

Transcript of 鄢仁祥 - Fuzhou Universitybio.fzu.edu.cn/attach/2018/01/17/299231.pdf ·...

  • 鄢仁祥(本书通讯作者 [email protected]),生物信息学博士,现任福州大学

    副研究员,硕士生导师,主要研究方向为蛋白质结构与功能预测,已发表研究论

    文 20 余篇。

    王晓锋,生物信息学博士,现为山西师范大学副教授,硕士生导师,主要从事蛋

    白质结构相关性质预测研究工作。

    陈震,生物信息学博士,现为青岛大学讲师,主要从事基因组数据挖掘研究工作。

    蔡伟文,博士,福州大学教授,博士生导师,主要从事基因芯片研究。目前已经

    在《NATURE》和《PNAS》等杂志上发表研究论文数十篇。

    林娟,博士,福州大学教授,博士生导师,福建省海洋酶工程重点实验室研究员,

    主要从事应用微生物与分子酶学等方向的研究。在国内外核心刊物上发表论文

    80 余篇。

    版次:2017 年 5 月第一版

    ISBN:978-7-5335-5096-7

  • 1

    前 言

    Sanger团队在 1977年利用双脱氧链终止法对噬菌体Phi X 174进行了完整测

    序(Sanger 等 Nature 1977),之后关于测序技术的研究就广泛展开了。在 1985 年,

    美国科学家基于该技术率先提出了被誉为与―人造卫星登月计划‖相媲美的人类

    基因组测序的构想,旨在获得人类基因组中 30 亿个碱基对序列信息,探索基因

    在人类染色体上的准确位臵,并希望破译人类全部遗传信息。该计划在当时预计

    需耗时十多年并要求至少约 30 亿美元的科研经费投入,测序结果可以在分子水

    平上全面地认识人类自身结构。该计划最终由美国、英国、法国、日本、德国以

    及中国共同参与完成,并于 2001 年公布了人类第一份基因组草图,这个测序草

    图的完成标志着生物学研究达到了一个新的里程碑。随着人类基因组计划的实施,

    相应的测序技术得到快速的发展,水稻、花生、玉米、小麦、果蝇、真菌、细菌、

    小鼠等生物基因组草图也相继顺利获得。利用基因组数据,人们可以精准地定位

    相应特性所在的基因区段,可以对水果和蔬菜品种进行改良,进而为提高农作物

    的品质提供更有效的研究线索。因此,更多的转基因植物和动物,以及相关食品

    将出现。另外,通过基因组数据研发新药物,调节人体的生化特性,人类将可能

    恢复或修复人体细胞和器官的功能,甚至可能改变人类的进化历程。各种具有代

    表性物种基因组测序的完成,标志着后基因组时代(post-genomic era)已经来临。

    随着基因组计划的成功完成,结构基因组计划正在开展,研究人员将会积累

    越来越多的核酸序列、蛋白质序列、结构与功能数据。另外,蛋白质序列与结构

    数据之间的数量差异不断加大。目前,如何对这些数据进行分析,挖掘其中潜在

    的生物学知识成为研究人员亟需面对的科学问题之一。仅仅通过实验方法进行研

    究存在一定的局限性,例如实验方案一般较复杂且周期长,而生物信息学

    (Bioinformatics)可能是另外一种解决方案。生物信息学是利用数学、信息学、统

    计学和计算机科学等计算方法从理论层面上研究生物学问题的一门学科。生物信

    息学通过对海量的生物学数据进行分析,有助于全面而深入地了解基因组和蛋白

    质组中蕴含的生物学功能,同时可以极大地节约大量的人力、物力和财力。蛋白

    质是细胞活性及功能的执行者,蛋白质复杂的结构决定着生物体系的复杂程度。

    蛋白质结构生物信息学(Protein Structural Bioinformatics),生物信息学中的一个分

    支,是利用计算机、统计学等方法来处理和分析蛋白质结构和功能的一门学科。

    蛋白质结构生物信息学主要研究以下问题:(1)蛋白质结构数据的存储;(2)根据

    结构与进化信息对蛋白质进行分类;(3)蛋白质结构与功能位点预测;(4)基于结

    构的功能位点处理与分析。蛋白质的序列、结构与功能的关系是一个复杂的科学

    问题。虽然各种蛋白质预测算法被相继提出,而且这些方法的预测精度也在持续

    提高,然而关于蛋白质是如何折叠的生物学本质并没有得到更深入的认识。如果

  • 2

    蛋白质的折叠过程被很好地认识,那么从序列到结构,即蛋白质结构的预测问题

    也许就能顺利地解决。

    近几十年来蛋白质结构生物信息学研究一直是生物学研究中的热点之一,特

    别是蛋白质结构预测研究。如果能够进一步提高蛋白质结构预测的精度,那么一

    方面可以让该方法有更加广阔的应用空间;另一方面也可以让人们对蛋白质序列

    与结构的关系有更加深入的理解。蛋白质结构预测虽然已经得到了广泛的应用,

    但是在膜蛋白质结构预测上的预测性能还不太理想。主要原因是已经通过实验手

    段解析出的膜蛋白的结构数量还非常少,在这种情况下蛋白质结构预测方法难以

    找到合适的模板。在直接预测出膜蛋白的三维结构比较困难的情况下,研究者们

    一般通过预测膜蛋白的一些拓扑特性进行相关的科学研究。对水溶性的球蛋白而

    言,已经有观点认为:Protein Data Bank 数据库中已经包含所有单结构域蛋白所

    需的模板;相关数据库中已经积累了足够多的数据,可以对蛋白质起重要功能作

    用的位点和结合口袋进行统计建模。所以目前可能是发展和应用蛋白质结构与功

    能分析方法的最佳时机。

    编写本书的初衷是笔者计划在教学中为学生们提供一本实用的结构生物信

    息学教材,内容需要涵盖结构相关数据库、序列比对、二级和三级结构预测、结

    构模拟以及重要功能位点预测等。本书的主要目标读者是高年级本科生、研究生

    以及一线的科研人员。该书可以作为一本蛋白质结构计算的简要读本。虽然本书

    的几位作者已经在该领域从事多年的科研工作,但是在编写过程中仍然遇到不少

    问题。因此,我们没有打算让本书成为覆盖全面的大百科全书式的著作。该书在

    写作过程中引用较多经典的文献,我们希望以点带面,引导读者了解相应的生物

    信息学知识。

    在本书完成之际,我们要感谢中国农业大学的张子丁教授,他为本书的写作

    提出了非常中肯的建议,同时也是本书前三位作者共同的博士生导师。同时,感

    谢福州大学为本书的作者之一鄢仁祥博士提供本科生和研究生《生物信息学》课

    程的授课机会,本书雏形即在该课程讲义的基础上不断修订完善而成。本书的写

    作及出版过程得到了国家自然科学基金青年项目《G 蛋白偶联受体结构及与药物

    配体结合的计算研究》(项目编号:31500673)、福建省教育厅科技项目《膜蛋白

    质序列、结构与功能关系的挖掘》(项目编号:JA14049)、福州大学人才基金项

    目《与疾病相关的生物信息学平台的构建》(项目编号:XRC-1336)的资助。在此

    表示衷心感谢。

    编者

  • 1

    目 录

    第一章 蛋白质相关数据库简介 ....................................... 1

    第一节 三大生物信息研究中心 ........................................... 2

    一、NCBI ..................................................................... 2

    二、EMBL ..................................................................... 2

    三、DDBJ ..................................................................... 2

    四、三个研究中心关系 ......................................................... 2

    第二节 蛋白质序列和结构相关数据库 ..................................... 5

    一、PDB 数据库 ............................................................... 5

    二、PDBsum 数据库 ............................................................ 6

    三、SCOP 数据库 .............................................................. 6

    四、CATH 数据库 .............................................................. 7

    五、FSSP 数据库 .............................................................. 7

    六、HOMSTRAD 数据库 .......................................................... 8

    七、SwissProt 数据库 ......................................................... 8

    八、NR 数据库 ................................................................ 8

    九、分子数据获取实例 ......................................................... 9

    第三节 总结 .......................................................... 10

    第二章 生物序列比对算法 .......................................... 12

    第一节 比对的基础模型 ................................................ 12

    第二节 经典比对算法 .................................................. 17

    一、Needleman-Wunsch 全局比对 ............................................... 17

    二、Smith-Waterman 局部比对 ................................................. 17

    三、BLAST 数据库搜索 ........................................................ 18

    四、SSEA 二级结构元素比对 ................................................... 19

    五、PSI-BLAST 迭代比对 ...................................................... 21

    六、序列谱与序列谱比对 ...................................................... 23

    七、序列谱与结构谱比对 ...................................................... 24

    第三节 比对准确性和统计显著性 ........................................ 25

    第四节 总结 .......................................................... 26

    第三章 蛋白质结构基础 ............................................ 29

    第一节 蛋白质结构的四个层次 .......................................... 30

    第二节 蛋白质预测的理论基础 .......................................... 32

    第三节 蛋白质结构与功能关系 .......................................... 34

    第四节 蛋白质序列与结构特性 .......................................... 38

    一、模体 .................................................................... 38

    二、二面角 .................................................................. 39

  • 2

    三、溶剂表面可及性和深度 .................................................... 39

    第五节 结构比对 ...................................................... 41

    第六节 总结 .......................................................... 41

    第四章 蛋白质二级结构预测 ........................................ 45

    第一节 蛋白质二级结构及其预测 ........................................ 45

    第二节 经典的蛋白质二级结构预测算法 .................................. 48

    一、Chou-Fasman ............................................................. 51

    二、GOR ..................................................................... 51

    三、PHD ..................................................................... 51

    四、PSI-PRED ................................................................ 52

    五、SPINE-X ................................................................. 52

    六、PSSpred ................................................................. 52

    七、元方法(一致性方法) ...................................................... 53

    第三节 预测精度的评价指标 ............................................ 54

    第四节 预测结果精修 .................................................. 54

    第五节 主流方法预测性能 .............................................. 55

    第六节 总结 .......................................................... 56

    第五章 蛋白质三维结构预测 ........................................ 59

    第一节 蛋白质结构预测基础 ............................................ 59

    第二节 蛋白质结构预测的三类方法 ...................................... 61

    一、同源建模 ................................................................ 61

    二、折叠识别 ................................................................ 62

    三、自由建模 ................................................................ 62

    第三节 三维结构预测代表性方法 ........................................ 63

    一、DescFold ................................................................ 63

    二、FFAS .................................................................... 65

    三、SPARK-X ................................................................. 66

    四、HHsearch ................................................................ 66

    五、Rosetta ................................................................. 67

    六、Modeler ................................................................. 67

    七、模型准确性评价 .......................................................... 67

    第四节 蛋白质结构预测准确性评价方法 .................................. 68

    第五节 蛋白质三维结构图形显示软件 .................................... 69

    第六节 总结 ........................................................... 69

    第六章 分子模拟基础 .............................................. 72

    第一节 常用分子模拟技术 .............................................. 72

    一、分子对接 ................................................................ 72

  • 3

    二、分子力场的设计 .......................................................... 74

    三、分子动力学 .............................................................. 76

    第二节 酶催化反应动力学 .............................................. 77

    第三节 定量构效关系 .................................................. 78

    第四节 分子改造 ...................................................... 79

    第五节 分子模拟软件 AutoDock简介 ..................................... 80

    第六节 总结 .......................................................... 81

    第七章 膜蛋白计算基础 ............................................ 83

    第一节 膜蛋白基础 .................................................... 84

    一、膜蛋白质结构特点 ........................................................ 84

    二、膜蛋白相关数据库 ........................................................ 85

    三、外膜蛋白数据特点 ........................................................ 87

    第二节 膜蛋白预测方法 ................................................ 87

    一、跨膜蛋白识别和拓扑结构预测 .............................................. 87

    二、膜蛋白残基的磷脂可及性预测 .............................................. 91

    三、跨膜螺旋接触预测 ........................................................ 92

    四、膜蛋白质结构预测 ........................................................ 93

    五、外膜蛋白识别 ............................................................ 94

    第三节 总结 .......................................................... 96

    第八章 机器学习算法 ............................................. 100

    第一节 常见的机器学习算法 ........................................... 100

    一、支持向量机(Support Vector Machine) ..................................... 100

    二、人工神经元网络(Artificial Neural Network) .............................. 101

    三、随机森林(Random Forest) ................................................ 105

    四、隐马尔可夫模型 ......................................................... 106

    五、朴素贝叶斯方法 ......................................................... 107

    六、最小二乘法 ............................................................. 107

    第二节 不同方法的评价方法 ........................................... 107

    一、ROC 曲线 ............................................................... 107

    二、测试流程 ............................................................... 110

    三、评价指标 ............................................................... 111

    第三节 特征编码 ...................................................... 112

    一、单肽频率 ............................................................... 112

    二、序列 k-空格氨基酸对 .................................................... 112

    三、PSI-PRED 编码 .......................................................... 113

    四、PSSM 编码 .............................................................. 113

    五、长度编码 ............................................................... 114

    六、正交编码 ............................................................... 114

    第四节 总结 ......................................................... 115

  • 4

    第九章 蛋白翻译后修饰位点与蛋白相互作用 ......................... 117

    第一节 蛋白质功能位点相关数据库 ..................................... 117

    第二节 重要翻译后修饰位点 ........................................... 119

    一、糖基化(glycosylation)位点 .............................................. 119

    二、泛素化(ubiquitination)位点 ............................................. 119

    三、金属离子结合位点 ....................................................... 119

    第三节 蛋白质相互作用位点 ........................................... 120

    第四节 基于蛋白质结构的功能位点分析 ................................. 121

    第五节 辅因子(co-factor)与酶 ........................................ 122

    第六节 总结 ......................................................... 123

    第十章 Perl 经典程序举例 ........................................ 126

    第一节 选择及循环结构语句 ........................................... 128

    第二节 读写文件及简单操作 ........................................... 129

    第三节 计算序列中二十种氨基酸出现的频率 ............................. 130

    第四节 两组数据皮尔逊相关系数计算 ................................... 131

    第五节 最小二乘法线性方程参数估计 ................................... 132

    第六节 用蒙特卡罗算法估算圆周率 ..................................... 133

    第七节 fasta数据库文件解析及分割 .................................... 134

    第八节 BLAST比对结果解析 ............................................ 135

    第九节 二级结构元素比对 ............................................. 136

    第十节 ROC 曲线及 AUC面积计算 ........................................ 139

    第十一节 蛋白疏水性指标计算 ......................................... 143

    附录一 常见机器学习软件包使用命令 ............................... 145

    附录二 开源的机器学习代码 ....................................... 146

    第一节 人工神经元网络 ............................................... 146

    第二节 随机森林 ..................................................... 147

    附录三 缩略词索引表 ............................................. 148

  • 第一章 蛋白质相关数据库简介

    1

    第一章 蛋白质相关数据库简介

    生物信息学,一个传统生物学和现代信息技术相结合的产物,是采用数学和

    计算机技术来存储和分析生物学数据的一门综合性学科。该学科发展的动力主要

    源于不断积累的生物学数据,包括核酸序列、蛋白质序列、蛋白质三维结构信息、

    重要功能位点和表观遗传等在内的一系列数据。其中,蛋白质数据对解释相关生

    物学功能作用尤其重要。蛋白质(Protein)这个词是由希腊语―Proteios‖转化而来的,

    意思是―头等重要的‖。在 1839 年,荷兰医药化学家 Mulder 推导出了一个基本的

    化学式:C40H62O12N10,其中含有碳、氢、氧和氮元素。Mulder 认为只要在这个

    基本化学式中加入含硫或含磷的基团,就可以形成各种蛋白质化合物。从那时起

    蛋白质就被认为是一种大的分子化合物。生物体中绝大多数的细胞功能都是通过

    蛋白质介导调控的。蛋白质由 20 种氨基酸分子组成,相邻氨基酸残基的羧基和

    氨基通过肽键连接在一起,并折叠形成各式各样的结构类型。蛋白质通过折叠成

    特定的三维结构来行使其生物学功能,例如一些蛋白质就是细胞生化反应过程中

    需要的酶 1。生物体内蛋白质的三维结构基本是稳定的,但有时蛋白质中的一些

    氨基酸还可以被修饰从而引起蛋白质结构的变化,并通过这个过程起到一定的生

    物调控作用。一些膜蛋白还具有信号传导作用和机体免疫作用等 2, 3。蛋白质也

    是人们日常饮食中必需的营养物质,人体自身无法合成某些必需氨基酸,但可以

    通过消化所摄入的食物(例如牛奶)中包含的蛋白质,将蛋白质降解为氨基酸,再

    将吸收的氨基酸用于自身蛋白质的合成。因此,蛋白质在生命科学研究中的重要

    性是不言而喻的。在 1989 年发起的人类基因组计划于 2000 年初步完成之后,大

    批物种的基因组及蛋白质组相继被成功测定,大量的生物学原始数据在这个过程

    中产生。如何解读这些生物学数据,特别是蛋白质序列、结构与功能数据,成为

    研究者们面临的生物学问题之一。同时,这也是现代生物学家和计算科学家们面

    对的发展机遇之一。犹如 Pevsner4 所说:―我们正面对生物学史上一个不平凡的

    时刻,类似于在第十九世纪元素周期表刚刚完成时,那时元素周期表已清晰地排

    列成行和列,但我们仍然花了一个世纪来掌握元素的意义。今天我们虽已测得了

    数以千计的生物基因组数据,而要寻找一个逻辑来解释这些数据的作用和功能,

    这一过程可能需要另外一个一百年‖。

    数据库(Database)是指按照一定的数据结构来组织、存储和管理数据的文件

    或者软件。在数据库系统中信息可以非常方便地进行检索。相对成规模的生物序

    列数据收集和整理也许最早可以追溯到 1965 年由 Dayhoff 开发的蛋白质数据库

    (Atlas of Protein Sequence and Structure)。在 1970 年左右,Brookhaven 国家实验

    室建立了 Protein Data Bank (PDB)数据库。十年之后(1980 年左右) GenBank 数据

    库才出现。这些数据库建立之初数据量都非常少,但是近年来生物学数据呈指数

    级增长,促使科研人员构建新的数据库系统并开发新的分析工具来存储和处理这

    些数据。NCBI、EMBL 和 DDBJ 为世界三大生物数据信息中心。这三个世界主

    流中心提供了非常多样和重要的研究数据。下面将简要地介绍这三个生物信息学

  • 蛋白质结构生物信息学

    2

    中心,并重点和详细地介绍一些与本书后续内容直接相关的一些蛋白质数据库。

    另外,表 1-1 中列出了三大生物信息中心和一些常用的生物学数据库。

    第一节 三大生物信息研究中心

    一、NCBI

    NCBI (National Center for Biotechnology Information)是指美国国立生物技术

    信息中心,创建于 1988 年,可以通过网址 http://www.ncbi.nlm.nih.gov/访问。NCBI

    是 NIH(National Institutes of Health)下属的国立医学图书馆(NLM)的一个分支。从

    1992 年起,NCBI 承担起维护 GenBank DNA 序列数据库的责任。NCBI 网站的

    数据库包含大部分已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和

    生物学功能注释。NCBI 中的核酸数据来源包括三个方面: 直接来源于测序工作

    者提交的序列;由测序中心提交的大量 EST 序列和其他测序数据;以及与其他

    数据机构协作交换数据而来。NCBI 的文献著作数据库 PubMed 存储着大量与核

    酸及蛋白质序列相关的文献,以及 PubChem 数据库存储小分子结构。NCBI 也提

    供多种生物序列分析工具,例如 BLAST。总体来说,NCBI 是目前使用最为广泛

    的集生物数据库、分析工具和文献在内的一个综合性网站。

    二、EMBL

    EMBL(The European Molecular Biology Laboratory)是指欧洲分子生物学实验

    室(即欧洲生物信息学中心),创建于 1974 年,可以通过网址 http://www.ebi.ac.uk

    访问。EMBL 是一个综合性和国际化的科学研究中心,由欧洲 14 个国家和亚洲

    的以色列等国共同发起建立。EMBL 提供核酸与蛋白相关的各种数据库,也包含

    各种与疾病相关的数据。同时,EMBL 也提供一系列可灵活使用的序列分析工具。

    由于具有开放和创新的良好学术氛围,该研究中心目前已发展成欧洲最重要和核

    心的分子生物学基础研究和教育培训机构。例如,著名的结构生物信息学家 Rost

    和 Sander 就曾经在 EMBL 研究中心工作过。

    三、DDBJ

    DDBJ(DNA Data Bank of Japan) 是指日本构建的 DNA 数据库,现也称为日

    本生物信息研究中心,创建于 1984 年,可以通过网址 http://www.ddbj.nig.ac.jp

    访问。DDBJ 创建之初主要收集及存储核酸数据,后期也逐渐收集蛋白及其他与

    生物序列相关的数据。DDBJ 也提供不少序列分析工具,例如 SQmateh,可以用

    来搜索基因或蛋白质中短的碱基或氨基酸序列区域。

    四、三个研究中心关系

    NCBI、EMBL 和 DDBJ 这三个研究中心的数据库每天都在更新数据和交换

    信息,而且这三个研究中心同时主持两个国际年会:国际 DNA 数据库咨询会议

    http://www.ncbi.nlm.nih.gov/访问。NCBI是NIHhttp://www.ncbi.nlm.nih.gov/访问。NCBI是NIHhttp://www.ebi.ac.uk/http://www.ebi.ac.uk/http://www.ddbj.nig.ac.jp/访问。DDBJhttp://www.ddbj.nig.ac.jp/访问。DDBJ

  • 第一章 蛋白质相关数据库简介

    3

    和国际 DNA 数据库协作会议。因为定期相互验证与交换数据信息,所以三个信

    息中心中的数据在理论上应该是相同或者相近的,但这三个中心在分析工具上各

    有一些特点。

    表 1-1 三大生物信息中心及主流蛋白质相关数据库

    数据库 主要内容 网址

    三大生物信息中心

    NCBI 美国国立生物技术信息中心 http://www.ncbi.nlm.nih.gov

    EMBL 欧洲生物信息数据中心 http://www.ebi.ac.uk

    DDBJ 日本生物信息数据中心 http://www.ddbj.nig.ac.jp

    主流蛋白质相关数据库

    PDB PDB 数据库是储存通过实验测定的蛋

    白质结构的数据库,作为一级数据库,

    为其他数据库提供原始数据

    http://www.rcsb.org/pdb

    SCOP SCOP 数据库主要依赖于结构生物学专

    家对 PDB 数据库中的结构进行分类。与

    其他数据库相比,SCOP 数据库更新速

    度较慢

    http://scop.mrc-lmb.cam.ac.uk

    CATH CATH 数据库的构建既使用计算机程序

    (SSAP 结构比对软件),也进行人工检查

    以验证结果正确与否

    http://www.cathdb.info

    FSSP FSSP 数据库采用 Dali 程序把蛋白质结

    构分成不同的家族

    http://swift.cmbi.kun.nl/swift/fssp

    HOMSTRAD HOMSTRAD 数据库采用结构比对软件

    COMPARER 对蛋白质结构进行比对及

    分类,数据库中提供相应的多序列比对

    结果

    http://tardis.nibio.go.jp/homstrad

    PubChem 美国国家健康研究院 (US National

    Institutes of Health)构建的有机小分子生

    物活性数据库

    http://www.ncbi.nlm.nih.gov/pcco

    mpound

    http://www.ncbi.nlm.nih.gov/http://www.ebi.ac.uk/http://www.ddbj.nig.ac.jp/http://www.rcsb.org/pdb/http://scop.mrc-lmb.cam.ac.uk/scop/http://www.cathdb.info/http://swift.cmbi.kun.nl/swift/fssp/http://tardis.nibio.go.jp/homstrad/

  • 蛋白质结构生物信息学

    4

    图 1-1 一个 PDB 文件的部分信息

  • 第一章 蛋白质相关数据库简介

    5

    表 1-2 氨基酸三字母和单字母符号

    # 中文名称 英文名称 三字母 单字母

    1 丙氨酸 Alanine Ala A

    2 半胱氨酸 Cystine Cys C

    3 天冬氨酸 Asparticacid Asp D

    4 谷氨酸 Glutamicacid Glu E

    5 苯丙氨酸 Phenylalanine Phe F

    6 甘氨酸 Glycine Gly G

    7 组氨酸 Histidine His H

    8 异亮氨酸 Isoleucine Ile I

    9 赖氨酸 Lysine Lys K

    10 亮氨酸 Leucine Leu L

    11 甲硫氨酸 Methionine Met M

    12 天冬酰胺 Asparagine Asn N

    13 脯氨酸 Proline Pro P

    14 谷氨酰胺 Glutarnine Gln Q

    15 精氨酸 Arginine Arg R

    16 丝氨酸 Serine Ser S

    17 苏氨酸 Threonine Thr T

    18 缬氨酸 Valine Val V

    19 色氨酸 Tryptophan Trp W

    20 酪氨酸 Tyrosine Tyr Y

    第二节 蛋白质序列和结构相关数据库

    一、PDB 数据库

    PDB5 数据库始建于 1971 年,由美国布鲁海克海文国家实验室开发及维护。

    PDB 数据库收集通过 X 射线衍射和核磁共振等实验方法测定的蛋白质及其他生

    物分子结构,该数据库建立之初仅包含 7 个蛋白质结构数据。早期版本的 PDB

    数据库也接收通过计算方法得到的理论结构模型,但目前 PDB 数据库中仅包含

    也仅接收通过实验手段测定的蛋白质结构。PDB 数据库以文本文件的格式存放

    蛋白质结构数据,可以通过该网站直接检索单个蛋白的序列及其对应的三维结构

    数据,或者通过该网站提供的 FTP 地址批量下载。PDB 数据库中一般用 4 个字

    符表示一个蛋白,例如 1F886。若是复合物蛋白,通常用第 5 个字母表示其链,

    例如 1F88A 和 1F88B 分别表示该蛋白中的 A 链和 B 链结构。蛋白质三维结构文

    件内容中除了包含原子坐标的信息外,还包含物种来源、化合物名称、结构分辨

    率、结构因子、温度系数和蛋白质主链数目等数据。图 1-1 是一个 PDB 文件(10gs

    蛋白)的部分数据,其中包含酶分类号、与之相互作用的小分子以及原子坐标等

    信息。PDB 文件中相应的氨基酸是以三个字母的形式表示的,而一般序列文件

    中氨基酸是以单字母形式表示的。表 1-2 列出了 20 种氨基酸单字母与三字母符

    号。需要注意的是一些小分子(例如甘油、乙二醇等)有时会被用来作为添加剂来

    解析蛋白质晶体结构,所以并不是所有在 PDB 文件中存在的小分子都与该蛋白

  • 蛋白质结构生物信息学

    6

    有生物相关性,这时就需要进一步了解 PDB 文件中蛋白及小分子的结构,或者

    挖掘相关文献加以判断。PDB 数据库中对小分子一般以 SDF 格式存储。另外,

    PDB 数据库中同时存储经过 X 晶体衍射和 NMR 方法获得的结构,但两个方法

    存储的数据是不太相同的。一般经过 X 晶体衍射法获得的蛋白就只有一种结构

    类型,而通过 NMR 法获得的是蛋白质结构的集合(ensemble)。两者不同的原因

    是 X 晶体衍射法通过蛋白质晶体获得数据,而 NMR 是扫描蛋白质在溶液中的结

    构(即动态的过程)获得数据。PDB 结构需要通过特定的结构工具才能直观地显示

    其图形。学术界目前已经开发不少蛋白质三维结构的可视化工具,例如 Pymol7

    和 Rasmol 8 等。

    二、PDBsum 数据库

    PDBsum 是 PDB 的一个拓展数据库。PDB 数据库属于一级数据库,即收集最原

    始的蛋白质序列及结构数据。PDB 数据库中包含大量的有用信息,但同时可能

    含有许多冗余信息,甚至错误信息。因此,有些研究组对 PDB 数据库中的数据

    进行了正确性检验,并把分析结果以数据库的形式存储。PDBsum 就是这样的数

    据库,它由英国伦敦大学开发与维护。总体来讲,PDBsum 数据库是一个基于

    PDB 注释信息的综合型数据库,该数据库是对 PDB 数据库中的数据进行分析和

    总结,可以通过网址 http://www.ebi.ac.uk/pdbsum 访问。随着 PDB 数据库中蛋白

    质结构数据量的增长,不少研究组开发了基于 PDB 数据库的蛋白质结构分类数

    据库,例如 SCOP、CATH、FSSP 和 HOMSTRAD 等。

    图 1-2 一个 fasta 格式的序列文件

    三、SCOP 数据库

    蛋白质三维结构信息可以在一定程度上揭示其功能和进化历程。蛋白质结构

    分类数据库SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/ )是对PDB数据库中已知三

    维结构的蛋白质进行分类,并描述蛋白质结构和进化之间关系一个非常具有代表

    性的数据库,分成家族(family)、超家族(super family)、折叠(fold)和类型(class)

    四个层次。SCOP 数据库中的蛋白质序列及三维结构信息可以通过其网站中的

    ASTRAL 页面 (http://astral.berkeley.edu/) 9 链接下载,其中既提供蛋白的 PDB 结

    构文件,同时也提供 fasta 格式的序列文件。图 1-2 就是一个 fasta 格式序列的例

    http://scop.mrc-lmb.cam.ac.uk/scop/http://astral.berkeley.edu/

  • 第一章 蛋白质相关数据库简介

    7

    子。但是,SCOP 数据库中的不同层次之间的区分界限并不十分严格,通常层次

    越高,越能清晰地反映结构及进化的相关性。下面将简要介绍这四个层次。根据

    SCOP 数据库网站上的介绍:属于 SCOP 数据库同一家族的蛋白质成员序列的相

    似性程度在 30%以上,而且同一家族的蛋白质之间有比较明确的进化关系。但在

    某些情况下,尽管序列的相似性很低,例如某些球蛋白之间的序列全同率

    (sequence identity)虽然只有 10%,也可以从结构和功能相似性上推断它们来自共

    同祖先,这些序列相似性低但又同源的序列一般用来分析蛋白质弱同源性。超家

    族中的蛋白一般是结构和功能上都有一定的相似性。无论有无共同的进化起源,

    只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折

    叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓

    扑结构。SCOP 数据库定义蛋白质结构类型(classes),主要包括 α-螺旋蛋白、β-

    折叠蛋白、α/β 结构域(主要由平行的 β-折叠片层和 α-螺旋构成)、α+β 结构域(主

    要由反平行的 β-片层结构和 α-螺旋构成)。SCOP 数据库由英国医学研究委员会

    (Medical Research Council)的分子生物学实验室和蛋白质工程研究中心维护。

    SCOP 数据库的分类主要依赖于结构生物学家的专业人工判断。由于蛋白质结构

    种类繁多,所以人工构建蛋白质结构分类数据库是一项十分复杂的工作,因此

    SCOP 数据库的版本更新速度比较慢。同时,SCOP 数据库提供了根据不同的序

    列全同率和 E-value 阈值筛选子数据集的功能。这项功能常用于构建数据集,评

    价折叠识别算法识别弱同源蛋白的性能,寻找目标蛋白的序列不相似但为同源蛋

    白的算法的性能。

    四、CATH 数据库

    CATH10 数据库是与 SCOP 数据库相提并论的另一个著名的蛋白质结构分类

    数据库,有许多研究是基于 SCOP 及 CATH 两个数据库之间的差异展开的。CATH

    数据库名称来自英文拼写(Class, Architecture, Topology and Homologous),其含义

    为类型(Class)、构架(Architecture)、拓扑结构(Topology)和同源性(Homology)。

    CATH 数据库由英国伦敦大学开发和维护。与 SCOP 数据库不同,CATH 数据库

    的构建在使用计算机程序SAP结构比对软件的同时,也进行专家人工手动检查。

    CATH 数据库的分类标准之一是由 α-螺旋和 β-折叠形成的超二级结构排列方式,

    如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。CATH

    的分类同时也考虑到序列的相似性。目前,CATH 数据库可以通过网址

    http://www.cathdb.info 访问。

    五、FSSP 数据库

    FSSP 是基于蛋白质结构相似家族构建的一个数据库 (Families of

    Structurally Similar Proteins) 11, 12。FSSP 数据库最早由 Holm 和 Sander 开发。目

    前,该数据库由欧洲生物信息学研究所 EMBL-EBI 的研究人员进行维护和进一

    http://www.cathdb.info/

  • 蛋白质结构生物信息学

    8

    步开发(http://www.sander.ebi.ac.uk/dali/fssp/)。该数据库中的序列比对数据是基于

    蛋白质结构比对软件 Dali 计算得到的,其中的多序列比对结果可以用于分析不

    同蛋白质家族的结构保守性。用户可以从 FSSP 数据库中查询到不同蛋白的结构

    邻居(structural neighbours)以及基于邻居蛋白的多序列比对结果。

    六、HOMSTRAD 数据库

    HOMSTRAD13 数据库(http://tardis.nibio.go.jp/homstrad)是一个蛋白同源家族

    数据库,该数据库同时提供了基于结构的比对数据。HOMSTRAD 数据库建立之

    初仅包含 130 个蛋白家族的结构比对数据,现在该数据库数据量已经远远超过这

    个数目。HOMSTRAD 数据库的结构比对数据已经被用在蛋白质折叠方法

    FUGUE14 程序中。HOMSTRAD 数据库中结构比对过程是采用结构比对软件

    COMPARER 进行的,而且该数据库还根据蛋白质序列及结构特点把蛋白聚成不

    同的类别,并采用 JOY15 程序对其建立的序列比对结果进行可视化的展示。

    七、SwissProt 数据库

    SwissProt 数据库由瑞士日内瓦大学的研究人员于 1986 年开发和构建。该数

    据库有专门的专家团队支持,负责从科学文献中搜集、整理、分析蛋白质序列的

    功能信息,并注释和发布经过整理的数据。该数据库同时包含与 EMBL、NCBI、

    DDBJ、PDB、Prosite 和 PRINTTS 在内的多个数据库的交叉引用信息。从这个数

    据库中可以获得关于已知功能蛋白的详细信息。例如,G 蛋白偶联受体(GPCR)

    的重要功能位点和跨膜区位臵信息就可以从 SwissProt 数据库中准确获得。目前,

    SwissProt 数据库由瑞士生物信息学研究所 SIB 和欧洲生物信息学研究所 EBI 共

    同维护和更新。

    八、NR 数据库

    NR 数据库一般是特指由 NCBI 提供的非冗余蛋白质序列数据库。NR 取自英

    文 Non-Redundant,即非冗余的意思。NR 数据库由包括 RefSeq、PDB、SwissProt、

    PIRH 和 PRF 在内现有已存在序列数据库中所有不相同的序列组成。该数据库一

    般以 fasta 格式存储序列,可以从网址 ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz

    中下载得到其全部序列。虽然 NR 是非冗余数据库的英文缩写,但是该数据库仍

    然存在不少相同和高相似性的序列。因此,在实际研究中会采用一些过滤手段,

    例如使用 CD-HIT16 程序以一定的阈值去除掉高相似性的冗余序列。通常研究人

    员会使用 PSI-BLAST 搜索 NR 数据库来构建序列谱(Profile),该数据可以直观反

    映一个蛋白及其家族在氨基酸分布频率以及序列进化上的信息。

    http://tardis.nibio.go.jp/homstrad/ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz中下载得到其全部序列。虽然NRftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz中下载得到其全部序列。虽然NR

  • 第一章 蛋白质相关数据库简介

    9

    九、分子数据获取实例

    图 1-3 生物分子数据获取实例

    在实际研究中,一般需要综合应用多个数据库中的数据来做分析。以笔者原

    先研究 G 蛋白偶联受体的跨膜区为例 17,就同时使用到了 PDB 和 SwissProt 等多

    个数据库。首先通过搜索引擎找到 PDB 数据库,之后检索 1F88 蛋白(图 1-3 中

    上半部分)。从 PDB 数据库中我们获取了蛋白的结构数据。同时,PDB 数据库还

    提供该蛋白质在 SwissProt 数据库中的交叉引用,其中有 1F88 蛋白质在 SwissProt

    数据库中的访问号(P02699)。这样我们就可以从 SwissProt 数据库中得到该蛋白

    的跨膜区信息(图 1-3 中下半部分)。这里值得注意的是,不同数据库对序列的标

    识名是不同的。例如在上面这个例子中,相同的一个蛋白,在 PDB 和 SwissProt

    中就分别表示为 1F88 和 P02699。另外,PDB 数据库中从 PDB 结构中导出的序

    列与从其他相关数据库中获得的序列是有一些区别的,主要原因是 PDB 结构中

  • 蛋白质结构生物信息学

    10

    只包含有原子坐标信息的氨基酸,但如果该蛋白的一些氨基酸原子信息还未通过

    实验途径解析出来,则在 PDB 文件中获得不了该氨基酸信息。这在一定程度上

    造成了 PDB 数据库中的序列与其他数据库中序列的差异与不一致。一般可以通

    过序列比对程序来比较两个序列,找出其差异部分,在比对结果中缺失部分会以

    空位显示。对一些比较新的蛋白,或者还未在 SwissProt 数据库中注释的蛋白,

    可以直接通过 PubMed 数据库中调取其原始研究文献以获得相应生物学功能和

    特征信息。

    第三节 总结

    海量的生物学大数据持续积累,促进了传统生物学研究方式的改变,特别是

    推动了进化基因组学的研究。生物学数据库构建的主要目的是信息的存储、检索

    和隐含规律的发现。采用计算机与数学技术研究生物数据库中的数据并从中挖掘

    潜在的知识成为当代生物学研究的重要手段之一。各种序列及结构数据库的构建,

    极大地促进了生物学的深入研究。例如,蛋白质结构分类数据库中的数据通常可

    被用于探索蛋白进化及同源关系,特别是对于那些在结构上很相似而序列极其不

    相似的弱同源蛋白,科学研究价值更大。通过分析结构相似而序列不相似的弱同

    源蛋白的结构比对结果,整理其中可能存在的规律,也许能够为序列比对方法精

    度的提高提供新的研究策略。同时,蛋白质结构数据库的存在能够对蛋白质结构

    预测提供帮助。目前一些蛋白质结构预测的算法就是直接采用这些结构分类数据

    库中的结构数据来搜索模板的,其中最常使用的是SCOP数据库。蛋白质的结构

    与其功能息息相关,这些数据的存在,对于一些基于结构的功能注释方法具有一

    定的指导意义。

    参考文献 [1] F. Falcoz-Kelly, R. van Rapenbusch and G. N. Cohen, The methionine-repressible homoserine

    dehydrogenase and aspartokinase activities of Escherichia coli K 12. Preparation of the homogeneous

    protein catalyzing the two activities. Molecular weight of the native enzyme and of its subunits,

    European journal of biochemistry, 1969, 8, 146-152.

    [2] A. D. Roses, M. H. Herbstreith and S. H. Appel, Membrane protein kinase alteration in Duchenne

    muscular dystrophy, Nature, 1975, 254, 350-351.

    [3] A. N. Glazer, Energy and signal transduction by transmembrane protein complexes, Nature, 1986, 321,

    646-647.

    [4] J. Pevsner, Bioinformatics and Functional Genomics, Wiley-Blackwell, 2009, 100.

    [5] H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov and P. E.

    Bourne, The Protein Data Bank, Nucleic acids research, 2000, 28, 235-242.

    [6] K. Palczewski, T. Kumasaka, T. Hori, C. A. Behnke, H. Motoshima, B. A. Fox, I. Le Trong, D. C. Teller,

    T. Okada, R. E. Stenkamp, M. Yamamoto and M. Miyano, Crystal structure of rhodopsin: A G

    protein-coupled receptor, Science, 2000, 289, 739-745.

    [7] V. r. p. The PyMOL Molecular Graphics System, Schrödinger, LLC, The PyMOL Molecular Graphics

    System, Schrödinger, LLC.

    [8] R. A. Sayle and E. J. Milner-White, RASmol: biomolecular graphics for all, Trends in biochemical

  • 第一章 蛋白质相关数据库简介

    11

    sciences, 1995, 20, 374.

    [9] J. M. Chandonia, G. Hon, N. S. Walker, L. Lo Conte, P. Koehl, M. Levitt and S. E. Brenner, The

    ASTRAL Compendium in 2004, Nucleic acids research, 2004, 32, D189-192.

    [10] C. A. Orengo, A. D. Michie, S. Jones, D. T. Jones, M. B. Swindells and J. M. Thornton, CATH--a

    hierarchic classification of protein domain structures, Structure, 1997, 5, 1093-1108.

    [11] L. Holm and C. Sander, The FSSP database of structurally aligned protein fold families, Nucleic acids

    research, 1994, 22, 3600-3609.

    [12] L. Holm and C. Sander, The FSSP database: fold classification based on structure-structure alignment of

    proteins, Nucleic acids research, 1996, 24, 206-209.

    [13] L. A. Stebbings and K. Mizuguchi, HOMSTRAD: recent developments of the Homologous Protein

    Structure Alignment Database, Nucleic acids research, 2004, 32, D203-207.

    [14] J. Shi, T. L. Blundell and K. Mizuguchi, FUGUE: sequence-structure homology recognition using

    environment-specific substitution tables and structure-dependent gap penalties, Journal of molecular

    biology, 2001, 310, 243-257.

    [15] K. Mizuguchi, C. M. Deane, T. L. Blundell, M. S. Johnson and J. P. Overington, JOY: protein

    sequence-structure representation and analysis, Bioinformatics (Oxford, England), 1998, 14, 617-623.

    [16] W. Li and A. Godzik, Cd-hit: a fast program for clustering and comparing large sets of protein or

    nucleotide sequences, Bioinformatics (Oxford, England), 2006, 22, 1658-1659.

    [17] R. Yan, X. Wang, L. Huang, J. Lin, W. Cai and Z. Zhang, GPCRserver: an accurate and novel G

    protein-coupled receptor predictor, Molecular bioSystems, 2014, 2495-2504.

    (鄢仁祥,王晓锋,林娟,黄蓝青)

  • 蛋白质结构生物信息学

    12

    第二章 生物序列比对算法

    面对海量的生物学数据,探索生物序列中蕴含的信息并精准地注释其生物学

    功能已经成为学术界需要面对的挑战之一。在生物漫长的生物进化历程中,大部

    分蛋白质序列的遗传是相对保守的,但是其进化过程也存在变异,通常是以氨基

    酸替换、插入、删除等形式出现。所以生物分子序列是研究生物进化的重要信息。

    从共同祖先进化而来的序列通常称为同源序列(homologous sequences)。生物序列

    比对,有时也称为序列联配,是分析同源序列的重要工具之一。序列比对是通过

    一定的算法对两个或者两个以上核酸或蛋白质序列进行比较,并找出它们之间最

    大相似性匹配(最佳匹配)序列排列的过程。序列比对是生物信息学算法中最核心

    的技术之一,同时也是生物序列数据库搜索的基础,主要用于分析新测定基因或

    蛋白质序列与已知序列的同源性和相似性,以此来探索目标序列的功能特征或者

    进化历史。

    第一节 比对的基础模型

    蛋白质序列由氨基酸组成。氨基酸是一类小分子,其组成包括一个氨基基团

    (-NH2)、一个羧基基团(-COOH)、一个在中心位臵的-碳原子,以及连接在-碳

    原子上的侧链。根据侧链的不同,氨基酸可以分为不同的种类(例如亲疏水性)。

    其中,甘氨酸比较特殊,侧链只是一个氢原子。氨基酸之间通过肽键连接在一起。

    蛋白质序列的比对就是把两个蛋白的氨基酸序列以最相似的比较方式排列出来。

    把目标序列与已知数据库的序列进行比对时,可以在一定程度上获知该目标序列

    是否是已知的,以及是否与已知序列存在相似性,以此来判断目标序列的科学研

    究价值。在比对中,DNA 中的核酸或者蛋白质中的氨基酸都只用单字母的表示

    形式。对于任意两条序列来说,序列匹配都存在多种结果,序列比对是试图寻找

    出其中最佳匹配模式的方法。从数学的角度来说,序列比对的过程就是在固定打

    分函数及空位罚分模式下对公式 2-1 中数值 AlignScore 求最大化的过程。可以通

    过数学上求最大值的方法(例如动态规划算法)得到结果。

    ( , )Nali

    i j

    i 1

    AlignScore Score A B Match+GapPenalty

    (2-1)

    在公式 2-1 中,Nali 是比对长度,Score(Ai,Bj)是序列比对后的序列 A 的第 i

    个位臵与序列B的第 j个位臵上相应氨基酸的匹配得分。总得分值由两部分组成:

    一部分是匹配上的区域(Match),另一部分是插入的空位罚分(GapPenalty)。匹配

    上的区域得分为正数,而在比对中插入空位的罚分为负数,总体得分值越高说明

    两条序列相似性也越高。序列比对一般又可以分为双序列比对和多序列比对。双

    序列是两条序列之间的比对。而多序列是多条序列之间的比对,一般用于衡量一

    组序列之间的相似性关系,以便对这些序列可能共有的家族特征进行一个基本度

    量。在本章中主要讨论双序列比对。目前学术界既提供了独立的比对程序,例如

    BLAST1。一些网站上也有提供在线的序列比对服务,例如 PRALINE 服务器

  • 第二章 生物序列比对算法

    13

    (http://www.ibi.vu.nl/programs/pralinewww/)2-4,这些程序和在线服务器都可以直

    接使用。如果可以深入掌握比对算法原理,在实际应用中对理解相关结果将比较

    有帮助。

    图 2-1 两个序列比对实例

    同源序列是指从某一共同祖先进化而形成的不同序列,进化学说是序列比对

    的理论基础。全同率(identity)是序列比对过程中,用来描述两条序列之间在相同

    DNA 碱基或氨基酸比对上时,相同序列所占比例的数值。如果两条序列之间的

    相似性非常高,就可以推测二者可能有共同的祖先,并通过一系列遗传变异过程,

    包括序列内残基的替换、序列片段或残基的缺失以及序列重组等,演化而来。图

    2-1 是一个序列比对实例,其中列出了比对蛋白的名称(p53_human 和 p53_mouse)

    以及匹配的结果。在匹配的结果中,相同的氨基酸用符号―|‖标注,而相似的氨基

    酸根据相似性高低分别用―.‖和―:‖标注。如果有插入区域则用―-‖标注。

    在进行序列比对时,有两方面因素直接决定比对结果:打分矩阵和空位罚分。

    打分矩阵一般采用 BLOSUM 和 PAM 系列的矩阵 5,BLOSUM62 是 BLOSUM 系

    列中最常用的替换矩阵之一(如表 2-1 示例)。替换矩阵一般以 20×20 的格式来表

    示不同氨基酸的替换得分,矩阵中右上部分和左下部分数值一般是对称相同的。

    空位罚分是为了补偿插入和缺失对序列相似性的影响。空位可以很好地反应蛋白

    进化过程中在序列层次上的缺失与改变,但是由于没有合适的理论模型能完美地

    描述空位问题,所以空位罚分的设计一般是经验性的。在一些理论分析中,有时

    可能会使用到固定空位罚分,其公式为:

    penalty = gx (2-2)

    其中,g 为固定的空位罚分,x 为空格长度。这种罚分方式也被称为线性空

    位罚分(linear gap penalty)。但是,更符合生物学实际情况的可能是仿射空位罚分

    (affine gap penalty)。仿射空位罚分对起始空位罚分比较大而对扩展罚分比较小。

    在 BLAST 比对中采用的就是这种罚分方式,起始罚分一般为 9~12,而扩展罚分

    一般为 1~2。

  • 蛋白质结构生物信息学

    14

    表 2-1 BLOSUM62 替换矩阵

    C S T P A G N D E Q H R K M I L V F Y W

    C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2

    S -1 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3

    T -1 1 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3

    P -3 -1 1 7 -1 -2 -1 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4

    A 0 1 -1 -1 4 0 -1 -2 -1 -1 -2 -1 -1 -1 -1 -1 -2 -2 -2 -3

    G -3 0 1 -2 0 6 -2 -1 -2 -2 -2 -2 -2 -3 -4 -4 0 -3 -3 -2

    N -3 1 0 -2 -2 0 6 1 0 0 -1 0 0 -2 -3 -3 -3 -3 -2 -4

    D -3 0 1 -1 -2 -1 1 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4

    E -4 0 0 -1 -1 -2 0 2 5 2 0 0 1 -2 -3 -3 -3 -3 -2 -3

    Q -3 0 0 -1 -1 -2 0 0 2 5 0 1 1 0 -3 -2 -2 -3 -1 -2

    H -3 -1 0 -2 -2 -2 1 1 0 0 8 0 -1 -2 -3 -3 -2 -1 2 -2

    R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 2 -1 -3 -2 -3 -3 -2 -3

    K -3 0 0 -1 -1 -2 0 -1 1 1 -1 2 5 -1 -3 -2 -3 -3 -2 -3

    M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 2 -2 0 -1 -1

    I -1 -2 -2 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 2 1 0 -1 -3

    L -1 -2 -2 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 3 0 -1 -2

    V -1 -2 -2 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 -1 -1 -3

    F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 1

    Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2

    W -2 -3 -3 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11

    在仿射空位罚分中,起始罚分与扩展罚分大小的比例一般为 10∶1 左右。对

    于具体的比对问题,采用不同的罚分方法会取得不同的效果。仿射空位罚分模型

    可以用公式表示如下:

    penalty = go + ge(x1) (2-3)

    在此公式中,penalty 为某一空格片段总的罚分,go (gap opening)为起始罚分,

    ge (gap extension)为扩展罚分,x 为空位长度。序列比对中有两个重要指标:一个

    是序列全同率(identity),另外一个是序列相似性(similarity)。这两个指标的计算

    公式分别如下:

    IdeRidentity

    Nali (2-4)

    similaritySimR

    Nali (2-5)

    在这两个公式中,Nali 代表序列比对的长度。IdeR 表示序列比对中相同的氨

    基酸对的个数。SimR 是序列比对中匹配上的相似氨基酸对的个数。相似氨基酸

    对一般指替换矩阵(例如 BLOSUM62)中替换得分为正数的氨基酸对。不同的比对

    程序计算公式稍有区别,例如有的程序中 Nali 是用目标序列本身的长度来代替

  • 第二章 生物序列比对算法

    15

    比对长度的。序列比对又可以分为全局、半全局和局部比对。全局比对是指将参

    与比对的两条序列里面的所有字符进行比对。全局比对主要用来寻找进化关系密

    切的序列。最早的序列比对算法可以追溯到 1970 年由 Needleman 和 Wunsch 提

    出的全局比对算法 6,该方法尝试寻找两个序列间的最佳全局比对。

    在序列全局比对算法提出约 10 年之后(1981 年),Smith 和 Waterman 基于原

    先的算法提出局部比对方法(Smith-Waterman 算法)7。自那时起,序列比对算法逐

    渐得到越来越多生物学家和计算学家的认识与使用,并成为生物信息学的基本算

    法之一。在实际程序代码中,一般通过动态规划(Dynamic Programming)方法来实

    现 Needleman-Wunsch 和 Smith-Waterman 两种算法。动态规划是一种常用的规划

    方法,其核心思路是把求全局的最优化问题转化为求多个局部最优化问题。首先,

    该算法把要解决的问题分解成若干可计算的子问题,这些子问题还可以继续划分

    为更小的子问题,通过计算这些划分后的子问题以求总体最优结果。对于一个具

    体的问题,如果该问题可以被映射为一个对应的数学上的图论模型,并且模型可

    对应于图中从起点到终点的最短距离求解,那么这个问题就可以通过动态规划算

    法来解决。例如,对邮递员从一个复杂的空间中寻找一条最优路径来送货的数学

    问题进行求解。在运用动态规划时,有以下几个必要条件需要符合:首先,搜索

    问题能够划分成一系列相继或递归的阶段;起始阶段包含基本子问题的解;在后

    续阶段中,能够按类似的方式逐步计算前面阶段的每个局部解;最后一步应包含

    全局解。下面列出起始罚分与扩展罚分相同时,运用动态规划方法进行序列比对

    的代码流程(图 2-2 中的代码)。

    Algorithm: Simple Dynamic Programming

    input: sequences X and Y

    output: sequence alignment

    Set gap opening (go) is equal to gap extension (ge), and annotated it as g here.

    for i= 0 to length of X {

    score[i] [0] = i*g // Scoring matrix

    }

    for j=0 to length of Y {

    score[0][j]=j*g

    }

    for i=1 to m{

    for j=1 to n{

    score[i][j]=max(score[i-1][j]+g, a[i-1][j-1] +bs62[i][j], score[i][j-1]+g) }

    }

    // Tracing back

    Set alignX, alignY as empty string

  • 蛋白质结构生物信息学

    16

    i=length of X, j=length of Y

    while((i>0)&&(j>0)){

    if(score[i][j]==score[i-1][j-1]+bs62[i][j]){ //氨基酸匹配

    alignX = x.charAt(i) + alignX;

    alignY = y.charAt(j) + alignY;

    i=i-1;

    j=j-1;

    }else if(score[i][j]==score[i-1][j]+g){ //插入空格

    alignX = x.charAt(i) + alignX;

    alignY = "-" + alignY;

    i=i-1;

    }else{ //插入空格

    alignX = "-" + alignX;

    alignY = y.charAt(j) + alignY;

    j=j-1;

    } } // end of while i>0 and j>0

    Output: alignX, alignY and Score matrix

    图 2-2 简单空位罚分的序列比对算法实现代码

    图 2-2 为通过动态规划算法实现简单空位罚分(起始罚分与扩展罚分相同)全

    局比对的代码流程。在该代码中,X 与 Y 分别表示两条要比对的序列。bs62[i][j]

    表示第一条序列第 i 种氨基酸与第二条序列第 j 种氨基酸在 BLOSUM62 矩阵中

    的得分。输出结果是比对(alignX 与 alignY)及相似性得分。当起始罚分与扩展罚

    分不同时,序列比对算法实现较复杂。具体而言,仿射空位罚分的动态规划算法

    可以使用 Durbin 等人 8 提出的计算步骤来实现,具体公式如下:

    x

    y

    M i 1, j 1 +S i, j

    M i, j = max I i 1, j 1 +S i, j

    I i 1, j 1 +S i, j

    (2-6)

    x x

    M i 1, j oI i, j = max

    I i 1, j e

    (2-7)

    y y

    M i, j 1 oI i, j = max

    I i, j 1 e

    (2-8)

    这里 x 和 y 分别对应于两个比对的蛋白质。i 和 j 表示蛋白 x 与蛋白 y 中

    第 i 个与 j 个位臵的氨基酸。o 和 e 分别代表起始罚分与扩展罚分。M(i,j)是存

    储蛋白质 x 的第 i 个氨基酸与蛋白质 y 的第 j 个氨基酸最佳比对(即最高得分)对

    应的矩阵元素。Ix(i, j)矩阵元素是假设蛋白质 x 的第 i 个氨基酸与空位比对上的最

    佳得分。Iy(i, j)矩阵元素是假设蛋白 y 的第 j 个氨基酸与空位比对上的最佳得分。

  • 第二章 生物序列比对算法

    17

    这样通过三个矩阵的迭代计算,可以实现仿射空位罚分算法。序列比对的结果可

    以从比对的矩阵中回溯得到。仿射空位罚分还可以用隐马尔可夫模型(hidden

    Markov model,简称为 HMM)9-11 来表示(图 2-3)。

    图 2-3 基于仿射空位罚分序列比对的 HMM 模型

    基于仿射空位罚分模型的序列比对算法用隐马尔可夫模型(HMM)表示(图

    2-3),这样可以比较容易理解以及用程序实现算法也更简单些。从图 2-3 中,可

    以看到不同连接之间代表不同的状态转变。例如 Ix 与 Iy 两个节点之间没有连接,

    这代表在一条序列出现空格时,接下去的状态不可能是另外一条序列接着出现空

    格。

    第二节 经典比对算法

    一、Needleman-Wunsch 全局比对

    将结构或功能未知的序列同已经过实验验证的序列进行比对是生物学中分

    析结构和功能未知序列的常用方法之一。通常可以利用功能已知序列的相应信息

    及比对结果,来推测未知序列可能具有的功能。序列分析是生物信息学研究的主

    要手段之一。全局比对会在比对结果中出现两条序列的所有氨基酸。一般认为,

    相似的序列折叠成结构和功能相似的蛋白质。相似性较高的序列属于同源蛋白的

    概率也高,例如当两条序列的全局比对中全同率大于 30%时,则可推测这两个

    蛋白可能属于同源蛋白且极可能折叠成相似的三维结构。动态规划是生物信息学

    中一个常用的算法,Needleman-Wunsch 全局序列比对就是通过动态规划算法来

    实现的。在生物信息学中,Needleman-Wunsch 方法被广泛地应用于比对蛋白质

    或者核酸序列,并可以对序列相似性进行评估。笔者之前开发的序列比对软件包

    EasyAlign(http://bioinformatics.cau.edu.cn/zzd_lab/software/align.tar) 中 也 含 有

    Needleman-Wunsch 比对算法。

    二、Smith-Waterman 局部比对

    局部比对是仅在比对结果中列出两条序列高度相似的局部比对区域。有时

    候,对一个新测序的序列,通过全局比对算法难以发现与已经实验验证蛋白的相

    似性。这时,我们通常可以对序列进行局部相似性分析,例如有一些蛋白质序列

    http://bioinformatics.cau.edu.cn/zzd_lab/software/align.tar

  • 蛋白质结构生物信息学

    18

    比对的总体相似性不高,但局部的相似性较高,如果这些局部区域和特定蛋白质

    功能或结构相关,那么就可通过局部比对来推测蛋白质相应的功能或结构。局部

    比对方法包括 BLAST 和 Smith-Waterman 等方法。 FASTA 软件包中的

    SSEARCH(http://fasta.bioch.virginia.edu/)程序也是 Smith-Waterman 算法的一种

    具体实现。目前实现 Smith-Waterman 比对算法的比较流行的程序包是

    JAligner(http://jaligner.sourceforge.net/),该软件是 C++代码编写。同时笔者之前

    开发的序列比对软件包(http://bioinformatics.cau.edu.cn/zzd_lab/software/align.tar)

    中也含有 Smith-Waterman 比对算法。

    图 2-4 1F88A 与 PDB 数据中一些蛋白的比对结果

    三、BLAST 数据库搜索

    序列比对算法的一个主要应用就是从大型数据库中找到与目标序列高度相

    似的已知序列,这个过程需要把目标序列与数据库中的所有序列分别做双序列比

    对计算相似性,并根据相似性高低进行排序。这种搜索大型数据库策略是分析新

    测定序列的一种有效方法,但计算量一般都非常大。前面介绍的基于动态规划算

    法的序列比对一般较准确,但是速度相对较慢。因此需要开发速度相对较快的方

    http://jaligner.sourceforge.net/http://bioinformatics.cau.edu.cn/zzd_lab/software/align.tar)中也含有Smith-Waterman比对算法。BLASThttp://bioinformatics.cau.edu.cn/zzd_lab/software/align.tar)中也含有Smith-Waterman比对算法。BLAST

  • 第二章 生物序列比对算法

    19

    法来实现这个数据搜索过程。

    BLAST 是一种启发式(heuristic)算法,运行速度要比 Smith-Waterman 算法快,

    但是 Smith-Waterman 算法要比 BLAST 算法更为精确。启发式的算法可以快速地

    搜索大型数据库,其核心算法是寻找高打分区域,并沿着此区域向两端延伸。该

    程序最早由 NCBI 的 Altschual 等人开发出来 1。BLAST 可以搜索蛋白或者核酸

    数据库,根据不同的搜索需求可以细分为 5 种情况(如表 2-2 所示)。BLAST 程序

    既有可以独立运行的本地版,也有网络版(http://blast.ncbi.nlm.nih.gov/Blast.cgi)。

    BLAST 比对结果的重要指标是 E-value 和 bit-score。E-value 数值越低,代表统

    计显著性越好。一般搜索结果是以 E-value 数值大小从低到高进行排序的。在

    E-value 值相同的情况下则根据 bit-score 数值从高到低进行排序。图 2-4 是用

    BLAST 算法在 PDB 数据库中搜索 1F88A 的相似序列的部分比对结果。

    表 2-2 BLAST 软件包中程序

    # 程序 功能

    1 BLASTn 以核酸序列搜索核酸数据库

    2 BLASTp 以蛋白质序列搜索蛋白质数据库

    3 BLASTx 将一个 DNA 序列用所有可能的阅读框翻译成 6 种可能的蛋白质,然后将它

    们逐一与蛋白质数据库的序列进行比较

    4 tBLASTn 将一个 DNA 数据库中的每一条序列翻译成 6 种可能的蛋白质,然后将要

    查询的蛋白质序列与翻译的蛋白质逐一进行比较

    5 tBLASTx 将查询 DNA 以及数据库中的 DNA 都翻译成 6 种可能的蛋白质,然后进行

    36 次蛋白质-蛋白质数据库搜索

    四、SSEA 二级结构元素比对

    蛋白质二级结构元素比对方法最早可以追溯到由 Przytycka 及其合作者在

    《Nature structural biology》杂志上提出并被用于蛋白质分类的文章 12。在该文章

    中,该方法命名为 SSEA(secondary structure element alignment)。后来学术界也出

    现了专门实现 SSEA 算法的二级结构比对服务器 13。对两条蛋白质序列进行二级

    结构元素比对一般通过以下三个步骤进行。第一步,用蛋白二级结构预测方法,

    例如用 PSI-PRED 方法预测出两条序列的蛋白二级结构。若已经知道了某个蛋白

    质的晶体结构,也可以用 DSSP ( http://swift.cmbi.ru.nl/gv/dssp/ )方法从 PDB 结构

    中推导出其二级结构;第二步,把预测好的二级结构转换成相应的二级结构元素

    及其对应的长度信息,其中用 H 代表螺旋、E 代表折叠以及 C 代表无规则卷曲。

    连续的相同二级结构元素仅用一个字母表示,同时记录下这个连续的二级结构元

    素的长度。以二级结构字符串 HHHHCCCCCEEEEEHHHH 为例,可以转换成

    HCEH,同时记录下每个二级结构元素对应的长度 4、5、5 和 4。这里把这个转

    换好的格式称为缩短的字符串;第三步,两条蛋白缩短的字符串通过动态规划算

    法进行比对,打分函数的打分项为每个对应元素的长度。其中相同元素比对的时

    候,取较小元素的长度作为打分分数。当螺旋与折叠比对时,打分为 0。当无规

    http://blast.ncbi.nlm.nih.gov/Blast.cgi

  • 蛋白质结构生物信息学

    20

    则卷曲与螺旋,或者无规则卷曲与折叠比对时,取较小元素的长度的一半作为打

    分得分。

    图 2-5 二级结构元素比对的主要流程

    SSEA 打分函数的具体计算过程如公式 2-9 所示:

    min( , )

    ( , ) 0.5 min( , ) /

    0

    i j

    i j i j

    L L Two identical elements

    S L L L L helix strand and coil

    helix and strand

    (2-9)

    在此公式中,min( , )i jL L 表示取长度 iL 和 jL 两个中的较小值,最后的得分通

    过除以两条序列长度之和的一半进行标准化,标准化后得到的二级结构元素的得

    分范围为 0~1 之间,得分越高说明两个蛋白的二级结构元素拓扑结构越相似。

    一般来说 SSEA 比对分数大于 0.5 则说明两个蛋白的二级结构具有一定的相

    似性。打分完成以后,可以回溯得到相应的比对结果。其实,该算法可以轻松地

  • 第二章 生物序列比对算法

    21

    使用程序实现。因为空位惩罚为零,即起始罚分与扩展罚分相同,这样只要使用

    单一的一个记分矩阵就可以实现 (详见本章动态规划算法部分)。

    五、PSI-BLAST 迭代比对

    图 2-6 PSI-BLAST 方法的流程图

    从图 2-6 中可以看出,PSI-BLAST 是一种迭代搜索数据库的方法。PSI-BLAST

    是基于 BLAST 比对的一种扩展性方法,其搜索过程以一个查询序列开始,迭代

    地搜索特定的序列数据库,例如搜索 NCBI 的非冗余数据库 NR,并从这个搜索

    结果中,由多序列比对,建立 PSSM 矩阵。之后利用得到的 PSSM 矩阵可以重

    新搜索 NR 数据库,这个过程不断迭代,一般可以迭代 3 到 5 次,以使得到的

    PSSM 更加准确。PSSM 矩阵的行数为序列长度,列数为 20。每一行的数据可以

    反映在进化过程中,20 种氨基酸出现的概率大小。PSSM 的每一行有时也被称为

    谱(profile),整个 PSSM 矩阵称为序列谱(sequence profile)。表 2-2 是 PSI-BLAST

    对 1F88 蛋白搜索 NR 数据产生的 PSSM 矩阵。在实际研究中,NR 数据库可以

    从 NCBI 网站 ftp://ncbi.nlm.nih.gov/BLAST 下载得到。为了建立更准确的 PSSM

    矩阵,PSI-BLAST 会使用去冗余的数据库进行搜索。一般用去冗余的程序(例如,

    CD-HIT14

    ) 以 90% 的 identity 为过滤标准去除掉 NR 数据库中的冗余序列。这个

    过滤掉冗余序列的 NR 数据库被命名为 NR90 数据库。类似地,若以 70% identity

    为过滤标准去除掉 NR 数据库中的冗余序列而获得的数据库则命名为 NR70。

    PSI-BLAST 首先通过 BLAST 搜索查询蛋白的潜在同源序列,由多序列比对

    产生序列谱,再利用序列谱搜索查询蛋白的同源序列,如此反复迭代。因此

    PSI-BLAST 对于搜索查询蛋白的弱同源蛋白具有更高的敏感性。有研究表明,

    在预测蛋白质三维结构时,如果查询序列与模板序列相似度不高,PSI-BLAST

    方法可以有效地找到很多与目标蛋白质序列差异较大而结构或功能相似的蛋白,

    即弱同源蛋白。

    ftp://ncbi.nlm.nih.gov/BLAST/下载得到。为了建立更准确的PSSMftp://ncbi.nlm.nih.gov/BLAST/下载得到。为了建立更准确的PSSM

  • 蛋白质结构生物信息学

    22

    表 2-3 1F88 蛋白的 PSSM 矩阵

    # aa A R N D C Q E G H I L K M F P S T W Y V

    1 M -5 -5 -6 -7 -5 -4 -6 -7 -6 0 2 -5 10 -4 -6 -5 -4 -5 -5 -3

    2 N -5 -2 8 2 -7 -4 -1 -4 -4 -7 -7 -4 -2 -7 -6 1 -2 -8 -6 -5

    3 G 0 -3 0 0 -4 -1 -2 4 -2 0 -2 -1 -1 -1 -1 2 0 0 1 -1

    4 T -3 -4 -2 0 -5 -1 -1 -5 -5 -5 -4 -4 -5 -5 -3 3 7 1 -5 -2

    5 E -1 -1 1 1 -5 1 4 -2 0 -2 -3 -2 -1 -2 -3 1 1 -5 -1 -2

    6 G 0 -2 0 0 -4 -2 0 4 -3 -1 -1 -3 -1 -1 -1 2 0 -2 -1 0

    7 P -1 -3 0 2 -4 0 -1 -1 -1 -1 -3 -1 -3 -2 5 2 0 -2 0 -1

    8 N -1 -4 5 5 -6 -1 -1 -2 1 -2 -4 -3 -3 -1 -2 0 -3 1 -2 -5

    9 F -2 -5 -2 0 -1 -3 -3 -3 -2 -1 1 -4 -1 6 -4 1 0 3 2 -1

    10 Y 0 -4 1 -3 -4 -3 -2 -3 1 -4 -2 -3 -3 2 -2 2 2 3 6 -1

    11 V -1 -2 -2 1 -2 -2 -1 -1 -3 2 1 -2 1 1 -1 0 0 -1 2 2

    12 P -2 -3 2 0 -5 -2 -1 -3 -4 -3 -3 -3 -2 -1 6 1 1 -6 -1 -4

    13 F -1 -3 1 -2 -3 -2 -2 -3 -2 1 0 -4 4 5 -3 -1 -1 4 4 -1

    14 S -1 -1 2 0 -3 -1 1 0 -1 -3 -2 -2 -1 -1 1 3 1 -3 0 -2

    15 N -5 -5 8 0 -7 -3 -1 -5 -5 -7 -3 -5 -5 -6 -4 -1 -1 -5 -3 -5

    16 K 0 -1 1 1 -1 0 1 0 0 0 -1 0 -1 0 -2 1 1 -2 0 -1

    17 T -3 -4 1 -1 -2 -4 -4 -5 -4 -4 -4 -4 -3 -5 -4 4 6 -7 -4 -4

    18 G -1 -2 3 1 -2 -2 -1 3 -1 -2 -2 -2 -2 -1 0 2 0 -3 -1 0

    19 V 0 -2 3 -1 -1 -1 -2 -2 -1 1 0 -2 0 -1 0 0 1 -1 0 2

    20 V -1 -2 1 2 -1 -1 -1 -2 -1 0 0 -1 -1 0 -1 0 2 -1 0 1

    21 R -1 2 1 0 -2 0 0 -1 -1 -2 -1 0 -1 -2 1 1 1 0 0 -1

    22 S -1 -3 2 2 -1 -1 0 0 -2 -3 -2 -2 -3 -2 -1 4 0 -5 -3 0

    23 P -2 -4 2 1 -5 -3 -1 -3 1 -2 -3 -3 -1 -4 6 0 -1 -3 -1 -2

    24 F -1 -3 -2 -1 1 -3 -1 -1 -1 -2 -1 -3 -1 5 0 -2 0 5 4 -3

    25 E -2 -2 0 3 -4 1 3 -2 -1 -3 0 -2 -2 -1 -1 1 1 1 0 -2

    26 A 0 -2 0 0 0 -1 0 1 0 -1 -1 -2 1 0 -1 0 0 0 3 0

    27 P -3 -2 -1 1 -2 -2 0 -2 -2 -2 -2 -3 -2 -2 6 0 -1 -2 -3 -2

    28 Q -2 -1 2 2 0 4 2 -2 2 -3 -2 -2 -2 -4 0 0 0 0 -1 -2

    29 Y -2 -1 -2 0 0 0 -1 -2 2 -1 -1 -1 -2 3 0 0 -1 4 5 -2

    30 Y -1 -2 -1 -1 1 -2 0 -2 4 -1 -1 -2 -2 2 2 0 -1 3 5 -2

    31 L -1 -1 -2 -1 -3 0 -1 -2 -1 1 2 -1 1 -1 1 -1 0 -3 0 1

    32 A 1 -1 -1 -1 -3 0 -1 -1 1 -1 -1 -1 2 0 2 1 0 -1 -1 1

    33 E -2 -2 2 1 -5 0 2 -2 1 -3 -2 -1 -2 -4 4 2 -1 -2 -1 -2

    34 P -1 1 -2 -2 -3 -1 -1 -2 0 -1 -3 -1 -1 -5 6 0 -1 2 -4 -1

    35 W 0 -2 -4 -2 -1 -2 -3 -1 -1 1 1 -4 2 1 -2 -1 -1 8 2 0

    36 Q 1 -1 -1 -2 -3 1 0 -1 0 1 0 -2 0 -1 -2 0 0 5 0 2

    37 F 0 -1 -1 -3 -4 0 -2 -4 5 1 -1 0 -1 3 -3 -1 0 -2 4 0

    38 S 1 -2 -1 -3 -3 -2 -3 -2 -1 1 -1 -1 0 -1 -2 0 2 1 4 1

    39 M 0 -6 -6 -6 -2 -6 -6 -3 -5 4 3 -6 2 2 -3 -3 -1 -2 -4 3

  • 第二章 生物序列比对算法

    23

    这里需要注意的是,PSI-BLAST 使用 Henikoff 权重算法 15, 16 从多序列比对

    中计算 Profile。Henikoff 算法是一种位臵特异的计算方法,对多序列比对中的每

    一个氨基酸,其计算公式为 1/(r×s),其中 r 为该计算所在多序列比对中的那一列

    不同氨基酸出现次数,s 是该类型氨基酸在这一列出现的次数。表 2-4 就是计算

    一个由 4 条序列构成的多序列比对中每个氨基酸的权重的例子。在这个例子中,

    位臵特异的权重还可以进一步标准化为序列的权重。

    表 2-4 用 Henikoff 算法计算权重的例子

    位置 序列权重

    序列 1 2 3 4 5 总和 标准化后总和

    GYVGS 1/(1×4) 1/(2×3) 1/(3×1) 1/(1×4) 1/(3×1) 4/3 0.267

    GFDGF 1/(1×4) 1/(2×1) 1/(3×2) 1/(1×4) 1/(3×2) 4/3 0.267

    GYDGF 1/(1×4) 1/(2×3) 1/(3×2) 1/(1×4) 1/(3×2) 3/3 0.200

    GYQGG 1/(1×4) 1/(2×3) 1/(3×1) 1/(1×4) 1/(3×1) 4/3 0.267

    总和 1 1 1 1 1 5 1.001

    PSI-BLAST 是一种 Profile-sequence 比对的方法。类似的 Profile-sequence 方

    法还在其他程序应用。例如 Raptor17 中就有一项是类似的打分函数,其公式为:

    20

    1

    ( ) ( ) ( )qk

    Score i, j = F i,k BL k, j

    (2-10)

    在此公式中,Fq(i,k)表示目标序列第 i 个位臵氨基酸 Profile 中第 k 种氨基酸

    出现频率。BL(k,j)表示第 k 种氨基酸与第 j 种氨基酸的 BLOSUM62 矩阵中的替

    换得分。

    六、序列谱与序列谱比对

    序列谱-序列谱比对,顾名思义就是将两条序列的序列谱进行比对。序列谱-

    序列谱比对一般分为四个步骤:第一步,通过 PSI-BLAST 产生两条序列的多序

    列比对结果;第二步,可以用一些去冗余性的算法从多序列比对计算出序列谱;

    第三步,通过动态规划算法计算两个序列谱之间的相似性;第四步,对比对的相

    似性进行统计学显著性估计。序列谱之间的相似性打分函数以及空位罚分模式往

    往是这种算法性能好坏的关键,常用的打分函数有皮尔逊相关系数和点积等。另

    外,如何对比对结果的统计学显著性进行估算也很重要,好的算法应该把可靠的

    模板排序在比较靠前的位臵。

  • 蛋白质结构生物信息学

    24

    图 2-7 序列谱与序列谱比对的流程示意图

    七、序列谱与结构谱比对

    在蛋白质折叠识别方法的比对计算过程中,其中一个蛋白质被看作模板,即

    它的三维结构已知且是可以直接使用的。这样,可以计算出模板的结构信息并用

    于构建相应的方法。将结构信息用在蛋白质折叠识别中的早期经典方法有

    FUGUE和3D-PSSM18等算法。FUGUE19方法通过三方面来利用结构信息。第一,

    统计计算序列所在位臵的结构环境的氨基酸替换表。这个定制的氨基酸替换表更

    适合FUGUE方法所采用的结构模板数据库;第二,依据特定结构的空位罚分优

    化比对。每个模板氨基酸残基的罚分是根据这个氨基酸残基的表面可及性、该残

    基在结构中的二级元素的相对位臵和该二级元素的保守性决定的,并在不容易插

    入空位的残基上加大对空位的罚分以提高比对精度;第三,通过比对序列产生的

    多序列比对与结构多序列比对的结果来产生更好的折叠识别结果。FUGUE利用

    结构信息方法在蛋白质结构预测中取得了较好的结果。3D-PSSM方法采用与

    FUGUE方法相似的研究策略,也采用序列Profile与结构Profile进行比对的方法,

    不同之处在于3D-PSSM方法产生结构的多序列比对是在同一个超家族水平上进

  • 第二章 生物序列比对算法

    25

    行的。序列谱与结构谱比对的例子可见图2-8所示。

    图2-8 序列谱与模板结构谱比对

    研究人员一般可以借助结构比对软件 TM-align20来搜索与已知模板结构相似

    的结构邻居(structural neighbors),之后可以根据搜索到的结构邻居建立起基于结

    构的多序列比对(即结构谱)。这里通常使用的结构比对软件为 TM-align 而非其他

    软件(例如 CE21),是因为结构比对一般计算速度较慢,所以进行大量的蛋白质结

    构比对时需要选取一种比对速度比较快的软件。在结构比对软件中 TM-align 是

    比较快的一种方法,比 CE 快 4 倍左右,比 Dali22 及 SAL 快 20 倍左右,而且

    TM-align 建立的比对结果也较准确。

    笔者原先使用的算法中通过如下步骤来构造基于结构 Profile 信息。首先,从

    SCOP23 数据库收集好 SCOP_1.73_40%(即在 SCOP 1.73 版本数据库中满足序列

    间 identity

  • 蛋白质结构生物信息学

    26

    序比对结果的正确性,有 Qmodeler 和 Qdeveloper 两个指标,具体计算过程可以详见

    Sauder 等人的研究 24。在一些研究中,有时也采用直接用序列比对算法对目标蛋

    白进行建模,并通过比较预测模型与真实结果的差异来判断序列比对的准确性。

    在序列比对完成之后,有时需要从众多的比对结果中挑选出具有统计学意义

    的比对结果,并按显著性的高低排序,这是判断序列间相似性和同源性的重要依

    据之一。一般而言,序列比对结果的统计显著性值可以通过 Z-score 和 E-value

    等指标来判断。其中 Z-score 的计算公式相对简单,如下:

    -raw mean

    Z scorestd

    (2-11)

    在此公式中,mean 表示目标序列对数据库中所有序列比对分数的平均值,std

    为标准差,以及 raw 为比对原始得分。不同比对程序的显著水平对应的 Z-score

    不同。一般可以通过构造一些数据集来测试不同的 Z-score 以获得其在相应臵信

    度水平的阈值。另外还有一些程序,例如 BLAST,常用 E-value 或者 P-value 来

    表示不同臵信水平。序列比对正确与否一般是以结构比对作为金标准,一个序列

    比对结果越接近于结构比对则越准确。

    第四节 总结

    同源性是指不同蛋白来自于同一祖先,是一种定性的描述。序列比对是计算

    序列相似性的方法。全同率(identity)是计算序列比对中相同的氨基酸对所占比例,

    相似性是计算序列比对中得分为正数的氨基酸对所占比例。全同率和相似性是定

    量的指标,两个指标可以作为判断不同蛋白是否为同源的依据之一。

    序列比对是生物信息学中最重要的算法之一,在生物序列分析的各个领域都

    有广泛的应用,例如序列相似性与同源性分析、测序数据拼接、蛋白质相互作用

    网络建模、折叠识别与结构预测等方面。本章介绍的算法都可以通过自动化的程

    序来实现。在一些特殊的情况下,例如在可以确定两个同源蛋白的活性区域结构

    相同的情况下,如果相应序列没有比对上,也可以进行基于专业知识对序列比对

    结果进行调整,这样也许可以进一步提高比对精度。另外,我们前期的工作表明

    序列比对精度的提高可以显著提高蛋白建模的准确率 25。

    总体来讲,比对的主要模式有全局比对、局部比对以及半全局比对三种类型。

    三种比对模式分别适用于不同的序列分析需求。全局比对主要用于比对具有相似

    长度的同源序列;局部比对用于比对全局序列不相似但是局部类似的区域,例如

    寻找有重要功能作用的序列模体(motif)或结构域(domain)的局部区域比对;半全

    局比对一般用于单结构域与多结构域蛋白的比对。正确掌握比对算法可以更容易

    地在实际应用中精准地使用相关软件及增强对结果的理解。

    参考文献 [1] S. F. Altschul, W. Gish, W. Miller, E. W. Myers and D. J. Lipman, Basic local alignment search tool,

    Journal of molecular biology, 1990, 215, 403-410.

    [2] V. A. Simossis and J. Heringa, The PRALINE online server: optimising progressive multiple alignment

  • 第二章 生物序列比对算法

    27

    on the web, Computational biology and chemistry, 2003, 27, 511-519.

    [3] V. A. Simossis and J. Heringa, PRALINE: a multiple sequence alignment toolbox that integrates

    homology-extended and secondary structure information, Nucleic acids research, 2005, 33, W289-294.

    [4] P. Bawono and J. Heringa, PRALINE: a versatile multiple sequence alignment toolkit, Methods in

    molecular biology (Clifton, N.J, 2014, 1079, 245-262.

    [5] D. W. Mount, Using BLOSUM in Sequence Alignments, CSH protocols, 2008, 2008, pdb top39.

    [6] S. B. Needleman and C. D. Wunsch, A general method applicable to the search for similarities in the

    amino acid sequence of two proteins, Journal of molecular biology, 1970, 48, 443-453.

    [7] T. F. Smith and M. S. Waterman, Identification of common molecular subsequences, Journal of

    molecular biology, 1981, 147, 195-197.

    [8] S. R. E. Richard Durbin, Anders Krogh, Graeme Mitchison, Biological Sequence Analysis: Probabilistic

    Models of Proteins and Nucleic Acids, CAMBRIDGE UNIVERSITY PRESS, 1998, Chapter 2, 30-31.

    [9] L. Rabiner, A tutorial on hidden Markov models and selected applications in speech recognition,

    Proceedings of the IEEE, 1989, 77, 257-286.

    [10] T. Plotz and G. A. Fink, Robust remote homology detection by feature based Profile Hidden Markov

    Models, Statistical applications in genetics and molecular biology, 2005, 4, Article21.

    [11] M. Madera, Profile Comparer: a program for scoring and aligning profile hidden Markov models,

    Bioinformatics (Oxford, England), 2008, 24, 2630-2631.

    [12] T. Przytycka, R. Aurora and G. D. Rose, A protein taxonomy based on secondary structure, Nature

    structural biology, 1999, 6, 672-682.

    [13] P. Fontana, E. Bindewald, S. Toppo, R. Velasco, G. Valle and S. C. Tosatto, The SSEA server for protein

    secondary structure alignment, Bioinformatics (Oxford, England), 2005, 21, 393-395.

    [14] W. Li and A. Godzik, Cd-hit: a fast program for clustering and comparing large sets of protein or

    nucleotide sequences, Bioinformatics (Oxford, England), 2006, 22, 1658-1659.

    [15] S. Henikoff and J. G. Henikoff, Amino acid substitution matrices from protein blocks, Proceedings of the

    National Academy of Sciences of the United States of America, 1992, 89, 10915-10919.

    [16] S. Henikoff and J. G. Henikoff, Position-based sequence weights, Journal of molecular biology, 1994,

    243, 574-578.

    [17] J. Xu, M. Li, D. Kim and Y. Xu, RAPTOR: optimal protein threading by linear programming, Journal of

    bioinformatics and computational biology, 2003, 1, 95-117.

    [18] L. A. Kelley, R. M. MacCallum and M. J. Sternberg, Enhanced genome annotation using structural

    profiles in the program 3D-PSSM, Journal of molecular biology, 2000, 299, 499-520.

    [19] J. Shi, T. L. Blundell and K. Mizuguchi, FUGUE: sequence-structure homology recognition using

    environment-specific substitution tables and structure-dependent gap penalties, Journal of molecular

    biology, 2001, 310, 243-257.

    [20] Y. Zhang and J. Skolnick, TM-align: a protein structure alignment algorithm based on the TM-score,

    Nucleic acids research, 2005, 33, 2302-2309.

    [21] I. N. Shindyalov and P. E. Bourne, Protein structure alignment by incremental combinatorial extension

    (CE) of the optimal path, Protein engineering, 1998, 11, 739-747.

    [22] L. Holm and C. Sander, Dali: a network tool for protein structure comparison, Trends in bioche