Skip to content

第四节蛋白质功能预测

就目前的研究水平,蛋白质的生化功能一般很容易从它的序列和结构推导出来,有时还可能走得更远。在当今基因组学和后基因组学时代,功能通常凭经验,再综合各种不同的技术得到。

尽管预测一种蛋白质功能最好的方法是先得到它的三维结构,但也可以单独进行功能预测或者与结构预测结合起来。目前经常使用的功能预测法主要包括:

基于序列的途径

如果蛋白质A有功能X,而蛋白质B是蛋白质A的同源物,B就很可能有功能X。

序列比对是检测同源基因的强有力工具,但限于亲缘关系不太远的基因组。

基于结构的途径

假定蛋白质A有功能X,而且具有某种结构特征,那么A的功能位点便具有某种结构特征。如果蛋白质B具有这种结构特征,蛋白质B就可能具有功能X。

这种基于结构的方法可能检测出基于序列途径不能确定的遥远的同源物。

结构与序列比对法

除了使用序列信息以外,还使用结构信息。

蛋白质结构预测线索法是一种很流行的方法。这种方法首先假设多肽的构象,然后根据得到的结构计算出其能量。通过计算各种已知结构的能量,可以得出与给定蛋白质序列最符合的构象。由于该结构是假设的而不是计算出来的,线索法有时指的就是“反向蛋白质折叠”。

SCOP是一个在线的蛋白质分类数据库,它根据蛋白质的结构和功能的相似性,将蛋白质分成若干个等级,按照从低到高的排列依次是:家族、超家族、栏和类。

  • 类是最高级水平,共分为11类,包括全α蛋白、膜蛋白、αβ蛋白、卷曲螺旋蛋白等;
  • 栏为第二级水平,共有800个栏;
  • 超家族位于第三级,共有1294个超家族;
  • 家族处于第四级,共有2327个家族。

使用序列-结构比对法,可以预测一种蛋白质属于哪一个家族、超家族或栏。被预测的处于同一个SCOP家族的蛋白质被认为是直向同源物;处于同一个SCOP超家族的蛋白质被认为是同源物;处于同一栏的蛋白质被认为是类似物。

通过这种方法,还可以对一种蛋白质的配体结合位点或大分子结合位点进行预测:已知约85%的配体结合位点是最大的裂缝,还有约10%的配体结合位点是第二大裂缝;大分子结合位点(蛋白质、DNA和RNA)和无序区域之间有密切的关系,而蛋白质序列中属于无序区的残基可通过计算的方法预测出来。

基于模体的方法

假定一组蛋白质有功能X,并且它们都有模体Y,而蛋白质A具有模体Y,那么蛋白质A的功能就可能与X有关。这种方法依赖于已鉴别的序列模体。

Prosite含有一千个以上的蛋白质家族特异性的序列模体,而ScanProsite允许扫描一个蛋白质序列,从而发现存储在Prosite中的模体和资料。

Prosite数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护。

Prosite数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样的区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。

因此,Prosite数据库实际上是蛋白质序列功能位点数据库。通过对Prosite数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。

基于“连坐”的功能预测

假定蛋白质A有功能X,蛋白质B经常与蛋白质A相联系,那B的功能就可能与X相关。

基于连坐的功能预测是一种非同源性途径。