The CATH Domain Structure Database

26
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto

description

The CATH Domain Structure Database. Ana Gabriela Murguía Carlos Villa Soto. Introducción. Mutaciones dieron lugar a familias de proteínas (DAYHOFF) Las relaciones usando Algoritmos de programación dinámica. Datos estructurales< Datos secuencia (Debido a cuestiones técnicas) - PowerPoint PPT Presentation

Transcript of The CATH Domain Structure Database

Page 1: The CATH Domain Structure Database

The CATH Domain Structure Database

Ana Gabriela Murguía

Carlos Villa Soto

Page 2: The CATH Domain Structure Database

Introducción

• Mutaciones dieron lugar a familias de proteínas (DAYHOFF)

• Las relaciones usando Algoritmos de programación dinámica.

• Datos estructurales< Datos secuencia (Debido a cuestiones técnicas)

• Actualmente discrepancias mayores a 2 ordenes de magnitud entre recursos de secuencia y de estructura.

• PDB 16000 entradas----------NCBI 12 000 000 entradas

• 1er cristal (1970) 1ra Clasificación estructural 1990s (SCOP, DALI y CATH)

Page 3: The CATH Domain Structure Database

• 2do DDBASE, 3DEE, DaliDD (3D)• Reciente comparación entre SCOP, DALI y

CATH (+80% de correspondencia)• Debido a que gran proporción de la estructura

del CORE (+50%) esta conservada, el alineamiento estructural es mucho mas exacto que el secuencial.

• SCOP y CATH contienen actual/ entre 950 – 1400 superfamilias de proteínas.

• Estas superfamilias contienen casi 1/3 de las secuencias no redundantes del Gen Bank.

Page 4: The CATH Domain Structure Database

Desarrollo Histórico:

• 1993 con menos de 3 000 estructuras de proteínas

• Una década después +/- 13 000 entradas del PDB, comprende 33 000 dominios estructurales

• 200 000 dominios extraídos del GenBank• Dominio: Importante unidad evolutiva

Debido a que los métodos de modelamiento por homología son más exitosos cuando se trabaja con dominios.

Page 5: The CATH Domain Structure Database

• CATH inicialmente como una base de datos de dominios.

• CATH divide en clusters:• Phonetically: Basado en Similaridad

estructural• Filogenéticamente: Basado en Aparente

relación evolutiva• Ambigüedades automáticas son validadas

manualmente y el mayor cuello de botella en la clasificación corresponde a la detección de dominios limítrofes y la verificación de sus homólogos relacionados.

Page 6: The CATH Domain Structure Database

Niveles CATH

• Clase: estructura secundaria.

• Arquitectura: orientación de estructura secundaria en 3D.

• Topología: orientación estructural (folds)

• Homología: agrupadas según la evidencia (estructural, secuencia, similaridad funcional).

Page 7: The CATH Domain Structure Database

• Sequence identity >= 35%, overlap >= 60% of larger structure equivalent to smaller.

• SSAP score >= 80.0, sequence identity >= 20%, 60% of larger structure equivalent to smaller.

• SSAP score >= 70.0, 60% of larger structure equivalent to smaller, and domains which have related functions, which is informed by the literature and Pfam protein family database, (Bateman et al., 2004).

Page 8: The CATH Domain Structure Database
Page 9: The CATH Domain Structure Database
Page 10: The CATH Domain Structure Database

Estrategia• Método pairwise

• Perfil comparativo de secuencias y estructuras es usado para detectar mayores distancias.

• Examinación automática y manual para determinar dominios.

• Recomparación de dominios.

• Estructuras no clasificadas son manualmente asignadas.

Page 11: The CATH Domain Structure Database
Page 12: The CATH Domain Structure Database

SSAP

• Sequential Structure Aligment Program

• Adaptación de programación dinámica a 3D.

• Comparación de ambiente estructural de residuos entre proteínas.

• 2 niveles:– Superior: acumulación sobre pares equivalentes– Inferior: comparación entre ambiente estructural

de residuos

Page 13: The CATH Domain Structure Database

GRATH

• Compara estructuras secundarias entre proteínas.

• Representación vectorial y son asociados con los “nudos” en un gráfico.

• Ángulos de inclinación y rotación para detectar motivos estructurales.

Page 14: The CATH Domain Structure Database

CORA

• Alineamiento progresivo estructura consenso alineamiento contra cada una.

• Se hace un template 3D.

• Reconoce homólogos distantes (estructural)

• Librería CORA.

• Más rápido, sensible y selectivo que el SSAP.

Page 15: The CATH Domain Structure Database

Identificación de Dominios

• Algunas proteínas no se pueden clasificar.

• No definición cuantitativa de dominio.

• Cualitativa: unidad plegada compacta semindependiente.

• Protocolo DBS (PUU, DOMAK, DETECTIVE).

• Ambigüedades: Manualmente validadas.

• 17 % discordancia entre SCOP y CATH

Page 16: The CATH Domain Structure Database

DHS

• Datos de: secuencia, estructura y función.

• Información sobre relación de pares de bases, E value, identidad de secuencias.

• PDB, Swiss prot, PROSITE, Gen ProtEC

Page 17: The CATH Domain Structure Database

GENE 3D Resource

Page 18: The CATH Domain Structure Database

Estadística en Poblaciones

• Actualmente existen:– 36 28 Bien definidas8 Irregulares,

Complejas, Poco estables.– 6 estructuras características:

• α bundles• 2 capas β sandwich• Barriles β• 2 capas de αβ sandwich• 3 capas de αβ sandwich• αβ barriles

Page 19: The CATH Domain Structure Database

Estadística en Poblaciones

• Algunos grupos de plegamientos son particularmente “Gregarios”.

• Sin embargo 15% de los Folds son distintos

• Estructuras que comparten el mismo FOLD pero que descienden de ancestro común:– Análogos

Page 20: The CATH Domain Structure Database
Page 21: The CATH Domain Structure Database
Page 22: The CATH Domain Structure Database
Page 23: The CATH Domain Structure Database
Page 24: The CATH Domain Structure Database
Page 25: The CATH Domain Structure Database
Page 26: The CATH Domain Structure Database