Analisis de Secuencias

66
ANALISIS DE SECUENCIAS

description

ANALISIS DE SECUENCIAS GENOMICAS

Transcript of Analisis de Secuencias

Page 1: Analisis de Secuencias

ANALISIS DE SECUENCIAS

Page 2: Analisis de Secuencias

El dogma central

Proteina

RNA

DNA

transcription

traduccion

CCTGAGCCAACTATTGATGAA

PEPTIDE

CCUGAGCCAACUAUUGAUGAA

Page 3: Analisis de Secuencias

MAGNITUD DE LA INFORMACIÓN GENETICA

Si toda la secuencia del genoma humano es compilada esta ocuparia 200 guias telefonicas como las de la ciudad de Manhattan (cada una con 1000 páginas)

Tamaño de la secuencia Humana 3.4 X 109pb

ORGANISMO Genoma: compilado pb

Mosca de la Fruta: Drosophila 10 vol 15X107

Levaduras: 1 vol 15X106

Bacterias: E. coli 300 pág 4.6X106

Cromosoma 3 de levadura 14 pág 350X103

Page 4: Analisis de Secuencias
Page 5: Analisis de Secuencias

MathematicsStatistics

Computer ScienceInformatics

BiologyMolecular biology

Medicine

Chemistry

Physics

Bioinformatics

Page 6: Analisis de Secuencias

Bioinformatica

• Relacionado a Biologia Molecular: – (Estadistico) Analisis de proteinas y de estructura nucleotidica– Plegamiento de proteina– Interaccion proteina-proteina y proteina nucleotido

• Muchos metodos esenciales se se generaron antes de la era genomica– Analisis de secuencias de proteinas (alineamiento de

secuencias por pares y multiple alineamiento)– Prediccion de estructura secundaria proteica

• Estudios evolutivos – Reconstruccion filogenetica (clustering – NJ method)

Page 7: Analisis de Secuencias

BASE DE DATOS DE SECUENCIAS

• UniProt (formerly called SwissProt) (http://www.expasy.uniprot.org/)

• PIR (http://pir.georgetown.edu/home.shtml)• NCBI NR-dataset () -- all non-redundant GenBank CDS

translations+RefSeq Proteins+PDB+SwissProt+PIR+PRF

• EMBL databank (http://www.ebi.ac.uk/embl/)• trEMBL databank (http://www.ebi.ac.uk/trembl/)• GenBank

(http://www.ncbi.nlm.nih.gov/Genbank/index.html)

Page 8: Analisis de Secuencias
Page 9: Analisis de Secuencias
Page 10: Analisis de Secuencias

DNA genomico

Biblioteca de BACs

Organización por mapeo y agrupacion de clones

Secuenciacion deBAC

Subclones del BAC

Secuencia de subclones

Organización o emsamblaje de la secuencia

METODO DE PROYECTO GENOMA

Page 11: Analisis de Secuencias

Raw Genome Data:

Page 12: Analisis de Secuencias

El siguiente paso es localizar todos los genes y describir su funcion. 15-20 años mas!

Page 13: Analisis de Secuencias

TERTIARY STRUCTURE (fold)TERTIARY STRUCTURE (fold)

Genome

Expressome

Proteome

Metabolome

Functional GenomicsFrom gene to function

Page 14: Analisis de Secuencias

-AGGCTATCACCTGACCTCCAGGCCGA--TGCCC---TAG-CTATCAC--GACCGC--GGTCGATTTGCCCGAC

AGGCTATCACCTGACCTCCAGGCCGATGCCCTAGCTATCACGACCGCGGTCGATTTGCCCGAC

Page 15: Analisis de Secuencias

Secuencia: A L P S S K T G K G E S L S R I W D N

Secuencia: B L T K S A G K G A S R I D A

ALINEAMIENTO GLOBAL

gaps introducidos

L P S S K – T G K G E S L S R I W D N

| | | | | | | | |

L – – T K S A G K G A – – S R I – D A

ALINEAMIENTO LOCAL

bloques de secuencias alineados

– – – – – – – G K G – – – S R I – – –

| | | | | |

– – – – – – – G K G – – – S R I– – –

COMPARACION DE SECUENCIAS

Page 16: Analisis de Secuencias

MÉTODOS DE ALINEAMIENTO

1.Método de diagrama o Dot Matrix para comparar secuencias.2.Algoritmo de programación dinámica.3. Metodo de alineamiento estadistico

Page 17: Analisis de Secuencias

DOT MATRIX O METODO GRAFICO PARA COMPARAR SECUENCIAS

M H E G A M C A M

M 0 0

H 0

E 0

G 0

A 0 0

M 0 0 0

G 0

C 0

A 0 0

M 0 0 0

Divergencia Inserción / deleción Repeticiones internas X X X Y Y X

Page 18: Analisis de Secuencias

PROGRAMACION DINAMICA

GENERACION DE MATRICES PAM

Basada en puntos de mutación

GENERACION DE MATRICES BLOSUM

Es generada en alineamiento de bloques. La escala mas empleada es Blosum 62

ALINEAMIENTO POR METODO ESTADISTICO BAYESIANO

Los algoritmos empleando métodos estadísticos bayesianos pueden ser empleados desde la pagina web: www.wadsworth.org/res&res/bioinfo/

Page 19: Analisis de Secuencias

ALINEAMIENTO MULIPLE

  SeqA N . F L S

SeqB N . F - S

SeqC N K Y L S

SeqD N . Y L S

 

  N Y L S N K Y L S N F S N F L S

+ K - L

 

 

Y a F

 

Page 20: Analisis de Secuencias

ALINEAMIENTO MULIPLE

 PROGRAMACION DINAMICA

Para N secuencias se construye un hipercubo de N dimensiones y el número de comparaciones de de una secuencia de X aminoacidos es de Xn

B con C A con B con C

A con B

A con C

Secuencia A

Secuencia B

Secuencia C

Page 21: Analisis de Secuencias

ALINEAMIENTO MULIPLE

METODO PROGRESIVO Genera un Ancestro de las dos secuencias más proximas. Ej. Clustal, PILEUP

 

N Y L S N K Y L S N F S N F L S

N K/- Y L S N F L/- S

  N K/- Y/F L/- S 

Page 22: Analisis de Secuencias

DIRECCIONES ELECTRONICA PARA ACCEDER A PROGRAMAS DE ALINEAMIENTO DE PARES DE SECUENCIAS

PROGRAMA UBICACIÓN WEB TIPO DE ALINEAMIENTO

Laling www.ch.embnet.org/software/LALIGN_form.html Global/local

http//fasta.bioch.virginia.edu/fasta_www/plalign.html

USC www-hto.usc.edu/software/seqaln/seqaln-query.html Global/local

Alion fold.Standford.edu/alion/ Global/local

Align genome.cs.mtu.edu/alion/ Global/local

www.ebi.ac.uk/emboss/align Global/local

Blast2seqs www.ncbi.nih.gov/blast/bl2seq/bl2.html Local BLAST

web.umassmed.edu/cgi-bin/BLAST/blast2seqs

lalnview www.expasy.ch/tools/sim-pro.html Visualización

prss www.ch.embnet.org/software/PRSS_form.html Evaluación

fasta.bioch.virginia.edu/fasta/pss.htm

Bayes block aligner http://www.wadsworth.org/res&res/bioinfo Local

SIM http://www.expasy.ch/tools/sim.html Local

GAP, NAP http://genome.cs.mtu.edu/align/align.html Local

 

Page 23: Analisis de Secuencias

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS

Alineamiento global incluyendo el alineamiento progresivo

ClustalW o ClustalX FTP to ftp://ftp-igbmc.ustrasb.fr/pub/clustalW o X

DCA http://bibiserv.techfak.uni-biefield.de/dca

MSA http://www.psc.edu/

http://www.ibc.wustl.edu/ibc/msa.html

FTP to fastlink.nih.gov/pub/msa

PRALINE http://mathbio.nimr.mrc.ac.uk/jhering/praline

Iterativo y otros métodos

IterAlign http://glotto.Stanford.edu/luciano/iteralign.html

PRRP ftp://ftp.genome.ad.jp/pub/genome/saitama-cc

SAM [email protected]

HMM http://hmmer.wustl.edu/

GA [email protected]

OMA http://bibiserv.techfak.uni-biefield.de/oma

DIALIGN http:/www.gsf.de/biodv/dialign.html

http://protein.toulouse.inra.fr/multalin.html

ComAlign http:www.daimi.au.df/ocaprani

SAGA http:/ligs-server.cms-mrs.fr/cnotrd/Projects_home_page/saga_home_page.html

T-Coffee http://igs-server.cms-ms.fr/cnotred

Page 24: Analisis de Secuencias

DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS

Alineamiento local de proteinas

ASSET (aligned Segment Statical Evaluation Tools)

FTP to ncbi.nml.nih.gov/pub/neuwald/asset

BLOCKS http://blocks.fhcrc.org/blocks/

eMOTIF http://dna.Stanford.EDU/emotif/

GIBB FTP to ncbi.nlm.nih.gov/pub/neuwald/gibbs9_95/

HMMER (Hidden Markov model software)

http://hmmer.wustl.edu/

MACAW FTP to ncbi.nlm.nih.gov/pub/macaw

MEME http://meme.sdsc.edu/meme/website/

UCSD http://www.sdsc.edu/project/profile/

SAM http://www.cse.ucsc.edu/research/compbio/sam.html

Page 25: Analisis de Secuencias

Filogenia Evolucion = mutaciones de secuencias

de DNA (y proteinas) Podemos definir relacion evolutiva entre

organismos comparando secuencias de DNA

Page 26: Analisis de Secuencias
Page 27: Analisis de Secuencias
Page 28: Analisis de Secuencias

PREDICCION FILOGENETICA

Método de Máxima Parsimonia

Los programas de Parsimonia en el paquete Phylip para ácidos nucleicos son:

DNAPARS que trata al “gap” como un quinto nucleótido

DNAPENNY modifica la parsimonia por ramas y enlaces. Puede analizar más secuencias (11 ó 12)

DNACOMP Emplea el criterio de compatibilidad. Este programa encuentra al árbol que mantiene el mayor numero de sitios o lugares. Este método es recomendado cuando el porcentaje de evolución varía en las regiones.

DNAMOVE interactúa la parsimonia y compatibilidad.

Para análisis de proteínas: PROTPARS contabiliza el número mínimo de mutaciones para cambiar un codon. Mutaciones silentes que no cambian aminoácidos no tienen puntuaciones y no tienen significancia evolutiva.

 

Page 29: Analisis de Secuencias

PREDICCION FILOGENETICA

Métodos de análisis de distancia evolutiva

Programas que emplean distancia evolutiva:

·    DNADIST programa contenido en el paquete Phylip calcula la distancia en ácidos nucleicos contemplando el porcentaje de transversiones y transiciones

·     PROTDIST calcula la distancia en proteínas basada en el modelo de Dayhoff PAM u otros modelos de cambios en proteínas.

·     FITCH estima un árbol empleando el método Fitch-Margoliash y no considera el reloj molecular.

·     KITSCH estima el árbol empleando el método Fitch-Margoliash pero considerando el reloj molecular.

·   NEIGHBOR estima la filogenia empleando el método Neighbor-joining no considera el reloj molecular y produce árboles sin orígenes.

Page 30: Analisis de Secuencias

PREDICCION FILOGENETICA

Método de la Máxima probabilidad (The Maximun Likelihood approach)

El método emplea los cálculos de probabilidad para ubicar el mejor árbol relacionado a las variaciones del grupo de secuencias. Es un método muy similar al de método de Máxima Parsimonia.

Requiere de tres elementos. Un modelo de evolución de las secuencias, un árbol y un dato observado.

El paquete de programas de análisis Phylip contiene dos programas que emplean este método de Máxima probabilidad:

El DNAML estima la filogenia de acuerdo a una frecuencia variable de los cuatro nucleótidos, y un desigual porcentaje de transiciones y transversiones.

El DNAMLK que estima la filogenia de la misma manera que el DNAML pero asume la existencia del reloj molecular (los genes evolucionan en una constante denominada reloj molecular).

 

Page 31: Analisis de Secuencias

PREDICCION DE SECUENCIAS DE PROTEINAS POR TRADUCCION

El principal problema es identificar una secuencia de aminoácidos que está codificada en una secuencia geonómica, para ello debemos comprender la manera en la cual los genes son especificados en el genoma o en otras palabras descifrar el código genético.

Los genes en los organismos eucariotas no se encuentran contiguos ni continuos, el genoma presenta regiones intergénicas largas y los genes son interrumpidos por intrones que en muchos genomas constituyen la mayor parte de la secuencia.

Diversas señales en las secuencias de ADN están involucradas en la especiación de genes, entre ellas tenemos a los elementos promotores, los motivos de terminación de la transcripción, los sitios donadores y aceptores de empalme (“splicing”) y los codones de inicio y terminación de la traducción

Page 32: Analisis de Secuencias

http://www.ebi.ac.uk/Tools/sequence.html

Page 33: Analisis de Secuencias
Page 34: Analisis de Secuencias

Time

Proteins and Evolution

YRMFEPKCLDAFANLRDFLARFEGLKKISAFRVAKFEIDKYANLNRWYENAKKVTPGWEE

YRVAFEPTLDAYANLRDFEGVKKITPE

YRVAKFELDAYANLRWENVKKITPE

FRVAKFELDKYANLRWENVKKITPGWE

YRVFEPDAYANLRDFLEGVKKITSE

FRVAKFELDKYANLRWYENAKKITPGWE

YRMFEPKLDAFANLRDFLREGVKKITSA

YRMFEPKLDAFANLRDFLREGVKKITSA

YRMFEPKLDAFANLRDFLAREGLKKITSA

FRVAKFE---IDKYANLNRW---YENAKKVTPGWEE.:. :: .: .::: . .:. ::.. YRM--FEPKCLDAFANLRDFLARFEGLKKISA

Time

Page 35: Analisis de Secuencias
Page 36: Analisis de Secuencias

Encontrar genes en el genoma no es facil • Cerca del 2% del genoma codifica son genes funcionales.

• Los genes estan interespaciados entre grandes regiones no codantes.

• Repeticiones, pseudo-genes, e intrones provocan confusion

• Es posible usar patrones de DNA para predecir un gen:• promotores• Codones de inicio y de stop (ORFs)• Sition de splicing• codon bias

• Tambien puede usarse la similaridad a genes conocidos /ESTs

Page 37: Analisis de Secuencias

PROGRAMAS PARA LA VISUALIZACION DE ESTRUCTURAS PROTEICAS

 

Programa Localización WEB Caracteristicas

 CHIME http:www.umass.edu/microbio/chime/ Permite manipular la estructura

dentro de la pagina WEB

 Cn3d http://www.ncbi.nlm.nih.gov/Structure/ Puede superponer imágenes para

realizar análisis de resonancia

magnética nuclear

 Mage http://Kinemage.biochem.duke/website/kinhome.html

Visualizador estandar con animación.

 Rasmol http://www.umass.edu/microbio/rasmol/ Es el mas completo de los

visualizadores

 Swiss 3D http://www.expasy.ch/spdv/mainpage.html Puede construir alineamiento

Viewer estructural, calcula ángulos

Spdbv atómicos y distancia, minimiza

la energía de la molécula e

interactua con el servidor Swiss

Model

Page 38: Analisis de Secuencias

ANALISIS DE SECUENCIAS EN EL GENBANK

Page 39: Analisis de Secuencias
Page 40: Analisis de Secuencias
Page 41: Analisis de Secuencias
Page 42: Analisis de Secuencias

Peptido A

Peptido A

Peptido B

Page 43: Analisis de Secuencias
Page 44: Analisis de Secuencias
Page 45: Analisis de Secuencias

Peptido A

Peptido B

Page 46: Analisis de Secuencias
Page 47: Analisis de Secuencias
Page 48: Analisis de Secuencias
Page 49: Analisis de Secuencias
Page 50: Analisis de Secuencias

PREDICCION DE FILOGENIA

Page 51: Analisis de Secuencias
Page 52: Analisis de Secuencias
Page 53: Analisis de Secuencias
Page 54: Analisis de Secuencias
Page 55: Analisis de Secuencias
Page 56: Analisis de Secuencias
Page 57: Analisis de Secuencias

Empleo de BIOEDIT para multiplealineamiento

Page 58: Analisis de Secuencias
Page 59: Analisis de Secuencias
Page 60: Analisis de Secuencias
Page 61: Analisis de Secuencias
Page 62: Analisis de Secuencias
Page 63: Analisis de Secuencias
Page 64: Analisis de Secuencias
Page 65: Analisis de Secuencias
Page 66: Analisis de Secuencias