Creacion de textos desde secuencias temporales nivel intermedio
Analisis de Secuencias
-
Upload
robert-caballero-bardales -
Category
Documents
-
view
248 -
download
1
description
Transcript of Analisis de Secuencias
ANALISIS DE SECUENCIAS
El dogma central
Proteina
RNA
DNA
transcription
traduccion
CCTGAGCCAACTATTGATGAA
PEPTIDE
CCUGAGCCAACUAUUGAUGAA
MAGNITUD DE LA INFORMACIÓN GENETICA
Si toda la secuencia del genoma humano es compilada esta ocuparia 200 guias telefonicas como las de la ciudad de Manhattan (cada una con 1000 páginas)
Tamaño de la secuencia Humana 3.4 X 109pb
ORGANISMO Genoma: compilado pb
Mosca de la Fruta: Drosophila 10 vol 15X107
Levaduras: 1 vol 15X106
Bacterias: E. coli 300 pág 4.6X106
Cromosoma 3 de levadura 14 pág 350X103
MathematicsStatistics
Computer ScienceInformatics
BiologyMolecular biology
Medicine
Chemistry
Physics
Bioinformatics
Bioinformatica
• Relacionado a Biologia Molecular: – (Estadistico) Analisis de proteinas y de estructura nucleotidica– Plegamiento de proteina– Interaccion proteina-proteina y proteina nucleotido
• Muchos metodos esenciales se se generaron antes de la era genomica– Analisis de secuencias de proteinas (alineamiento de
secuencias por pares y multiple alineamiento)– Prediccion de estructura secundaria proteica
• Estudios evolutivos – Reconstruccion filogenetica (clustering – NJ method)
BASE DE DATOS DE SECUENCIAS
• UniProt (formerly called SwissProt) (http://www.expasy.uniprot.org/)
• PIR (http://pir.georgetown.edu/home.shtml)• NCBI NR-dataset () -- all non-redundant GenBank CDS
translations+RefSeq Proteins+PDB+SwissProt+PIR+PRF
• EMBL databank (http://www.ebi.ac.uk/embl/)• trEMBL databank (http://www.ebi.ac.uk/trembl/)• GenBank
(http://www.ncbi.nlm.nih.gov/Genbank/index.html)
DNA genomico
Biblioteca de BACs
Organización por mapeo y agrupacion de clones
Secuenciacion deBAC
Subclones del BAC
Secuencia de subclones
Organización o emsamblaje de la secuencia
METODO DE PROYECTO GENOMA
Raw Genome Data:
El siguiente paso es localizar todos los genes y describir su funcion. 15-20 años mas!
TERTIARY STRUCTURE (fold)TERTIARY STRUCTURE (fold)
Genome
Expressome
Proteome
Metabolome
Functional GenomicsFrom gene to function
-AGGCTATCACCTGACCTCCAGGCCGA--TGCCC---TAG-CTATCAC--GACCGC--GGTCGATTTGCCCGAC
AGGCTATCACCTGACCTCCAGGCCGATGCCCTAGCTATCACGACCGCGGTCGATTTGCCCGAC
Secuencia: A L P S S K T G K G E S L S R I W D N
Secuencia: B L T K S A G K G A S R I D A
ALINEAMIENTO GLOBAL
gaps introducidos
L P S S K – T G K G E S L S R I W D N
| | | | | | | | |
L – – T K S A G K G A – – S R I – D A
ALINEAMIENTO LOCAL
bloques de secuencias alineados
– – – – – – – G K G – – – S R I – – –
| | | | | |
– – – – – – – G K G – – – S R I– – –
COMPARACION DE SECUENCIAS
MÉTODOS DE ALINEAMIENTO
1.Método de diagrama o Dot Matrix para comparar secuencias.2.Algoritmo de programación dinámica.3. Metodo de alineamiento estadistico
DOT MATRIX O METODO GRAFICO PARA COMPARAR SECUENCIAS
M H E G A M C A M
M 0 0
H 0
E 0
G 0
A 0 0
M 0 0 0
G 0
C 0
A 0 0
M 0 0 0
Divergencia Inserción / deleción Repeticiones internas X X X Y Y X
PROGRAMACION DINAMICA
GENERACION DE MATRICES PAM
Basada en puntos de mutación
GENERACION DE MATRICES BLOSUM
Es generada en alineamiento de bloques. La escala mas empleada es Blosum 62
ALINEAMIENTO POR METODO ESTADISTICO BAYESIANO
Los algoritmos empleando métodos estadísticos bayesianos pueden ser empleados desde la pagina web: www.wadsworth.org/res&res/bioinfo/
ALINEAMIENTO MULIPLE
SeqA N . F L S
SeqB N . F - S
SeqC N K Y L S
SeqD N . Y L S
N Y L S N K Y L S N F S N F L S
+ K - L
Y a F
ALINEAMIENTO MULIPLE
PROGRAMACION DINAMICA
Para N secuencias se construye un hipercubo de N dimensiones y el número de comparaciones de de una secuencia de X aminoacidos es de Xn
B con C A con B con C
A con B
A con C
Secuencia A
Secuencia B
Secuencia C
ALINEAMIENTO MULIPLE
METODO PROGRESIVO Genera un Ancestro de las dos secuencias más proximas. Ej. Clustal, PILEUP
N Y L S N K Y L S N F S N F L S
N K/- Y L S N F L/- S
N K/- Y/F L/- S
DIRECCIONES ELECTRONICA PARA ACCEDER A PROGRAMAS DE ALINEAMIENTO DE PARES DE SECUENCIAS
PROGRAMA UBICACIÓN WEB TIPO DE ALINEAMIENTO
Laling www.ch.embnet.org/software/LALIGN_form.html Global/local
http//fasta.bioch.virginia.edu/fasta_www/plalign.html
USC www-hto.usc.edu/software/seqaln/seqaln-query.html Global/local
Alion fold.Standford.edu/alion/ Global/local
Align genome.cs.mtu.edu/alion/ Global/local
www.ebi.ac.uk/emboss/align Global/local
Blast2seqs www.ncbi.nih.gov/blast/bl2seq/bl2.html Local BLAST
web.umassmed.edu/cgi-bin/BLAST/blast2seqs
lalnview www.expasy.ch/tools/sim-pro.html Visualización
prss www.ch.embnet.org/software/PRSS_form.html Evaluación
fasta.bioch.virginia.edu/fasta/pss.htm
Bayes block aligner http://www.wadsworth.org/res&res/bioinfo Local
SIM http://www.expasy.ch/tools/sim.html Local
GAP, NAP http://genome.cs.mtu.edu/align/align.html Local
DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS
Alineamiento global incluyendo el alineamiento progresivo
ClustalW o ClustalX FTP to ftp://ftp-igbmc.ustrasb.fr/pub/clustalW o X
DCA http://bibiserv.techfak.uni-biefield.de/dca
MSA http://www.psc.edu/
http://www.ibc.wustl.edu/ibc/msa.html
FTP to fastlink.nih.gov/pub/msa
PRALINE http://mathbio.nimr.mrc.ac.uk/jhering/praline
Iterativo y otros métodos
IterAlign http://glotto.Stanford.edu/luciano/iteralign.html
PRRP ftp://ftp.genome.ad.jp/pub/genome/saitama-cc
HMM http://hmmer.wustl.edu/
OMA http://bibiserv.techfak.uni-biefield.de/oma
DIALIGN http:/www.gsf.de/biodv/dialign.html
http://protein.toulouse.inra.fr/multalin.html
ComAlign http:www.daimi.au.df/ocaprani
SAGA http:/ligs-server.cms-mrs.fr/cnotrd/Projects_home_page/saga_home_page.html
T-Coffee http://igs-server.cms-ms.fr/cnotred
DIRECCIONES ELECTRONICAS PARA MULTIPLES ALINEAMIENTOS
Alineamiento local de proteinas
ASSET (aligned Segment Statical Evaluation Tools)
FTP to ncbi.nml.nih.gov/pub/neuwald/asset
BLOCKS http://blocks.fhcrc.org/blocks/
eMOTIF http://dna.Stanford.EDU/emotif/
GIBB FTP to ncbi.nlm.nih.gov/pub/neuwald/gibbs9_95/
HMMER (Hidden Markov model software)
http://hmmer.wustl.edu/
MACAW FTP to ncbi.nlm.nih.gov/pub/macaw
MEME http://meme.sdsc.edu/meme/website/
UCSD http://www.sdsc.edu/project/profile/
SAM http://www.cse.ucsc.edu/research/compbio/sam.html
Filogenia Evolucion = mutaciones de secuencias
de DNA (y proteinas) Podemos definir relacion evolutiva entre
organismos comparando secuencias de DNA
PREDICCION FILOGENETICA
Método de Máxima Parsimonia
Los programas de Parsimonia en el paquete Phylip para ácidos nucleicos son:
DNAPARS que trata al “gap” como un quinto nucleótido
DNAPENNY modifica la parsimonia por ramas y enlaces. Puede analizar más secuencias (11 ó 12)
DNACOMP Emplea el criterio de compatibilidad. Este programa encuentra al árbol que mantiene el mayor numero de sitios o lugares. Este método es recomendado cuando el porcentaje de evolución varía en las regiones.
DNAMOVE interactúa la parsimonia y compatibilidad.
Para análisis de proteínas: PROTPARS contabiliza el número mínimo de mutaciones para cambiar un codon. Mutaciones silentes que no cambian aminoácidos no tienen puntuaciones y no tienen significancia evolutiva.
PREDICCION FILOGENETICA
Métodos de análisis de distancia evolutiva
Programas que emplean distancia evolutiva:
· DNADIST programa contenido en el paquete Phylip calcula la distancia en ácidos nucleicos contemplando el porcentaje de transversiones y transiciones
· PROTDIST calcula la distancia en proteínas basada en el modelo de Dayhoff PAM u otros modelos de cambios en proteínas.
· FITCH estima un árbol empleando el método Fitch-Margoliash y no considera el reloj molecular.
· KITSCH estima el árbol empleando el método Fitch-Margoliash pero considerando el reloj molecular.
· NEIGHBOR estima la filogenia empleando el método Neighbor-joining no considera el reloj molecular y produce árboles sin orígenes.
PREDICCION FILOGENETICA
Método de la Máxima probabilidad (The Maximun Likelihood approach)
El método emplea los cálculos de probabilidad para ubicar el mejor árbol relacionado a las variaciones del grupo de secuencias. Es un método muy similar al de método de Máxima Parsimonia.
Requiere de tres elementos. Un modelo de evolución de las secuencias, un árbol y un dato observado.
El paquete de programas de análisis Phylip contiene dos programas que emplean este método de Máxima probabilidad:
El DNAML estima la filogenia de acuerdo a una frecuencia variable de los cuatro nucleótidos, y un desigual porcentaje de transiciones y transversiones.
El DNAMLK que estima la filogenia de la misma manera que el DNAML pero asume la existencia del reloj molecular (los genes evolucionan en una constante denominada reloj molecular).
PREDICCION DE SECUENCIAS DE PROTEINAS POR TRADUCCION
El principal problema es identificar una secuencia de aminoácidos que está codificada en una secuencia geonómica, para ello debemos comprender la manera en la cual los genes son especificados en el genoma o en otras palabras descifrar el código genético.
Los genes en los organismos eucariotas no se encuentran contiguos ni continuos, el genoma presenta regiones intergénicas largas y los genes son interrumpidos por intrones que en muchos genomas constituyen la mayor parte de la secuencia.
Diversas señales en las secuencias de ADN están involucradas en la especiación de genes, entre ellas tenemos a los elementos promotores, los motivos de terminación de la transcripción, los sitios donadores y aceptores de empalme (“splicing”) y los codones de inicio y terminación de la traducción
http://www.ebi.ac.uk/Tools/sequence.html
Time
Proteins and Evolution
YRMFEPKCLDAFANLRDFLARFEGLKKISAFRVAKFEIDKYANLNRWYENAKKVTPGWEE
YRVAFEPTLDAYANLRDFEGVKKITPE
YRVAKFELDAYANLRWENVKKITPE
FRVAKFELDKYANLRWENVKKITPGWE
YRVFEPDAYANLRDFLEGVKKITSE
FRVAKFELDKYANLRWYENAKKITPGWE
YRMFEPKLDAFANLRDFLREGVKKITSA
YRMFEPKLDAFANLRDFLREGVKKITSA
YRMFEPKLDAFANLRDFLAREGLKKITSA
FRVAKFE---IDKYANLNRW---YENAKKVTPGWEE.:. :: .: .::: . .:. ::.. YRM--FEPKCLDAFANLRDFLARFEGLKKISA
Time
Encontrar genes en el genoma no es facil • Cerca del 2% del genoma codifica son genes funcionales.
• Los genes estan interespaciados entre grandes regiones no codantes.
• Repeticiones, pseudo-genes, e intrones provocan confusion
• Es posible usar patrones de DNA para predecir un gen:• promotores• Codones de inicio y de stop (ORFs)• Sition de splicing• codon bias
• Tambien puede usarse la similaridad a genes conocidos /ESTs
PROGRAMAS PARA LA VISUALIZACION DE ESTRUCTURAS PROTEICAS
Programa Localización WEB Caracteristicas
CHIME http:www.umass.edu/microbio/chime/ Permite manipular la estructura
dentro de la pagina WEB
Cn3d http://www.ncbi.nlm.nih.gov/Structure/ Puede superponer imágenes para
realizar análisis de resonancia
magnética nuclear
Mage http://Kinemage.biochem.duke/website/kinhome.html
Visualizador estandar con animación.
Rasmol http://www.umass.edu/microbio/rasmol/ Es el mas completo de los
visualizadores
Swiss 3D http://www.expasy.ch/spdv/mainpage.html Puede construir alineamiento
Viewer estructural, calcula ángulos
Spdbv atómicos y distancia, minimiza
la energía de la molécula e
interactua con el servidor Swiss
Model
ANALISIS DE SECUENCIAS EN EL GENBANK
Peptido A
Peptido A
Peptido B
Peptido A
Peptido B
PREDICCION DE FILOGENIA
Empleo de BIOEDIT para multiplealineamiento