Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda...

Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST

Antonio Basílio de Miranda24/11/2004

Adaptado por Marcos Catanho10/05/2005

As Origens... Rigorous Dynamic Programming:

Needleman & Wunsch (1970) Smith & Waterman (1981)

Heuristics: Lipman & Pearson (1985,1988) Altschul et al. (1990,1997)

BLAST - Basic Local Alignment Search Tool Provavelmente a ferramenta computacional mais

utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de dados

pela similaridade entre a estrutura primária da seqüência query e as seqüências armazenadas no banco

Propriedades biológicas descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes

O maior problema é definir um cut-off, um limite abaixo do qual as similaridades encontradas entre a query e os hits não sejam mais significativos

BLAST É um método heurístico para

alinhamentos locais Projetado especialmente para

buscas em bancos de dados Idéia básica: bons alinhamentos

irão conter pequenos trechos de combinações iguais

BLAST Existem vários “sabores” e tipos

de BLAST: Nucleotídeo Proteína Traduzido Genomas

BLAST Nucleotídeo:

Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase

perfeitos Busca em cromatogramas

BLAST Proteína:

Proteína-proteína (blastp) Busca através da obtenção de perfis (PHI-

BLAST e PSI-BLAST) Busca por hits curtos e quase perfeitos Busca em bancos de dados de domínios

conservados (Smart, PFam e COG) (rps-blast)

Busca pela arquitetura de domínios (cdart)

PHI-BLAST e PSI-BLAST PHI-BLAST: Em quais outras

seqüências protéicas há ocorrência do padrão P e ao mesmo tempo estas seqüências são similares à query P na vizinhança do padrão?

PSI-BLAST: Construção de uma matriz de valores posição-específica (Position Specific Scoring Matrix, PSSM)

BLAST Traduzido:

query traduzida x banco de dados de proteínas (blastx)

query de proteína x banco de dados traduzido (tblastn)

query traduzida x banco de dados traduzido (tblastx)

BLAST Genomas:

Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos,

malária Genomas microbianos, outros genomas

eucarióticos

BLAST - algoritmo 1. Filtrar as regiões de baixa complexidade 2. Fragmentar a seqüência query e as

seqüências depositadas no banco de dados, criando “palavras“ (de comprimento 3 para proteínas e 11 para DNA) através do uso de uma janela deslizante

MEF EFP FPG PGL GLG

MEFPGLGSLGTSEPLPQFVDPALVSS

BLAST - algoritmo 3. Utilizando uma matriz de

substituição (PAM, BLOSUM), encontrar todas as “palavras” de tamanho W que obtenham, no mínimo, um no. de pontos (score) T quando comparadas com a seqüência query, criando uma lista de “palavras” de alta pontuação

(Parênteses – matrizes de substituição) É uma matriz representando todas

as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas

Esses valores são proporcionais à probabilidade de ocorrência de cada troca, tomando-se como base um determinado modelo evolutivo

(Parênteses – matrizes de substituição)

(Parênteses – matrizes de substituição) PAM family:

Baseiam-se em alinhamentos globais de proteínas muito próximas

PAM1 é a matriz calculada a partir da comparação de seqüências com não mais do que 1% de divergência

As demais matrizes PAM são extrapolações da PAM1 BLOSUM family:

Baseiam-se em alinhamentos locais de proteínas BLOSUM 62 é a matriz calculada a partir da

comparação de seqüências com não menos do que 62% de divergência

Todas as matrizes BLOSUM baseiam-se em alinhamentos observados; não há extrapolações

BLAST - algoritmo 4. Procurar em cada seqüência

depositada no banco de dados por uma ou mais ocorrências de cada “palavra” de alta pontuação. Cada uma destas ocorrências (hit) será uma “semente” para um alinhamento sem gaps

5. Estender os hits em ambas as direções, na tentativa de gerar alinhamentos com score acima de um limiar S

BLAST - algoritmo 5.1. BLAST original: extensão dos hits à

esquerda e à direita da “semente”, sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. O alinhamento obtido é chamado HSP (High Scoring Pair)

5.2. Atualmente: hits ao longo da mesma diagonal (Dot plot) com uma distância A entre os dois são reunidos e a extensão se dá com a seqüência maior obtida

(Parênteses – Dot Plots - matrizes de homologia)

BLAST - algoritmo 6. Reter somente os HSPs com

score acima do limiar S 7. Determinar a significância

estatística de cada alinhamento remanescente (p-value e E-value)

8. Mostrar os alinhamentos locais (de acordo com Smith-Waterman)

Resultado (BLASTN)

Resultado (campo de busca)

Resultado (opções)

Resultado (formato)

Resultado (BLASTN) O output é dividido em cinco

partes: 1. Header contendo a versão do BLAST, data

da compilação, referência, RID, etc. 2. Representação gráfica dos alinhamentos 3. Sumário com uma descrição em uma linha

de cada hit 4. Os alinhamentos com seus respectivos

parâmetros calculados 5. Rodapé com a descrição detalhada dos

parâmetros de busca empregados, o banco de dados, etc.

Resultado (header)

Resultado (graphical overview)

Resultado (one-line descriptions)

Resultado (links) G: Gene U: UniGene E: GEO Profile (dados de expressão

gênica e hibridização genômica obtidos por tecnologia high-throughput)

Resultado (alignments)

>gi|50363246|gb|AY661748.1| Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds Length = 1452 Score = 278 bits (140), Expect = 1e-71 Identities = 203/224 (90%) Strand = Plus / Plus Query: 19 tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78 |||||||| |||||||| |||||||||||||||||||| ||||| |||||||| |||||| Sbjct: 2 tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61 Query: 79 tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctgtgagagaa 138 |||||||||||||| ||||| ||| ||||||| || ||||| |||||||||||||||||| Sbjct: 62 tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121 Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198 || |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| || Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181 Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242 |||||||||| ||| ||||||||||| ||||||| |||||||| Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225

Score = 48.1 bits (24), Expect = 0.024 Identities = 33/36 (91%) Strand = Plus / Plus Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564 ||||| ||||| ||||||||||||||||| |||||| Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544

Score = 46.1 bits (23), Expect = 0.095 Identities = 32/35 (91%) Strand = Plus / Plus Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401 ||||||||||| |||||||| |||||||| ||||| Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381

HSPs

Resultado (footer)

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda...

Documents

Transcript of Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda...