GenBank, BLAST e PriFi Almir R. Pepato. Bases de Dados European Molecular Biology Laboratory ...

Post on 07-Apr-2016

213 views 1 download

Transcript of GenBank, BLAST e PriFi Almir R. Pepato. Bases de Dados European Molecular Biology Laboratory ...

GenBank, BLAST e PriFi

Almir R. Pepato

Bases de Dados

European Molecular Biology Laboratoryhttp://www.ebi.ac.uk/cgi-bin/sva/sva.pl

National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/genbank/

DNA Data Bank of Japan: http://www.ddbj.nig.ac.jp

Bases de Dados

GenBank

GenBank

GenBank

GenBank

BLASTBLAST = Basic Local Alignment Search Tool

Idéia: Ao invés de alinhar as sequências inteiras, tornar o algoritmo mais rápido buscando palavras curtas e depois estendendo-as

Altschul, S. F.; Gish, W.; Miller, W.; Myers, E. W.; Lipman, D. J. (1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403–410.

BLASTPasso a passo do BLAST:

1- Remove regiões de baixa complexidade da sequência de interesse (SEG e DUST).

2- Produz, a partir da sequência de interesse uma lista de palavras de tamanho pré-determinado (seeding, geralmente 3 aminoácidos ou 28 nucleotídeos)

3- Seguindo um esquema de pontuação, as palavras são combinadas com o conjunto de sequências da base de dados e apenas as palavras encontradas no conjunto de dados objeto da pesquisa com pontuação acima de um valor limite são mantidas

BLAST

BLOSSUM62:

BLAST4- O processo é repetido para todas as palavras da sequência de interesse.

5- A partir das palavras com pontuação mais alta, os trechos coincidentes são estendidos em ambas direções

BLAST6- As HSP são selecionadas tendo por base o valor S, definido empiricamente, que é indicativo de que o valor encontrado é maior que o esperado pela coincidência de nucleotídeos ao acaso.

7- As HSPs são avaliadas quanto a sua significância .

8- HSPs próximas são combinadas em um alinhamento maior.

9-São exibidos os alinhamentos locais acima de um dado número de E(), sendo esse valor relacionado ao número de coincidências entre as sequências localmente alinhadas esperado por puro acaso.

Para interpretar esses valores:

E()< 0,1 sequência pode ser aceita como homóloga com segurança

0,1< E()<10 zona de penumbra

E()> 10 Homologia deve ser rejeitada

BLAST

BLAST

BLAST

BLAST

PriFi

PriFi

Formatos de arquivo mais comuns

O melhor amigo do bioinformata!

O programa mais importante!

Aquele que já salvou teses inteiras da catástrofe!

Formatos de arquivo mais comunsFasta

Formatos de arquivo mais comuns

Formato para TNT, NONA, PeeWee

Poderia estar codificado com letras, mas um comando teria de ser invocado - no caso do TNT nstates dna;

Formatos de arquivo mais comunsNexus:Utilizado em programas como PAUP*, MrBayes, FigTree, Splitstree etc.

Formatos de arquivo mais comuns

Formatos de arquivo mais comunsPhylip: Além do próprio, PhyML e Tree-Puzzle

Formatos de arquivo mais comunsMEGA: Molecular Evolutionary Genetics Analysis

Biologia dos marcadores moleculares II

Almir R. Pepato

Mutação Vs Substituição

Mutação é um fenômeno químico. Produz novas versões dos genes.

Substituição é um fenômeno populacional.

Mecanismos que levam à fixação de alelos

Deriva gênica:

No caso do aparecimento de uma nova mutação, m=1:

Considerando uma taxa de mutação μ:

Mecanismos que levam à fixação de alelos

Seleção naturalKimura (1962) mostrou que:

Caso Ne =N temos:

Para s=0

Para valores de s pequenos temos:

Coalescência

Exemplo de um modelo simples:Em uma população em que todos os indivíduos apresentam o mesmo número médio de descendentes a probabilidade de um indivíduos compartilhar a mãe é de:

Já a possibilidade de não compartilharem é de:

CoalescênciaA probabilidade de dois indivíduos compartilharem um dos pais a T gerações atrás é de :

Ou:

O tempo para a coalescência nas nossas condições inverossímeis é 2N.

Cenários para a evolução molecular

Princípios da genética molecular

– Hubby e Lewontin, 1966; Harris, 1966

Revelou um nível de polimorfismo insuspeito.

Relógio molecular

Dickerson, 1971

Proporcional ao tempo absoluto.

Neutralismo

Taxa de substituição sob deriva: k = 2Nμ * 1/2N = μ

E sob seleção:k = 2N μ * 2s = 4N μ s

NeutralismoPrevisões da hipótese neutralista:

1- Relógio molecular proporcional ao tempo absoluto? (geracional) (pois proporcional à taxa de mutação).

2- Heterozigose alta, independente do tamanho populacional.

3- Divergência entre populações similar ao polimorfismo dentro das populações.

Heterezigose

A taxa de heterozigose tipicamente é ao redor de 0.1

Se H=0.1, como H= 4Nµ / (4Nµ+1) 4Nµ ~ 0.1Usando µ=5x10-8

Podemos nos perguntar: qual N necessário?O valor obtido é 500,000 que é razoável.

Heterozigose

Substituição/polimorfismoSob neutralidade:kN/kS = pN/pSkN/kS

pN/pS

Substituição/polimorfismo

Sob seleção positiva

kN/kS > pN/pS(Drosophila)

kN/kS

pN/pS

= subst. não sinônima

Substituição/polimorfismo

kN/kS

Sob modelo com mutações fracamente deletérias

kN/kS < pN/pS(Humanos)

pN/pS

= polim. não sinônimo

Exemplo de baixo coeficiente de seleção

Hipótese quase-neutralista

Tomoko Ohta

“A teoria quase neutra pode ser resumida da seguinte forma. Tanto a deriva genética como a seleção influenciam o comportamento de mutações fracamente selecionadas. A deriva predomina em populações pequenas, e a seleção em populações grandes. A maioria das novas mutações é deletéria, e a maioria das mutações de efeito pequeno devem ser muito fracamente deletérias. Há seleção contra essas mutações em populações grandes, mas se comportam como neutras e populações pequenas”

Heterozigose

Estimativas de divergênciaA vida seria fácil com o relógio molecular...

Estimativas de divergência

Obtendo as sequências moleculares: Amplificação e sequenciamento

Almir R. Pepato

Reação da Polimerase em cadeia (PCR)

Reação da Polimerase em cadeia (PCR)

Otimizando as reações de PCRExtração PolimeraseMg++ Iniciadores (Primers) DNTPTampãoSubstâncias facilitadoras

Temperatura e tempo :

-Denaturação

-Anelamento

-Extensão

ExtraçãoContaminação

Deve- se usar um controle negativo.

Autoclavar ponteiras, frascos etc.

Aliquotar as soluções (isso restringe a

contaminação)

Planejar o espaço físico do laboratório.

Degradação e quantidade:

Ideal: 0.1-1 μg DNA /100 μl de solução para o PCRMuito DNA: Amplificações espúrias.

O DNA degradado pode ser eventualmente “restaurado”.

Substâncias que inibem o PCR: álcool, formol, fenol, detergentes polares, vários metais.

Cloreto de Magnésio (Mg++) e DNTP

O Mg++ forma complexos com dNTPs, primers e DNA, mas o efeito do dNTPs é mais pronunciado.

Pouco Mg++, pouco produto de PCR/Muito Mg++, baixa especificidade

Iniciadores (Primers)

0,4 mM

0,2 mM

Devem ter de 0-24 nucleotídeos de comprimentoO conteúdo de GC deve estar em 40%-60% Não deve ser auto-complementar nem parear com o seu reversoO par de primers não devem ter Tm’s (veja abaixo) diferindo em mais de 5°CÉ uma boa idéia ter uma timina na extremidade 3’ para primers universais e GC para primers específicos

Substâncias facilitadoras

Substâncias como DMSO (2%-5%), glicerol (500-20%), detergentes apolares, formamida (5%) e BSA podem aumentar o produto das reações ou melhorar a especificidade .

Algumas reações só funcionam com eles!

Ciclo de temperaturasO número de ciclos, temperaturas e tempo de duração de cada etapa do ciclo também é objeto de otimização! Os principais parâmetros são a temperatura de anelameto, o número de ciclos e a duração do tempo de extensão.

Para oligos com < 25nts, Tm ± 4 (G + C) + 2 (A + T). A diferença entre as temperaturas dos primers não deve ser maior que uns 5°C.

A temperatura ideal de anelamento deve ser uns 5°C menor que Tm.

Temperatura ótima esperada: 56,5°C. Inferida pelo gradiente: 63°C

E quando mais nada funciona?

Santa Rita de Cássia, santa das causas impossíveis.

PCR AninhadosConsiste em amplificar um fragmento menor a partir de um produto inespecífico ou escasso de outro PCR.

“Touchdown” e “Hot start”Touchdown: A cada ciclo a temperatura é reduzida, tornando o anelamento cada vez menos específico, mas mais eficiente

Hotstart: A Taq polimerase só é adicionada quando a temperatura atingiu um valor mínimo.

Sequenciamento: Método de Sanger

Originalmente:

Quatro reações diferentes com cada uma das quatro bases modificadas por vez (mais as versões normais de todas)

Sequenciamento: Método de Sanger

Sequenciamento de nova geração

Sequenciamento de nova geração

Sequenciamento de nova geração

Sequenciamento de nova geração

Sequenciamento de nova geração