Genome sequence. Genome size does not correlate well with gene number or with apparent organism...

Post on 17-Apr-2015

104 views 0 download

Tags:

Transcript of Genome sequence. Genome size does not correlate well with gene number or with apparent organism...

Genome sequence

Genome size does not correlate well with gene number or with apparent organism complexity

Closely related organisms can have genome sizes that vary by 100x

Human genome is 30x smaller than some plant genomes

N= ln (1-P) ln (1 - f )

Tamanho do

fragmento

clonado (pb)

Tamanho do genoma (pb)

2 X106

Bacteria

2 X107

Fungo

3 X109

mamíferos

5 X103

10 X103

20 X103

40 X103

400

200

100

50

4.000

2.000

1.000

500

600.000

300.000

150.000

75.000

Número de clones teoricamente necessários para representar o genoma

5’...ATCGGTACCAGGCTCCTCAGAGT...3’3’...TAGCCATGGTCCGAGGAGTCTCA...5’

Seqüênciamento do genoma por “shotgun”

Genoma abertoClonagem e seqüênciamento

Alinhamento dos clones

Genoma seqüênciado

Clones“shotgun”

Bioinformática

• Fragmentos de DNA ramdômicos podem ser obtidos usando o processo HydroShear (GeneMachines Inc., USA).

Construção da biblioteca shotgun

6,0

kb

1,0

1,5

2,0

3,0

4,05,0

7,0

11,0

• DNA sonicado para construção biblioteca shotgun

In shotgun approach, DNA is randomly broken

into fragments, and each is sequenced

w/out knowing where in the genome the

fragment comes from

Maria Aparecida Fernandez- DBC - UEM

Maria Aparecida Fernandez- DBC - UEM

1.cromossomoou cosmídeo

2.fragmentação_ enzimática_ nebulização

3.clonagem_ pUC18

ACCTGATGCCGACGGG4.seqüenciamento

5.montagem

6.finalizaçãoContig 1 Contig 2

Cosmídeo iniciador

7.anotação

retro-alimentação

Bancada Bioinformática

SEQUENCIAMENTO DE DNA

Automated DNA Sequencing

If the chain terminators are labeled instead of the primers, all four reactions can occur in the same tube.

Maria Aparecida Fernandez- DBC - UEM

SEQUENCIAMENTO DE DNA

Typical output of an automated sequencer

Maria Aparecida Fernandez- DBC - UEM

Estrutura da Rede de Computadores

Switcher

Servidor e-mail Web FTPFirewallPentium III 750 MHz

Sun 450 Enterprise4 processadores4 GB RAM300 GB HD

PC1

PC2

PC3

PCn

INTERNET

Instituições participantes do projeto

Laboratório debioinformática

Montagem do genoma

• Phred – identificação de bases (base calling) e valores de qualidade

• Cross-match – identificação de seqüências de vetor

• Phrap – montagem das seqüências contíguas (contigs)

• Consed – análise e edição dos contigs• Finalização – fechamento de falhas (Scaffold),

determinação de genes (BLAST/Glimmer) e anotação (Artemis/Sequin)

GENOMAS SEQUENCIADOS

Bacterial genome

Eukaryotic DNA: chromosome

Band pattern of human chromosomes

Genes in genome

The organization of genes on a human chromosome

Human genome sequence

Comparison of genomes

Dogma central da biologia molecular

DNA

Replicação do DNA

Reparo de DNA

Recombinação genética

5´ 3´ RNA

Síntese de RNA

Transcrição

Síntese protéica

Tradução

ProteínaH2N COOH

Tradução

Transcrição

GeneDefinição Molecular

Seqüência de DNA que codifica uma proteína

Não acredito que vocês estão satisfeitos com

esta definição!!!

Alguns genomas são constituídos de RNA e não

de DNA.

Alguns genes produzem RNA (tRNA e rRNA) e

não proteínas.

Algumas regiões não-codantes são importantes

para produção de RNA e proteínas.

GeneFalhas da definição

molecular

“ Open Reading Frame” - ORF

É a seqüência de nucleotídeos que codifica os aminoácidos de uma proteína.

A definição molecular de gene é mais ampla do que apenas a seqüência codante.

Gene

Finding the regions in a DNA sequence that encode a protein:

Computer programs designed to identify ORFs

Toda seqüência de nucleotídeos necessária para a síntese de uma cadeia polipeptídica ou de RNA funcionais.

GeneDefinição molecular

atual

Regulatórias

Sítios de ligação da RNA polimerase

Sítios de ligação dos fatores transcricionais

Íntrons

Sítios de Poliadenilação - poliA

GeneRegiões não-

codantes

Promotor E1 I1 E2 I2 E3 PoliA

Interruptor do geneFatores transcricionais

RNA polimerase

Seqüência codanteATG

Seqüência não-codanteSplicing

Cauda de poliadenina

Gene

Introns can be recognized by conserved sequences at the junctions that are required

for their removal

All parts of the genome are subject to mutation, but not all parts are subject to natural selection

Sequences that do not encode protein are not under selective pressure and thus diverge more rapidly

Comparative genomics is our most powerful tool for identifying the exons of expressed

genes

Random mutations leads to extensive sequence variation between humans and mice at all sites that are NOT under selection.

Because of functional constraints, the exons in genes stand out as islands of conservation.

Distribution of sequence types in the human genome

Average human gene is about 20x larger than genes in E. coli or even in yeast

Gene density is much higher in compact yeast genome relative to human

The partly reflects the compression of gene regulatory sequences into short regions just upstream of the gene.

Human regulatory elements can be spread out over tens of 1000s of basepairs

The C. elegans genome was completed in 1998 and is predicted to contain 19,000 genes; 3x more than the unicellular eukaryote, S. cerevisiae