Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov...

46
Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Transcript of Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov...

Page 1: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Outline

□ Gene Finding:

□ Struttura ed identificazione di geni in procarioti ed eucarioti;

□ Hidden Markov Models;

□Genscan;

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 2: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Premessa

□ Dimensione del genoma umano: 3 x 109 coppie di nucleotidi

□ Numero di geni ≈ 25.000 □ Percentuale di DNA codificante ≈ 1.6%

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 3: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Cosa e’?

Data una sequenza di DNA non caratterizzata, trovare:

□ Quali regioni che codificano per proteine

□ Quale dei due filamenti della doppia elica di DNA è codificante

□ Quale schema di lettura è usata in quest’ultimo

□ Dove comincia e dove finisce il gene

□ Dove sono i confini tra esoni/introni negli eucarioti

□ Etc

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 4: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Struttura del gene

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Schema di lettura: ogni segmento di DNA ha 6 schemi di lettura

Reading frame #1

ATGGCTTACGCTTGC

Reading frame #2

TGGCTTACGCTTGA.

Reading frame #3

GGCTTACGCTTGA..

ATGGCTTACGCTTGAFilamento sense:

Reading frame #4

TCAAGCGTAAGCCAT

Reading frame #5

CAAGCGTAAGCCAT.

Reading frame #6

AAGCGTAAGCCAT..

TCAAGCGTAAGCCATFilamento antisense:

Page 5: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Organizzazione del gene

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Un gene continuo

Un gene discontinuo (esoni intervallati da introni)

Gene dentro un introne di un altro gene

Geni sovrapposti

Page 6: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Struttura del gene procariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

ATGCTACGGATG……..TGA5’ 3’Regione

RegolatricePromotore

GENE

Segnale di Start

Segnale di Stop

Page 7: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Struttura del gene Eucariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 8: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: ORF (Open Reading Frame)

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Un ORF o schema di lettura aperto è una zona compresa tra 2 segnali, uno di start e uno di stop presenti nello stesso frame. All’interno dell’ORF non sono presenti ulteriori segnali di Stop.

Un ORF è una potenziale regione codificante per proteine.

start stop

ORF segnali di stop: TAA, TGA e TAG

ATG

Page 9: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Primo passo

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

□ La distanza media tra due segnali di stop in una sequenza casuale di DNA è 64/3 ≈ 21

□ Una proteina è lunga mediamente 300 aminoacidi

□ Se individuiamo due segnali di stop sufficientemente distanti tra loro potremmo essere in presenza di un potenziale gene

Page 10: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: ORF in un gene procariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Frame 1Frame 2Frame 3

ORF ?

Page 11: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Algoritmo

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Per ogni frame bisogna:

1. Calcolare la distanza tra ogni coppia di segnali di stop consecutivi.

2. Se sono sufficientemente distanti, si va a ricercare il primo codone di start utile.

3. Trovato un ORF di lunghezza sufficiente, è da considerare un potenziale gene.

Page 12: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: ORF in un gene eucariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Quali delle finestre che vediamo sono esoni?

Quali invece sono assenze casuali di segnali di stop?

Frame 1Frame 2Frame 3

Page 13: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Procarioti vs Eucarioti

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Procarioti:

Piccoli genomi 0.5 – 10·106 bp

Alta densità basi codificanti (>90%)

No introni

Identificazione del gene relativamente semplice. Probabilità di successo ~ 99%

Eucarioti:

Grandi genomi 107 – 1010 bp

Bassa densità basi codificanti (<50%)

Struttura introni/esoni

Identificazione del gene complessa, livello di accuratezza ~ 50%

Page 14: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Metodo statistico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

□ Un metodo migliore per determinare regioni codificanti tiene conto delle frequenze dei codoni

□ Un uso diverso dei codoni nella regione codificante è una caratteristica universale dei genomi

□ Uso diseguale degli aminoacidi nelle proteine esistenti□ Uso diseguale di codoni sinonimi

□ Possiamo usare queste caratteristiche per differenziare regioni codificanti e non codificanti del genoma

Page 15: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali di codifica

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Distribuzione delle frequenze di coppie di aminoacidi nelle sequenze delle proteine (shewanella).

La frequenza media è del 5%.

Ogni amminoacido ha delle preferenze nel precedere o seguire un altro amminoacido.

Alcuni aminoacidi sono molto più frequenti di altri.

Page 16: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali di codifica

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

shewanella bovino

La frequenza delle coppie di aminoacidi dipende dal genoma!!!

Page 17: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali di codifica

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Le preferenze degli aminoacidi si rispecchiano sulle coppie di codoni (o esanucleotidi) presenti nelle zone codificanti.

Ad esempio Nel genoma umano la frequenza della sequenza “AAA AAA” è ~1% nelle regioni codificanti contro ~5% delle regioni non codificanti.

Page 18: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali di codifica

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Molti esanucleotidi mostrano grosse differenze di frequenza tra zone codificanti e non codificanti.

Fondamenti per rilevare regioni codificanti

La frequenza delle coppie di codoni sono segnali chiave usati per identificare regioni codificanti; Tutti i programmi di gene prediction se ne avvalgono.

Regioni di DNA dove sono presenti moltissimi esanucleotidi che Regioni di DNA dove sono presenti moltissimi esanucleotidi che sono risultati frequenti in regioni codificanti già appurate, sono sono risultati frequenti in regioni codificanti già appurate, sono

probabilmente regioni codificanti; al contrario sono regioni probabilmente regioni codificanti; al contrario sono regioni non codificanti.non codificanti.

Page 19: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Modello preferenziale

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Per ogni esanucleotide X (es: AAA AAA), calcolare la sua frequenza in regioni codificanti (FC(X)) e non codificanti (FN(X))

Calcolare il valore della preferenza di X:P(X) = log(FC(X)/FN(X))

ProprietàP(X) vale 0 se X ha la stessa frequenza sia nelle regioni

codificanti, che in quelle non codificanti.

P(X) ha un valore positivo, se X compare più spesso in regioni codificanti rispetto a quelle non codificanti; più grande è la differenza più alto sarà il valore di P(X).

P(X) ha un valore negativo, se X ha frequenza maggiore in regioni non codificanti; più grande è la differenza più piccolo sarà il valore di P(X).

Page 20: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Modello preferenziale

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

EsempiAAA ATT e AAA GAC hanno le seguenti frequenzeAAA ATT e AAA GAC hanno le seguenti frequenze

• FC(AAA ATT) = 1.4%, FN(AAA ATT) = 5.2%• FC(AAA GAC) = 1.9%, FN(AAA GAC) = 4.8%

AvremoAvremo

P(AAA ATT) = log (1.4/5.2) = -0.57 P(AAA GAC) = log (1.9/4.8) = -0.40

Una regione formata solo da esanucleotidi di questo Una regione formata solo da esanucleotidi di questo tipo, è probabilmente una regione non codificante.tipo, è probabilmente una regione non codificante.

Page 21: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Modello preferenziale

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Perché usiamo un modello basato su coppie di codoni ? Modelli basati su singolo codone spesso non danno abbastanza

informazione per capire se siamo davvero in una regione codificante o meno.

Modelli basati su triple di codoni hanno bisogno di moltissimi dati per rendere attendibile la statistica.

4*4*4 = 64 codoni4*4*4*4*4*4 = 4,096 coppie di codoni

4*4*4*4*4*4*4*4*4= 262,144 triple di codoni

Nel caso di triple di codoni avremo quindi necessità di avere almeno un numero elevatissimo di sequenze caratterizzate per popolare la matrice delle frequenze

Page 22: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Predizione di una regione codificante

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Un semplice modello basato sulle frequenze dei codoni:

Sia fabc la frequenza con la quale il codone abc occorre in una regione codificante.

Data la coding sequence

a1,b1,c1,a2,b2,c2,……,anbncn,an+1bn+1cn+1

la probabilità di osservare la sequenza di n codoni nei vari frame di lettura:

p1 = fa1,b1,c1 x fa2,b2,c2 x … x fan,bn,cn

p2 = fb1,c1,a2 x fb2,c2,a3 x … x fbn,cn,an+1

p3 = fc1,a2,b2 x fc2,a3,b3 x … x fcn,an+1,bn+1

Page 23: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Predizione di una regione codificante

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Denotiamo con Pi la probabilità dell’i-esimo frame di lettura come:

321 ppp

pP ii

E’ possibile utilizzare in un algoritmo per la ricerca di regioni codificanti nel modo seguente:

Consideriamo finestre di size n e calcoliamo Pi per ogni punto di start;

Page 24: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Predizione di una regione codificante

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

plot di log(p/(1-p)) per i tre frame di lettura:

gene

In questo frame di lettura il gene èchiaramente riconosciuto

Page 25: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Soglia minima

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Decidiamo un valore di soglia per marcare una regione come codificante. Tale valore deve essere scelto testandolo su un training set. Deve essere tale da trovare il maggior numero di regioni codificanti ed escludere il maggior numero di regioni non codificanti.

Regione codificante? Dove sono i confini ?

Page 26: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Boundary Esoni/Introni

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Usando come training set, sequenze di DNA la cui suddivisione esoni/introni sia conosciuta, alliniamo tali sequenze rispetto ai due siti di splicing.

Esone Introne Esone 

--gaggcatcag|gtttgtagac-----------tgtgtttcag|tgcacccact--

--ccgccgctga|gtgagccgtg-----------tctattctag|gacgcgcggg--

--tgtgaattag|gtaagaggtt-----------atatctacag|atggagatca--

--ccatgaggag|gtgagtgcca-----------ttatttgcag|gtatgagacg--

Splice site Splice site

Esone Introne Esone 

--gaggcatcag|GTttgtagac-----------tgtgtttcAG|tgcacccact--

--ccgccgctga|GTgagccgtg-----------tctattctAG|gacgcgcggg--

--tgtgaattag|GTaagaggtt-----------atatctacAG|atggagatca--

--ccatgaggag|GTgagtgcca-----------ttatttgcAG|gtatgagacg--

Splice site Splice site

Page 27: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali associati con gli estremi di una regione codificante

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Entrambi i siti di splicing hanno particolari profili di distribuzione nell’uso dei nucleotidi

Distribuzione dei nucleotidi attorno al Sito Accettore (Genoma Umano).

Y75 Y72 Y78 Y79 Y77 Y80 Y66 Y78 Y85 Y84 N C68 A G G63

-14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1

A 11,1 12,7 3,2 4,812,7

8,716,7

16,7

12,7

9,526,2

6,3 100 0,021,4

C 36,5 30,919,1

23,0

34,9

39,7

34,9

40,5

40,5

36,5

33,3

68,2

0,0 0,0 7,9

G 9,5 10,315,1

12,7

8,7 9,516,7

4,8 2,4 6,313,5

0,0 0,0 10062,7

T 38,9 41,358,7

55,6

42,1

40,5

30,9

37,3

44,4

47,6

27,0

25,4

0,00,00

7,9

Page 28: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Segnali associati con gli estremi di una regione codificante

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Entrambi i siti di splicing hanno particolari profili di distribuzione nell’uso dei nucleotidi

Distribuzione dei nucleotidi attorno al Sito Donatore (Genoma Umano).

-3 -2 -1 1 2 3 4 5 6

A 34,0 60,4 9,2 0,0 0,0 52,6 71,3 7,1 16,0

C 36,3 12,9 3,3 0,0 0,0 2,8 7,6 5,5 16,5

G 18,3 12,5 80,3 100 0,0 41,9 11,8 81,4 20,9

T 11,4 14,2 7,3 0,0 100 2,5 9,3 5,9 46,2

Page 29: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Creare le matrici pesate per i siti donatori e accettori.

Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti

-3 -2 -1 1 2 3 4 5 6

A 34,0 60,4 9,2 0,0 0,0 52,6 71,3 7,1 16,0

C 36,3 12,9 3,3 0,0 0,0 2,8 7,6 5,5 16,5

G 18,3 12,5 80,3 100 0,0 41,9 11,8 81,4 20,9

T 11,4 14,2 7,3 0,0 100 2,5 9,3 5,9 46,2

…AAGGTAAGTGTCTCA…

AAGGTGTAAGT:(34.0+60.4+80.3+100+100+52.6+71.3+81.4+46.2)/100= 6.262

Gene Finding: Procedura per identificare i segnali

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 30: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Creare le matrici pesate per i siti donatori e accettori.

Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti

-3 -2 -1 1 2 3 4 5 6

A 34,0 60,4 9,2 0,0 0,0 52,6 71,3 7,1 16,0

C 36,3 12,9 3,3 0,0 0,0 2,8 7,6 5,5 16,5

G 18,3 12,5 80,3 100 0,0 41,9 11,8 81,4 20,9

T 11,4 14,2 7,3 0,0 100 2,5 9,3 5,9 46,2

…AAGGTAAGTGTCTCA…

Gene Finding: Procedura per identificare i segnali

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

AGTGTGTCTCA:(34.0+12.5+ 7.3+100+100+ 2.8+ 9.3+ 5.5+16.0)/100= 2.874

Page 31: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

In corrispondenza di un sito di splicing, la corrispondente funzione di score avrà un picco significativo.

Gene Finding: Identificare i segnali

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 32: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Vengono scelti tra gli esoni predetti un insieme che non causa overlapping

Frame 1Frame 2Frame 3

Gene Finding: Rappresentazione grafica della regione codificante di un gene eucariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 33: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Segnali che identificano la trascrizione

TATA-Box (25-30 basi prima dello start)presente nel 70% dei casi

sito di PolyA(AATAAA oppure ATTAAA)

Segnali che identificano i promotori

Gene Finding: Ulteriori segnali

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 34: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Distribuzione lunghezza esoni

150 bp

Distribuzione lunghezza introni

60 bp

50% G+C

Una regione ricca di G+C è indice della presenza di un gene (vale solo per i genomi degli eucarioti superiori)

Gene Finding: Ulteriori dati statistici

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 35: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

La probabilità di un evento dipende dagli eventi precedenti

Gene Finding: Modelli di Markov

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 36: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

P(Sole, Pioggia, Pioggia, Pioggia, Neve, Neve) =P(Sole) P(Pioggia | Sole) P(Pioggia | Pioggia)

P(Pioggia | Pioggia) P(Neve | Pioggia) P(Neve | Neve)

Gene Finding: Probabilità di una sequenza di eventi

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 37: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Quale è la sequenza meteorologica più probabile che ha generato questa sequenza di azioni?

Assunzione (First order Markov chains):La probabilità di un evento dipende solo dal precedente.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Gene Finding: Modelli di Markov Nascosti (HMM)

Page 38: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

I II

ATTATTATAAATTAAT

…TTAA

TATAATTAATATATTT

…ATAT

Probabilità di transizione dalla regione I alla II con la sequenza TT

Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO

Creiamo un modello per distinguere due regioni (per semplicità supponiamo siano presenti solo due nucleotidi)

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 39: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Calcoliamo la probabilità di tutte le possibili sequenze di nucleotidi appartenenti alle due regioni.

TITIAITI=1.1x10-1 TITIIAITI=1.8x10-3 TIITIAITI=6.0x10-3 TIITIIAITI=9.0x10-3

TITIAITII=8.8x10-3 TITIIAITII=1.4x10-4 TIITIAITII=4.8x10-4 TIITIIAITII=7.2x10-4

TITIAIITI=5.5x10-4 TITIIAIITI=1.0x10-3 TIITIAIITI=3.0x10-5 TIITIIAIITI=5.2x10-3

TITIAIITII=1.4x10-4 TITIIAIITII=8.4x10-3 TIITIAIITII=2.4x10-4 TIITIIAIITII=4.2x10-2

A quale regione appartiene la sequenza TTAT ?

Risulta più probabile che la sequenza appartiene integralmente alla regione I

Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 40: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Il tool di gene prediction più utilizzato

Presenta il miglior compromesso tra Sensibilità e Specificità (sono due misure di accuratezza)

Largamente utilizzato dal Consorzio Internazionale durante il Progetto Genoma Umano

Utilizza come algoritmo di base l’ Hidden Markov Model (generalizzato)

Gene Finding: Genscan

http://genes.mit.edu/GENSCAN.html

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 41: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Genscan è basato su HMM

http://genes.mit.edu/GENSCAN.html

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

E0 E1 E2

NP polyA

5’ UTR

I0 I1 I2

Esngl

Einit Eterm

Filamento sense

Filamento antisense

3’ UTR

………………….. …………………..

Le coppie di introni/esoni rappresentano i differenti modi in cui un introne può interrompere una coding sequence (dopo la 1° base, dopo la 2° o dopo la 3°)

Esone iniziale e finale

Page 42: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Scelta una caratteristica (es: identificazione esoni)Possiamo definire i seguenti valori1. TP (true positive) = Numero di esoni predetti, che sono risultati veri esoni.2. FP (false positive) = Numero di esoni predetti che sono in realtà dei falsi.3. TN (true negative) = Numero di esoni falsi, identificati come tali.4. FN (false negative)= Numero di esoni reali, identificati come falsi.

Avremo le seguenti misure

Sensibilità TPTP FN

numero di esoni correttamente identificatinumero totale degli esoni reali

Specificità TPTP FP

numero di esoni correttamente identificatinumero di esoni predetti

Gene Finding: Misura dell’accuratezza nella predizione

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 43: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

CC TPTN FPFN(TP FP) (TP FN ) (TN FP) (TN FN )

Coefficiente di correlazione

(Parametri calcolati a livello nucleotidico)

Gene Finding: Confronto tra tool di gene predictioon

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 44: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Interfaccia Genscan

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 45: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Proteina predetta sulla base della CDS calcolata

Numerazione del Gene e dei suoi elementi

Tipo di elemento riconosciuto

Filamento sul quale viene fatta

la predizione

Inizio, Fine e lunghezza dell’

elemento calcolato

Frame del primo codone dell’elemento

Score del sito Accettore e

Donatore di splicing

Score della coding sequence

calcolata

Probabilità che

l’elemento sia un esone

Score complessivo dell’esone

Gene Finding: Output di Genscan

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Page 46: Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.

Gene Finding: Esempio di uso di GenScan

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007

Eseguire con Genscan la scansione del frammento di genoma di Homo sapiens

>gi|2253431|gb|AF007546.1|AF007546

Utilizzare la proteina predetta da Genscan per fare un BLAST proteico (BLASTP) per vedere a cosa corrisponde la predizione fatta da Genscan.