Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
-
Upload
ruediger-wagner -
Category
Documents
-
view
217 -
download
0
Transcript of Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Gene Prediction
Marco BlockJonas Heise
Nima KeshvariMichael Schreiber
Einführung
• Wichtiges Gebiet der Bioinformatik• Problematik (exon alignment problem)• Biologische Herangehensweise• Kombinatorischer Ansatz
• exon assembly problem auf Pfadsuche in einem gerichteten Graphen reduzieren (spliced alignment problem)• Optimierung : spliced alignment problem auf network alignment problem (Kruskal) transformieren
exon alignment problem
exon alignment problem
exon alignment problem
exon alignment problem
exon alignment problem
exon alignment problem
exon alignment problem
exon alignment problem
Grundlagen der Biologie
Die Zelle ist von der Zellhülle oder –membran umgeben.
Im Zellleib oder Soma befindet sich der Zellkern.
Im Zellkern ist das Erbmaterial, die DNS.
Grundlagen der Biologie
Auf der DNS liegen die Gene.
Die Gene codieren für Proteine.
Grundlagen der Biologie
Die Gene sind unterteilt in Exons und Introns.
Grundlagen der Biologie
Die Exons werden bei der Translation (Produktion eines Proteins aus mRNA) übersetzt, die Introns werden durchSplicing entfernt.
Biologische Herangehensweise
RT-PCR
Naiver Ansatz
- Suche alle möglichen Exon-Blöcke- Finde durch ausprobieren aller möglichen Kombinationen die bes
Kombinatorischer Ansatz
1. Rekursives Verfahren2. Gerichteter Lösungsgraph wird erstellt
Kombinatorischer Ansatz 1a/10
Begrifflichkeiten :
G String mit g1...gn (genomic sequence)
T String mit t1...tm (target sequence)
= {B1,B2,...,Bb}B Substring von G mit gi...gj
s(G,T) optimal alignment zwischen G und T
= (B1,B2,...,Bb) mit B1<B2<...<Bb
* String mit B1 * B2 * ... * Bb)
(i) = {k : last(k) < i}, Blöcke die strikt vor der Position von i enden
Kombinatorischer Ansatz 1b/10
Kombinatorischer Ansatz 2/10
Nun lässt sich das spliced alignment problem mit G,T und B formulieren, als :
Suche nach der Stringkette , die unsere Funktion s(*, T), unter allen möglichen Blockketten aus B, maximiert.
Kombinatorischer Ansatz 3/10
Wir erstellen einen Graphen, dessen Knoten die Blöckeund dessen Kanten die potential transitions zwischen diesensind. Das Kantengewicht ergibt sich aus dem optimal alignment zwischen den konkatenierten Blöcken.
Dieses Problem ist aber nicht mit dem kürzesten-Wege-Problemverwandt, da die Gewichte der Knoten und Kanten in denGraphen noch nicht definiert sind.
Kombinatorischer Ansatz 4/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 5/10
Kombinatorischer Ansatz 6/10
Aufruf :
Kombinatorischer Ansatz 7/10
Laufzeit :
Wir können, das spliced alignment problem zu dem bereits vonKruskal formulierten network alignment problem transformieren.
Dabei versuchen wir den Weg zu finden, der die grösste Ähnlichkeitmit einer gegebenen target-Sequence besitzt.
Laufzeit :
O(mnc * mb²)
O(mnc * mb)
Es werden nun weniger Kanten benötigt.
Kombinatorischer Ansatz 7/10
Graphskizze :
Kombinatorischer Ansatz 9/10
Kombinatorischer Ansatz 8/10
Kombinatorischer Ansatz 8/10
Vergleichsfunktion
• Zwei Aminosäuren As1 und As2 werden nach chemischer Ähnlichkeit verglichen
• Eine Matrix liefert die Score für jedes As-paar
• Bewertungsmatrix kann angepasst werden, keine Optimale Lösung bekannt
Beispielmatrix•Scoringmatrix, nach Myers/Miller •Verwendet im Programm „ ALIEN“ ( berechnet multiple sequence Alignment )
BeispielmatrixE : Glutamat, geladene As
F: Phenylalanin, aromatische unpolare As
-> negative Score (Penalty)
BeispielmatrixK : Lysin, basische As
F: Arginin, ebenfalls basisch
-> positive Score
Kombinatorischer Ansatz 8/10
Option 2
Biologisches Phänomen:
In der DNA kann es zu INsertion und DELetion von Basen kommen, es kann also ein besserer Match gefunden wenn statt zu Vergleichen diese Basen übersprungen werden. Dabei wird eine Penalty vergeben ( negatives Vorzeichen von indel !!!)
Beispiel zu InDel
LIEBELEBEN mögliches Annealing: 1Match
LIEBE_L_EBEN besseres Annealing: 4 Matches, 2 InDel‘s
Kombinatorischer Ansatz 8/10
Kombinatorischer Ansatz 8/10
Kombinatorischer Ansatz 8/10
Kombinatorischer Ansatz 8/10
Kombinatorischer Ansatz 8/10
Vergleich beider VerfahrenRT-PCR
Spliced Alignment
Vorteile : Nachteile :
Vorteile : Nachteile :
- nachweisbar (genauer)
- kurze Sequenzen probl.- ...
- schnelleres Verfahren- je mehr Daten zur Verfügung, desto optimaler
- grosser Aufwand
Weitere Problemlösungsansätze
• Statistische Annäherung• Hidden Markov Modelle• Reverse Gene Finding
Kombinatorischer Ansatz ZusatzBeispiel :
genomic sequence : It was brilliant thrilling morning and the slimy hellish lithe doves gyrated and gambled nimbly in the waves.
famous line : ´t was brillig, and the slithy toves did gyre and gimble in the wabe. (Lewis Carroll)
Kombinatorischer Ansatz 7/10
Ablauf des Algorithmus :
Option 1
Rekursive Berechnung: S(i, j, k) ist Summe aus :-Score des vorherigen Schrittes-Ergebnis der Vergleichsfunktion As1, As2
Option 3
Am Anfang eines neuen Blocks wie Option 1, aber Bezug auf vorherigen Block.