Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung •...

32
Bioinformatik: The Next Generation Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik

Transcript of Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung •...

Page 1: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Bioinformatik: The Next Generation

Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik

Page 2: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Was ist Bioinformatik?

Informatik → Methoden: •  Algorithmen •  Theoretische Informatik •  Datenbanken •  Softwareentwicklung

Theoretische und Praktische Informatik Statistik, Mathematik

Molekularbiologie, Biochemie, Genetik, Evolutionsbiologie, …

„Die Bioinformatik ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst“

Wikipedia

Biologie → Anwendungen: •  Genomsequenzierung •  Genexpressionsanalyse •  Biologische Netzwerke •  … Prof. Dr. Caroline Friedel, LMU Campustag 2

Page 3: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Der Klassiker: Sequenzsuche

CATTATCTGTTTTTGCTATTAATGTCATACCTGCTATTCAGACAAATCAATTTGCTCTCTTAATAAAGGATGAGCTTCCTGTAGCTTTTTGTAGCTGGGCCAGTTTAGATCTGGAATGTGAGGTAAAATATATAAATGAT

•  BLAST = Basic Local Alignment Search Tool

Prof. Dr. Caroline Friedel, LMU Campustag 3

Page 4: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Der Anfang der Bioinformatik

•  Erste Anwendungen: –  Gen- und Proteindatenbanken, Proteinstrukturen, etc. –  Sequenzanalyse und -vergleiche

•  Der Durchbruch: –  Genomsequenzierung –  Shotgun sequencing –  Assemblierung notwendig –  Menschliches Genom (Celera)

•  > 27 Mio Reads (~550 bp) •  > 20.000 CPU Stunden •  300 Mio $

Prof. Dr. Caroline Friedel, LMU Campustag 4

Page 5: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Was noch?

•  Gen-Vorhersage und Annotation

•  Analyse der Genom-Struktur und Evolution

•  Proteinfunktion: Vorhersage und Analyse

Prof. Dr. Caroline Friedel, LMU Campustag 5

Page 6: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

15./16. Februar 2001: Die ersten Drafts

Prof. Dr. Caroline Friedel, LMU Campustag 6

Page 7: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

15./16. Februar 2001: Die ersten Drafts

Prof. Dr. Caroline Friedel, LMU Campustag 7

Image credit: Corbis

Craig Venter Francis Collins

Page 8: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

The Sequence of the Human Genome J. Craig Venter et al.

•  Abstract •  1 Sources of DNA and Sequencing Methods •  1.1 Library construction and sequencing •  1.2 Trace processing •  1.3 Quality assessment and control •  2 Genome Assembly Strategy and Characterization •  2.1 Assembly data sets •  2.2 Assembly strategies •  2.3 Whole-genome assembly •  2.4 Compartmentalized shotgun assembly •  2.5 Comparison of the WGA and CSA scaffolds •  2.6 Mapping scaffolds to the genome •  2.7 Assembly and validation analysis •  3 Gene Prediction and Annotation •  3.1 Automated gene annotation •  3.2 Otto validation •  3.3 Gene number •  3.4 Features of human gene transcripts •  4 Genome Structure •  4.1 Cytogenetic maps •  4.2 Linkage map •  4.3 Correlation between CpG islands and genes •  4.4 Genome-wide repetitive elements

•  5 Genome Evolution •  5.1 Retrotransposition in the human genome •  5.2 Pseudogenes •  5.3 Gene duplication in the human genome •  5.4 Large-scale duplications •  6 A Genome-Wide Examination of Sequence

Variations •  6.1 SNPs found by aligning the Celera consensus

to the PFP assembly •  6.2 Comparisons to public SNP databases •  6.3 Estimation of nucleotide diversity from

ascertained SNPs •  6.4 Variation in nucleotide diversity across the

human genome •  6.5 SNPs by genomic class •  7 An Overview of the Predicted Protein-Coding

Genes in the Human Genome •  7.1 Molecular functions of predicted human proteins •  7.2 Evolutionary conservation of core processes •  7.3 Differences between the human genome and

other sequenced eukaryotic genomes •  8 Conclusions

8 Prof. Dr. Caroline Friedel, LMU Campustag

Page 9: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Nach dem Genom

•  Ursprüngliche Hoffnung: Genomsequenz verbessert Verständnis von –  Menschlicher Evolution –  Ursachen von Krankheiten –  Wechselspiel zwischen Umwelt und Vererbung

•  Stattdessen eher nur mehr Fragen –  Viel weniger Gene als erwartet: ~20,000 anstatt > 100,000 –  96-99% Ähnlichkeit zwischen Mensch und Schimpanse. Woher

kommt der Unterschied ? –  Nur wenige Krankheiten durch einzelne Mutationen und Gene

verursacht

•  Komplexität durch Interaktion zwischen Genom und Umwelt

Prof. Dr. Caroline Friedel, LMU Campustag 9

Page 10: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Nach dem Genom

Prof. Dr. Caroline Friedel, LMU Campustag 10

Page 11: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Nach dem Genom – Die Ära der Omics

•  Omics = Genomweite Studien •  Genomics = Alles was es im Genom gibt •  Transcriptomics = Alle Transkripte / mRNA •  Proteomics = Alle Proteine •  Interactomics = Alle Interaktionen •  Metabolomics = Alle Metabolite •  Kinomics = Alle Kinasen •  …

Prof. Dr. Caroline Friedel, LMU Campustag 11

Page 12: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Next-Generation-Sequencing: Das Comeback der Sequenzierung

•  Schnell und einfach zu bedienen •  Hoher Durchsatz •  ⇒Sequenzieren wird immer billiger

12 Prof. Dr. Caroline Friedel, LMU Campustag

Page 13: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Next-Generation-Sequencing: Das Comeback der Sequenzierung

13 Prof. Dr. Caroline Friedel, LMU Campustag

Page 14: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Genome über Genome

Prof. Dr. Caroline Friedel, LMU Campustag 14

Page 15: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Genome über Genome

Prof. Dr. Caroline Friedel, LMU Campustag 15

2504

Page 16: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

1000$ Genom

Prof. Dr. Caroline Friedel, LMU Campustag 16

Page 17: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

•  Nicht mehr nur Genom-Sequenzierung sondern auch –  RNA-Sequenzierung (RNA-seq) –  ChIP-seq –  DNase-seq –  Ribsome profiling (Ribo-seq) –  ATAC-seq –  NET-seq – …

Next-Generation-Sequencing: Das Comeback der Sequenzierung

17 Prof. Dr. Caroline Friedel, LMU Campustag

Page 18: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Wozu braucht man die Bioinformatik?

Eingabe: Kurze Sequenzier-Reads

Alignment gegen das Genom

Welche mRNAs gibt es?

Wie häufig sind sie?

Prof. Dr. Caroline Friedel, LMU Campustag 18

Beispiel: RNA Sequenzierung

Page 19: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

ENCODE

•  The ENCODE Project: ENCyclopedia Of DNA Elements

Prof. Dr. Caroline Friedel, LMU Campustag 19

Page 20: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Big Data

Prof. Dr. Caroline Friedel, LMU Campustag 20

Datenmenge pro Run Dauer

•  1,600 Arten von Experimenten •  147 Gewebearten •  >15 Terabyte Rohdaten •  >300 Computerjahre für die Analyse

Anzahl Reads 20 Milliarden

Page 21: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Ohne Bioinformatik geht in der Molekularbiologie und Medizinischer Forschung nichts mehr

Next-Generation-Sequencing: Das Comeback der Bioinformatik

Prof. Dr. Caroline Friedel, LMU Campustag 21

Page 22: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Wofür braucht man Bioinformatik ?

•  Datenverwaltung –  Speichern –  Indizieren –  Integration –  Big Data

•  Datenverarbeitung –  z.B. Assemblierung –  Effiziente Algorithmen –  Künstliche Intelligenz

•  Analyse und Interpretation

Datenbanken

Software / Webserver

Biologische Erkenntnisse

Prof. Dr. Caroline Friedel, LMU Campustag 22

Page 23: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Arbeitsfeld

Datenbanken

Biologie Informatik

Anwendung: Verwendung existierender Methoden

Entwicklung neuer Methoden

Software-entwicklung

Experimentelle Arbeit mit bioinformatischer Unterstützung

Prof. Dr. Caroline Friedel, LMU Campustag 23

Page 24: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Jobaussichten

•  Wissenschaft

•  Biotechnologie-Unternehmen: –  Illumina, Applied Biosystems, Affymetrix, Eurofins, etc.

•  Pharmazeutische Forschung: –  Boehringer-Ingelheim, Bayer Schering, Roche, etc.

•  Softwareentwicklung –  Genomatix, Biomax, etc.

•  Data scientist

•  Unternehmensberatung Prof. Dr. Caroline Friedel, LMU Campustag 24

Page 25: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Studienplan Bioinformatik Bachelor

Informatik Mathematik,Statistik

Bioinformatik Biologie, (Bio)chemie

1 Program-mierung

Analysis Einführung in die Bioinformatik I

Chemie Biologie

2 Algorithmik Bioinformatik Tutorium

Logik & Diskrete Strukturen

Einführung in die Bioinformatik II Problem-Based Learning

Biologie Biochemie Grundlagen

3 Datenbanken Lineare Algebra

Problem-Based Learning Programmierpraktikum

Biochemie Grundlagen

4 Formale Sprachen & Komplexität

Stochastik & Statistik

Algorithm. Bioinformatik I Fortgeschr. Biochemie

5 Algorithm. Bioinformatik II Praktikum

Praktikum

6 Wahlpflichtveranstaltungen

Weiterf. Bioinfo., Prakt. Arbeit, Bachelorarbeit 25 Prof. Dr. Caroline Friedel, LMU Campustag

Page 26: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Zulassung

•  Eignungsfeststellungsverfahren (EFV) •  Bewerbung bis zum 15. Juli

–  Ausgefüllter Bewerbungsbogen (online) –  kurzer tabellarischer Lebenslauf –  Kopie des Abiturzeugnisses –  Kurzaufsatz, warum man Bioinformatik studieren will

•  Auswertung –  Abiturnote –  Besonders Fächer: Mathematik, Biologie, Informatik, Chemie,

Physik, Deutsch, Englisch ⇒ Annahme oder Auswahlgespräch

•  Auswahlgespräch –  Bewertung: Abiturnote und Ergebnis des Auswahlgesprächs

Prof. Dr. Caroline Friedel, LMU Campustag 26

Page 27: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Annahmequoten

Prof. Dr. Caroline Friedel, LMU Campustag 27

0 20 40 60 80

100 120 140 160 180 Beworben

Angenommen

Page 28: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Professoren

N.N.

Lehrstühle Rost

Mewes

Zimmer

Friedel Frishman Heun

Antes Metzler Theis

Gagneur

Professoren für

Bioinformatik

Assoziierte Gruppen

Prof. Dr. Caroline Friedel, LMU Campustag 28

Baumbach

Page 29: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Standorte

Prof. Dr. Caroline Friedel, LMU Campustag 29

Page 30: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Standorte

Prof. Dr. Caroline Friedel, LMU Campustag 30

Page 31: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Studierende

Prof. Dr. Caroline Friedel, LMU Campustag 31

0

50

100

150

200

250

300 Master Bachelor Diplom

Page 32: Bioinformatik: The Next Generation...Next-Generation-Sequencing: Das Comeback der Sequenzierung • Schnell und einfach zu bedienen • Hoher Durchsatz • ⇒Sequenzieren wird immer

Weitere Informationen

•  Web-Seite zum gemeinsamen Studiengang: –  www.bioinformatik-muenchen.de/

•  Web-Seite zum EFV mit Formularen: –  www.bio.ifi.lmu.de/studium/studiengaenge_bioinformatik/

•  Fachschaft Bioinformatik: –  www.bioinformatik-muenchen.com/

•  Informationsstand: Adalberthalle

Noch Fragen ?

Prof. Dr. Caroline Friedel, LMU Campustag 32