Information Technology e DNA, dal 1953 a oggi" by Patricia Rodriguez Tomé
-
Upload
crs4-research-center-in-sardinia -
Category
Technology
-
view
1.884 -
download
3
Transcript of Information Technology e DNA, dal 1953 a oggi" by Patricia Rodriguez Tomé
Dr.ssa Patricia Rodriguez-Tomé
Information Technology e DNA
dal 1953 ad oggi
1850 1900 1950 2000 2010200519751960 1990
1953
2
original papers
NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature 397© 2003 Nature Publishing Group
25 Aprile 1953Nature p:737-741
original papers
398 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group
original papers
400 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group1953 scoperta
della struttura del DNA
1850 1900 1950 2000 2010200519751960 1990
Facciamo un passo indietro...
3
1953 scoperta della struttura del
DNA
1850 1900 1950 2000 2010200519751960 1990
Eredità biologica
4
1850 1950 2000 2010200519751960 19901900 5
Come si trasmettono i caratteri ereditarida una generazione a un’altra?
1850 1950 2000 2010200519751960 19901900
•Frate agostiniano, laureato in matematica e scienze
•Abate del monastero di Brno (ora Rep. Ceca)
•Appassionato di botanica
1865 Leggi di Mendel
Mendel
6
Gregor Mendel (1822 - 1884)Leggi dell'Ereditarietà di Mendel (1865)“L’origine delle specie” di Darwin (1859)
1953 scoperta della struttura del
DNA
1850 1950 2000 2010200519751960 19901900
Mendel
7
Il lavoro di Mendel è stato inizialmente ignoratoSolo dopo 35 anni è stato riscoperto e apprezzato
1900 riscoperta Leggi
di Mendel
1865 Leggi di Mendel
1850 1950 2000 2010200519751960 19901900 8
Dove si trovano i geni?
1900 riscoperta Leggi
di Mendel
1850 1900 1950 2000 2010200519751960 1990
Cromosomi
9
1927 I geni sono localizzati sui cromosomi
Cellula vegetale in telofase
Il moscerino della frutta:Drosophila melanogaster
1850 1900 1950 2000 2010200519751960 1990
Morgan e collaboratori
10
1927 I geni sono localizzati sui cromosomi
Alfred H. Sturtevant (1891 - 1970) studente del laboratorio di Morgan
Thomas Hunt Morgan (1866 - 1945) genetista e biologo - 1933 Premio Nobel Medicina
Hermann Joseph Muller (1890 - 1967) collaboratore di
Morgan medico e genetista 1946 Premio Nobel Medicina
Columbia University
1850 1950 2000 2010200519751960 19901900 11
Di cosa sono fatti i geni?
1927 I geni sono localizzati sui cromosomi
1850 1900 1950 2000 2010200519751960 1990
DNA
12
La molecola di DNA contiene l’informazione genetica
1952 L’informazione genetica è contenuta nel DNA
Alfred Hershey (1908 - 1997) (1969: nobel per la medicina)Martha Chase (1927 - 2003)
Virus sulla superficie di Escherichia coli
Cold Spring Harbor, Washington
1850 1950 2000 2010200519751960 19901900 13
Come può la molecola del DNA contenere tanta informazione?
1952 L’informazione genetica è contenuta nel DNA
1850 1900 1950 2000 2010200519751960 1990
doppia elica (Cambridge)
14
1953: Watson & Crick
James Watson (1928 -) biologo molecolare e geneticoFrancis Crick (1916 - 2004) fisico che diventò biologo molecolare, biofisico e neuroscienziato
Scoperta della struttura a doppia elica del DNA
1953 scoperta della struttura del
DNA
1865 Leggi di
Mendel
Watson e Crick interpretarono le informazioni che già esistevano, prodotte da esperimenti e studi di altri ricercatori, ma ebbero l’intuizione giusta prima di tutti gli altri.
1850 1900 1950 2000 2010200519751960 1990
The Eagle
15
Il pub del “DNA” a Cambridge
1850 1900 1950 2000 2010200519751960 1990
1953
16
original papers
400 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group
original papers
398 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group
original papers
NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature 397© 2003 Nature Publishing Group
Franklin & Gosslin
Wilkins
Watson & Crick
25 Aprile 1953Nature p:737-741
1953 scoperta della struttura del
DNA
1850 1900 1950 2000 2010200519751960 1990
Premio Nobel
17
1962Premio Nobel in Fisiologia e Medicina
1953 struttura del
DNA
1962 Premio Nobel per Watson e Crick
1850 1900 1950 2000 2010200519751960 1990
DNA
18
il DNA è un polimero composto da milioni di piccole unità chiamate NUCLEOTIDI, costituite da tre componenti fondamentali
Gruppo fosfato
zucchero pentoso
Basa azotata
DeoxyriboNucleic Acid = acido desossiribonucleico
1953 scoperta della struttura del
DNA
1850 1900 1950 2000 2010200519751960 1990
ATCG
19
Adenine
Cytosine
Thymine
Guanine
Le basi azotate sono quattro: Adenina, Timina, Citosina, Guanina
1953 scoperta della struttura del
DNA
1850 1900 1950 2000 2010200519751960 1990
ATCG
20
Adenine
1850 1900 1950 2000 2010200519751960 1990
ATCG
21
Thymine
1850 1900 1950 2000 2010200519751960 1990
ATCG
22
Cytosine
1850 1900 1950 2000 2010200519751960 1990
ATCG
23
Guanine
1850 1900 1950 2000 2010200519751960 1990 24
DNA
1953 scoperta della struttura del
DNA
http://www.youtube.com/watch?v=qYsW0jIFH5A
1850 1900 1950 2000 2010200519751960 1990 25
Leggere la sequenza dei nucleotidi per conoscere le
informazioni genetiche codificate
1953 scoperta della struttura del
DNA
1850 1900 1950 2000 2010200519751960 1990
sequenziamento
1975: sviluppo del metodo della terminazione della catena per il sequenziamento del DNA.
1977: prima sequenza di DNA di un genoma completo, del Fago Φ-X174
26
1955: sequenza di una proteina - l’insulina
Frederick Sanger (1918 - ) è un biochimico britannico
1980: premio Nobel per la chimica
1958 : premio Nobel per la chimica
1975 Metodo di Sanger per il
sequenziamento
1850 1900 1950 2000 2010200519751960 1990
metodo di Sanger
27
1975 Metodo di Sanger per il
sequenziamento
1850 1900 1950 2000 2010200519751960 1990 28
1975 Metodo di Sanger per il
sequenziamento
1850 1900 1950 2000 2010200519751960 1990 29
1975 Metodo di Sanger per il
sequenziamento
http://www.snv.jussieu.fr/vie/dossiers/sequencage/lectureATGC1.swf
1850 1900 1950 2000 2010200519751960 1990
SQ Sequence 1859 BP; 609 A; 314 C; 355 G; 581 T; 0 other; aaacaaacca aatatggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt 60 cacaattact tccacaaatg cagttgaagc ttctactctt cttgacatag gtaacctgag 120 tcggagcagt tttcctcgtg gcttcatctt tggtgctgga tcttcagcat accaatttga 180 aggtgcagta aacgaaggcg gtagaggacc aagtatttgg gataccttca cccataaata 240 tccagaaaaa ataagggatg gaagcaatgc agacatcacg gttgaccaat atcaccgcta 300 caaggaagat gttgggatta tgaaggatca aaatatggat tcgtatagat tctcaatctc 360 ttggccaaga atactcccaa agggaaagtt gagcggaggc ataaatcacg aaggaatcaa 420 atattacaac aaccttatca acgaactatt ggctaacggt atacaaccat ttgtaactct 480 ttttcattgg gatcttcccc aagtcttaga agatgagtat ggtggtttct taaactccgg 540 tgtaataaat gattttcgag actatacgga tctttgcttc aaggaatttg gagatagagt 600 gaggtattgg agtactctaa atgagccatg ggtgtttagc aattctggat atgcactagg 660 aacaaatgca ccaggtcgat gttcggcctc caacgtggcc aagcctggtg attctggaac //
sequenza di DNA
30
1975 Metodo di Sanger per il
sequenziamento
1850 1900 1950 2000 2010200519751960 1990 31
1975 Metodo di Sanger per il
sequenziamento
1850 1900 1950 2000 2010200519751960 1990
software
32
1850 1900 1950 2000 2010200519751960 1990 33
software
1850 1900 1950 2000 2010200519751960 1990 34
software
1850 1950 2000 2010200519751960 19901900
ICT
35
•Linguaggi–BASIC–PASCAL
•Calcolatori–Personal computer (PC)
•MS-DOS, Windows
1850 1950 2000 2010200519751960 19901900
sequenziamento genomico
•1981: DNA mitocondriale umano - 16 569 basi
•1984: Epstein-Barr virus 170 000 basi
•1986: DNA cloroplasto del tabacco - 155 844 basi
1986: prima macchina semi automatica CalTech
1987: primo sequenziatore commerciale diApplied Biosystems ABI370
36
1977 Primo genoma completo sequenziato del Fago
1987 Primo sequenziatore commerciale
1850 1900 1950 2000 2010200519751960 1990
sequenziatori
37
1850 1900 1950 2000 2010200519751960 1990
sequenziatori
38
1850 1900 1950 2000 2010200519751960 1990 39
500 sequenze di ~700 basi al giorno
un genoma umano = 3 109 basi
8572 giorni = 23 anni
350 000 basi al giorno
sequenziatori
1850 1900 1950 2000 2010200519751960 1990
il risultato
40
1850 1900 1950 2000 2010200519751960 1990
SQ Sequence 1859 BP; 609 A; 314 C; 355 G; 581 T; 0 other; aaacaaacca aatatggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt 60 cacaattact tccacaaatg cagttgaagc ttctactctt cttgacatag gtaacctgag 120 tcggagcagt tttcctcgtg gcttcatctt tggtgctgga tcttcagcat accaatttga 180 aggtgcagta aacgaaggcg gtagaggacc aagtatttgg gataccttca cccataaata 240 tccagaaaaa ataagggatg gaagcaatgc agacatcacg gttgaccaat atcaccgcta 300 caaggaagat gttgggatta tgaaggatca aaatatggat tcgtatagat tctcaatctc 360 ttggccaaga atactcccaa agggaaagtt gagcggaggc ataaatcacg aaggaatcaa 420 atattacaac aaccttatca acgaactatt ggctaacggt atacaaccat ttgtaactct 480 ttttcattgg gatcttcccc aagtcttaga agatgagtat ggtggtttct taaactccgg 540 tgtaataaat gattttcgag actatacgga tctttgcttc aaggaatttg gagatagagt 600 gaggtattgg agtactctaa atgagccatg ggtgtttagc aattctggat atgcactagg 660 aacaaatgca ccaggtcgat gttcggcctc caacgtggcc aagcctggtg attctggaac //
sequenza di DNA
41
1850 1900 1950 2000 2010200519751960 1990 42
1987 Primo sequenziatore commerciale
1850 1950 2000 2010200519751960 19901900
ICT
43
•Linguaggi–FORTRAN–C
•Calcolatori–server, multi user
• VMS (MicroVAX2)• UNIX (HP, SGI, DEC...)
–PC/Mac per la grafica
1956: FORTRAN
1972:C1979: C++
1850 1900 1950 2000 2010200519751960 1990 44
software
1850 1900 1950 2000 2010200519751960 1990 45
software
1850 1950 2000 2010200519751960 19901900
Progetto Genoma Umano
46
•1986: prime idee e si discute
•1990: proposte e inizio
•1994: prima mappa genetica
•1998: prima mappa fisica
•2003: Homo sapiens - 3 10⁹ basi
1850 1950 2000 2010200519751960 19901900 47
Progetto Genoma Umano
Considerando che un organismo adulto è composto di circa 100 000 miliardi di cellule, si può dire che l’estensione complessiva in lunghezza di tutte le molecole di DNA presenti in un individuo umano è sufficiente a coprire circa 1.000 volte la distanza Terra-Sole (circa 150 milioni di km).
Nel nucleo di ogni cellula somatica sono presenti 46 cromosomi, se si prende come riferimento il genoma aploide (23 cromosomi) si stima un totale di oltre 3 miliardi di basi.
Se disteso, il DNA contenuto in ognuna delle nostre cellule è lungo circa 2 m.
1850 1950 2000 2010200519751960 19901900 48
costo totale: 2.7 miliardi di dollari
20 centri di sequenziamento in 6 paesi: – USA (60.8%), UK (28.9%), – Giappone (4.9%), Francia (2.8%), – Germania (1.5%), Cina (0.7%).
prima evidenza: ~ 25 000 geni nel genoma umano
Progetto Genoma Umano
1850 1900 1950 2000 2010200519751960 1990 49
Généthon
Progetto Genoma Umano
1850 1900 1950 2000 2010200519751960 1990
MAPPE
50
http://www.youtube.com/watch?v=UhQgSAIMs_s&feature=player_embedded
1850 1900 1950 2000 2010200519751960 1990
mappa genetica
51
1990-1996
1850 1900 1950 2000 2010200519751960 1990
mappa fisica
52
1990 - 2001
1850 1900 1950 2000 2010200519751960 1990 53
Progetto Genoma Umano
mappa fisicamappa genetica
1850 1900 1950 2000 2010200519751960 1990 54
Progetto Genoma Umano
http://www.hhmi.org/biointeractive/dna/DNAi_human_genome_seq.html
1850 1900 1950 2000 2010200519751960 1990
La prima stampa del Genoma Umano presentata come una raccolta di libri, esposta alla Wellcome Collection a Londra
55
Progetto Genoma Umano
1850 1950 2000 2010200519751960 19901900
ICT
56
•Linguaggi–C, C++–JAVA–Perl
•Calcolatori–server UNIX (HP, SUN, COMPAQ)–PC/ Mac, workstations: per la parte grafica
•Statistica, matematica1995 Java1987 Perl
1850 1950 2000 2010200519751960 19901900
ANALIZZARECONFRONTAREVISUALIZZARE
57
software
1850 1900 1950 2000 2010200519751960 1990 58
software
1850 1900 1950 2000 2010200519751960 1990 59
software
1850 1950 2000 2010200519751960 19901900
DATABASE
Memorizzazione, archiviazione e gestione dei dati
Europa: EMBL-Bank (EBI, UK)
USA: GenBank (NIH genetic sequence database)
Giappone: DDBJ (DNA Data Bank of Japan)
60
1982- 1986
1850 1950 2000 2010200519751960 19901900 61
DATABASE
1850 1900 1950 2000 2010200519751960 1990
ICT
62
1850 1900 1950 2000 2010200519751960 1990
ICT
63
1850 1900 1950 2000 2010200519751960 1990
ICT
64
1850 1900 1950 2000 2010200519751960 1990
ICT
65
1850 1900 1950 2000 2010200519751960 1990
ICT
66
1850 1900 1950 2000 2010200519751960 1990
ICT
67
1850 1950 2000 2010200519751960 19901900 68
• Rete Università - Ricerca–BITNET in US (1981)–European Academic Research Network - EARN (1984) diventa poi TERENA (1995)
1981 BITNET 1984 EARN 1995 TERENA
1982-1986: basi di dati
INTERNET
1850 1950 2000 2010200519751960 19901900
INTERNET
• 1991: protocolli–WAIS (Wide Area Information Server)–GOPHER –WWW
• 1993: primo browser (Mosaic)• 1993: WWW per la biologia
–agosto 1993: ExPAsY (Svizzera)–settembre 1993: Généthon (Francia)
69
1982- 1986: basi di dati
1991 WWW 1993 Mosaic 2004 firefox
1994 IE
1850 1950 2000 2010200519751960 19901900 70
siti web
accounts – geni– proteine– organismi– patologie
1850 1950 2000 2010200519751960 19901900
•Siti WEB–CGI, HTML, XML, Perl, PHP, Ruby on Rails, JEE
•Basi di dati:–Ingres, Sybase, Oracle, MySQL, PostgreSQL
71
1993 CGI1995 Ruby1995 PHP
1997 XML
linguaggi
2004 Ruby on Rails
1850 1950 2000 2010200519751960 19901900 72
siti web
1850 1950 2000 2010200519751960 19901900
Ricerca
73
DOVE SIAMO OGGI?
1850 1900 1950 2000 2010200519751960 1990
differenze
1-2%0,1%
10-30%Sha
re M
ater
ial
1850 1950 2000 2010200519751960 19901900
il genoma a 1000 $
75
•primo gruppo a fare 100 genoma Umani
•in un massimo 10 giorni
•per meno di 10 000 $ per genoma
•vince $ 10 M
http://genomics.xprize.org/
A $10 MILLION PRIZE FOR THE FIRST TEAM TO SUCCESSFULLY SEQUENCE 100 HUMAN GENOMES IN 10 DAYS
1850 1950 2000 2010200519751960 19901900
sequenziamento
76
I sequenziatori di nuova generazione sono in grado di leggere miliardi di basi in una singola corsa di circa 6 giorni(la tecnologia precedente: circa 350 kbasi al giorno)
Tre produttori:•454 by Roche •SOLID by Applied Biosystems•Genome Analyzer by Illumina
1850 1900 1950 2000 2010200519751960 1990
@ CRS4
2009
77
1850 1900 1950 2000 2010200519751960 1990 78
@ CRS4
2010
1850 1900 1950 2000 2010200519751960 1990 79
@ CRS4
2010
1850 1900 1950 2000 2010200519751960 1990 80
@ CRS4
1850 1900 1950 2000 2010200519751960 1990 81
@ CRS4
1850 1900 1950 2000 2010200519751960 1990 82
@ CRS4
1850 1900 1950 2000 2010200519751960 1990
1 TB (1 TeraByte) = 1 000 USB keys of 1 GB
83
immagine (foto) 32 TBanalizza automaticamente
“intensity data”: prima analisi
2 TB si può conservare
base call / quality data
250 GB 250 GB
allineamento 6TB 1.2 TB
per ogni esperimento: 1.45 TB
@ CRS4
1850 1950 2000 2010200519751960 19901900
ICT
84
•Linguaggi–C, C++–JAVA–Perl–Python–R
•Calcolatori: calcolo parallelo •Statistica, matematica, algoritmica, data mining
1993: R
1989 python
1850 1900 1950 2000 2010200519751960 1990 85
@ CRS4
1850 1900 1950 2000 2010200519751960 1990 86
Le prestazioni dei processori, e il numero di transistor ad esso relativo, raddoppiano ogni 18 mesi. Legge di Moore 1:
1850 1950 2000 2010200519751960 19901900
• studiare il genoma• individuare il substrato genetico di patologie multifattoriali
• terapie personalizzate
87
@ CRS4
1850 1950 2000 2010200519751960 19901900
i progetti CNR-CRS4
• sequenziamento del genoma dei sardi
• ricerca dei tratti genetici connessi a patologie con alta frequenza nell’Isola
• studio del loro funzionamento
• studio di nuove terapie
88
1850 1950 2000 2010200519751960 19901900 89
INFRASTRUTTURE E STRUMENTI
• potenza di calcolo
• spazio per archiviazione dati
• database
• software di analisi e visualizzazione
COMPETENZE SCIENTIFICHE
•informatica, bioinformatica
•statistica
•sviluppo web
@ CRS4
1850 1950 2000 2010200519751960 19901900
LIMS
90
•Laboratory Information Management System –gestione integrata di dati e processi di un laboratorio
–gestisce “oggetti” e “eventi”•campioni, strumentazione del laboratorio, materiale, utenti
•seminario di Gianfranco Frau il 7 settembre 2011
1850 1950 2000 2010200519751960 19901900 91
1850 1900 1950 2000 2010200519751960 1990
Grazie
92