Identificazione delle mutazioni Diagnosi di... · 2018. 5. 31. · Di fatto, livelli diversi di...
Transcript of Identificazione delle mutazioni Diagnosi di... · 2018. 5. 31. · Di fatto, livelli diversi di...
1
Identificazione delle mutazioni
Diagnosi pre-impianto – prenatale – postnatale – eterozigoti
Terapia malattia minima residua – terapia specifica –
disegno di nuovi farmaci
Prevenzione screening eterozigoti – geni oncosoppressori -
SNPs
2
3
Systems biology is the study of an organism, viewed as an integrated and interacting
network of genes, proteins and biochemical reactions which give rise to life.
Systems Biology: the 21st Century Science
Whole-istic biology
4
Genes and proteins almost never work alone. They interact with each other and
with other molecules in highly structured but incredibly complex ways, similar to the
complex interactions among the countless computers on the Internet.
Systems biology aims at explaining the properties and behavior of complex
biological systems such as the cell or its molecular machineries
5
ANALOGY If you wanted to study an
automobile, and focused on
identifying the engine, seat
belts, and tail lights, and
studied their specific
functions, you would have
no real understanding of
how an automobile
operates.
More important, you would have
no understanding of how to
effectively service the vehicle
when something malfunctions.
?
?
6
So too, a traditional approach to studying biology and human health has left us with
a limited understanding of how the human body operates, and how we can best
predict, prevent, or remedy potential health problems.
Researchers have had limited success in curing complex diseases such as
cancer, HIV, and diabetes because traditional biology generally looks at only
a few aspects of an organism at a time.
7
8
9
10
11
12
Metodologie High-Throughput
(HT)
Microarray
Next Generation Sequencing (NGS)
Comparative Genomic Hybridization (CGH)
13
Metodologie High-Throughput
(HT)
RT² Profiler™ PCR Array System
TaqMan® Assays in 384-Well Microfluidic Cards
Nanostring
14
Induction of Apoptosis:
Death Domain Receptors: CRADD, FADD, TNF, TNFRSF10B (DR5).
DNA Damage: ABL1, CIDEA, CIDEB, TP53, TP73.
Extracellular Signals: CFLAR (CASPER), DAPK1, TNFRSF25 (DR3).
Other: BAD, BAK1, BAX, BCL10, BCL2L11, BID, BIK, BNIP3, BNIP3L,
CASP1 (ICE), CASP10 (MCH4), CASP14, CASP2, CASP3, CASP4, CASP6,
CASP8, CD27 (TNFRSF7), CD70 (TNFSF7), CYCS, DFFA, DIABLO (SMAC),
FAS (TNFRSF6), FASLG (TNFSF6), GADD45A, HRK, LTA (TNFB), NOD1
(CARD4), PYCARD (TMS1/ASC), TNFRSF10A, TNFRSF9, TNFSF10
(TRAIL), TNFSF8, TP53BP2, TRADD, TRAF3.
Anti-Apoptosis: AKT1, BAG1, BAG3, BAX, BCL2, BCL2A1 (Bfl-1/A1),
BCL2L1 (BCL-X), BCL2L10, BCL2L2, BFAR, BIRC3 (c-IAP1), BIRC5,
BIRC6, BNIP2, BNIP3, BNIP3L, BRAF, CD27 (TNFRSF7), CD40LG (TNFSF5),
CFLAR (CASPER), DAPK1, FAS (TNFRSF6), HRK, IGF1R, IL10, MCL1,
NAIP (BIRC1), NFKB1, NOL3, RIPK2, TNF, XIAP (BIRC4).
Regulation of Apoptosis:
Negative Regulation: BAG1, BAG3, BCL10, BCL2, BCL2A1 (Bfl-1/A1),
BCL2L1 (BCL-X), BCL2L10, BCL2L2, BFAR, BIRC2 (c-IAP2), BIRC3 (c-
IAP1), BIRC6, BNIP2, BNIP3, BNIP3L, BRAF, CASP3, CD27 (TNFRSF7),
CD40LG (TNFSF5), CFLAR (CASPER), CIDEA, DAPK1, DFFA, FAS
(TNFRSF6), IGF1R, MCL1, NAIP (BIRC1), NOL3, TP53, TP73, XIAP
(BIRC4).
Positive Regulation: ABL1, AKT1, BAD, BAK1, BAX, BCL2L11, BID, BIK,
BNIP3, BNIP3L, CASP1 (ICE), CASP10 (MCH4), CASP14, CASP2, CASP4,
CASP6, CASP8, CD40 (TNFRSF5), CD70 (TNFSF7), CIDEB, CRADD, FADD,
FASLG (TNFSF6), HRK, LTA (TNFB), LTBR, NOD1 (CARD4), PYCARD
(TMS1/ASC), RIPK2, TNF, TNFRSF10A, TNFRSF10B (DR5), TNFRSF25
(DR3), TNFRSF9, TNFSF10 (TRAIL), TNFSF8, TP53, TP53BP2, TRADD,
TRAF2, TRAF3.
DEATH Domain Proteins: CRADD, DAPK1, FADD, TNFRSF10A, TNFRSF10B
(DR5), TNFRSF11B, TNFRSF1A, TNFRSF1B, TNFRSF21, TNFRSF25 (DR3),
TRADD.
Caspases and Regulators:
Caspases: CASP1 (ICE), CASP10 (MCH4), CASP14, CASP2, CASP3, CASP4,
CASP5, CASP6, CASP7, CASP8, CASP9, CFLAR (CASPER), CRADD,
PYCARD (TMS1/ASC).
Caspase Activators: AIFM1 (PDCD8), APAF1, BAX, BCL2L10, CASP1 (ICE),
CASP9, NOD1 (CARD4), PYCARD (TMS1/ASC), TNFRSF10A, TNFRSF10B
(DR5), TP53.
Caspase inhibitors: CD27 (TNFRSF7), XIAP (BIRC4).
15
TaqMa
n®
Array
Number
of
Targets
and
Control
s
Number
of Assay
Replicat
es
Number
of
Samples
per
Card
Minimu
m
Order
Size
Part
Number
Format
12 11 + 1 4 8 10 4342247
Format
16 15 + 1 3 8 10 4346798
Format
24 23 + 1 2 (4) 8 (4) 10 4342249
Format
32 31 + 1 3 4 10 4346799
Format
48 47 + 1 1 (2) 8 (4) 10 4342253
Format
64 63 + 1 3 2 10 4346800
Format
96a 95 + 1 1 (2) 4 (2) 10 4342259
Format
96b 95 + 1 4 1 10 4342261
Format
192 191 + 1 2 1 10 4346802
Format
384 380 + 1 1 1 10 4342265
16
49 - 400
chips/wafer
DNA microarrays consist of thousands of individual gene sequences bound to
closely spaced regions on the surface of a glass microscope slide.
1.28cm
up to ~ 400,000 features/chip
Millions of identical oligonucleotide
probes per feature
20 - 50 µm
20 - 50 µm
17
Esistono di fatto due tecnologie per la produzione di
microarrays: la prima denominata a spotting e la
seconda detta in situ.
18
Nella tecnologia spotting, le sonde da
ancorare al supporto solido, normalmente un
vetrino da microscopia, sono sintetizzate a
parte e quindi depositate sul supporto.
Tali sonde possono essere costituite da
molecole di cDNA lunghe alcune migliaia di
paia di basi le cui sequenze possono essere
ricavate da banche dati genomiche
(GenBank, dbEST o UniGene)
19
Selezionate le sequenze da studiare, il cDNA
relativo viene prodotto mediante PCR
ottenendo così sonde della dimensione da
600 a 2400 bp.
Più recentemente, le sonde che vengono
depositate sono rappresentate non tanto da
frammenti di materiale genomico ottenuto via
PCR, quanto piuttosto da sequenze sintetiche
di oligonucleotidi lunghe 50-70 paia di basi.
20
Una volta prodotte, le sonde vengono depositate sul supporto solido, in
genere costituito da un vetrino. La deposizione viene effettuata da
sistemi robotizzati che mediante l’utilizzo di pennini prelevano le sonde
direttamente dalle piastre utilizzate per la PCR e le depositano sul
vetrino formando spots di circa 100-150 µm di diametro, distanziati l’uno
dall’altro 200-250 µm.
Durante la deposizione, il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla caratterizzazione
ed alla completa identificazione di ciascun punto della matrice (identità
del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe
viene legato covalentemente ai gruppi amminici del supporto attraverso
una reazione innescata dall’irragiamento con luce ultravioletta, mentre il
cDNA in eccesso viene rimosso con semplici lavaggi dell’array. Infine, il
cDNA sul supporto viene reso a catena singola attraverso una
denaturazione termica o chimica.
21
L’altra tecnica utilizzata per la produzione di
microarrays è quella detta in situ che,
sviluppata da Affimetrix, è frutto
dell’interazione di due tecnologie particolari, la
fotolitografia e la sintesi diretta in fase solida di
oligonucleotidi.
La sintesi delle sonde avviene direttamente
sulla superficie del supporto solido
22
23
I targets, ovvero gli acidi nucleici da ibridizzare alle catene
di cDNA ancorate al supporto solido,
sono normalmente ottenuti dalla marcatura dell’mRNA
proveniente da un dato organismo per mezzo di molecole
fluorescenti.
Probes e targets vengono poi messi a contatto per fare
avvenire la reazione di ibridazione e dopo alcuni lavaggi per
rimuovere i prodotti aspecifici, l’array viene passato
attraverso uno scanner per la misura dei segnali
fluorescenti.
L’intensità dei pixel di ciascuna immagine è proporzionale al
numero di molecole di tracciante presenti sullo spot e quindi
al numero di targets che hanno ibridizzato le sonde
ancorate al supporto.
24
25 Array
Before labelling
Schematically
26 Array
Labelled but before hybridization
Schematically
27
After hybridization
Schematically
Array
28
4 2 0 3
Quantification
Schematically
Array
29
cDNA clones
oligonucleotide arrays
30
Hybridize
RNA
Tumor sample
cDNA
RNA
Reference sample
cDNA
31
emission
excitation
red laser
green laser
overlay images and normalise
32
Di fatto, livelli diversi di fluorescenza indicano livelli diversi di
ibridizzazione e quindi di espressione genica.
Il segnale rilevato dallo scanner viene poi sottoposto ad
algoritmi di filtrazione e di pulizia del segnale e convertito in
valori numerici .
In generale, quindi, un esperimento di analisi dei profili di
espressione fornisce come risultato una matrice di dati, in cui le
righe rappresentano i geni monitorati e le colonne corrispondono
alle diverse condizioni sperimentali, quali punti temporali,
condizioni fisiologiche, tessuti.
Ogni elemento della matrice rappresenta quindi il livello di
espressione di un particolare gene in uno specifico stato
fisiologico.
Ciascuna colonna è data da un vettore che ha tante dimensioni
quanti sono i geni o le sequenze immobilizzate sull’array.
33
34
35
36
È necessario, quindi, avere a disposizione
tutta una serie di tecniche computazionali
capaci di gestire ed interpretare questi
enormi database nonché di interfacciarsi
con gli strumenti bioinformatici per l’analisi
funzionale (database mining).
37
Si definiscono tecniche di database mining tutta una serie di strumenti informatici per
l’esplorazione e l’analisi di grandi quantità di dati al fine di estrarre motivi caratteristici e
persistenti (patterns) e regole. Gli algoritmi che costituiscono il database mining derivano
da campi quali la statistica, la pattern recognition, l’intelligenza artificiale e l’analisi dei
segnali; essi sfruttano le informazioni ricavate direttamente dai dati per creare dei modelli
empirici in grado di descrivere il comportamento di un sistema complesso. Nel caso dei
profili di espressione genica, le tecniche di database mining rappresentano un utile
strumento per identificare ed isolare particolari pattern di espressione che di fatto
rappresentano delle vere e proprie impronte digitali genetiche di un determinato stato
fisiologico. L’analisi dei dati degli array di cDNA è normalmente basata sull’uso sinergico
di test di ipotesi (hypothesis testing) e di sistemi per l’estrazione della conoscenza
(knowledge discovery). I metodi di hypothesis testing sono sostanzialmente degli approcci
di tipo top-down con i quali si ricercano nei dati le conferme sperimentali ad ipotesi
precedentemente formulate. La knowledge discovery può essere intesa invece come un
approccio bottom-up nel quale sono i dati stessi che forniscono le indicazioni necessarie alla
formulazione di nuove ipotesi. Un aspetto cruciale dell’applicazione di queste procedure è
l’identificazione di tutti quei geni che manifestano un’elevata attività in un determinato
stato fisiologico. Questi geni attivi, e le loro relazioni, possono essere identificati attraverso
tecniche quali Mean Hypothesis Testing (MHT), Cluster Analysis (CA), Principal
Component Analysis (PCA) e Decision Tree (DT).
38
Microarrays may be used to assay gene expression within a single
sample or to compare gene expression in two different cell types or
tissues samples, such as in healthy and diseased tissue.
Follow population of (synchronized) cells over time, to see how expression changes (vs. baseline)
Expose cells to different external stimuli and measure their response (vs. baseline)
Take cancer cells (or other pathology) and compare to normal cells.
39
•Developmental stage-specific gene expression
40
•Gene expression during differentiation - investigation of how gene
expression patterns are altered during differentiation.
41
Gene expression during tumorigenesis - cells can be sampled at
different recognized stages during the progression to cancer
42
ADVANTAGES
Microarray analysis offers the advantage of profiling expression levels
of hundreds or thousands of genes simultaneously using a single RNA
preparation
Yeast ~ 6200 genes E. coli ~ 4200 genes
Human ~ 25,000 genes Mouse ~ 25,000 genes
Phage T4 ~ 20 genes Influenza ~ 12 genes
High speed
Easy to use
Theorycally, all genes of an organism can be analyzed by a single array
43
This technology is a very dynamic one and is currently spawning
a variety of derivative technologies including the development of
protein and antibody microarrays and cell microarrays
44
LIMITS
Obviously, this is an expression-based technology, capable only
of monitoring cellular responses at the RNA level. Some critical
signaling changes may occur only at the protein or post-
translational level and therefore would not be detected with gene
arrays.
The correlation between the number of mRNA and protein molecules is
generally not strong enough to predict one value from the measurement
of the other
Protein
mRNA
DNA
transcription
translation
45
Punto 1
Organizzazione della cromatina
Inizio della trascrizione
Regolazione dell’espressione genica
46
47
LIMITS
High cost technology
No quantitative: 3 fold variations are experimental
Data interpretation represent a complex problem:
mRNA profiling data (as other applications) typically consist of many
thousands of measurements for each array
Needs verification by other approach (i.e., Real time PCR)
48
49
50
51
52
•screening of polymorphisms and mutation
•There is also huge potential for assaying for mutations in known disease
genes, as recently exemplified in the case of the breast cancer
susceptibility gene, BRCA1. In addition, there have been vigorous efforts
to identify and catalog human single nucleotide polymorphism (SNP)
markers
53
54
Experimental Space:
The Relevancy of “Classic” Techniques
Differential Gene Expression
• Northern blotting (1977) : 1 Probe – 20 samples
• Dot Blots (1987) : 100s of probes – 1 sample
• RT-PCR (1992) : 100s of probes – 10 -100 samples
• Microarrays (1995 ) : 100,000s of probes – 1 sample
• Next-gen sequencing (2005) : 10-100 x 106 reads – 1 sample
1a generazione sequenziamento del DNA
secondo il metodo Sanger
Il sequenziamento automatico secondo il metodo Sanger ha dominato nella scienza e nell’industria per almeno 20 anni e ha consentito il sequenziamento del genoma umano e la scoperta di almeno 2.500 malattie genetiche
Il sequenziamento automatico secondo il metodo Sanger è considerato la tecnologia di “prima generazione”, mentre I nuovi metodi di “deep sequencing” sono denominati “next-generation sequencing (NGS)”
Sanger sequencing
• DNA is fragmented
• Cloned to a plasmid
vector
• Cyclic sequencing
reaction
• Separation by
electrophoresis
• Readout with
fluorescent tags
2a generazione
“next-generation sequencing (NGS)”
Il principale vantaggio è la possibilità tecnica di produrre un
volume enorme di dati a costi estremamente più bassi ed in
tempi estremamente più rapidi
Il potenziale dell’NGS è simile ai primi tempi della PCR
Advantages of RNA-Seq
• Not limited to the existing genomic
sequence
• Very low (if any) background signal
• Large dynamic detecting range
• Highly reproducibility
• Highly accurate
• Less sample
• Low cost per base
Wang et al. Nature Reviews Genetics 2009
62
63
64
65
66
67
EPIGENETICA
• Key part in regulating gene
expression
• Chip: technique to study DNA-
protein interaccions
• Recently genome-wide ChIP-
based studies of DNA-protein
interactions
• Readout of ChIP-derived DNA
sequences onto NGS platforms
• Insights into transcription
factor/histone binding sites in
the human genome
• Enhance our understanding of
the gene expression in the
context of specific environmental
stimuli
69
L’ibridazione genomica comparativa (Comparative Genomic
Hybridization, CGH) convenzionale è una tecnica di
rilevazione che consente di analizzare l’intero genoma del
soggetto che si vuole esaminare, grazie ad in un unico
esperimento in grado di identificare anomalie del corredo
genetico quali riarrangiamenti inter– ed intracromosomici,
regioni di amplificazione genica e regioni con delezioni.
Comparative Genomic Hybridization
CGH
70
Il principio della tecnica si basa su una competizione per il
legame di 2 DNA genomici, marcati con fluorocromi diversi, a
cromosomi in metafase, non marcati e provenienti da un
soggetto sano.
Il primo DNA è estratto dal paziente in esame mentre l'altro
costituisce il DNA genomico di riferimento proveniente da un
soggetto sano.
Tale processo prende il nome di ibridazione in situ su
cromosomi e, grazie allo stato altamente condensato dei
cromosomi metafisici, la risoluzione di questa tecnica (vale a
dire la capacità di riconoscere alterazioni nelle sequenze del
genoma) è nell’ordine delle 5 Mb (1 Mb = 1 milione di basi).
71
Figura 1.
Nelle immagini si vede la stessa preparazione di cromosomi (metafase) di un soggetto
normale, fatta ibridare con
(a) il DNA estratto da cellule tumorali marcate con uno specifico fluorocromo verde, e
(b) il DNA delle cellule normali di riferimento marcati con uno specifico fluorocromo
rosso.
(c) La sovrapposizione delle immagini dimostra l’intensità relativa della fluorescenza
verde e di quella rossa, riflettendo le variazioni del numero di copie di geni che si
riscontra nel genoma tumorale. Una perdita di geni in aree più o meno estese del
DNA tumorale conferisce al DNA di riferimento un vantaggio nella competizione per
il legame al DNA normale. Proprio per questo motivo in tali aree il microscopio rileva
un aumento della fluorescenza rossa.
Viceversa, duplicazioni ed amplificazioni di geni del DNA tumorale corrispondono al
prevalere della fluorescenza verde.
72
73
BANDEGGI
• Bandeggi generali:
identificazione di TUTTI i cromosomi per mezzo di una serie di bande
lungo tutto l’intero cromosoma, diverse da un cromosoma all’altro
Bande G → varie tecniche, combinate a colorazione Giemsa
Bande Q → bande fluorescenti visibili con mostarda
quinacrina o composti simili
Bande R → dopo denaturazione al calore
• Bandeggi particolari:
limitati ad aree di ogni singolo cromosoma o gruppi di cromosomi
Bande T → regioni telomeriche
Bande C → regioni pericentromeriche
Bande AgNOR → regioni dell’organizzatore nucleolare
Bande Da-DAPI → tratto prossimale braccio corto n.15,
costrizioni secondarie n.1,9,16 e tratto distale Yq
74
75
76
Il principio della CGHarray è identico a quello della CGH
convenzionale.
La differenza sta nel fatto che i due DNA (test e reference)
vengono ibridati su un microarray di frammenti di DNA
genomico ben caratterizzati, invece che su un vetrino
contenente metafasi.
CGHarray
77
Risoluzione
CGH convenzionale 10 Mb
CGH array 1 Mb
78
79