Microarray Data Analysis
-
Upload
valerian-esquivel -
Category
Documents
-
view
45 -
download
1
description
Transcript of Microarray Data Analysis
![Page 1: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/1.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Microarray Data Analysis
Letizia MagnoniJunior Scientist
Sienabiotech Spa
![Page 2: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/2.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Argomenti
• Cosa e’ un esperimento di microarray • A cosa serve• Come si puo’ disegnare un
esperimento• Normalizzazione• Analisi • Analisi Cluster • Annotazioni dei geni selezionati
![Page 3: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/3.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
• Ogni cellula contiene una copia completa del genoma dell’organismo.
• Esistono vari tipi e stati di cellule (cellule di sangue, nervi e pelle, cellule che si dividono, cellule cancerogene, ecc.)
Gene expression
![Page 4: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/4.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Variazione dell’espressione
• Cosa rende le cellule diverse tra loro?
• L’espressione differente dei geni, cioe’ quando, dove e quanto ogni gene e’ espresso.
• In media, il 40% dei nostri geni e’ espresso in ogni momento.
![Page 5: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/5.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
mRNA
cDNA
![Page 6: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/6.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Perche’ Microarrays
• In passato solo analisi di un gene (o pochi) alla volta (Northern blot)
• Oggi fino a 40.000 geni su una sola microarray.
![Page 7: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/7.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Applicazioni di Microarrays
• Individuazione di target per farmaci e validazione – identificazione di geni modulati in modo specifico rispetto ad una
certa malattia (differential expression)
• Elicidazione dei meccanismi dell’azione– Drug safety profiling– Guilt by association (geni con comportamento connesso tra loro)– Pathway modeling
• Classificazione di nuovi composti• Diagnostica• Identificazione di Biomarkers
![Page 8: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/8.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
“Disegno” di un esperimento
• Insieme dei trattamenti selezionati per il confronto
• La specificazione delle unita’ a cui verranno somministrati i trattamenti
• Le regole secondo cui i trattamenti vengono assegnati ad ogni unita’ sperimentale
• La specificazione delle misurazioni (R/G)
![Page 9: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/9.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Disegno Sperimentale
• Fonti di variazione:– Variazione biologica– Variazione tecnica– Variazione dovuta
alla collocazione degli elementi nelle arrays.
G. A. Churchill in Nature Genetics vol. 32, 2002
![Page 10: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/10.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Vari Disegni Sperimentali
• Dye-swap:
• Dye-swap ripetuto:
• Dye-swap con replica biologica:
BA
A B
A1 B1
A2 B2
![Page 11: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/11.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Vari Disegni Sperimentali
• Reference:
N.B. Questo disegno sperimentale non mette in luce la variabilita’ introdotta dalla colorazione.
• Per migliorare questo disegno:
N.B. Meta’ delle misurazioni vengono fatte nel campione di minore interesse.
A mix B
Ref
A
B
Ref
A
B
A mix B
![Page 12: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/12.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Vari Disegni Sperimentali
• Loop: A1 B1
B2 A2
![Page 13: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/13.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Trattamenti: A B
Replicati:
Colorazioni:
Arrays:
Disegno:
G R G R G R G RRNA1 RNA2 RNA3 RNA4
A1 A2 B1 B2
A2
A1 B1
B2
![Page 14: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/14.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Trattamenti: A B
Replicati:
Colorazioni:
Arrays:
Disegno:
RGRNA1 RNA2 RNA3 RNA4
A1 A2 B1 B2
RG RG RG
A1 B1
A2 B2
![Page 15: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/15.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Normalizzazione
• Si vuole togliere dai dati tutta quella variabilita’ che non ha origine biologica:– Campioni (isolamento, estrazione di RNA,..)– Probe nature (cDNA clones, oligos, ..)– Arrays (substrato, lotto, difetti di superficie, ..)– Colorazione (colore, attivita’ specifica, ..)– Ibridizzazione (tempo, temperatura)– Misurazione (hardware, software, saturation)
![Page 16: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/16.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Normalizzazione
• Possibili approcci:
– Housekeeping genes set (which genes, mean value)
– Complete gene set (min./selected/all, fluorescence intensity)
– Spiked exogeneous control mRNAs (mean value)
– Linear regression analysis
![Page 17: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/17.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Tecniche di normalizzazione
• Normalizzazione dell’intensita’ totale
– Questo tipo di normalizzazione assume una uguale quantita’ di mRNA per entrambi i campioni etichettati.
– Si cerca una costante “c” che aggiusti i dati in modo tale che i due campioni abbiano media o mediana uguale.
![Page 18: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/18.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Normalizzazione dell’intensita’ totale
La trasformazione degli assi coordinati ci permette di visualizzare meglio i dati
i
ii
iii
G
RM
GRA
2
2
log
log
![Page 19: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/19.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Tecniche di Normalizzazione
• Tecniche di Regressione:– Regressione lineare dei dati e successiva
normalizzazione in modo tale che il coefficiente lineare della retta di regressione abbia coefficiente angolare unitario.
– Regressione lineare locale (LOWESS)“LOcally WEighted Scatter plot Smooth”
![Page 20: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/20.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Normalizzazione con tecniche di regressione locale
![Page 21: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/21.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Analisi Statistica dei dati
• Si vuole rispondere alle domande:
– La differenza che vedo nei miei dati e’ significativa?
– Le differenze osservate sono dovute solo alla diversa risposta dei campioni ai trattamenti?
![Page 22: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/22.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
T-test con due campioni: confronto tra le due medie
• Ipotesi:– I campioni hanno distribuzioni normali;– I campioni sono originati da due variabili
indipendenti;– Due possibili assunzioni sulle varianze:
se o altrimenti.22
21
La statistica test ha una distribuzione t di Student
![Page 23: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/23.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Confronto tra medie di due campioni in un esperimento di Microarray• Si vogliono evitare tutte le assunzioni fatte
precedentemente. • Statistica test (Welch Statistic); per ogni gene i
calcoliamo:
1
21
2
22
12
n
s
n
s
xxt
ii
iii
• Per determinarne la distribuzione possiamo utilizzare algoritmi di permutazione o di bootstrap.
B. Efron, R. J. Tibshirani: “An Introduction to the Bootstrap”, Chapman & Hall (1993)
S. Dudoit et al: “Statistical methods for identifying differentially expressed genes in replicated cDNA Microarray Experiments”, Statistica Sinica 12(2002), pp 111-139
![Page 24: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/24.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Permutation test
– Stima la distribuzione della statistica test sotto l’ipotesi nulla (che non ci sia differenza tra i due campioni) tramite permutazioni dei campioni etichettati.
– Il p_value e’ dato come frazione delle permutazioni per cui il valore della statistica test e’ (almeno) tanto estremo quanto quello che e’ stato osservato.
gp
![Page 25: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/25.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Multiple testing
• Supponiamo di avere un esperimento con 10.000 geni e decidiamo di controllare l’errore di tipo I al 5% (rifiuto l’ipotesi nulla quando il p-value e’ minore di 0.05):
– il valore atteso di rigettare in modo errato l’ipotesi nulla sara’: 10.000 x 0.05 = 500.
![Page 26: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/26.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Multiple testing methods
• Dobbiamo considerare il fatto di dovere aggiustare il livello di significativita’ del nostro test (multiple testing procedure)
– Bonferroni (non e’ consigliabile per esperimenti di microarrays)
– Westfall and Young step-down procedure– False Discovery Rates (FDR; Benjamini and
Hochberg, 1995)
Dudoit et al, “Multiple Hypothesis Testing in Microarray Experiments”, U.C. Berkeley Division of Biostatistics Working Paper Series, 2002
![Page 27: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/27.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Modelli ANOVA
• Questi modelli cercano di dare una stima delle piu’ importanti fonti di variabilita’ presenti in un esperimento.– Arrays (Ai) i = 1,2,..,#arrays
– Dyes (colorazione) (Dj) j = 1,2
– Varieties (trattamenti) (Vk) k = 1,2,..,#varieties
– Genes (Gg) g = 1,2,..,#genes
ijkgjgkgiggkjiijkg DGVGAGGVDAy )()()()log(
Il modello che si assume e’:
![Page 28: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/28.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Modelli ANOVA e disegno sperimentale
• Disegno Dye-Swap
• Disegno reference
ijkgkgiggkjiijkg VGAGGVDAy )()()log(
A B
ijkgkggkiijkg VGGVAy )()log(
RefA
B
![Page 29: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/29.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Analisi da un punto di vista Bayesiano
• Entrambe le tecniche presentate hanno un approccio mediante la statistica Bayesiana.
– P. Baldi,”A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes”, Bioinformatics, Vol.17, no 6, pp 509-519 (2001)
– D.A.Henderson, “Bayesian Statistical Methods for the Detection of Differential Gene Expression and Control of Multiple Hypothesis Testing in cDNA and Oligonucleotide Microarray Experiments”, University of Arizona
![Page 30: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/30.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Siti interessanti
http://www.stat.berkeley.edu/users/terry/Group/index.html
http://www.jax.org/staff/churchill/labsite/research/index.html
http://www.gene-chips.com/
http://www.nslij-genetics.org/microarray/analy.html
http://www.mged.org/Workgroups/MIAME/miame.html
http://www.bioconductor.org/
http://www.bio.davidson.edu/courses/genomics/chip/chip.html
![Page 31: Microarray Data Analysis](https://reader036.fdocuments.us/reader036/viewer/2022062422/568136a8550346895d9e4d2a/html5/thumbnails/31.jpg)
Bioinformatics and statistics in drug discovery companyLetizia Magnoni
Grazie