Presentazione standard di PowerPoint -...
Transcript of Presentazione standard di PowerPoint -...
Lezione 8
DNA sequencing informatics
Il materiale di questa lezione è contenuto nel libro
‘Next-generation DNA sequencing
informatics’
Edited by Stuart M Brown
Disponibile in biblioteca (CHIOSTRO 572.8633 NEXGDS)
History of sequencing informatics
• Algorithms for sequencing alignment – Needleman and Wunsch (1970)
– Smith-Waterman (1981)
• Database searching – FASTA, BLAST
• Tools to work with sanger sequencing – STADEN package, DNA sequence assembly
programs (ex. Sequencer, Mac vector, PC/Gene..)
– Phred/Phrap
Phred/Phrap cross_match, consed Sanger sequences from ABI
• With funding from the Human Genome Project (HGP) the University of Washington (Seattle) developed a set of bioinformatics tools for processing raw sanger sequences collected by ABI sequencing machines and for assembling overlapping reads into larger contigs
• Released ad a C source code suitable for compilation by skilled users on unix-based computers
PH
RED
Base calling + quality score
PHRED SCORE q = -10 Log10 p Dove p è la probabilità di errore associata ad ogni base Quale sarà il Phred Score di una base chiamata con una probabilità di errore di 1/100 (accuratezza del 99%)? E di una con una p di 1/1000?
q = 20 nel primo caso -> minimo considerato accettabile q = 30 nel secondo -> da 30 in su la qualità si considera alta
Sanger sequences from ABI
PH
RED
Base calling + quality score PHRAP
Frammenti assemblati in contigs (Smith-Waterman algorithm+ some concepts
from FASTA and BLAST)
Sanger sequences from ABI
CO
NSED
GRAPHICAL EDITOR
Sanger sequences from ABI
Cosa è rimasto di tutto questo nelle analisi di dati prodotti da
sequenziamenti NGS?
Analisi di dati NGS: Analytic flow
1. Produzione dei dati grezzi (raw data, reads) dal sequenziatore
2. Allineamento delle reads con un riferimento o tra loro (de novo)
3. Visualizzazione degli allineamenti e identificazione dei polimorfismi (se previsto dal progetto)
4. Interpretazione sulla base delle ipotesi e delle domande biologiche di partenza
De novo
1. Raw sequence
• Imaging (Illumina, 454, solid) or Ion detection (Ion torrent, Proton)
• I dati contengono 3 informazioni fondamentali:
– ID (identificatore individuale del campione)
– Sequenza
– Stima della qualità per ogni base chiamata
Formato: FASTQ
• FASTQ format formato di testo che include sia la sequenza (in genere nucleotidica) che la qualità di ogni base (score).
– Line 1: inizia con il carattere '@' seguito da un identificatore e da una descrizione opzionale (come la linea del titolo nel formato FASTA).
– Line 2: raw sequence letters. – Line 3: inizia col carattere '+' che può essere seguito da una
descrizione (opzionale). – Line 4: codifica la qualità della sequenza (PHRED SCORE) nella Line
2, deve contenere un numero di simboli pari al numero di lettere in sequenza.
@HS2:612:C5A6YACXX:3:2310:11800:31609 2:N:0:GCTGAGA
GTTCATCTTGGCAGCTGGTTCCCGTATTTACTGAAGAGTATGTAGCACTTGCGTCGCTCGTGATTGAAAACAGATGGCAGCACGACACGGGCACGGTGCG
+
?;?DADDBD?D??CFEG@F?<?FE28?EEGDGGBDD9?*?BDGAAFFI>FFBBFFFFBEE=A=@BDBDDCACCC;AA??@@B@===BB79B<B?>@2<9<
2. Allineamento
• In generale la parte più impegnativa dell’analisi dei dati NGS
• La scelta dell’algoritmo dipende da che tipo di dato abbiamo: de novo o con sequenza di riferimento? La sequenza di riferimento è vicina evolutivamente? Etc..
Alcuni programmi di allineamento per dati NGS
• Burrows Wheeler Transformation (BWT) – based aligners: BWA, Bowtie, SOAP2 – Allineamento di corte sequenze (tipico prodotto di NGS) ad un
riferimento
– BWA produce un allineamento in SAM format, non chiama i siti polimorfici
Formato output di allineamento: SAM sequence alignment/map format
• I file SAM sono molto grandi (comunemente decine di Gigabytes) -> si usa comprimerli per salvare spazio
• Contiene un titolo (opzionale) e una linea per ogni read con con 11 campi obbligatori
De novo
http://samtools.github.io/hts-specs/SAMv1.pdf
• SAM files sono human-readable text files, i BAM files sono il loro equivalente binario, compresso e più adatto ad essere utilizzato dai programmi di analisi che operano i passaggi successivi.
De novo alignment
• Non c’è una sequenza di riferimento
• Si usano comunemente approcci basati su de Brujin digraphs (capitolo 4 NGS DNA sequencing informatics)
• Ci sono diversi softwares, riprenderemo il problema durante la parte pratica
http://en.wikibooks.org/wiki/Next_Generation_Sequencing_%28NGS%29/De_novo_assembly#Genome_assembly
3. Visualizzazione degli allineamenti ed eventuale variant calling/genotyping
• Spesso per fare queste analisi esistono dei PACCHETTI di programmi che permettono di effettuare molti passaggi come visualizzazione, identificazione delle varianti, esclusione di artefatti
• Di seguito vedremo degli esempi, ma l’elenco è ancora lungo
SAMtools
• Insieme di strumenti per interagire con ed effettuare il post processing di allineamenti di corte sequenze di DNA in formati SAM, BAM e CRAM. Questi files sono generati come output di allineatori di corte reads come BWA.
• Include sia strumenti semplici che complessi (variant calling, alignment viewing, sorting, indexing, data extraction, format conversion)
Variant calling: Finding sequence variation within and between samples
(SNPs, InDel..)
GATK (Genome Analysis Toolkit) • Software package sviluppato al Broad Institute per analizzare
dati di sequenza high-throughput. Il toolkit offre una vasta gamma di strumenti, principalmete focalizzati sulla scoperta di varianti e sulla genotipizzazione, con grande enfasi alla garanzia della qualità del dato.
• Lo useremo nelle esercitazioni pratiche
http://varscan.sourceforge.net/
http://www.broadinstitute.org/software/igv/home
Java-based stand-alone desktop software del Broad Institute che può visualizzare dati NGs in una varietà di formati (FASTA, FASTQ, SAM, BAM) Facile da installare (c’è una versione anche per iPad!) I genomi di riferimento e le relative annotazioni devono essere installate manualmente
Coverage plot and alignments from paired-end reads for a matched tumor/normal pair. Sequencing was performed on an Illumina GA2 platform and aligned with Maq (http://maq.sourceforge.net/). Alignments are represented as gray polygons with reads mismatching the reference indicated by color. Loci with a large percentage of mismatches relative to the reference are flagged in the coverage plot as color-coded bars. Alignments with unexpected inferred insert sizes are indicated by color. There is evidence for a ~10-kb deletion (removing two exons of AIDA) in the tumor sample not present in the normal.
Robinson et al. Nature Biotechnology 29, 24–26 (2011)
GATK
SAM tools
BWA
https://www.broadinstitute.org/gatk/