Presentazione standard di PowerPoint -...

Lezione 8

DNA sequencing informatics

Il materiale di questa lezione è contenuto nel libro

‘Next-generation DNA sequencing

informatics’

Edited by Stuart M Brown

Disponibile in biblioteca (CHIOSTRO 572.8633 NEXGDS)

History of sequencing informatics

• Algorithms for sequencing alignment – Needleman and Wunsch (1970)

– Smith-Waterman (1981)

• Database searching – FASTA, BLAST

• Tools to work with sanger sequencing – STADEN package, DNA sequence assembly

programs (ex. Sequencer, Mac vector, PC/Gene..)

– Phred/Phrap

Phred/Phrap cross_match, consed Sanger sequences from ABI

• With funding from the Human Genome Project (HGP) the University of Washington (Seattle) developed a set of bioinformatics tools for processing raw sanger sequences collected by ABI sequencing machines and for assembling overlapping reads into larger contigs

• Released ad a C source code suitable for compilation by skilled users on unix-based computers

PH

RED

Base calling + quality score

PHRED SCORE q = -10 Log10 p Dove p è la probabilità di errore associata ad ogni base Quale sarà il Phred Score di una base chiamata con una probabilità di errore di 1/100 (accuratezza del 99%)? E di una con una p di 1/1000?

q = 20 nel primo caso -> minimo considerato accettabile q = 30 nel secondo -> da 30 in su la qualità si considera alta

Sanger sequences from ABI

PH

RED

Base calling + quality score PHRAP

Frammenti assemblati in contigs (Smith-Waterman algorithm+ some concepts

from FASTA and BLAST)


CO

NSED

GRAPHICAL EDITOR

Cosa è rimasto di tutto questo nelle analisi di dati prodotti da

sequenziamenti NGS?

Analisi di dati NGS: Analytic flow

1. Produzione dei dati grezzi (raw data, reads) dal sequenziatore

2. Allineamento delle reads con un riferimento o tra loro (de novo)

3. Visualizzazione degli allineamenti e identificazione dei polimorfismi (se previsto dal progetto)

4. Interpretazione sulla base delle ipotesi e delle domande biologiche di partenza

De novo

1. Raw sequence

• Imaging (Illumina, 454, solid) or Ion detection (Ion torrent, Proton)

• I dati contengono 3 informazioni fondamentali:

– ID (identificatore individuale del campione)

– Sequenza

– Stima della qualità per ogni base chiamata

Formato: FASTQ

• FASTQ format formato di testo che include sia la sequenza (in genere nucleotidica) che la qualità di ogni base (score).

– Line 1: inizia con il carattere '@' seguito da un identificatore e da una descrizione opzionale (come la linea del titolo nel formato FASTA).

– Line 2: raw sequence letters. – Line 3: inizia col carattere '+' che può essere seguito da una

descrizione (opzionale). – Line 4: codifica la qualità della sequenza (PHRED SCORE) nella Line

2, deve contenere un numero di simboli pari al numero di lettere in sequenza.

@HS2:612:C5A6YACXX:3:2310:11800:31609 2:N:0:GCTGAGA

GTTCATCTTGGCAGCTGGTTCCCGTATTTACTGAAGAGTATGTAGCACTTGCGTCGCTCGTGATTGAAAACAGATGGCAGCACGACACGGGCACGGTGCG

+

?;?DADDBD?D??CFEG@F?<?FE28?EEGDGGBDD9?*?BDGAAFFI>FFBBFFFFBEE=A=@BDBDDCACCC;AA??@@B@===BB79B<B?>@2<9<

2. Allineamento

• In generale la parte più impegnativa dell’analisi dei dati NGS

• La scelta dell’algoritmo dipende da che tipo di dato abbiamo: de novo o con sequenza di riferimento? La sequenza di riferimento è vicina evolutivamente? Etc..

Alcuni programmi di allineamento per dati NGS

• Burrows Wheeler Transformation (BWT) – based aligners: BWA, Bowtie, SOAP2 – Allineamento di corte sequenze (tipico prodotto di NGS) ad un

riferimento

– BWA produce un allineamento in SAM format, non chiama i siti polimorfici

Formato output di allineamento: SAM sequence alignment/map format

• I file SAM sono molto grandi (comunemente decine di Gigabytes) -> si usa comprimerli per salvare spazio

• Contiene un titolo (opzionale) e una linea per ogni read con con 11 campi obbligatori

De novo

http://samtools.github.io/hts-specs/SAMv1.pdf




• SAM files sono human-readable text files, i BAM files sono il loro equivalente binario, compresso e più adatto ad essere utilizzato dai programmi di analisi che operano i passaggi successivi.

De novo alignment

• Non c’è una sequenza di riferimento

• Si usano comunemente approcci basati su de Brujin digraphs (capitolo 4 NGS DNA sequencing informatics)

• Ci sono diversi softwares, riprenderemo il problema durante la parte pratica

http://en.wikibooks.org/wiki/Next_Generation_Sequencing_%28NGS%29/De_novo_assembly#Genome_assembly

http://en.wikibooks.org/wiki/Next_Generation_Sequencing_(NGS)/De_novo_assembly

http://en.wikibooks.org/wiki/Next_Generation_Sequencing_(NGS)/De_novo_assembly

3. Visualizzazione degli allineamenti ed eventuale variant calling/genotyping

• Spesso per fare queste analisi esistono dei PACCHETTI di programmi che permettono di effettuare molti passaggi come visualizzazione, identificazione delle varianti, esclusione di artefatti

• Di seguito vedremo degli esempi, ma l’elenco è ancora lungo

SAMtools

• Insieme di strumenti per interagire con ed effettuare il post processing di allineamenti di corte sequenze di DNA in formati SAM, BAM e CRAM. Questi files sono generati come output di allineatori di corte reads come BWA.

• Include sia strumenti semplici che complessi (variant calling, alignment viewing, sorting, indexing, data extraction, format conversion)

Variant calling: Finding sequence variation within and between samples

(SNPs, InDel..)

GATK (Genome Analysis Toolkit) • Software package sviluppato al Broad Institute per analizzare

dati di sequenza high-throughput. Il toolkit offre una vasta gamma di strumenti, principalmete focalizzati sulla scoperta di varianti e sulla genotipizzazione, con grande enfasi alla garanzia della qualità del dato.

• Lo useremo nelle esercitazioni pratiche

http://varscan.sourceforge.net/

http://www.broadinstitute.org/software/igv/home

Java-based stand-alone desktop software del Broad Institute che può visualizzare dati NGs in una varietà di formati (FASTA, FASTQ, SAM, BAM) Facile da installare (c’è una versione anche per iPad!) I genomi di riferimento e le relative annotazioni devono essere installate manualmente

Coverage plot and alignments from paired-end reads for a matched tumor/normal pair. Sequencing was performed on an Illumina GA2 platform and aligned with Maq (http://maq.sourceforge.net/). Alignments are represented as gray polygons with reads mismatching the reference indicated by color. Loci with a large percentage of mismatches relative to the reference are flagged in the coverage plot as color-coded bars. Alignments with unexpected inferred insert sizes are indicated by color. There is evidence for a ~10-kb deletion (removing two exons of AIDA) in the tumor sample not present in the normal.

Robinson et al. Nature Biotechnology 29, 24–26 (2011)

http://maq.sourceforge.net/

GATK

SAM tools

BWA

https://www.broadinstitute.org/gatk/

Presentazione standard di PowerPoint -...

Documents

Transcript of Presentazione standard di PowerPoint -...