Pos Usp Ngs Big Data Parte 2

40
New Generation Sequencing The Big Data Era Roberta A. Campos

description

PresentationCurso de Pos-graduacao IBUSP -2012

Transcript of Pos Usp Ngs Big Data Parte 2

Page 1: Pos Usp Ngs Big Data Parte 2

New Generation Sequencing

The Big Data Era

Roberta A. Campos

Page 2: Pos Usp Ngs Big Data Parte 2

EM 2010

1 ZettaByte (ZB) = 1 Trilhão

1,000,000,000,000 GigaBytes (GB)

Roberta A. Campos PhD, MSc, PD

Page 3: Pos Usp Ngs Big Data Parte 2

“Big Data Era” na Ciência

1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)

Researchers need to adapt their institutions and

practices in response to torrents of new data —

and need to complement smart science with smart

searching.

Setembro 2008

Editorial

Roberta A. Campos PhD, MSc, PD

Page 4: Pos Usp Ngs Big Data Parte 2

Ciclo do Conhecimento

hypothesis-driven science

data-driven science

(Kell DB et al., 2004)

Gene Knock-outs

Protein Assays

Point mutations

Microarrays

Genomics

Meta-genomics

HT proteomics

Roberta A. Campos PhD, MSc, PD

Page 5: Pos Usp Ngs Big Data Parte 2

Inundação de Dados na Área

de Ciências Biológicas

genomas completos sequenciados;

dados de variações genômicas;

projetos de Meta-Genômica;

dados de transcritomas;

dados de proteínas;

dados de interações entre proteínas;

ION Torrent…

Roberta A. Campos PhD, MSc, PD

Page 6: Pos Usp Ngs Big Data Parte 2

E agora, quais são os desafios?

Pontos urgentes que devem ser enfrentados:

◦ Transferência de dados, controle de acesso e gerenciamento.

◦ Padronização dos formatos de dados.

◦ Integração dos dados oriundos de múltiplas fontes.

Dados com características Multi-dimensionais e em um volume

imenso;

Exemplo: Análise funcional de variações no DNA em múltiplas

amostras em diferentes tipos de tumores utilizando dados de

sequenciamento de nova geração...

◦ Modelos preditivos para fenótipos complexos demandam computação

intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede

Bayesiana para representar um modelo de regulação gênica)

Roberta A. Campos PhD, MSc, PD

Page 7: Pos Usp Ngs Big Data Parte 2

Integração dos Bancos de

Dados Biológicos

Características

◦ Grande volume de dados;

Desenvolvimento de novos mecanismos e técnicas para o

armazenamento e recuperação (e.g. Google BigTable );

◦ Não há padrão para os nomes dos objetos;

Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)

◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;

Utilização de formatação padrão para troca de informações (e.g. GFF) e

web services;

◦ Definição variável para alguns conceitos;

e.g. gene

◦ Dados altamente heterogêneos mas inter-relacionados;

◦ Informação dinâmica e em constante atualização;

Roberta A. Campos PhD, MSc, PD

Page 8: Pos Usp Ngs Big Data Parte 2

Soluções computacionais

Cloud-based computing;

Ambientes computacionais heterogêneos; ◦ Integração de aceleradores especializados (GPUs);

Aumento do número de computadores;

Otimização de algoritmos;

Roberta A. Campos PhD, MSc, PD

Page 9: Pos Usp Ngs Big Data Parte 2

Primeiros passos...

Compreensão da natureza dos dados, ou seja, da sua

magnitude e complexidade, e dos recursos disponíveis

(memória, espaço, tenho um servidor?)...

Compreensão dos algoritmos.

Compreensão das vantagens e desvantagens das

arquiteturas disponíveis.

◦ A decisão não é sempre óbvia e muitas vezes consiste

em uma combinação delas

Roberta A. Campos PhD, MSc, PD

Page 10: Pos Usp Ngs Big Data Parte 2

Soluções no Brasil

O EMU (Equipamento MultiUsuário)

é uma plataforma de alta-

performance para análises

computacionais aplicadas à genômica

e à transcriptômica.

Financiamento: Programa

Multiusuário da FAPESP de 2010,

com uma contra-partida do Instituto

Ludwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD

Page 11: Pos Usp Ngs Big Data Parte 2

Sequenciamento - NGS

Por quê sequenciar ?

Roberta A. Campos PhD, MSc, PD

Page 12: Pos Usp Ngs Big Data Parte 2

Por quê sequenciar ?

Motivação Aplicações diversas:

• identificar sequencias funcionais e caracterizar

genomas ou transcriptomas;

• Da Genômica Comparativa à Expressão gênica...

• Propósitos gerais...

“NOVA ONDA NGS”...

Roberta A. Campos PhD, MSc, PD

Page 13: Pos Usp Ngs Big Data Parte 2

Bioinformática

• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas

computacionais e abordagens para expandir a utilização de dados biológicos,

médicos, comportamentais e de saúde, incluindo a aquisição, o

armazenamento, a organização, o arquivamento a análise ou visualização

desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos

e analíticos, incluindo modelagem matemática e aplicação de técnicas de

simulações computacionais para o estudo de sistemas biológicos, sociais ou

comportamentais.

Biomedical Information Science and Technology

Initiative Consortium (BISTI - NIH)

Roberta A. Campos PhD, MSc, PD

Page 14: Pos Usp Ngs Big Data Parte 2

Repositórios de Dados Biológicos

1965 – Atlas of Protein Sequences and Structure

(Dayhoff et al.) - ~1Mb

1982 – GenBank – 1988 – NCBI – National

Center for Biotechnology Information

1997 – EMBL – European Molecular Biology

Laboratory

1986 – DDBJ – DNA Data Bank of Japan

Roberta A. Campos PhD, MSc, PD

Page 15: Pos Usp Ngs Big Data Parte 2

International Nucleotide Sequence Database

Colaboration

2008

98.868.465 seqüências

99.116.431.942 bases

1982

606 seqüências

2.427 bases

Roberta A. Campos PhD, MSc, PD

Page 16: Pos Usp Ngs Big Data Parte 2

Era “Pós-Genoma”

"O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS)

Genômica Estrutural

◦ Construção de mapas genéticos, físicos e de transcrição de um organismo.

Genômica Funcional

◦ Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.

Roberta A. Campos PhD, MSc, PD

Page 17: Pos Usp Ngs Big Data Parte 2

Projetos “omas”

x

Pesquisa Clássica em Genética e

Bioquímica

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Nova Onda NGS

Roberta A. Campos PhD, MSc, PD

Page 18: Pos Usp Ngs Big Data Parte 2

Genômica Funcional: Análise de Expressão

Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+

Métodos de Bioinformática

(Genome-wide expression “profiling”) Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Roberta A. Campos PhD, MSc, PD

Page 19: Pos Usp Ngs Big Data Parte 2

Últimos anos – NGS Era

2006

...

Next-Generation Sequencing Revollution

2003

Conclusão do

Projeto Genoma

Humano

2008

1000 Genomes

Project

2005 2007

Sequenciamento do Genoma

Diplóide de um único indivíduo

(Craig Venter)

The diploid genome sequence of

an individual human.

(Levy, S. et al. 2007)

Legião de Sequenciadores

ABI 3730 no JCVI

Genoma James D. Watson

Sequenciamento com 454

Roberta A. Campos PhD, MSc, PD

Page 20: Pos Usp Ngs Big Data Parte 2

NEW GENERATION SEQUENCING AND APPLICATIONS

Roberta A. Campos PhD, MSc, PD

Page 21: Pos Usp Ngs Big Data Parte 2

Nova Geração de Sequenciadores

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl

• Aumento na quantidade de Dados

• IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)

• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x)

em questão de poucos dias);

• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);

• Redução do custo por base sequenciada.

PLATÔ

TECNOLOGIA

Roberta A. Campos PhD, MSc, PD

Page 22: Pos Usp Ngs Big Data Parte 2

Resumo das plataformas

http://www.illumina.com/

http://www.my454.com/

http://www.appliedbiosystems.com.br/ Roberta A. Campos PhD, MSc, PD

Page 23: Pos Usp Ngs Big Data Parte 2

Trade-offs in Next Generation

Sequencing technologies

NHGRI Current Topics in Genome Analysis 2010

Elliott Margulies, Ph.D Roberta A. Campos PhD, MSc, PD

Page 24: Pos Usp Ngs Big Data Parte 2

NGS no mundo

http://pathogenomics.bham.ac.uk/hts/ Roberta A. Campos PhD, MSc, PD

Page 25: Pos Usp Ngs Big Data Parte 2

Novas promessas

HeliScope

◦ Helicos BioSciences

ION Torrent

◦ Applied Biosystems

PacBio RS

◦ Pacific Biosciences

2008

2010

2010

Roberta A. Campos PhD, MSc, PD

Page 26: Pos Usp Ngs Big Data Parte 2

Produtividade

[Stratton MR, et al. 2009]

Roberta A. Campos PhD, MSc, PD

Page 27: Pos Usp Ngs Big Data Parte 2

Aplicacao Biotecnologica

i5K

◦ 5000 genomas de insetos

importância especialmente para a agricultura.

Genome10K

◦ 10000 genomas de vertebrados

diversidade genética entre vertebrados;

1001 Genomes

◦ 1001 genotipos de Arabdopsis thaliana

planta modelo, base de estudos outras plantas;

1KP

◦ 1000 genomas de plantas

desenvolvimentos de produtos biotecnológicos.

Roberta A. Campos PhD, MSc, PD

Page 28: Pos Usp Ngs Big Data Parte 2

“Counting Experiments”

Roberta A. Campos PhD, MSc, PD

Page 29: Pos Usp Ngs Big Data Parte 2

Análise RNA-Seq RNA-Seq

RNA-Seq – Quantificação da expresão dos genes no transcriptoma

Roberta A. Campos PhD, MSc, PD

Page 30: Pos Usp Ngs Big Data Parte 2

Análise ChIP-Seq ChIP-Seq

ChIP – Chromatin ImunoPreciptation

High-Throughput sequencing

ChIP-Seq – Estudo da estrutura da cromatina

Padrão de metilação de histonas no genoma

humano

Uma das primeiras publicações utilizando

Illumina 1G Genome Analyzer

Reproducibilidade

r = 0.906 (p-value < 2.2e-16).

ChIP

-Seq X

GM

AT

(G

enom

e-w

ide

Mappin

g Te

chniq

ue)

Roberta A. Campos PhD, MSc, PD

Page 31: Pos Usp Ngs Big Data Parte 2

Análise Methyl-Seq Methyl-Seq

DNA treatment with methyl-sensitive restriction enzymes

(HpaII - não metilada, MspI - indiferente)

High-Throughput sequencing

Methyl-Seq – Estudo de padrões de metilação do

DNA em hESCs, células derivadas de hESCs e fígado

fetal humano

methylation status:

presence or absence of HpaII tags:

average tag count > 1 unmethylated

AUC = 0.94

Methyl-Seq x Illumina Infinium

Roberta A. Campos PhD, MSc, PD

Page 32: Pos Usp Ngs Big Data Parte 2

Análise microRNA-Seq microRNA-Seq

small RNA library (mirVana miRNA Isolation Kit)

High-Throughput sequencing

microRNA-Seq – Caracterização dos miRNAs

expressos em tecido gástrico humano (cardia -

estômago)

Plataforma SOLiD

qRT-PCR

2 -∆Ct

Pearson correlation (SOLiDxqRTPCR)

r2 = 83.9 (p-value < 0.05)

Roberta A. Campos PhD, MSc, PD

Page 33: Pos Usp Ngs Big Data Parte 2

Análise de Vias Biológicas

Vias metabólicas/regulatórias

relacionadas JASMONATO

em plantas em diferentes

contextos ecologicos

Roberta A. Campos PhD, MSc, PD

Page 34: Pos Usp Ngs Big Data Parte 2

Interações entre Proteínas

Cobertura

Ontologia - Paralogia

Regioes Conservadas

Problemas de ANOTACAO!!!

Estima-se que 20% de anotacoes erradas!!!

Roberta A. Campos PhD, MSc, PD

Page 35: Pos Usp Ngs Big Data Parte 2

Análise de Interações entre

Proteínas – Redes Baysianas

Protein–protein interactions networks

for mutated genes in HCC1954 (A)

and HCC1954BL (B).

Roberta A. Campos PhD, MSc, PD

Page 36: Pos Usp Ngs Big Data Parte 2

Biologia Sistêmica – “New hit”

Estudo das interações entre as componentes de um

sistema biológico, e como essas interações fazem

emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling,

understanding and ultimately engineering at the

molecular level the dynamic relationships between the

biological molecules that define living organisms “

Leroy Hood

Roberta A. Campos PhD, MSc, PD

Page 37: Pos Usp Ngs Big Data Parte 2

CONCLUSÃO

Roberta A. Campos PhD, MSc, PD

Page 38: Pos Usp Ngs Big Data Parte 2

Perguntas?

Roberta Alvares Campos

OBRIGADA !!!

Roberta A. Campos PhD, MSc, PD

Page 39: Pos Usp Ngs Big Data Parte 2

ABORDAGENS EM GRUPOS

Brain storm

Roberta A. Campos PhD, MSc, PD

Page 40: Pos Usp Ngs Big Data Parte 2

Resumo de Aplicações

Category - NGS Examples of applications

Complete genome resequencing Comprehensive polymorphism and mutation discovery in

individual human genomes

Reduced representation sequencing - Draft Large-scale polymorphism discovery

Targeted genomic resequencing Targeted polymorphism and mutation discovery

RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation

Metagenomic sequencing Discovery of infectious and flora

Transcriptome sequencing

Quantification of gene expression and alternative splicing;

transcript annotation; discovery of transcribed SNPs or

somatic mutations.

Small RNA sequencing microRNA profiling

Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic

DNA

Chromatin immunoprecipitation– sequencing

(ChIP-Seq) Genome-wide mapping of protein-DNA interactions

Nuclease fragmentation and sequencing Nucleosome positioning

Molecular barcoding - NGS Multiplex sequencing of samples from multiple individuals

[Shendure, J & Ji, H, 2008]

Roberta A. Campos PhD, MSc, PD