Introducao ao Amazon Redshift

Eric Ferreira | [email protected] | @ericnf

Senior Database Engineer

Amazon Redshift

mailto:[email protected]

Vários Tutoriais , treinamentos e mentoria em

português

Inscreva-se agora !!

http://awshub.com.br

http://awshub.com.br/

Data Warehousing do jeito AWS

Pague pelo uso

Alta performance a um preço baixo

Suporte a ferramentas padrão (SQL)

Fácil de provisionar

Nosso objetivo foi criar…

Um serviço de DW simples, rápido e escalável. O resultado foi

~ 10x mais rápido

~ 10x menos custo

fácil de usar

Amazon Redshift

Alguns resultados dos Clientes Redshift

Consultas 5x – 20x mais rápidas;

Redução de 4x no custo comparado a HIVE

Redução de 20x – 40x tempo de consulta

Redução de 50% em custo,

Consultas 2x mais rápidas

Amazon Redshift reduz I/O

• Compressão de dados

• “Zone maps”

• Disco local

• Blocos de dados grande

ID Age State Amount

123 20 CA 500

345 25 WA 250

678 40 FL 125

957 37 WA 375

• Não precisa acessar ou retornar

todas as colunas para calcular a

soma de “Amount”




• “Zone maps”

• Disco local


• Cada bloco registra o valor

mínimo/máximo, em memória.

• Blocos que não vão satisfazer o

filtro, não são lidos.

• O I/O mais rápido é aquele que

não precisa ser feito.




• “Zone maps”

• Disco local


• Disco local maximiza a taxa de

transferência

• Hardware otimizado para

processamento de informação

• Bloco grande aproveita cada

acesso

• Amazon Redshift garante a

durabilidade dos dados

Arquitetura do Amazon Redshift

• Nó Líder

– SQL

– Armazena meta-data

– Coordena execução

• Nó Computacional

– Armazenamento local e colunar

– Consultas executam em paralelo

– Carga, Backup/Restore usa Amazon S3

– Carga em paralelo com Amazon DynamoDB

• Opção de nó único disponível

10 GigE (HPC)

Ingestion Backup Restore

JDBC/ODBC

Amazon Redshift usa hardware customizado

HS1.8XL: 128 GB RAM, 16 Cores, 24 discos, 16 TB espaço comprimido, 2 GB/sec taxa de busca

HS1.XL: 16 GB RAM, 2 Cores, 3 discos, 2 TB espaço comprimido

• Otimizado para I/O intenso

• Alta densidade de disco

• Usa HPC – Rede de 10 Gbit/sec

• HS1.8XL disponível no Amazon EC2

Amazon Redshift = Tudo em Paralelo

• Consulta

• Carga de Dados

• Backup/Restore

• Elasticidade


• Consulta

• Carga de Dados

• Backup/Restore

• Elasticidade • Carga em paralelo do S3 ou

DynamoDB

• Dados automaticamente distribuídos

e ordenados de acordo com o DDL

• Escala linearmente com o número de

nós.


• Consulta

• Carga de Dados

• Backup/Restore

• Elasticidade

• Backups para S3 é automático,

continuo e incremental

• Período de retenção configurável

• Copias manuais usando API e

console web

• “Streaming restores” possibilitam

estar on-line mais rápido.


• Consulta

• Carga de Dados

• Backup/Restore

• Elasticidade

• Ampliação/redução acontece on-line

(leitura)

• Provisionamento invisível

• Dados transferidos em paralelo por nó

• Você só paga o cluster origem durante

o processo.


• Consulta

• Carga de Dados

• Backup/Restore

• Elasticidade

• DNS é atualizado automaticamente

• Cluster original é descartado

• Operação simples usando AWS

Console ou API

Amazon Redshift permite que você comece pequeno e cresça

Extra Large Node (HS1.XL) 3 spindles, 2 TB, 16 GB RAM, 2 cores

Nó Único (2 TB)

Cluster 2-32 Nós (4 TB – 64 TB)

8x Extra Large Node (HS1.8XL) 24 spindles, 16 TB, 128 GB RAM, 16 cores, 10 GigE

Cluster 2-100 Nós (32 TB – 1.6 PB)

Amazon Redshift : preço permite analisar todos os seus dados

Preço por Hora/Nó HS1.XL

Preço por Hora/TB Preço por Ano/TB

On-Demand $ 0.850 $ 0.425 $ 3,723

Reserva 1 ano $ 0.500 $ 0.250 $ 2,190

Reserva 3 anos $ 0.228 $ 0.114 $ 999

Preço Simples

Número de nós x Custo por hora

Sem custo para o nó líder

Pague pelo uso

Amazon Redshift é fácil de usar

• Provisionamento em Minutos

• Monitoramento de Performance

• Elasticidade simples

• Segurança embutida

• Backups automáticos

Provisionamento em Minutos

Monitoramento de Performance

Elasticidade simples

Segurança embutida

• SSL garante segurança de transmissão

• Criptografia protege dados em repouso

– AES-256; aceleração por hardware

– Todos os blocos em disco e no Amazon

S3 criptografados

• Sem acesso direto a nós de computação

• Suporta Amazon VPC

10 GigE (HPC)

Ingestion Backup Restore

Customer VPC

Internal VPC

JDBC/ODBC

Amazon Redshift: Operação Simples

• Replicação de dados em múltiplos nos e copia para S3 garante durabilidade.

• Backups para Amazon S3 contínuo, automático e incremental.

– Projetado para 11 noves de durabilidade

• Monitoramento contínuo e recuperação automática de falhas de drives e nós

• Capaz de restaurar para qualquer zona de disponibilidade (AZ) dentro de uma região

Amazon Redshift integra com varias fontes de dados

Amazon

DynamoDB

Amazon Elastic

MapReduce

Amazon Simple

Storage Service (S3)

Amazon Elastic Compute Cloud (EC2)

AWS Storage Gateway Service

Corporate Data Center

Amazon Relational

Database Service

(RDS)

Amazon Redshift

Mais opções em breve …

Amazon Redshift várias opções de carga de dados

• Amazon S3

• AWS Direct Connect

• AWS Import/Export

• Parceiros


Data Integration

Systems Integrators

Amazon Redshift compatível com suas ferramentas

JDBC/ODBC

Amazon Redshift


Dicas Práticas para começar com Redshift

• Prepare-se para adaptar seu processo ETL/ELT para tirar vantagem das

características da Amazon Cloud

• Reserve tempo para testar configurações diferentes

– Distkey, sortkey, ,compressão

– Número de nós e filas (WLM)

• Use S3/Glacier para arquivamento de dados (UNLOAD)

• Simule partições cronológicas com tabelas separadas e visões

• Considere Carga -> Duplicação -> Consultas para situações apropriadas

• De-normalize apenas para evitar JOIN onde distkey das tabelas não casa

Mais informações - Q&A

• Eric Ferreira | [email protected] | @ericnf

• http://aws.amazon.com/redshift

• https://aws.amazon.com/marketplace/redshift/

• “Best Practices”

– http://docs.aws.amazon.com/redshift/latest/dg/c_loading-data-best-practices.html

– http://docs.aws.amazon.com/redshift/latest/dg/c_designing-tables-best-practices.html

– http://docs.aws.amazon.com/redshift/latest/dg/c-optimizing-query-performance.html



http://aws.amazon.com/redshift



https://aws.amazon.com/marketplace/redshift/

https://aws.amazon.com/marketplace/redshift/

http://docs.aws.amazon.com/redshift/latest/dg/c_loading-data-best-practices.html








http://docs.aws.amazon.com/redshift/latest/dg/c_designing-tables-best-practices.html








http://docs.aws.amazon.com/redshift/latest/dg/c-optimizing-query-performance.html








Introducao ao Amazon Redshift

Documents

Transcript of Introducao ao Amazon Redshift