Introducao ao Amazon Redshift
-
Upload
amazon-web-services-latin-america -
Category
Documents
-
view
597 -
download
7
description
Transcript of Introducao ao Amazon Redshift
Vários Tutoriais , treinamentos e mentoria em
português
Inscreva-se agora !!
http://awshub.com.br
Data Warehousing do jeito AWS
Pague pelo uso
Alta performance a um preço baixo
Suporte a ferramentas padrão (SQL)
Fácil de provisionar
Nosso objetivo foi criar…
Um serviço de DW simples, rápido e escalável. O resultado foi
~ 10x mais rápido
~ 10x menos custo
fácil de usar
Amazon Redshift
Alguns resultados dos Clientes Redshift
Consultas 5x – 20x mais rápidas;
Redução de 4x no custo comparado a HIVE
Redução de 20x – 40x tempo de consulta
Redução de 50% em custo,
Consultas 2x mais rápidas
Amazon Redshift reduz I/O
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados grande
ID Age State Amount
123 20 CA 500
345 25 WA 250
678 40 FL 125
957 37 WA 375
• Não precisa acessar ou retornar
todas as colunas para calcular a
soma de “Amount”
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados grande
• Compressão por coluna reduz o uso de espaço e acelera leitura
• Amazon Redshift pode fazer a escolha para você, automaticamente
analyze compression listing;
Table | Column | Encoding
---------+----------------+----------
listing | listid | delta
listing | sellerid | delta32k
listing | eventid | delta32k
listing | dateid | bytedict
listing | numtickets | bytedict
listing | priceperticket | delta32k
listing | totalprice | mostly32
listing | listtime | raw
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados grande
• Cada bloco registra o valor
mínimo/máximo, em memória.
• Blocos que não vão satisfazer o
filtro, não são lidos.
• O I/O mais rápido é aquele que
não precisa ser feito.
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados grande
• Disco local maximiza a taxa de
transferência
• Hardware otimizado para
processamento de informação
• Bloco grande aproveita cada
acesso
• Amazon Redshift garante a
durabilidade dos dados
Arquitetura do Amazon Redshift
• Nó Líder
– SQL
– Armazena meta-data
– Coordena execução
• Nó Computacional
– Armazenamento local e colunar
– Consultas executam em paralelo
– Carga, Backup/Restore usa Amazon S3
– Carga em paralelo com Amazon DynamoDB
• Opção de nó único disponível
10 GigE (HPC)
Ingestion Backup Restore
JDBC/ODBC
Amazon Redshift usa hardware customizado
HS1.8XL: 128 GB RAM, 16 Cores, 24 discos, 16 TB espaço comprimido, 2 GB/sec taxa de busca
HS1.XL: 16 GB RAM, 2 Cores, 3 discos, 2 TB espaço comprimido
• Otimizado para I/O intenso
• Alta densidade de disco
• Usa HPC – Rede de 10 Gbit/sec
• HS1.8XL disponível no Amazon EC2
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade • Carga em paralelo do S3 ou
DynamoDB
• Dados automaticamente distribuídos
e ordenados de acordo com o DDL
• Escala linearmente com o número de
nós.
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• Backups para S3 é automático,
continuo e incremental
• Período de retenção configurável
• Copias manuais usando API e
console web
• “Streaming restores” possibilitam
estar on-line mais rápido.
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• Ampliação/redução acontece on-line
(leitura)
• Provisionamento invisível
• Dados transferidos em paralelo por nó
• Você só paga o cluster origem durante
o processo.
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• DNS é atualizado automaticamente
• Cluster original é descartado
• Operação simples usando AWS
Console ou API
Amazon Redshift permite que você comece pequeno e cresça
Extra Large Node (HS1.XL) 3 spindles, 2 TB, 16 GB RAM, 2 cores
Nó Único (2 TB)
Cluster 2-32 Nós (4 TB – 64 TB)
8x Extra Large Node (HS1.8XL) 24 spindles, 16 TB, 128 GB RAM, 16 cores, 10 GigE
Cluster 2-100 Nós (32 TB – 1.6 PB)
Amazon Redshift : preço permite analisar todos os seus dados
Preço por Hora/Nó HS1.XL
Preço por Hora/TB Preço por Ano/TB
On-Demand $ 0.850 $ 0.425 $ 3,723
Reserva 1 ano $ 0.500 $ 0.250 $ 2,190
Reserva 3 anos $ 0.228 $ 0.114 $ 999
Preço Simples
Número de nós x Custo por hora
Sem custo para o nó líder
Pague pelo uso
Amazon Redshift é fácil de usar
• Provisionamento em Minutos
• Monitoramento de Performance
• Elasticidade simples
• Segurança embutida
• Backups automáticos
Provisionamento em Minutos
Monitoramento de Performance
Elasticidade simples
Segurança embutida
• SSL garante segurança de transmissão
• Criptografia protege dados em repouso
– AES-256; aceleração por hardware
– Todos os blocos em disco e no Amazon
S3 criptografados
• Sem acesso direto a nós de computação
• Suporta Amazon VPC
10 GigE (HPC)
Ingestion Backup Restore
Customer VPC
Internal VPC
JDBC/ODBC
Amazon Redshift: Operação Simples
• Replicação de dados em múltiplos nos e copia para S3 garante durabilidade.
• Backups para Amazon S3 contínuo, automático e incremental.
– Projetado para 11 noves de durabilidade
• Monitoramento contínuo e recuperação automática de falhas de drives e nós
• Capaz de restaurar para qualquer zona de disponibilidade (AZ) dentro de uma região
Amazon Redshift integra com varias fontes de dados
Amazon
DynamoDB
Amazon Elastic
MapReduce
Amazon Simple
Storage Service (S3)
Amazon Elastic Compute Cloud (EC2)
AWS Storage Gateway Service
Corporate Data Center
Amazon Relational
Database Service
(RDS)
Amazon Redshift
Mais opções em breve …
Amazon Redshift várias opções de carga de dados
• Amazon S3
• AWS Direct Connect
• AWS Import/Export
• Parceiros
Mais opções em breve …
Data Integration
Systems Integrators
Amazon Redshift compatível com suas ferramentas
JDBC/ODBC
Amazon Redshift
Mais opções em breve …
Dicas Práticas para começar com Redshift
• Prepare-se para adaptar seu processo ETL/ELT para tirar vantagem das
características da Amazon Cloud
• Reserve tempo para testar configurações diferentes
– Distkey, sortkey, ,compressão
– Número de nós e filas (WLM)
• Use S3/Glacier para arquivamento de dados (UNLOAD)
• Simule partições cronológicas com tabelas separadas e visões
• Considere Carga -> Duplicação -> Consultas para situações apropriadas
• De-normalize apenas para evitar JOIN onde distkey das tabelas não casa
Mais informações - Q&A
• Eric Ferreira | [email protected] | @ericnf
• http://aws.amazon.com/redshift
• https://aws.amazon.com/marketplace/redshift/
• “Best Practices”
– http://docs.aws.amazon.com/redshift/latest/dg/c_loading-data-best-practices.html
– http://docs.aws.amazon.com/redshift/latest/dg/c_designing-tables-best-practices.html
– http://docs.aws.amazon.com/redshift/latest/dg/c-optimizing-query-performance.html