Introducción a Microsoft Azure SQL Data Warehouse

80
José Redondo Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ [email protected] | @redondoj | redondoj.wordpress.com Introducción a Microsoft Azure SQL Data Warehouse

Transcript of Introducción a Microsoft Azure SQL Data Warehouse

Page 1: Introducción a Microsoft Azure SQL Data Warehouse

José RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA [email protected] | @redondoj | redondoj.wordpress.com

Introducción aMicrosoft AzureSQL Data Warehouse

Page 2: Introducción a Microsoft Azure SQL Data Warehouse

Expositor• CEO de EntornoDB, USA• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos

y Big Data• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y

Java• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle• Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y

Estados Unidos • SQL Server MCP - MSTS – MTA• DPA SolidQ • Contributing Technical Reviewer Packt Publishing• Microsoft SQL Server MVP

Page 3: Introducción a Microsoft Azure SQL Data Warehouse

Introducción a Microsoft AzureSQL Data Warehouse

Page 4: Introducción a Microsoft Azure SQL Data Warehouse

• Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos"• Arquitectura: Microsoft APS (Analytics Platform System)• Hadoop & PolyBase• Performance y Escalabilidad• Beneficios• Resumen• Preguntas y Respuestas

Agenda

Page 5: Introducción a Microsoft Azure SQL Data Warehouse

Análisis: La Tradicional "Bodega de

datos“ y La Moderna "Bodega de datos"

Page 6: Introducción a Microsoft Azure SQL Data Warehouse

Microsoft & Bodega de Datos

ParallelData Warehouse

v1

Data Allegro en Windows y SQL. Primera aplicación de

DW por MSFT en colaboración con Dell y HP

Microsoft Adquiere

Data Allegro

Empresas han consultado la forma mas eficiente de

llevar MPP (Massively Parallel Processing) al entorno de SQL Server

Lanzamiento deFast Track

Data Warehouse

Arquitectura de referencia DW basadas en las

mejores prácticas SMP DW (Symmetric Multi-

Processing Data Warehousing) ofrecidas

con los principales socios de H/W

2008 2010 2011

Page 7: Introducción a Microsoft Azure SQL Data Warehouse

Microsoft & Bodega de Datos

Azure SQLData Warehouse

Service

Introducción del servicio de Azure SQL Data

Warehouse basado en las capacidades MPP (Massively Parallel Processing) de APS (Analytics Platform

System)

ParallelData Warehouse

v2

Producto rediseñado ofreciendo nuevos factores

de forma y una mejor relación

Precio/Rendimiento.

Analytics Platform System

(APS)

Introducción de Hadoop a la región dentro de la

aplicación y nuevo nombramiento para

reflejar las más amplias capacidades de Big Data

2013 2014 2015

Page 8: Introducción a Microsoft Azure SQL Data Warehouse

APS y SQL DW: Estrategia Hibrida

DATA WAREHOUSE(Ahora)

APS AU4 (On-Premises)DW Service (Cloud)

DATA WAREHOUSE(Antes)

APS (On-Premises)

Page 9: Introducción a Microsoft Azure SQL Data Warehouse

APS y SQL DW: Estrategia Hibrida

Continuar liderando e innovando en el escenario DW

Roadmap DWLo que se puede hacer con APS, se puede hacer con el servicio de DW; y viceversa en el futuro

Acuerdo HíbridoAlternativa (On-Premises o Cloud)Mejor juntos (On-Premises y Cloud)

12

3

Page 10: Introducción a Microsoft Azure SQL Data Warehouse

La Tradicional Bodega de Datos

Orígenes de Datos

OLTP ERP CRM LOB

Incrementando el volumen de datos1

Datos No Relacionales

Devices

Web Sensors

Social

Nuevos orígenes y tipos de datos

2

Page 11: Introducción a Microsoft Azure SQL Data Warehouse

La tradicional Bodega de Datos

Datos originados desde la nube

3

Page 12: Introducción a Microsoft Azure SQL Data Warehouse

La tradicional Bodega de Datos

ETL

Data warehouse

BI y Analytics

Consumidores de datos44

Page 13: Introducción a Microsoft Azure SQL Data Warehouse

El Moderno Almacén de Datos

INFRAESTRUCTURA

GESTIÓN Y PROCESAMIENTO DE DATOS

CONSULTAS FEDERADAS Y ENRIQUECIMIENTO DE DATOS

BI Y ANALYTICS

Self-service ColaboraciónEmpresarial PredictivoMobile

Extraer, Transformar & Cargar

Modelo de Consultas Sencillas Calidad de Datos Master Data

Management

No RelacionalRelacional Analítico Streaming Interno & Externo

Orígenes de Datos

OLTP ERP CRM LOB

Datos No Relacionales

Devices

Web Sensors

Social

Page 14: Introducción a Microsoft Azure SQL Data Warehouse

Paralelismo

• Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa

• Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)

• Los Segmentos se comunican a través de la red de alta velocidad entre Nodos

MPP - Procesamiento en Paralelo Masivo

•Múltiples CPU's solía completar distintos procesos simultáneamente•Todas las CPU comparten la misma memoria, los discos y los controladores de red (Scale-Up)•Todas las implementaciones de SQL Server hasta ahora han sido SMP•Sobre todo, la solución se encuentra en un SAN compartido

SMP - Multiprocesamiento Simétrico

Page 15: Introducción a Microsoft Azure SQL Data Warehouse

Arquitectura: Microsoft APS

(Analytics Platform System)

Page 16: Introducción a Microsoft Azure SQL Data Warehouse

Arquitectura lógica

Nodo “Control”

SQL

DMS

Nodo “Control” – La “Razón de Ser” de SQL Data Warehouse• También funciona con Azure

SQL Server DB• Mantiene una copia del

"Interprete de comando o Shell" de cada base de datos• Metadatos, Estadísticas, etc.

• El "Rostro Público" de la Aplicación

Page 17: Introducción a Microsoft Azure SQL Data Warehouse

Arquitectura lógicaNodo “Compute” Almacenamient

o BalanceadoSQL

DMS

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

Nodo de Computo - La "Abeja Obrera" de SQL Data Warehouse• Ejecuta Azure SQL Server DB• Contiene una “Parte o Slice"

de cada base de datos• CPU está saturado por el

almacenamiento

Page 18: Introducción a Microsoft Azure SQL Data Warehouse

Arquitectura lógicaData Movement Services (DMS)• Parte del "Condimento

secreto" de SQL Data Warehouse

• Mueve los datos alrededor de su contexto según sea necesario

• Permite operaciones paralelas entre los nodos de cómputo (Consultas, cargas, etc.)

Nodo “Compute” Almacenamiento Balanceado

SQL

Nodo “Compute” Almacenamiento Balanceado

SQL

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

DMS

DMS

Page 19: Introducción a Microsoft Azure SQL Data Warehouse

Arquitectura lógicaNodo “Compute” Almacenamient

o BalanceadoSQL

Nodo “Control”SQL

Nodo “Compute” Almacenamiento Balanceado

SQL

Nodo “Compute” Almacenamiento Balanceado

SQL

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS

DMS

DMS

DMS

DMS

Page 20: Introducción a Microsoft Azure SQL Data Warehouse

Opciones de la capa de datosNodo “Compute”

Almacenamiento BalanceadoSQL

Almacenamiento Balanceado

Nodo “Compute”

SQL

Nodo “Compute”

SQL

Nodo “Compute”

SQL

DMS

DMS

DMS

DMS

Time DimDate Dim IDCalendar YearCalendar QtrCalendar MoCalendar Day

Store DimStore Dim

IDStore NameStore MgrStore Size

Product DimProd Dim ID

Prod CategoryProd Sub CatProd Desc

Customer Dim

Cust Dim IDCust NameCust AddrCust PhoneCust Email

Sales FactDate Dim IDStore Dim IDProd Dim IDCust Dim IDQty SoldDollars Sold

TD

PD

SD

CD

TD

SD

TD

PD

SD

CD

TD

SD

Sale

s Fac

t

Replicado

Tabla copiada a cada "Nodo Compute"

DistribuidoPublicación de la Tabla a través de los nodos de cómputo basado en el "Hash"

Esquema Estrella

Almacenamiento Balanceado

Almacenamiento Balanceado

PD

CD

PD

CD

Page 21: Introducción a Microsoft Azure SQL Data Warehouse

Distribución de los datos

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

Nodo Control

…Nodo Compute 1

Nodo Compute 2

Nodo Compute X

Envia Create Table SQL a cada “Nodo Compute”Create Table FactSales_ACreate Table FactSales_BCreate Table FactSales_C……Create Table FactSales_H

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

La metadata del Create Table en el Nodo Control CREATE TABLE FactSales

(ProductKey INT NOT NULL ,OrderDateKey INT NOT NULL ,DueDateKey INT NOT NULL ,ShipDateKey INT NOT NULL ,ResellerKey INT NOT NULL ,EmployeeKey INT NOT NULL ,PromotionKey INT NOT NULL ,CurrencyKey INT NOT NULL ,SalesTerritoryKey INT NOT NULL ,SalesOrderNumber VARCHAR(20) NOT NULL,

) WITH (

DISTRIBUTION = HASH(ProductKey),

CLUSTERED INDEX(OrderDateKey) ,

PARTITION(OrderDateKey RANGE RIGHT FOR VALUES

( 19950601, 19950901,

) ) );

Page 22: Introducción a Microsoft Azure SQL Data Warehouse

APSBalanceo equilibrado de carga entre servidores

Tablas mas grandes 600,000,000,000

Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks)

15,000,000,000

En cada servidor aleatoriamente distribuido en 8 tablas (Por consiguiente hasta 320 tablas en total) 1,875,000,000

Cada partición = 2 años de datos particionados por semana (Beneficiando todas las consultas por fecha) 18,028,846

Page 23: Introducción a Microsoft Azure SQL Data Warehouse

APSBalanceo equilibrado de carga entre servidores

Como un usuario final o un DBA que piensa en 1 tabla. Ejemplo: LineItem.

“SELECT * FROM LineItem” está dividido en 320 consultas en paralelo contra 320 (1.875 billones de registros) tablas.

“SELECT * FROM LineItem WHERE OrderDate = ‘1/1/2012’" son 320 consultas en 320 (18 millones de registros) tablas.

Es totalmente irrelevante el saber que en realidad existan 320 tablas que representan 1 tabla lógica.

CCI (Clustered Columnstore Index) puede agregar mayor rendimiento mediante la eliminación del segmento.

Page 24: Introducción a Microsoft Azure SQL Data Warehouse

Introduciendo el Servicio Azure SQL DWUn almacén de datos relacionales "as-a-service", totalmente gestionado por Microsoft.La primera empresa con servicios flexible de almacenamiento de datos en la nube con capacidades de nivel empresarial.Soporte a su más pequeñas necesidades de almacenamiento de datos más grandes durante la gestión de consultas hasta 100 veces más rápido.

Page 25: Introducción a Microsoft Azure SQL Data Warehouse

Introduciendo el Servicio Azure SQL DWLíder del mercado en precio y rendimiento

Simple cálculo de facturación y almacenamientoPagar por lo que se necesita, cuando usted lo necesite con pausas dinámicaTraer su DW a la nube sin tener que reescribir

Escalabilidad y Rendimiento Flexible

Escala hasta Petabytes de datosProcesamiento masivamente paraleloEscalamiento al instante de computación en segundosConsultas Relacionales / No-Relacionales

Comience en minutosIntegrado con Azure ML (Machine Learning), PowerBI y ADF (Application Development Framework)Preparado para las empresas de hoy

Desarrollado por la Nube

Page 26: Introducción a Microsoft Azure SQL Data Warehouse

Desplegar rápidamente y obtener una visión

Abastecer Cargar Consultar

Un cluster SQL DWen minutos

Ship DisksAzure StorageHDInsightHerramientas de migración

Todos los Tipos deDatos Analíticos conPower BI + ML

Automatizar el flujo de trabajo via Azure Data Factory

Page 27: Introducción a Microsoft Azure SQL Data Warehouse

Flexibilidad en tiempo real• Produzca alternativas de grandes

cargas de trabajo, generando períodos bajos de actividad diaria.

• Obtenga tiempo de visualizar requerimientos basado en lo que usted necesita, cuando usted lo necesita.

• Elija el combo de cálculo y almacenamiento de información que satisfaga sus necesidades.

Page 28: Introducción a Microsoft Azure SQL Data Warehouse

Flexibilidad en tiempo realCambie el

Tamaño en menos de un

Minuto

ComputaciónBajo Demanda

De Cualquier Tamaño a

Cualquier Tamaño

Page 29: Introducción a Microsoft Azure SQL Data Warehouse

Cuando está en Pausa, Pague sólo por AlmacenamientoUtilícelo sólo cuando lo necesite, sin recargar o restaurar datos

Ahorre costos con paradas dinámicas y reinicios inmediatos• Cuando está en pausa, el almacenamiento en la

nube a gran escala es de costo mínimo.• Basado en políticas (Es decir, noches y fines de

semana)• Automatice mediante PowerShell & REST API• Los datos permanecen en su lugar

Page 30: Introducción a Microsoft Azure SQL Data Warehouse

SQL DW:Desarrollado sobre SQL DB Foundation

FlexibleEscalabilidad a

PetabytesOptimizado para DW

99.99% de tiempo de actividad SLA*

Geo-Restauración

Cumplimiento de normas en Azure(ISO, HIPAA, EU, etc.)

Verdadera Experiencia SQL ServerMagnificas herramientas de trabajo

SQL DW

SQL DBNiveles de servicio

* Service Level Agreement - Acuerdo de nivel de servicio

Page 31: Introducción a Microsoft Azure SQL Data Warehouse

Unidad de Almacenamiento de Datos (DWU)

Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de hardware

Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las filas de registros son escaneadas, cargadas, copiadas, etc.

Medidas de Poder

Transparencia

Primer servicio de DW para ofrecer potencia de cálculo bajo demanda, independientemente de almacenamiento a requerir.

Bajo Demanda

Page 32: Introducción a Microsoft Azure SQL Data Warehouse

Unidad de Almacenamiento de Datos (DWU)

Escaneo de 1 Billón de registros*

100 DWU = 297 seg400 DWU = 74 seg800 DWU = 37 seg1,600 DWU = 19 seg

* Estimaciones preliminares. Los resultados reales pueden variar

Velocidad de Lectura

3.36M reg/seg

Tasa de Carga 130K reg/segTable Copy Rate 350K reg/seg

100 DWU*

Page 33: Introducción a Microsoft Azure SQL Data Warehouse

Hadoop & PolyBase

Page 34: Introducción a Microsoft Azure SQL Data Warehouse

Qué es Hadoop?

34

Core Services

OPERATIONAL SERVICES

DATASERVICES

HDFS

SQOOP

FLUME

NFS

LOAD & EXTRACT

WebHDFS

OOZIE

AMBARI

YARN

MAP REDUCE

HIVE &HCATALOGPIG

HBASEFALCON

Hadoop Clustercompute

&storage . . .

. . .

. .compute

&storage

.

.

Hadoop Clusters proporcionan almacenamiento de escalabilidad horizontal y procesamiento de datos distribuido en el hardware en cada uno de los servicios básicos

.

.

.

Page 35: Introducción a Microsoft Azure SQL Data Warehouse

Qué es Hadoop? Distribuido, Sistema Escalable en

componentes de Hardware Compuesto de unas pocas partes:

HDFS – Sistema Distribuido de Archivos

MapReduce – Modelo de Programación

Otras herramientas: Hive, Pig, SQOOP, HCatalog, HBase, Flume, Mahout, YARN, Tez, Spark, Stinger, Oozie, ZooKeeper, Flume, Storm

Page 36: Introducción a Microsoft Azure SQL Data Warehouse

Qué es Hadoop?

Los principales actores son Hortonworks, Cloudera, MapR

ADVERTENCIA: Hadoop es ideal para el procesamiento de grandes volúmenes de datos PERO es insuficiente para el análisis de los datos en tiempo real (Las empresas hacen análisis de lotes en su lugar)

Page 37: Introducción a Microsoft Azure SQL Data Warehouse

Consulta de datos no estructurados mediante Polybase/T-SQL

Instancia SQL DW

Escalabilidad de computo

Hadoop VMs /Azure StoragePolyBa

se

Page 38: Introducción a Microsoft Azure SQL Data Warehouse

Consulta de datos no estructurados mediante Polybase/T-SQL

• Permite capacidades de consultar a través de distribuciones de Hadoop comunes (HDP y Cloudera) y formatos de archivo de Hadoop en Azure Storage.

• Permite el aprovechamiento de las habilidades de SQL existentes y herramientas de BI

• Soporta múltiples formatos de archivo no relacionales

• Mejora el ciclo de conocimiento y conceptualización de ideas y generación de ETL simplificado

Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales

Page 39: Introducción a Microsoft Azure SQL Data Warehouse

Consultar datos Hadoop con T-SQL utilizando PolyBaseReunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT

Select… Result set

SQL DW

Cloudera CHD Linux 4.6Hortonworks HDP 2.1 (Windows, Linux)

Windows AzureHDInsight (HDP 2.1) (HDFS)

PolyBase

SQL DW

Otros (SQL Server, DB2, Oracle)?Verdaderos motores de consultas federadas

Windows Azure Storage-Blob (WASB)

Page 40: Introducción a Microsoft Azure SQL Data Warehouse

Consultar datos Hadoop con T-SQL utilizando PolyBaseReunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT

Consu l tas Re lac iona les +No Re lac iona les

• Proporciona un modelo único de consulta T-SQL ("Capa semántica") para APS y Hadoop con ricas características de T-SQL, incluyendo uniones sin ETL

• Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas

• Compatible con Windows Azure HDInsight para habilitar nuevos escenarios de nube híbrida

• Proporciona la capacidad de consulta de las distribuciones de Hadoop no Microsoft, como Hortonworks y Cloudera

• Usar habilidades SQL existente, sin intervención de personal IT

Page 41: Introducción a Microsoft Azure SQL Data Warehouse

Use cases where PolyBase simplifies using Hadoop dataBringing islands of Hadoop data together

High performance queries against Hadoop data

(Predicate pushdown)Archiving data warehouse data to Hadoop (move)

(Hadoop as cold storage)

Page 42: Introducción a Microsoft Azure SQL Data Warehouse

Los casos de uso donde PolyBase simplifica los datos utilizando HadoopRecopilar todos los escollos de datos HadoopExportación datos relacionales a Hadoop (Copia)

(Hadoop como Copia de seguridad,Análisis, Uso On-Premise)Importación de datos Hadoop dentro del data

warehouse (Copia) (Hadoop como área Staging, Sandbox, Data Lake)

Page 43: Introducción a Microsoft Azure SQL Data Warehouse

Comprendiendo Big Data para cualquier personaIntegración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas

Herramientas como Power BI reduce al mínimo la intervención para descubrir datosT-SQL para DBA y Usuarios para unirse a datos relacionales y Hadoop

Herramientas Hadoop como Map-Reduce, Hive y Pig para Data Scientists

Aprovecha alta adopción de Excel, Power View, Power Pivot y SSSA

Page 44: Introducción a Microsoft Azure SQL Data Warehouse

Usuarios Finales

Data Scientist

Todo el mundo utilizando herramientas de Microsoft BI

Comprendiendo Big Data para cualquier personaIntegración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas

Page 45: Introducción a Microsoft Azure SQL Data Warehouse

Escalando datos relacionales hasta PetabytesTecnologías de escalabilidad en SQL Data Warehouse

Procesamiento Paralelo Masivo (MPP) paraleliza las consultas (No basada en la capacidad impulsada por velocidad)

Múltiples nodos con CPU dedicada, memoria, almacenamiento "No compartido"

Añade incrementalmente Hardware para la escala casi lineal al multi-PB (No es necesario eliminar los datos más antiguos entre otros)

Maneja escalablemente la complejidad de las consultas y las concurrencia a las mismas

Page 46: Introducción a Microsoft Azure SQL Data Warehouse

No "Forklift" del almacén antes de aumentar la capacidad

Comenzar con unos almacenes de tamaño de Terabyte

Soporte mixto para la carga de trabajo: Consulta mientras se carga (250GB/hora por nodo). No hay necesidad de activar una ventana de mantenimiento

Escalando datos relacionales hasta PetabytesTecnologías de escalabilidad en SQL Data Warehouse

Page 47: Introducción a Microsoft Azure SQL Data Warehouse

Performance y Escalabilidad

Page 48: Introducción a Microsoft Azure SQL Data Warehouse

Rápido y efectivo rendimientoMPP y In-Memory Columnstore para un rendimiento de próxima generaciónRepresentación del índice de

Columnstore

C1

C3

C5

C4

C2

C6

Ejecución de consultas en paralelo

Query

Resultados

Page 49: Introducción a Microsoft Azure SQL Data Warehouse

Rápido y efectivo rendimientoMPP y In-Memory Columnstore para un rendimiento de próxima generación

• Almacenar datos en formato de columnas para la compresión masiva

• Cargar datos dentro o fuera de la memoria para un rendimiento de próxima generación

• Actualizable y agrupado para carga lenta en tiempo real

• No hay índices secundarios requeridos

Consultas más rápidas de hasta

100x

Columnstore agrupados actualizable vs. Tablas con indexación habitual

Hasta compresión de

mas de 15x

Page 50: Introducción a Microsoft Azure SQL Data Warehouse

Resultados de los Servicios de Negocios de la Empresa antes y después

SMP vs. APS 54xde mejora cargando datos(48 horas vs. 53 minutos)25x, 193x, de mejora en la ejecución de las consultas (4 días y 6 horas vs. 32 minutos)

Page 51: Introducción a Microsoft Azure SQL Data Warehouse

1.4 TB/hr tiempo de carga (7 billones de registros) (1.21TB en 53:20)Con las misma herramientas de trabaja de Microsoft BI conocidas

Resultados de los Servicios de Negocios de la Empresa antes y después

SMP vs. APS

Page 52: Introducción a Microsoft Azure SQL Data Warehouse

Las DWU serán de doble rendimiento

9.4x compresión (7 billones de registros) (De 1.7TB a 179GB)

Resultados de los Servicios de Negocios de la Empresa antes y después

SMP vs. APS

Page 53: Introducción a Microsoft Azure SQL Data Warehouse

Visión y Arquitectura general del flujo de datos

Stream Analytics

TransformaciónCapturar

Web logs

Presentación & Toma de

decisiones

IoT, Dispositivos móviles, etc.

Social Data

Event Hubs HDInsight

Azure Data Factory

Azure SQL DB

Azure Blob Storage

Azure Machine Learning

(Detección de Fraude, etc.)

Power BI

Web dashboards

Dispositivos móviles

DW / Almacenamiento

a Largo PlazoAnálisis Predictivo

Eventos & Producción de

datos

Azure SQL DW

Page 54: Introducción a Microsoft Azure SQL Data Warehouse

Llevar fácilmente tu DW a la nube• Migración transparente de una

variedad de orígenes On-Premise y Cloud

• Carga rápida, coherente y estable para la migración

• Herramientas de migración integradas con soporte para todos las cargas de trabajo

Page 55: Introducción a Microsoft Azure SQL Data Warehouse

Importar /

Exportar

Acelerador de

migraciónExpressRo

uteEnviar grandes volúmenes de datos en medios físicos.

Hacer la migración a Azure, simple y completamente administrado.

Traslado con conexiones privadas, aceleradas a Azure.

Llevar fácilmente tu DW a la nube

Page 56: Introducción a Microsoft Azure SQL Data Warehouse

Migración SQL Data Warehouse Services - Detalles

1. Acelerador de Migración2. Importar/Exportar3. ExpressRoute/Herramientas de Carga

Page 57: Introducción a Microsoft Azure SQL Data Warehouse

Opciones de Carga de Datos

Gestor DWSSorprendentemente rápido cargador personalizado para APS/DWS

BulkLoad APICargas sin caidas desde y hacia Archivos/SQL SMP (Symmetric Multi-Processing)

SSISParidad con habilidades en las instalaciones de potente suite de carga

PolyBaseMovimiento de datos avanzados y profunda integración con Hadoop

AttunityReplica datos desde la 1/3 parte del almacenamiento de la información en todo el mundo

InformaticaMigrar paquetes avanzados de Informatica directamente a Azure

010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001

010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001

• Gran ecosistema de potentes herramientas ETL

• Cargar directamente de una variedad de fuentes de orígenes

• Cargas de forma transparente paralelizados• Estabilidad y consistencia garantizada

Page 58: Introducción a Microsoft Azure SQL Data Warehouse

Ecosistema de socios muy bien extensible de SQL Server

+ Establecido con Azure ML, HDInsight, PowerBI, ADF, y mas.+ El Ecosistema más amplio de la industria de los socios de Data Warehouse, incluyendo Tableau, Informatica, Attunity, y SAP. Azure ML

Azure Event Hub

Azure StreamAnalytics

AzureHDInsight

Power BI

Microsoft

Page 59: Introducción a Microsoft Azure SQL Data Warehouse

Ecosistema de socios muy bien extensible de SQL Server

Despliegue optimizado con el Portal de Azure.Integración profunda con las herramientas de los principales socios incluyendo:• Configuración con un solo clic• Movimiento de datos optimizado• Pushdown lógico

Azure SQL DW

Page 60: Introducción a Microsoft Azure SQL Data Warehouse

Líder en el mercado Precio/Rendimiento• La mejor oferta del

mercado Precio/Rendimiento• Ventajas en elasticidad y

pausa para reducir costos al cliente

• Iniciando con pequeño SQL DW, pudiendo crecer a PB rápidamente sin inconveniente alguno• Pagar por el rendimiento

mediante la ampliación de cómputo contra el almacenamiento

100GB 1TB 2TB

Azure SQL DW

Amazon Redshift

1+PB

Alto Performance SQL

DW

Alta Capacidad SQL DW

Balanceo de carga SQL DW

Perfo

rman

ce

Redshift Dense Compute

Redshift Dense Storage

Page 61: Introducción a Microsoft Azure SQL Data Warehouse

Beneficios

Page 62: Introducción a Microsoft Azure SQL Data Warehouse

Diferencias de SQL DW y Amazon Redshift?

Horas a días para cambiar el tamaño; sólo lectura con degradación de performance

ElasticidadVerdadero y real crecimiento, compactación de objetos de datos y pausar con mínimo tiempo de inactividad.

Amazon Redshift Azure SQL DW

NoPausa/

Reanudar Si!

Relación de cálculo y almacenamiento fijo

SimplicidadPagar por el rendimiento que se necesite con computación escalable de forma independiente y almacenamiento

Híbrido No. AWS solamente. Si. Azure y On-Premises.

No hay soporte para Índices, Procedimientos Almacenados, SQL UDF, Particionamiento, Restricciones

Compatibilidad Real soporte a SQL.

Page 63: Introducción a Microsoft Azure SQL Data Warehouse

Analítica Avanzada definida

Page 64: Introducción a Microsoft Azure SQL Data Warehouse

Ejemplo de AnálisisDescriptivo: ¿Cuántos de nuestros clientes persisten en el último mes? ¿Cuántos de estos clientes son rentable?Diagnostico: Por qué dejaron estos clientes el ser rentables??Predictivo: Cuántos clientes rentables son propensos a dejar el mes que viene?Prescriptivo: Cómo podemos reducir esta tasa de rotación de clientes rentables?

Page 65: Introducción a Microsoft Azure SQL Data Warehouse

Copia de seguridad automática y Geo-RestoreRecuperarse de eliminación de datos o la alteración o desastre

Geo-Replicado

Restauración desde las copias

de seguridad

SQL Data Warehouse Backupssabcp01bl21

Azure Storagesabcp01bl21

Page 66: Introducción a Microsoft Azure SQL Data Warehouse

Copias de seguridad automática cada 4 horas, en el Azure Storage ("Recuperación de desastres") y Geo-Replicado ("alta disponibilidad")Copias de seguridad On-Demand en Azure Storage donde el usuario final puede habilitar la Geo-ReplicaciónREST API, PowerShell o El Portal de AzureExportaciones programadas para la retención a largo plazo

Copia de seguridad automática y Geo-RestoreRecuperarse de eliminación de datos o la alteración o desastre

Page 67: Introducción a Microsoft Azure SQL Data Warehouse

Copia de Seguridad y Restauración en línea basado en copias instantáneas de almacenamientoPolítica de retención de Copias de Seguridad:• Copia de Seguridad

automáticas hasta 35 días• Copias de seguridad bajo

demanda retenidas indefinidamente

Copia de seguridad automática y Geo-RestoreRecuperarse de eliminación de datos o la alteración o desastre

Page 68: Introducción a Microsoft Azure SQL Data Warehouse

Resumen

Page 69: Introducción a Microsoft Azure SQL Data Warehouse

Menos mantenimiento y monitoreo del DBA

• No hay creación de índice• No hay datos eliminados o

archivados para ahorrar espacio• Simplicidad de gestión (System

Center, Consola de Administración, DMVs)

• Sin bloqueo• Sin registros de transacciones• Sin sugerencias de consulta• Sin estados de espera• Sin tuning de IO

Page 70: Introducción a Microsoft Azure SQL Data Warehouse

Menos mantenimiento y monitoreo del DBA

• No hay optimización de consulta / Tuning

• No hay índice para reorganizarlos / reconstruirlos

• No particiones• No hay grupos de archivos

que gestionan• No hay bases de datos para

contraer o expandir• No hay gestión de servidores

físicos• No hay servidores y software

de parchado

RESULTADO: DBA invierten más de su tiempo como arquitectos y no perdedera de tiempo en tonterías!

Page 71: Introducción a Microsoft Azure SQL Data Warehouse

Mejor juntos – SQL DW con APS

SQL ServerParallel

DataWarehous

e

Microsoft HDInsigh

t(Hadoop)

PolyBase

Azure ML

Azure Event Hub

Azure Stream Analytics

Azure HDInsight

Power BI

Microsoft

SQL DW Service

Analytics Platform System

Page 72: Introducción a Microsoft Azure SQL Data Warehouse

Mejor juntos – SQL DW con APSUtilizar el servicio de SQL DW o APS como su solución de recuperación ante desastres con carga Dual

Recuperación de Desastres

Los Datos Históricos al Servicio de SQL DW pero manteniendo completo el poder de MPP en ejecución

Datos HistóricosRestricciones y políticas de las Empresas

Pruebas / Desarrollo o Producción

Almacenar datos en APS que la política de la empresa prohíbe estar en la nube

Poner a prueba nuevas ideas en el servicio de SQL DW antes de salir a producción en APS

Page 73: Introducción a Microsoft Azure SQL Data Warehouse

Lo que esta por venir…

Preview Publica GA

Verano 2015Preview Publica• Pausada y Reanudada Dinámica• Integración con la Plataforma de Servicio de

Azure (CloudML, ADF, HDInsight, SQL-IP)• Integración con todo el ecosistema de los

Partners de SQL Server• Geo-Restauración• Servicio o Aplicación híbrida• PolyBase para la integración a Big Data• T-SQL preparado para las empresas• Primera ola de socio certificados en SQL

A finales 2015/ A comienzo 2016Acuerdo a esperar• Certificado ISO, PCI• Clausula de Modelo HIPAA,

BAA, & EU

Acuerdo de Nivel de Servicio• 99.99% SLA

Page 74: Introducción a Microsoft Azure SQL Data Warehouse
Page 75: Introducción a Microsoft Azure SQL Data Warehouse

Demo SQL Data Warehouse

Page 76: Introducción a Microsoft Azure SQL Data Warehouse

Preguntas y Respuestas

Page 77: Introducción a Microsoft Azure SQL Data Warehouse

Preguntas & Respuestas

Page 78: Introducción a Microsoft Azure SQL Data Warehouse

Recursos• SQL Data Warehouse PREVIEW -

http://bit.ly/1EFEkLz• Partners for Azure SQL Data

Warehouse - http://bit.ly/1EkhcCp• TechEd Europe -

http://bit.ly/1EFEyT4

Page 79: Introducción a Microsoft Azure SQL Data Warehouse

José RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA

[email protected] | @redondoj |

redondoj.wordpress.com

Page 80: Introducción a Microsoft Azure SQL Data Warehouse

CloudFirst CampusLatinoamérica

www.facebook.com/cloudfirstcampus