Introducción a Microsoft Azure SQL Data Warehouse

José RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA [email protected] | @redondoj | redondoj.wordpress.com

Introducción aMicrosoft AzureSQL Data Warehouse

Expositor• CEO de EntornoDB, USA• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos

y Big Data• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y

Java• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle• Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y

Estados Unidos • SQL Server MCP - MSTS – MTA• DPA SolidQ • Contributing Technical Reviewer Packt Publishing• Microsoft SQL Server MVP

Introducción a Microsoft AzureSQL Data Warehouse

• Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos"• Arquitectura: Microsoft APS (Analytics Platform System)• Hadoop & PolyBase• Performance y Escalabilidad• Beneficios• Resumen• Preguntas y Respuestas

Agenda

Análisis: La Tradicional "Bodega de

datos“ y La Moderna "Bodega de datos"

Microsoft & Bodega de Datos

ParallelData Warehouse

v1

Data Allegro en Windows y SQL. Primera aplicación de

DW por MSFT en colaboración con Dell y HP

Microsoft Adquiere

Data Allegro

Empresas han consultado la forma mas eficiente de

llevar MPP (Massively Parallel Processing) al entorno de SQL Server

Lanzamiento deFast Track

Data Warehouse

Arquitectura de referencia DW basadas en las

mejores prácticas SMP DW (Symmetric Multi-

Processing Data Warehousing) ofrecidas

con los principales socios de H/W

2008 2010 2011

Microsoft & Bodega de Datos

Azure SQLData Warehouse

Service

Introducción del servicio de Azure SQL Data

Warehouse basado en las capacidades MPP (Massively Parallel Processing) de APS (Analytics Platform

System)

ParallelData Warehouse

v2

Producto rediseñado ofreciendo nuevos factores

de forma y una mejor relación

Precio/Rendimiento.

Analytics Platform System

(APS)

Introducción de Hadoop a la región dentro de la

aplicación y nuevo nombramiento para

reflejar las más amplias capacidades de Big Data

2013 2014 2015

APS y SQL DW: Estrategia Hibrida

DATA WAREHOUSE(Ahora)

APS AU4 (On-Premises)DW Service (Cloud)

DATA WAREHOUSE(Antes)

APS (On-Premises)

APS y SQL DW: Estrategia Hibrida

Continuar liderando e innovando en el escenario DW

Roadmap DWLo que se puede hacer con APS, se puede hacer con el servicio de DW; y viceversa en el futuro

Acuerdo HíbridoAlternativa (On-Premises o Cloud)Mejor juntos (On-Premises y Cloud)

12

3

La Tradicional Bodega de Datos

Orígenes de Datos

OLTP ERP CRM LOB

Incrementando el volumen de datos1

Datos No Relacionales

Devices

Web Sensors

Social

Nuevos orígenes y tipos de datos

2

La tradicional Bodega de Datos

Datos originados desde la nube

3

La tradicional Bodega de Datos

ETL

Data warehouse

BI y Analytics

Consumidores de datos44

El Moderno Almacén de Datos

INFRAESTRUCTURA

GESTIÓN Y PROCESAMIENTO DE DATOS

CONSULTAS FEDERADAS Y ENRIQUECIMIENTO DE DATOS

BI Y ANALYTICS

Self-service ColaboraciónEmpresarial PredictivoMobile

Extraer, Transformar & Cargar

Modelo de Consultas Sencillas Calidad de Datos Master Data

Management

No RelacionalRelacional Analítico Streaming Interno & Externo

Orígenes de Datos

OLTP ERP CRM LOB

Datos No Relacionales

Devices

Web Sensors

Social

Paralelismo

• Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa

• Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)

• Los Segmentos se comunican a través de la red de alta velocidad entre Nodos

MPP - Procesamiento en Paralelo Masivo

•Múltiples CPU's solía completar distintos procesos simultáneamente•Todas las CPU comparten la misma memoria, los discos y los controladores de red (Scale-Up)•Todas las implementaciones de SQL Server hasta ahora han sido SMP•Sobre todo, la solución se encuentra en un SAN compartido

SMP - Multiprocesamiento Simétrico

Arquitectura: Microsoft APS

(Analytics Platform System)

Arquitectura lógica

Nodo “Control”

SQL

DMS

Nodo “Control” – La “Razón de Ser” de SQL Data Warehouse• También funciona con Azure

SQL Server DB• Mantiene una copia del

"Interprete de comando o Shell" de cada base de datos• Metadatos, Estadísticas, etc.

• El "Rostro Público" de la Aplicación

Arquitectura lógicaNodo “Compute” Almacenamient

o BalanceadoSQL

DMS

Nodo “Compute” Almacenamiento Balanceado

SQL

DMS


SQL

DMS


SQL

DMS

Nodo de Computo - La "Abeja Obrera" de SQL Data Warehouse• Ejecuta Azure SQL Server DB• Contiene una “Parte o Slice"

de cada base de datos• CPU está saturado por el

almacenamiento

Arquitectura lógicaData Movement Services (DMS)• Parte del "Condimento

secreto" de SQL Data Warehouse

• Mueve los datos alrededor de su contexto según sea necesario

• Permite operaciones paralelas entre los nodos de cómputo (Consultas, cargas, etc.)


SQL


SQL


SQL

DMS


SQL

DMS

DMS

DMS

Arquitectura lógicaNodo “Compute” Almacenamient

o BalanceadoSQL

Nodo “Control”SQL


SQL


SQL


SQL

DMS

DMS

DMS

DMS

DMS

Opciones de la capa de datosNodo “Compute”

Almacenamiento BalanceadoSQL

Almacenamiento Balanceado

Nodo “Compute”

SQL

Nodo “Compute”

SQL

Nodo “Compute”

SQL

DMS

DMS

DMS

DMS

Time DimDate Dim IDCalendar YearCalendar QtrCalendar MoCalendar Day

Store DimStore Dim

IDStore NameStore MgrStore Size

Product DimProd Dim ID

Prod CategoryProd Sub CatProd Desc

Customer Dim

Cust Dim IDCust NameCust AddrCust PhoneCust Email

Sales FactDate Dim IDStore Dim IDProd Dim IDCust Dim IDQty SoldDollars Sold

TD

PD

SD

CD

TD

SD

TD

PD

SD

CD

TD

SD

Sale

s Fac

t

Replicado

Tabla copiada a cada "Nodo Compute"

DistribuidoPublicación de la Tabla a través de los nodos de cómputo basado en el "Hash"

Esquema Estrella



PD

CD

PD

CD

Distribución de los datos

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

Nodo Control

…Nodo Compute 1

Nodo Compute 2

Nodo Compute X

Envia Create Table SQL a cada “Nodo Compute”Create Table FactSales_ACreate Table FactSales_BCreate Table FactSales_C……Create Table FactSales_H

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

FactSalesA

FactSalesB

FactSalesC

FactSalesD

FactSalesE

FactSalesF

FactSalesG

FactSalesH

La metadata del Create Table en el Nodo Control CREATE TABLE FactSales

(ProductKey INT NOT NULL ,OrderDateKey INT NOT NULL ,DueDateKey INT NOT NULL ,ShipDateKey INT NOT NULL ,ResellerKey INT NOT NULL ,EmployeeKey INT NOT NULL ,PromotionKey INT NOT NULL ,CurrencyKey INT NOT NULL ,SalesTerritoryKey INT NOT NULL ,SalesOrderNumber VARCHAR(20) NOT NULL,

) WITH (

DISTRIBUTION = HASH(ProductKey),

CLUSTERED INDEX(OrderDateKey) ,

PARTITION(OrderDateKey RANGE RIGHT FOR VALUES

( 19950601, 19950901,

) ) );

APSBalanceo equilibrado de carga entre servidores

Tablas mas grandes 600,000,000,000

Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks)

15,000,000,000

En cada servidor aleatoriamente distribuido en 8 tablas (Por consiguiente hasta 320 tablas en total) 1,875,000,000

Cada partición = 2 años de datos particionados por semana (Beneficiando todas las consultas por fecha) 18,028,846

APSBalanceo equilibrado de carga entre servidores

Como un usuario final o un DBA que piensa en 1 tabla. Ejemplo: LineItem.

“SELECT * FROM LineItem” está dividido en 320 consultas en paralelo contra 320 (1.875 billones de registros) tablas.

“SELECT * FROM LineItem WHERE OrderDate = ‘1/1/2012’" son 320 consultas en 320 (18 millones de registros) tablas.

Es totalmente irrelevante el saber que en realidad existan 320 tablas que representan 1 tabla lógica.

CCI (Clustered Columnstore Index) puede agregar mayor rendimiento mediante la eliminación del segmento.

Introduciendo el Servicio Azure SQL DWUn almacén de datos relacionales "as-a-service", totalmente gestionado por Microsoft.La primera empresa con servicios flexible de almacenamiento de datos en la nube con capacidades de nivel empresarial.Soporte a su más pequeñas necesidades de almacenamiento de datos más grandes durante la gestión de consultas hasta 100 veces más rápido.

Introduciendo el Servicio Azure SQL DWLíder del mercado en precio y rendimiento

Simple cálculo de facturación y almacenamientoPagar por lo que se necesita, cuando usted lo necesite con pausas dinámicaTraer su DW a la nube sin tener que reescribir

Escalabilidad y Rendimiento Flexible

Escala hasta Petabytes de datosProcesamiento masivamente paraleloEscalamiento al instante de computación en segundosConsultas Relacionales / No-Relacionales

Comience en minutosIntegrado con Azure ML (Machine Learning), PowerBI y ADF (Application Development Framework)Preparado para las empresas de hoy

Desarrollado por la Nube

Desplegar rápidamente y obtener una visión

Abastecer Cargar Consultar

Un cluster SQL DWen minutos

Ship DisksAzure StorageHDInsightHerramientas de migración

Todos los Tipos deDatos Analíticos conPower BI + ML

Automatizar el flujo de trabajo via Azure Data Factory

Flexibilidad en tiempo real• Produzca alternativas de grandes

cargas de trabajo, generando períodos bajos de actividad diaria.

• Obtenga tiempo de visualizar requerimientos basado en lo que usted necesita, cuando usted lo necesita.

• Elija el combo de cálculo y almacenamiento de información que satisfaga sus necesidades.

Flexibilidad en tiempo realCambie el

Tamaño en menos de un

Minuto

ComputaciónBajo Demanda

De Cualquier Tamaño a

Cualquier Tamaño

Cuando está en Pausa, Pague sólo por AlmacenamientoUtilícelo sólo cuando lo necesite, sin recargar o restaurar datos

Ahorre costos con paradas dinámicas y reinicios inmediatos• Cuando está en pausa, el almacenamiento en la

nube a gran escala es de costo mínimo.• Basado en políticas (Es decir, noches y fines de

semana)• Automatice mediante PowerShell & REST API• Los datos permanecen en su lugar

SQL DW:Desarrollado sobre SQL DB Foundation

FlexibleEscalabilidad a

PetabytesOptimizado para DW

99.99% de tiempo de actividad SLA*

Geo-Restauración

Cumplimiento de normas en Azure(ISO, HIPAA, EU, etc.)

Verdadera Experiencia SQL ServerMagnificas herramientas de trabajo

SQL DW

SQL DBNiveles de servicio

* Service Level Agreement - Acuerdo de nivel de servicio

Unidad de Almacenamiento de Datos (DWU)

Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de hardware

Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las filas de registros son escaneadas, cargadas, copiadas, etc.

Medidas de Poder

Transparencia

Primer servicio de DW para ofrecer potencia de cálculo bajo demanda, independientemente de almacenamiento a requerir.

Bajo Demanda

Unidad de Almacenamiento de Datos (DWU)

Escaneo de 1 Billón de registros*

100 DWU = 297 seg400 DWU = 74 seg800 DWU = 37 seg1,600 DWU = 19 seg

* Estimaciones preliminares. Los resultados reales pueden variar

Velocidad de Lectura

3.36M reg/seg

Tasa de Carga 130K reg/segTable Copy Rate 350K reg/seg

100 DWU*

Hadoop & PolyBase

Qué es Hadoop?

34

Core Services

OPERATIONAL SERVICES

DATASERVICES

HDFS

SQOOP

FLUME

NFS

LOAD & EXTRACT

WebHDFS

OOZIE

AMBARI

YARN

MAP REDUCE

HIVE &HCATALOGPIG

HBASEFALCON

Hadoop Clustercompute

&storage . . .

. . .

. .compute

&storage

.

.

Hadoop Clusters proporcionan almacenamiento de escalabilidad horizontal y procesamiento de datos distribuido en el hardware en cada uno de los servicios básicos

.

.

.

Qué es Hadoop? Distribuido, Sistema Escalable en

componentes de Hardware Compuesto de unas pocas partes:

HDFS – Sistema Distribuido de Archivos

MapReduce – Modelo de Programación

Otras herramientas: Hive, Pig, SQOOP, HCatalog, HBase, Flume, Mahout, YARN, Tez, Spark, Stinger, Oozie, ZooKeeper, Flume, Storm

Qué es Hadoop?

Los principales actores son Hortonworks, Cloudera, MapR

ADVERTENCIA: Hadoop es ideal para el procesamiento de grandes volúmenes de datos PERO es insuficiente para el análisis de los datos en tiempo real (Las empresas hacen análisis de lotes en su lugar)

Consulta de datos no estructurados mediante Polybase/T-SQL

Instancia SQL DW

Escalabilidad de computo

Hadoop VMs /Azure StoragePolyBa

se

Consulta de datos no estructurados mediante Polybase/T-SQL

• Permite capacidades de consultar a través de distribuciones de Hadoop comunes (HDP y Cloudera) y formatos de archivo de Hadoop en Azure Storage.

• Permite el aprovechamiento de las habilidades de SQL existentes y herramientas de BI

• Soporta múltiples formatos de archivo no relacionales

• Mejora el ciclo de conocimiento y conceptualización de ideas y generación de ETL simplificado

Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales

Consultar datos Hadoop con T-SQL utilizando PolyBaseReunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT

Select… Result set

SQL DW

Cloudera CHD Linux 4.6Hortonworks HDP 2.1 (Windows, Linux)

Windows AzureHDInsight (HDP 2.1) (HDFS)

PolyBase

SQL DW

Otros (SQL Server, DB2, Oracle)?Verdaderos motores de consultas federadas

Windows Azure Storage-Blob (WASB)

Consultar datos Hadoop con T-SQL utilizando PolyBaseReunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT

Consu l tas Re lac iona les +No Re lac iona les

• Proporciona un modelo único de consulta T-SQL ("Capa semántica") para APS y Hadoop con ricas características de T-SQL, incluyendo uniones sin ETL

• Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas

• Compatible con Windows Azure HDInsight para habilitar nuevos escenarios de nube híbrida

• Proporciona la capacidad de consulta de las distribuciones de Hadoop no Microsoft, como Hortonworks y Cloudera

• Usar habilidades SQL existente, sin intervención de personal IT

Use cases where PolyBase simplifies using Hadoop dataBringing islands of Hadoop data together

High performance queries against Hadoop data

(Predicate pushdown)Archiving data warehouse data to Hadoop (move)

(Hadoop as cold storage)

Los casos de uso donde PolyBase simplifica los datos utilizando HadoopRecopilar todos los escollos de datos HadoopExportación datos relacionales a Hadoop (Copia)

(Hadoop como Copia de seguridad,Análisis, Uso On-Premise)Importación de datos Hadoop dentro del data

warehouse (Copia) (Hadoop como área Staging, Sandbox, Data Lake)

Comprendiendo Big Data para cualquier personaIntegración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas

Herramientas como Power BI reduce al mínimo la intervención para descubrir datosT-SQL para DBA y Usuarios para unirse a datos relacionales y Hadoop

Herramientas Hadoop como Map-Reduce, Hive y Pig para Data Scientists

Aprovecha alta adopción de Excel, Power View, Power Pivot y SSSA

Usuarios Finales

Data Scientist

Todo el mundo utilizando herramientas de Microsoft BI

Comprendiendo Big Data para cualquier personaIntegración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas

Escalando datos relacionales hasta PetabytesTecnologías de escalabilidad en SQL Data Warehouse

Procesamiento Paralelo Masivo (MPP) paraleliza las consultas (No basada en la capacidad impulsada por velocidad)

Múltiples nodos con CPU dedicada, memoria, almacenamiento "No compartido"

Añade incrementalmente Hardware para la escala casi lineal al multi-PB (No es necesario eliminar los datos más antiguos entre otros)

Maneja escalablemente la complejidad de las consultas y las concurrencia a las mismas

No "Forklift" del almacén antes de aumentar la capacidad

Comenzar con unos almacenes de tamaño de Terabyte

Soporte mixto para la carga de trabajo: Consulta mientras se carga (250GB/hora por nodo). No hay necesidad de activar una ventana de mantenimiento

Escalando datos relacionales hasta PetabytesTecnologías de escalabilidad en SQL Data Warehouse

Performance y Escalabilidad

Rápido y efectivo rendimientoMPP y In-Memory Columnstore para un rendimiento de próxima generaciónRepresentación del índice de

Columnstore

C1

C3

C5

C4

C2

C6

Ejecución de consultas en paralelo

Query

Resultados

Rápido y efectivo rendimientoMPP y In-Memory Columnstore para un rendimiento de próxima generación

• Almacenar datos en formato de columnas para la compresión masiva

• Cargar datos dentro o fuera de la memoria para un rendimiento de próxima generación

• Actualizable y agrupado para carga lenta en tiempo real

• No hay índices secundarios requeridos

Consultas más rápidas de hasta

100x

Columnstore agrupados actualizable vs. Tablas con indexación habitual

Hasta compresión de

mas de 15x

Resultados de los Servicios de Negocios de la Empresa antes y después

SMP vs. APS 54xde mejora cargando datos(48 horas vs. 53 minutos)25x, 193x, de mejora en la ejecución de las consultas (4 días y 6 horas vs. 32 minutos)

1.4 TB/hr tiempo de carga (7 billones de registros) (1.21TB en 53:20)Con las misma herramientas de trabaja de Microsoft BI conocidas


SMP vs. APS

Las DWU serán de doble rendimiento

9.4x compresión (7 billones de registros) (De 1.7TB a 179GB)


SMP vs. APS

Visión y Arquitectura general del flujo de datos

Stream Analytics

TransformaciónCapturar

Web logs

Presentación & Toma de

decisiones

IoT, Dispositivos móviles, etc.

Social Data

Event Hubs HDInsight

Azure Data Factory

Azure SQL DB

Azure Blob Storage

Azure Machine Learning

(Detección de Fraude, etc.)

Power BI

Web dashboards

Dispositivos móviles

DW / Almacenamiento

a Largo PlazoAnálisis Predictivo

Eventos & Producción de

datos

Azure SQL DW

Llevar fácilmente tu DW a la nube• Migración transparente de una

variedad de orígenes On-Premise y Cloud

• Carga rápida, coherente y estable para la migración

• Herramientas de migración integradas con soporte para todos las cargas de trabajo

Importar /

Exportar

Acelerador de

migraciónExpressRo

uteEnviar grandes volúmenes de datos en medios físicos.

Hacer la migración a Azure, simple y completamente administrado.

Traslado con conexiones privadas, aceleradas a Azure.

Llevar fácilmente tu DW a la nube

Migración SQL Data Warehouse Services - Detalles

1. Acelerador de Migración2. Importar/Exportar3. ExpressRoute/Herramientas de Carga

Opciones de Carga de Datos

Gestor DWSSorprendentemente rápido cargador personalizado para APS/DWS

BulkLoad APICargas sin caidas desde y hacia Archivos/SQL SMP (Symmetric Multi-Processing)

SSISParidad con habilidades en las instalaciones de potente suite de carga

PolyBaseMovimiento de datos avanzados y profunda integración con Hadoop

AttunityReplica datos desde la 1/3 parte del almacenamiento de la información en todo el mundo

InformaticaMigrar paquetes avanzados de Informatica directamente a Azure

010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001

010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001

• Gran ecosistema de potentes herramientas ETL

• Cargar directamente de una variedad de fuentes de orígenes

• Cargas de forma transparente paralelizados• Estabilidad y consistencia garantizada

Ecosistema de socios muy bien extensible de SQL Server

+ Establecido con Azure ML, HDInsight, PowerBI, ADF, y mas.+ El Ecosistema más amplio de la industria de los socios de Data Warehouse, incluyendo Tableau, Informatica, Attunity, y SAP. Azure ML

Azure Event Hub

Azure StreamAnalytics

AzureHDInsight

Power BI

Microsoft

Ecosistema de socios muy bien extensible de SQL Server

Despliegue optimizado con el Portal de Azure.Integración profunda con las herramientas de los principales socios incluyendo:• Configuración con un solo clic• Movimiento de datos optimizado• Pushdown lógico

Azure SQL DW

Líder en el mercado Precio/Rendimiento• La mejor oferta del

mercado Precio/Rendimiento• Ventajas en elasticidad y

pausa para reducir costos al cliente

• Iniciando con pequeño SQL DW, pudiendo crecer a PB rápidamente sin inconveniente alguno• Pagar por el rendimiento

mediante la ampliación de cómputo contra el almacenamiento

100GB 1TB 2TB

Azure SQL DW

Amazon Redshift

1+PB

Alto Performance SQL

DW

Alta Capacidad SQL DW

Balanceo de carga SQL DW

Perfo

rman

ce

Redshift Dense Compute

Redshift Dense Storage

Beneficios

Diferencias de SQL DW y Amazon Redshift?

Horas a días para cambiar el tamaño; sólo lectura con degradación de performance

ElasticidadVerdadero y real crecimiento, compactación de objetos de datos y pausar con mínimo tiempo de inactividad.

Amazon Redshift Azure SQL DW

NoPausa/

Reanudar Si!

Relación de cálculo y almacenamiento fijo

SimplicidadPagar por el rendimiento que se necesite con computación escalable de forma independiente y almacenamiento

Híbrido No. AWS solamente. Si. Azure y On-Premises.

No hay soporte para Índices, Procedimientos Almacenados, SQL UDF, Particionamiento, Restricciones

Compatibilidad Real soporte a SQL.

Analítica Avanzada definida

Ejemplo de AnálisisDescriptivo: ¿Cuántos de nuestros clientes persisten en el último mes? ¿Cuántos de estos clientes son rentable?Diagnostico: Por qué dejaron estos clientes el ser rentables??Predictivo: Cuántos clientes rentables son propensos a dejar el mes que viene?Prescriptivo: Cómo podemos reducir esta tasa de rotación de clientes rentables?

Copia de seguridad automática y Geo-RestoreRecuperarse de eliminación de datos o la alteración o desastre

Geo-Replicado

Restauración desde las copias

de seguridad

SQL Data Warehouse Backupssabcp01bl21

Azure Storagesabcp01bl21

Copias de seguridad automática cada 4 horas, en el Azure Storage ("Recuperación de desastres") y Geo-Replicado ("alta disponibilidad")Copias de seguridad On-Demand en Azure Storage donde el usuario final puede habilitar la Geo-ReplicaciónREST API, PowerShell o El Portal de AzureExportaciones programadas para la retención a largo plazo


Copia de Seguridad y Restauración en línea basado en copias instantáneas de almacenamientoPolítica de retención de Copias de Seguridad:• Copia de Seguridad

automáticas hasta 35 días• Copias de seguridad bajo

demanda retenidas indefinidamente


Resumen

Menos mantenimiento y monitoreo del DBA

• No hay creación de índice• No hay datos eliminados o

archivados para ahorrar espacio• Simplicidad de gestión (System

Center, Consola de Administración, DMVs)

• Sin bloqueo• Sin registros de transacciones• Sin sugerencias de consulta• Sin estados de espera• Sin tuning de IO

Menos mantenimiento y monitoreo del DBA

• No hay optimización de consulta / Tuning

• No hay índice para reorganizarlos / reconstruirlos

• No particiones• No hay grupos de archivos

que gestionan• No hay bases de datos para

contraer o expandir• No hay gestión de servidores

físicos• No hay servidores y software

de parchado

RESULTADO: DBA invierten más de su tiempo como arquitectos y no perdedera de tiempo en tonterías!

Mejor juntos – SQL DW con APS

SQL ServerParallel

DataWarehous

e

Microsoft HDInsigh

t(Hadoop)

PolyBase

Azure ML

Azure Event Hub

Azure Stream Analytics

Azure HDInsight

Power BI

Microsoft

SQL DW Service

Analytics Platform System

Mejor juntos – SQL DW con APSUtilizar el servicio de SQL DW o APS como su solución de recuperación ante desastres con carga Dual

Recuperación de Desastres

Los Datos Históricos al Servicio de SQL DW pero manteniendo completo el poder de MPP en ejecución

Datos HistóricosRestricciones y políticas de las Empresas

Pruebas / Desarrollo o Producción

Almacenar datos en APS que la política de la empresa prohíbe estar en la nube

Poner a prueba nuevas ideas en el servicio de SQL DW antes de salir a producción en APS

Lo que esta por venir…

Preview Publica GA

Verano 2015Preview Publica• Pausada y Reanudada Dinámica• Integración con la Plataforma de Servicio de

Azure (CloudML, ADF, HDInsight, SQL-IP)• Integración con todo el ecosistema de los

Partners de SQL Server• Geo-Restauración• Servicio o Aplicación híbrida• PolyBase para la integración a Big Data• T-SQL preparado para las empresas• Primera ola de socio certificados en SQL

A finales 2015/ A comienzo 2016Acuerdo a esperar• Certificado ISO, PCI• Clausula de Modelo HIPAA,

BAA, & EU

Acuerdo de Nivel de Servicio• 99.99% SLA

Demo SQL Data Warehouse

Preguntas y Respuestas

Preguntas & Respuestas

Recursos• SQL Data Warehouse PREVIEW -

http://bit.ly/1EFEkLz• Partners for Azure SQL Data

Warehouse - http://bit.ly/1EkhcCp• TechEd Europe -

http://bit.ly/1EFEyT4

http://bit.ly/1EFEkLz

http://bit.ly/1EkhcCp

http://bit.ly/1EFEyT4

José RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA

[email protected] | @redondoj |

redondoj.wordpress.com

CloudFirst CampusLatinoamérica

www.facebook.com/cloudfirstcampus

http://www.facebook.com/cloudfirstcampus

Introducción a Microsoft Azure SQL Data Warehouse

Technology

Transcript of Introducción a Microsoft Azure SQL Data Warehouse