Azure DataIntroducción a HDInsight
Freddy Angarita C.MVP SQL Server@flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed
ApplicationBuilding Blocks
storagebig data
caching
CDN
database
identity
media
messaging
networking
trafficcloud
services
DemoConfiguración Storage y HDInsight
Hadoop• Framework• Procesamiento distribuido• Modelo de programación simple• Diseñado para escalabilidad• Cada Nodo ofrece computación y
almacenamiento• Diseñada para ser tolerante a fallos
Hadoop -Componentes• Framework de procesamiento• HDFS (Hadoo Distributed File System)
Esquema de Datos Tecnología de Consumo
Relacionales SQL
No relacionales NoSql (Not Only SQL)
Hadoop MapReduce
Consumo de información
MapReduce• Consumo de Datos mediante trabajos
(normalmente Java)• Alta Flexibilidad – Alta complejidad• Ha aumentado su adopción pero como DW
• Opciones• Hive – query en MapReduce
Distribuido en el clúster• Los datos y el procesamiento se hospeda
en cada máquina• Agrega redundancia y tolerancia a fallos• El procesamiento ocurre localmente
Cómo consulta
Master Node
JobTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
HDFS• Replica los datos en otros nodos (128M)• NameNode: Dónde están los datos• DataNodes: Almacenamiento de la
información• Cada máquina: más procesamiento, más
almacenamiento
DemoEjecutar un Job desde PowerShell
DemoObtener Resultados del Job localmente
DemoConectar herramientas BI (Excel)
PowerQuery http://bit.ly/1loMSko
HIVE• Consultas en paralelo usando MapReduce• Lenguaje parecido a SQL – HiveQL• Ideal para procesar grandes volúmenes de datos
inmutables• No se recomienda para almacenamiento transaccional• Optimizado para• Escalabilidad• Extensibilidad• Tolerancia a Fallos
• No se considera mucho la latencia
Ejecución Query HIVEEjemplo:
2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
Ejecución Invoke-Hive
• Alternativa para escribir MapReduce• Pasos• Carga: lee la información a usar• Transformación: Manipulación de los datos• Volcar o almacenar: Salida a pantalla o a almacenamiento
PIG
Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m.
Evento de Comunidad
Top Related