Introducción a Big Data - SPRI
Transcript of Introducción a Big Data - SPRI
![Page 1: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/1.jpg)
www.consultec.es
Introducción a Big Data
![Page 2: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/2.jpg)
www.consultec.es
Quiénes somos?
Gorka Armen+a Developer
[email protected] @joruus
Iñaki Elcoro Developer
[email protected] @iceoverflow
![Page 3: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/3.jpg)
Índice
1. Introducción 2. ¿Qué no es Big Data? 3. ¿Qué es Big Data? 4. Utilidades 5. Ejemplo real: Walmart 6. Características Técnicas 7. Markets de Datos 8. Hadoop 9. Microsoft HDInsight 10. Demo
![Page 4: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/4.jpg)
www.consultec.es
Introducción
“Big Data” es desde hacer un par de años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de esos “buzzwords” que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no …
BIG DATA
![Page 5: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/5.jpg)
www.consultec.es
¿Qué no es Big Data?
Antes de empezar, lo primero es desengañarnos.
• Big Data no es una base de datos enorme
• Big Data no es un data warehouse enorme
• Big Data no es una nueva forma de Business Intelligence
• Big Data no es llevar las base de datos a la nube
![Page 6: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/6.jpg)
www.consultec.es
¿Qué es Big Data? - Situación actual
Bases de Datos
Relacionales
Bases de Datos
Analí+cas (Data
Warehouse)
Archivos (XML, Logs, …)
ERP/CRM
Redes Sociales
Base de Datos NoSQL
APIs
Sensores
RFID
Información generada por apps móviles
Y mucho más.
Y lo que está por venir …
Big Data
GPS
Internet de las Cosas
Información generada por máquinas
eMails
![Page 7: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/7.jpg)
www.consultec.es
¿Qué es Big Data? - Definiciones
Definiciones encontradas en internet
• Información que tiene un orden de magnitud más grande de lo que
estamos acostumbrados.
• Información que es muy grande y no se ajusta a las estructuras de las
bases de datos actuales.
• Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la
mayoría de los software utilizados para capturar, gestionar y procesar la
información dentro de un lapso tolerable de tiempo.
![Page 8: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/8.jpg)
www.consultec.es
¿Qué es Big Data? - Las 3 Vs
Volume: grandes volúmenes de información • Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de
Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.
![Page 9: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/9.jpg)
www.consultec.es
¿Qué es Big Data? - Las 3 Vs
Variety: información de tipos muy diversos • Ya no solo tenemos información estructurada en Bases de Datos o Archivos.
Ahora empezamos a tener información con tipos diferentes y totalmente desestructurada.
![Page 10: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/10.jpg)
www.consultec.es
¿Qué es Big Data? - Las 3 Vs
Velocity: velocidad con la que se genera la información • La velocidad a la que se genera esta información hace imposible gestionarla
con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al día, quieren “estar al segundo”.
![Page 11: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/11.jpg)
www.consultec.es
¿Qué es Big Data? – Retos actuales
• Dar sentido al gran volumen de datos
• Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminución de los costos de hardware y de las fuentes de datos “complejas”.
• La comprensión de una variedad cada vez mayor de datos
• Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85% de los datos capturados son desestructurados.
• Habilitación de análisis en tiempo real de los datos
• Los nuevos grandes generadores de datos (Twitter, Facebook, …) están produciendo volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.
![Page 12: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/12.jpg)
www.consultec.es
Experiencia Contexto
¿Qué es Big Data? - Entendimiento: de los datos a la sabiduría
Sabiduría
Conocimiento
Información
Datos
Relaciones
Patrones
Principios
![Page 13: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/13.jpg)
www.consultec.es
Utilidades
Toma de decisiones El valor del Big Data no es la información, sino la nueva forma de toma de decisiones basada en evidencias y datos empíricos.
Tomar decisiones en base a datos empíricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas
![Page 14: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/14.jpg)
www.consultec.es
Utilidades
Transparencia Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.
![Page 15: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/15.jpg)
www.consultec.es
Utilidades
Experimentación Una vez recopilados los datos que nos interesan, la experimentación y la exploración de los mismos puede mostrarnos información que a primera vista nunca hubiésemos encontrado o que nunca se nos hubiese ocurrido buscar.
![Page 16: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/16.jpg)
www.consultec.es
Utilidades
Innovación Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.
![Page 17: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/17.jpg)
www.consultec.es
Ejemplo real: Walmart
• Walmart es una multinacional de grandes almacenes
• Es la segunda mayor empresa del mundo por ingresos
![Page 18: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/18.jpg)
www.consultec.es
Ejemplo real: Walmart
• Algunos datos:
• 200 millones de clientes a la semana
• 10700 tiendas
• 27 países
• 2 millones de trabajadores
• 1,5 millones de transacciones por hora
• Varios Terabytes de información generada en tiempo real
• Base de datos de 3 Petabytes
![Page 19: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/19.jpg)
www.consultec.es
Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que en época de huracanes los Walmart de las zonas afectadas vendían más cajas de Pop-Tarts que en otras épocas. Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas ¿A quién se le hubiese ocurrido cruzar los datos de ventas con los datos meteorológicos o con los calendarios de huracanes?
![Page 20: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/20.jpg)
www.consultec.es
Ejemplo real: Walmart
Hanna twitea:
“I love Salt!”. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos más tarde le llega a una amiga suya el siguiente email:
“Buenos días! Nos pediste que te avisásemos cuando fuese el cumpleaños de Hanna. Pues ya está aquí y acaba de tweetear algo bueno sobre la película “Salt” de Angelina Jolie. ¿Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte …”
![Page 21: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/21.jpg)
www.consultec.es
Ejemplo real: Walmart
Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene entidades de su base de datos, de otros datos tanto públicos como privados y de redes sociales.
![Page 22: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/22.jpg)
www.consultec.es
Ejemplo real: Walmart
Social Genome Se identifican las entidades “interesantes” y las relacionan entre sí, consiguiendo toda la información de la que son capaces. Es un sistema vivo, en constante evolución.
• Una persona interesada en un tema
• Una persona que asiste a un evento
• Un evento sobre un tema
• Una asociación entre empresa y producto
![Page 23: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/23.jpg)
www.consultec.es
Ejemplo real: Walmart
Resumiendo
![Page 24: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/24.jpg)
www.consultec.es
Características Técnicas
Arquitectura
• Alta escalabilidad
• Procesamiento paralelo
• Baja latencia
• Datos no estructurados y estructurados
• NoSQL
• By-pass de datos
![Page 25: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/25.jpg)
www.consultec.es
Características Técnicas
Key-Value Pair
• La forma más sencilla de almacenamiento de datos en un entorno de Big Data y NoSQL
• Los datos no están controlados por el sistema, por lo tanto los desarrolladores deberán pensar muy bien donde y como almacenan los datos
![Page 26: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/26.jpg)
www.consultec.es
Markets de Datos
Además de las fuentes de datos que tengamos en nuestra organización: bases de datos, emails, logs, documentos, etc … Podemos acceder a grandes volúmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.
![Page 27: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/27.jpg)
www.consultec.es
Hadoop
Es una plataforma diseñada para almacenar y analizar grandes volúmenes de datos de diferentes tipos. Basada en Google Map/Reduce y Google Filesystem.
• Map/Reduce:
• Map: trabajos desarrollados por nosotros. Se distribuyen las tareas en diferentes nodos y se ejecutan en paralelo. Esto genera una información intermedia.
• Reduce: fusiona la información intermedia y se la ofrece al usuario.
• HDFS (Hadoop Distributed File System):
• Sistema de archivos distribuidos, con replicación automática y optimizado para lectura. Cada fichero se partición y se distribuye en todos los servidores.
![Page 28: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/28.jpg)
www.consultec.es
Hadoop
Otros proyectos alrededor de Hadoop
• Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”).
• Pig: Lenguaje de script para consulta y análisis de la información. Desarrollado por Yahoo!.
• Sqoop: Framework para la integración de bases de datos relacionales.
• Flume: Servicio para recolectar, agregar y mover grandes volúmenes de datos de eventos/logs.
• …
![Page 29: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/29.jpg)
www.consultec.es
Microsoft HDInsight
• Servicio basado en Hadoop.
• Dos versiones: • Windows Azure HDInsight (on-demand) • HDInsight Server (on-premise)
![Page 30: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/30.jpg)
www.consultec.es
Microsoft HDInsight
• Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fácil instalación, administración y configuración.
• Integración con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services.
• .NET SDK para Hadoop (a través e NuGet): • Map/Reduce • LINQ to Hive • WebHDFS Client
![Page 31: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/31.jpg)
www.consultec.es
DEMO
![Page 32: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/32.jpg)
www.consultec.es
Gracias!
![Page 33: Introducción a Big Data - SPRI](https://reader036.fdocuments.us/reader036/viewer/2022081623/6157098ba097e25c7650682d/html5/thumbnails/33.jpg)
www.consultec.es
¿Dudas?
Gorka Armen+a Developer
[email protected] @joruus
Iñaki Elcoro Developer
[email protected] @iceoverflow