OpenAnalytics - BigData por Ivan del Prado (Datasalt)

27
Big Data Una visión pragmática Iván de Prado Alonso – CEO of Datasalt www.datasalt.es @ivanprado @datasalt

description

Iván del Prado, CEO de Datasalt y uno de los creadores de Pangool Hadoop API y Splout SQL repasó las necesidades de usar tecnologías y procesos BigData y las alternativas libres para abordar proyectos de diversa índole.

Transcript of OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Page 1: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Big DataUna visión pragmática

Iván de Prado Alonso – CEO of Datasaltwww.datasalt.es@ivanprado@datasalt

Page 2: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Consultoría y formaciónConsultoría y formaciónBig DataBig Data

Page 3: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Analyzing credit card transactions

Extracting insights from Social Networks

Dealing with thousands of millions of classifieds

Managing billions of events per day

PangoolRevamped Hadoop API

Splout SQLMaking Hadoop data accessible

Success storiesDeep Knowledge

Building the future

ICDM 2012

Page 4: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Big Data Hype

Page 5: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

5 / 27

BIG“MAC”DATA

Page 6: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

6 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Page 7: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

7 / 27

Definición del Big Data – 4 puntos de vista

● Datos– Volumen

– Velocidad

– Variedad

● Inteligencia de negocio– Cruce de datos

● Redes sociales● Sensores, etc

● Filosofía de desarrollo– No tires ni un dato

– Esquemas en lectura

– Tolerancia a fallos humanos

● Herramientas– Hadoop

– NoSQL

– Sistemas distribuidos

Page 8: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

8 / 27

Confusión

Page 9: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Big Data

La “caja” del Big Data pinta muy bien ...

Page 10: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

¿Pero hay algo realmente nuevo y disruptivo dentro?

Page 11: OpenAnalytics - BigData por Ivan del Prado (Datasalt)
Page 12: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

12 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Page 13: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

13 / 27

Tecnologías disruptivas

● Big Data → Nuevas tecnologías relevantes– Capaces de hacer viable lo que antes era inviable

● Distribuidas– Aprovechan el potencial de varias máquinas– Abstraen al programador de las complejidades de

coordinación● Pero siguen siendo complejas

● Open Source (la mayoría)● De bajo coste

Page 14: OpenAnalytics - BigData por Ivan del Prado (Datasalt)
Page 15: OpenAnalytics - BigData por Ivan del Prado (Datasalt)
Page 16: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

16 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Page 17: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

17 / 27

Anuncios clasificados (I)

● Lo que se podía antes del Big Data– Hacer portales de clasificados (inmobiliarios, etc) a nivel de un país

– Tecnologías principales:

● Bases de datos relacionales (i.e. MySQL)

● Lo que era casi imposible y ahora es muy razonable– Hacer un buscador de clasificados de escala mundial

– Tecnologías principales:

● Hadoop, Hbase, Storm● Solr, ElasticSearch

● Ejemplos

Page 18: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

18 / 27

Anuncios clasificados (II)

Page 19: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

19 / 27

Análisis de influencia online y en redes sociales (I)

● Lo que se podía antes del Big Data– Restringido al poder de una máquina (análisis locales)

– Tecnologías principales:

● Bases de datos relacionales (i.e. MySQL)● Analítica monomáquina

● Lo que era casi imposible y ahora es muy razonable– Analizar la influencia de todos los individuos en una red social

– Tecnologías principales:

● Hadoop, Hbase, Storm● NoSQL: Voldemort, Cassandra● Hamma, Giraph

● Ejemplos

Page 20: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

20 / 27

Análisis de influencia online y en redes sociales (II)

Page 21: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

21 / 27

Explotar datos agregados (I)

● Lo que se podía antes del Big Data– Datos en silos

– Presos de los DW (muy poco flexibles)

– Tecnologías principales:

● EDW MPP

● Lo que era casi imposible y ahora es muy razonable– Explotar de nuevas maneras los datos y dar valor a terceros

– Tecnologías principales:

● Hadoop● NoSQL● Gestores geográficos

● Ejemplos

Page 22: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

22 / 27

Explotar datos agregados (II)

Page 23: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

23 / 27

Redes de anuncios (Ad networks)

● Lo que se podía antes del Big Data– Estadísticas básicas en Bds relacionales a clientes

– Agregados de muy alto nivel (se pierde el grano fino)

– Tecnologías principales:

● Bds relacionales (i.e. MySql, Oracle)

● Lo que era casi imposible y ahora es muy razonable– No tirar un sólo dato

– Estadísticas muy ricas y de gran detalle para cada cliente

– Tecnologías principales:

● Hadoop● NoSQL, Splout SQL

● Ejemplos

Page 24: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

24 / 27

Juegos online

● Lo que se podía antes del Big Data– Recibir y procesar el gran nivel de eventos era casi imposible

– Tecnologías principales:

● Bds relacionales (i.e. MySql, Oracle)● Sistema de colas con consumidores

● Lo que era casi imposible y ahora es muy razonable– Estadísticas y respuesta a eventos en tiempo real

– Tecnologías principales:

● Storm, Erlang● NoSQL

● Ejemplos

Page 25: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

25 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Page 26: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

26 / 27

Conclusión

● El Big Data es algo disruptivo● Razón principal: Nuevas tecnologías

– Que hacen posibles aplicaciones antes casi imposibles● Tecnologías aún no maduras y muy dispersas

– Salvo Hadoop, con alto grado de madurez y que resuelve gran parte de problemas

● Oportunidad: arriesgar y abrazar estas tecnologías– Hay cierto riesgo (bajo grado de madurez)– Pero puede suponer una ventaja estratégica– Apostar por equipos pequeños pero capaces

● No centrarse únicamente en tecnología– Preparar equipos humanos Big Data (científicos de datos)

Page 27: OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Gracias

Iván de Prado [email protected]@ivanpradowww.datasalt.com

Creative Commons images:http://www.flickr.com/photos/83633410@N07/7658298768/http://www.flickr.com/photos/meatheadmovers/5346219239/in/photostream/http://www.flickr.com/photos/meatheadmovers/5346220901/in/photostream/http://www.flickr.com/photos/jepoirrier/8319130269/