Big Data en IDC-Madrid
-
Upload
barcelona-tech-upc-barcelona-supercomputer-center-bsc -
Category
Sports
-
view
1.159 -
download
0
description
Transcript of Big Data en IDC-Madrid
Qué tecnologías
están sustentando
el Big Data
¿Cuáles son sus
retos?
Jordi Torres
UPC/BSC
Madrid - 18/09/2012
Marea de información
2009:
0,8 Zettabytes
Marea de información
(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB
1 Gigabyte (GB) = 1.000.000.000 bytes
2009:
0,8 Zettabytes
2020: 35,2 Zettabytes
Marea de información
(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB
1 Gigabyte (GB) = 1.000.000.000 bytes
2009:
0,8 Zettabytes
2020: 35,2 Zettabytes
3 V y …
¡ LA PREGUNTA !
¿Vamos a poder
con todo ello?
¡ LA PREGUNTA !
¿Vamos a poder
con todo ello?
¡ LA PREGUNTA ! ¿Qué se está ya
ofreciendo e
investigando?
Volumen de datos GBs PBs
Tie
mp
o d
e r
esp
ue
sta
¿Vamos a poder
con todo ello?
GBs PBs
Tie
mp
o d
e r
esp
ue
sta
?
¿Vamos a poder
con todo ello?
!Se ha desbordado la capacidad de las
tecnologías actuales!
Volumen de datos
Almacenamiento
Gestión
Procesado
Análisis
…
Qué tecnologías
están sustentando
el Big Data
¿cuáles son sus
retos?
Almacenamiento
HHD 100 más barato que RAM
Pero 1000 veces más lento
vs
¡Más y más rápido!
Almacenamiento
Solid- state drive (SSD)
además no volátil
Propuesta actual
¡Más y más rápido!
Almacenamiento
Solid- state drive (SSD)
además no volátil
Storage Class Memory (SCM)
Propuesta actual
Investigación
¡Más y más rápido!
Gestión
Atomicity,
Consistency,
Isolation &
Durability
p.ej. “esquemas” o las
propiedades ACID
¡Las BD relacionales
no pueden con todo!
Gestión Propuesta actual
“NO SQL systems”
Self-* NoSQL systems
Nuevas propiedades BASE: Basically Available, Soft state,
Eventual consistency
Investigación
Ej. Facebook
¡Las BD relacionales
no pueden con todo!
Procesado
entornos masivamente
paralelos+distribuidos
y tolerante a fallos
Hacen falta nuevos
modelos programación
Procesado Propuesta actual
“LA” soluciones open source
y propietarias
GBs PBs
Tie
mp
o d
e r
esp
ue
sta
Hacen falta nuevos
modelos programación
Difícil pensar en
MapReduce
+
NoSQL
Hace falta
“DESAPRENDER”
Difícil pensar en
MapReduce
+
NoSQL
Solución(open source)
Hace falta
“DESAPRENDER”
Niveles de
abstracción
Hbase/Cassandra
(No-SQL system)
Hive
(SQL based language)
Pig
(Data Flow Language)
Solución (industria)
Por ejemplo SQL+NoSQL
SQL+NoSQL:
p.ej. integrar funcionalidades MapReduce
Conectores MapReduce para DW
…
Data
ETL
Data
Data
ETL
Normalized data
Normalized data
DataWarehouse
Business Users Business Analysts Etc.
Data
Data
Hadoop ODBC driver
Gestión integrada de:
• la jerarquía de almacenamiento,
• transparente al usuario
• autogestionada para ser
optimizada
• …
Investigación
RDBMS
IN-MEMORY
APPLICATION
Escenario que tendremos:
Análisis
probablemente
¡EL RETO MÁS
IMPORTANTE! para ustedes
Análisis
conocimiento
información
datos
+
Vo
lum
en
- +
-
Valo
r
Propuesta actual
Investigación
Análisis
Data Mining,
Machine Learning ,
….
La mayoría de algoritmos se
ejecutan bien en miles de
registros, pero son hoy por
hoy impracticables en miles de
millones. ¡En ello estamos!
conocimiento
información
datos
+
Vo
lum
en
- +
-
Valo
r
Investigación
Análisis
La mayoría de algoritmos se
ejecutan bien en miles de
registros, pero son hoy por
hoy impracticables en miles de
millones. ¡En ello estamos!
¿Reflejo de los avances
actuales?
O cada uno en
su casa …
Source: http://www.smartplanet.com/blog/business-brains/retailer-or-a-data-company-wal-mart-is-now-both/20850
“Oddly, machine learning research mirrors the way cryptography research developed around the middle of the 20th century. Much of the cutting edge research was done in secret, and we’re only finding out now, 40 or 50 years later, what GCHQ or the NSA was doing back then. I’m hopeful that it won’t take quite that long for Amazon or Google to tell us what they’re thinking about today.” (pag 49) Alasdair Allan, senior research fellow in Astronomy at the University of Exeter
Categorization (un-supervised) :
.K-means clustering
. Association Rules
. … Regression
. Linear
. Logistic Classification (supervised)
. Naïve Bayesian classifier
. Decision Trees
. Time Series Analysis
. Text Analysis
. …
¿Es fundamental
para su negocio
dominar
internamente en
sus empresas las
tecnologías de
Machine Learning?
¿O quizás no?
¿El método realmente
importa en Big Data?
Ej:Text processing
Ej. Clásico: Para Banko and
Brill (2001) ¿Parece que los
datos son más importantes
que los métodos?
En definitiva …
“machine learning
algorithms really
don’t matter, all
that matters is the
amount of data
you have”
¿Qué piensan
ustedes?
¿Son
necesarias
estas skills?
Mi visión:
(no estamos en el nivel de
maduración del Cloud)
Data Analysis & Prediction
Big Data
Cloud Computing
+ HPC
Smart Computing
… DE QUE VOY A DAR CLASES YO EN BARCELONA!!!!!!!!!
Editorial UOC, Octubre 2012
Creative Commons 3.0
Profesor e investigador en nuevas tecnologías TIC
Actúa como experto para diferentes organizaciones públicas Consultor tecnológico, miembro de consejo de administración
Imparte conferencias y colabora con diferentes medios de comunicación
www.JordiTorres.eu
@JordiTorresBCN
Más información del tema:
Más información del autor:
¡Gracias por
su atención!
www.bsc.es/eBusiness
Pero … especialmente a: