Business Analytics 101

45

description

Globant's Open Talk on Business Analytics at the UAI

Transcript of Business Analytics 101

Page 1: Business Analytics 101
Page 2: Business Analytics 101

Oct 2013

UAI

Business Analytics 101

Page 3: Business Analytics 101

Bio

Andrés EyherabideBusiness Analytics Tech Lead

Andrés es un especialista en el campo de Business Analytics, con más de 10 años de experiencia trabajando con diversos vendors como SAS, MicroStrategy, Oracle, Business Objects y plataformas open source como Pentaho y R. Posee amplia experiencia en el liderazgo de proyectos internacionales de BI con un enfoque ágil y equipos de trabajo distribuidos para clientes como HP, Intel, GE, BBVA, Aon, Banelco, etc.

Ing. en Sistemas de Información (UTN) y especializado en Data Mining (Universidad Austral), Andrés se ha desempeñado en el pasado como Arquitecto y Tech Lead en empresas de la talla de IBM, Grupo ASSA y SAS, y es co-fundador de Datalytics.

Page 4: Business Analytics 101

Sobre Globant

Page 5: Business Analytics 101

Esto es Globant

Clientes Empleados

2008

Adquisiciones

Accendra & Openware

2011Nextive

2012Terra Forum

2900Reconocimientos

Revenue Growth ($mm)150

100

50

0

2009 2010 2011 2012

3857

90CAGR 49%129

Page 6: Business Analytics 101

StudiosCloud Computing

Managed ServicesInformation Security

HybridNative

E-commerceContent Management

Travel

User ExperienceVisual Design

Front-End EngineeringDigital Marketing

Collaboration SolutionsProcess Engineering Tools

Digital PlatformsGame DevelopmentGraphic Engineering

Test AutomationMobile TestingGame QA

Data ArchitectureData ScienceData Visualization

PODS

Page 7: Business Analytics 101

Big Data & High Performance Studio

Muchas empresas en industrias como finanzas, IT y telecomunicaciones requieren software diseñado para alcanzar niveles extremadamente altos de seguridad, alta disponibilidad y performance de manera tal de poder manejar altos volúmenes de datos o transacciones.

.

Desarrollamos software seguro y preparado para manejar grandes volúmenes de información. Nuestro software escalable le permite a nuestros clientes manejar las diferentes fases del ciclo de vida de los datos, asegurando alta performance y disponibilidad.

Proveemos maestría en algoritmos, modelado de datos, sistemas de alta disponibilidad y performance, usando las últimas tecnologías, plataformas y lenguajes, tanto open source como propietarios..

Page 8: Business Analytics 101

High Performance Solution Studio

Data lifecycle management

Patterns discovery

Predictive algorithms

Data visualization

Improve IT infrastructure costs

and performance

De-risking customer's growth

Reliability

High available platforms

Transactional systems

High security

Page 9: Business Analytics 101

Business Analytics

Page 10: Business Analytics 101

Cuán crítica es la información?

● Los datos constituyen uno de los principales activos de las compañías

● De acuerdo a Gartner, los ejecutivos hoy usan sólo 10% de la información disponible para la toma de decisiones

● Existe un importante potencial para incrementar el “IQ” de las compañías a través del análisis de sus datos

Page 11: Business Analytics 101

Un día en la oficina...

Cuántos de nuestros clientes migrarían a la

competencia si subimos el precio un X%?

Cuál es la rentabilidad del

producto X?

Dónde están nuestros clientes más rentables?

Cuán efectivas son nuestras acciones

de MKT?

Qué nuevas geografías deberíamos incluir en nuestro

objetivo de venta?

Nuestras ventas presentan estacionalidad?

Page 12: Business Analytics 101

El problema...Datos Tomadores de Decisión

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

Cloud AppsSocial Nets

Page 13: Business Analytics 101

Que impide a las empresas usar sus datos?

● Islas de información: datos dispersos en diferentes áreas, sistemas y arquitecturas● Visión incompleta: solo se ve el árbol, pero no el bosque● Falta de una única visión de la verdad, multiplicidad de criterios y terminologías● La información no se encuentra actualizada● Pobre calidad de datos: los sistemas transaccionales y su carga manual suelen presentar problemas de

calidad de datos● Los sistemas no están preparados para responder en tiempo y forma las preguntas del negocio● Pareto invertido: los analistas pasan más tiempo recolectando y masajeando datos que analizandolos● Complejidad: los datos son guardados en estructuras que los usuarios no saben explotar● Diversidad de fuentes: no solo BD y Excel. Se sumaron redes sociales y sistemas en la nube● Big Data: la información se está duplicando cada 2 años, y el 80% es data no estructurada● En resumen: la información nunca está disponible cuando se la necesita

Page 14: Business Analytics 101

La soluciónDatos Tomadores de Decisión

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

Cloud AppsSocial Nets

ExtractTransformCleanLoad

Data Warehouse

Page 15: Business Analytics 101

Que es Business Analytics?

● Lo que no se puede medir no se puede controlar...● Lo que no se puede controlar no se puede mejorar● Los datos constituyen uno de los mayores activos con el que cuenta cualquier empresa, los cuales en

general son pobremente explotados y analizados.● Business Analytics se trata de saber...

○ Que pasó?○ Que esta pasando?○ En base a la información que tenemos, que puede ocurrir?

● Business Analytics se refiere al conjunto de procesos que se realiza sobre los datos utilizando tecnologías de la información para proveer a la empresa/organización de información para la toma de decisiones.

● Se trata de una disciplina o proceso de negocio, no una tecnología.

Page 16: Business Analytics 101

Soporte a todos los niveles de análisis

Complejidad de Análisis

¿Cuántos nuevos clientes adquirimos?

¿Quién está fuera del rango normal?

¿Ventas del mes, por producto, canal, clientes?

Si conocemos quiénes compraron un producto ¿quiénes más lo comprarán?

Baja

Alta

Detección de patrones fraudulentos

Page 17: Business Analytics 101

Soporte a todos los niveles de análisis

Complejidad de Análisis

Query & Reporting

Análisis estadístico básico

Data Visualization & Discovery

Baja

Alta

Data Science

Page 18: Business Analytics 101

Dato, información y conocimiento

● Entendimiento que se da en la mente a la información

● Difícil de estructurar, transferir y capturar en máquinas

● Frecuentemente tácita y su documentación no tiene lugar

● Tiene relevancia y un propósito

● Necesita de la intervención humana

● Sujeta a la capacidad de análisis del interpretador● Resultado directo de una

observación● Fácilmente capturados,

estructurados y transferidos

Dato

Información

Conocimiento

Page 19: Business Analytics 101

Sistemas OLTP vs. Sistemas OLAP

● Los sistemas transaccionales, llamados OLTP (On-Line Transaction Processing) están orientados a soportar el día a día de una organización

● Sus bases de datos poseen datos detallados y actuales, diseñados generalmente en 3FN para eliminar la redundancia de datos y almacenamiento en disco. Se caracterizan por un gran número de cortas transacciones en línea (INSERT, UPDATE, DELETE)

● No aptos para responder consultas que incluyan grandes volúmenes de información y consolidación de datos en tiempos satisfactorios

● Los sistemas analíticos, llamados OLAP (On-Line Analytical Processing) se caracteriza por un volumen relativamente bajo de consultas a menudo muy complejas e implican agregaciones

● Para los sistemas OLAP un tiempo de respuesta es una medida de eficacia● Sus bases de datos se caracterizan por guardar información histórica, almacenados generalmente en

un esquema en estrella

Page 20: Business Analytics 101

Sistemas OLTP Sistemas OLAP

● Almacena datos actuales● Almacena datos de detalle● Los datos son dinámicos (van cambiando en el

tiempo)● Las transacciones son repetitivas● El número de transacciones es elevado● Dedicado al procesamiento de transacciones● Orientado a los procesos de la organización● Soporta operatoria diaria● Sirve a muchos usuarios administrativos

● Almacena datos históricos● Almacena datos de detalle y datos agregados a

distintos niveles● Los datos son estáticos● Los procesos no son previsibles● El número de transacciones es bajo o medio● Dedicado al análisis de datos● Orientado a la información relevante● Soporta decisiones estratégicas● Sirve a analistas y tomadores de decisión

Sistemas OLTP vs. Sistemas OLAP

Page 21: Business Analytics 101

Data Integration

Una Arquitectura Típica

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

Data Viz & Discovery

ExtractTransformCleanLoad Data Science

Cloud AppsSocial Nets

Data Warehouse

Page 22: Business Analytics 101

Nuestras Prácticas

DataIntegration

Data Viz & Discovery

Predictive & Descriptive AnalyticsScoringClusteringRecommendation

AccessIntegrateCleanseEnrichScoring

ReportsAlertsDashboardsScorecardsVisualizationsWhat-if scenarios Data

Science

Page 23: Business Analytics 101

Data Integration

Data Integration

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

ExtractTransformCleanLoad

Cloud AppsSocial Nets

Data Warehouse

Page 24: Business Analytics 101

Data Integration

● La integración de datos es la práctica que consiste en recolectar los datos de diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse

● El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load:○ Extract: de los diversos sistemas transaccionales y fuentes○ Transform: transformar los datos, cruzarlos, enriquecerlos, etc.○ Load: cargar la información en un repositorio centralizado.

● Las herramientas de ETL son herramientas visuales orientadas a Drag-And-Drop y zero-coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-to-value y un mantenimiento más sencillo

● La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas

● Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele aplicar en esta etapa procesos de validación y limpieza (Data Quality)

● Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas transaccionales con pesadas consultas

Data Integration

Page 25: Business Analytics 101

Data Integration

Por que hacer esto? … cuando podemos tener esto?

Page 26: Business Analytics 101

Data Warehouse

● El Data Warehouse es el corazón de toda solución de Business Analytics● Se trata de una base de datos centralizada que se alimenta de diferentes sistemas transaccionales ● Es un repositorio orientado a dar respuesta a consultas de los analistas de negocio, modelado para

optimizar el tiempo de respuesta● No posee el mismo nivel de detalle que los sistemas transaccionales● Dado que los usuarios deben buscar y analizar tendencias y patrones, es una base por definición

histórica. Su tamaño puede crecer muy rápidamente● Si bien se puede implementar sobre motores tradicionales (Oracle, IBM DB2, MS SQL Server, etc.)

existen motores específicamente diseñados para el análisis de datos (Teratada, Greenplum, etc). ● El Data Warehouse hace posible el concepto de única versión de la verdad, ya que cualquier análisis

que se realice en la organización se debe hacer a partir de la información contenida en el DW, o derivada de este.

● También se suele hablar de Data Marts. El concepto es el mismo, pero su alcance es más acotado, generalmente enfocado en las necesidades de un área en particular.

● Clave: historia, provee relevancia y contexto a lo largo del tiempo.

Page 27: Business Analytics 101

Modelado Dimensional

● A diferencia de los sistemas OLTP, los DW se modelan de acuerdo a los lineamientos y mejores prácticas del modelado dimensional (ver obra de Ralph Kimball).

● Optimizado para consultas ad-hoc sobre grandes volúmenes de datos con agregaciones dinámicas.

● Tablas de dimensión: 1 tabla (o varias) por cada entidad del negocio o eje de análisis. Aportan contexto y definen la apertura que tendrán los KPIs: Cliente, Tiempo, Producto.

● Tabla de hechos: tabla que contiene 1 columna por cada KPI a analizar: importe, cantidad, ticket promedio, etc. Además de los KPI cuenta con 1 columna por cada tabla de dimensión.

● A esto se lo conoce comúnmente como esquema o modelo estrella.

Producto

Tiempo

EmpleadoGeografía

Cliente

Ventas

Page 28: Business Analytics 101

Dimensiones y Métricas - What and By

● Regla semántica: métricas por dimensión. Ej: costo por empleado por año.

Page 29: Business Analytics 101

3FN vs. Modelo Estrella

● El modelo estrella presenta cierto grado de desnormalización para aplanar tablas y reducir joins● Se privilegian los tiempos de lectura sobre los de escritura

Page 30: Business Analytics 101

Data Visualization & Discovery

Data Integration

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

Data Viz & Discovery

ExtractTransformCleanLoad

Cloud AppsSocial Nets

Data Warehouse

Page 31: Business Analytics 101

Data Visualization & Discovery

● La presentación de los datos afecta como la información es interpretada por los usuarios y el valor que obtienen de ella

● Para mejorar la UX y aumentar el valor de la solución, debemos proveer a los usuarios de una plataforma interactiva que les permita navegar grandes volúmenes de datos a la velocidad del pensamiento

● En lugar de los clásicos reportes y dashboards, se busca que el usuario pueda elegir que analizar, a que nivel de agregación, y en que formato lo quiere visualizar

● El Data Discovery permite explorar la información para detectar tendencias y patrones ocultos, reduciendo la dependencia de IT

● Las interacciones gráficas con los datos mediante un navegador web se han convertido en un standard, gracias a tecnologías como AJAX, JS y HTML5

● El tiempo de respuesta es un factor crítico, por lo que se suele recurrir a diferentes tecnologías como bases de datos analíticas (OLAP, column orientated, etc.) e In-Memory analytics

● El Visual Discovery libera a los usuarios de algunas limitaciones típicas del BI como las preguntas predefinidas y respuestas conocidas (ej.: ventas por región).

Data Viz & Discovery

Page 32: Business Analytics 101

Data Visualization & Discovery

Page 33: Business Analytics 101

Data Integration

Data Science

SiebelPeopleSoftSAP R/3

VSAM MQSeriesAS/400

DB2 UDB InformixOracleMicrosoft...

Flat FileFTP/SFTP

Web Logs

Data Viz & Discovery

ExtractTransformCleanLoad Data Science

Cloud AppsSocial Nets

Data Warehouse

Page 34: Business Analytics 101

Data Science

● Data Science consiste en la extracción de información que reside de manera implícita en los datos mediante técnicas estadísticas y/o diversos algoritmos del campo de la inteligencia artificial.

● Existen 2 grandes tipos de técnicas:○ Modelos descriptivos: entender más sobre la actualidad○ Modelos predictivos: tratar de predecir que va a pasar

● Algunos ejemplos de aplicaciones prácticas de DM:○ Caracterización de perfiles de clientes para definir acciones de MKT,

ofertas, etc.○ Gestión de campañas, predicción de respuestas○ Canasta de consumo. Determinación de Paquetes de productos -

Ofertas○ Detección/Prevención de fraudes○ Modelos de predicción de abandono (Attrition/Churn)○ Programas de millaje y fidelización de clientes○ Optimización de stock y modelos de proyección de demanda.

Data Science

Page 35: Business Analytics 101

Vendors y Tecnologías de Business AnalyticsData Integration

SQL Data Storage

Data Visualization & Discovery

Data Science

Page 36: Business Analytics 101

Claves para el éxito

● Participación: contar con el apoyo de la organización e Involucrar a usuarios claves● Priorizar los Quick-Wins en lugar de buscar el efecto Big-Bang, acelerando el time-to-value y ROI ● Single Version of the Truth: la solución debe aportar una visión unificada de la realidad, recolectando

y consolidando información de diversos sistemas, normalizando y estandarizando la información● Data Quality: difícilmente se puedan tomar buenas decisiones a partir de datos incorrectos. Una pobre

calidad de datos pone en jaque la confianza de la solución a los ojos de los usuarios● Self-Service: la solución debe estar orientada a que los usuarios puedan explotar e interactuar ellos

mismos la información, navegando las dimensiones, seleccionando las métricas, reduciendo su dependencia de las áreas de IT

● Analytics: Menos tiempo recolectando datos, y más tiempo para analizarlos! La solución debe ser una herramienta que permita el análisis de la información, y no simplemente un medio para descargar miles de datos crudos a nivel transaccional

● Anytime, anywhere: Acceso a información actualizada desde cualquier lugar y dispositivo, 24x7● Data Governance: resguardar el acceso a la información de acuerdo a perfiles de usuario● Agile: La solución debe ser ágil, escalable y evolutiva, de manera de poder acompañar al negocio e

incorporar constantemente información de nuevos sistemas, nuevos indicadores, y permitir análisis cada vez de mayor valor para la organización

Page 37: Business Analytics 101

Desafíos por delante

● Social Intelligence● Cloud-based platforms● Mobile BI● Big Data Analytics● Embedded Analytics● Geospatial Analytics● Real Time Analytics● Audiencia y público objetivo● Agile BI

Page 38: Business Analytics 101

Casos de Éxitos

Page 39: Business Analytics 101

HUB InternationalCreación de una única versión de la verdad, integrando datos de diferentes sistemas a un Enterprise Data Warehouse.Desarrollo cubos In-Memory para proveer capacidades de self-service Data Discovery a la velocidad del pensamiento.Mejoras en la experiencia de usuario con visualizaciones avanzadas como mapas interactivos (Geo Analytics).Customización del modelo de seguridad para aportar mayor flexibilidad en el control de acceso a la información.Mejoras en el modelo dimensional y tuning general para mayor performance contra grandes volúmenes de datos.

Tools & TechnologiesPentaho Business AnalyticsMicrosoft Integration Services (SSIS)Microsoft SQL Server

HUB International

Page 40: Business Analytics 101

MindshareDiseño de un modelo dimensional para consolidar información de múltiples plataformas de web analytics.Desarrollo de procesos automáticos para extraer datos de la nube y cargarlos en el modelo dimensional.Creación de varios cubos OLAP, habilitando análisis de tipo ad-hoc usando técnicos como drill-down y slice-&-diceEvaluación y POCs con diferentes tecnologías de Data Viz & Discovery: Pentaho, QlikView y Tableau.

Tools & TechnologiesMicrosoft Integration Services (SSIS)Microsoft SQL ServerMicrosoft Analysis Services (SSAS)Microsoft PowerPivot

Mindshare

Page 41: Business Analytics 101

ClaroCreación de un Data Mart Comercial con información sobre las ventas e instalaciones de productos y servicios.Desarrollo de procesos automáticos para recolectar y consolidar la información proveniente del ERP. Implementación de un dashboard que permite a los usuarios filtrar y analizar los datos por regiones, canales de distribución, segmentos, etc.Análisis de tendencias de ventas e instalaciones mediante series de tiempo.

Tools & TechnologiesOracle 11gOBIEE 11gMicrosoft SQL ServerAccess

Claro

Page 42: Business Analytics 101

AmadeusDesarrollo de una Web UI para cadenas hoteleras, otorgándoles acceso a la información y la posibilidad de crear sus propios dashboards y reportes. La solución le brindó a los hoteles y cadenas la posibilidad de recolectar y analizar datos del comportamiento y actividad de sus clientes.Embedded Analytics: solución desarrollada con la plataforma de BI de Amadeus (Oracle BI Enterprise Edition)

FrameworksOBIEE 11gjQueryHMTL5Java

Amadeus

Page 43: Business Analytics 101

MoneyGram InternationalDesarrollo de un modelo para detectar operaciones financieras fraudulentas, basándose en patrones y comportamientos fraudulentos observados con anterioridad.Modelo híbrido basado en clustering y árboles de decisión.Dado que esta clase de sistemas requieren de monitoreo y ajustes, se implementaron procesos automáticos y alertas para informar degradación en la performance del modelo.

Tools & TechnologiesR

MoneyGram International

Page 44: Business Analytics 101

Q&A

Page 45: Business Analytics 101

Muchas Gracias!