01 Data Mining

download 01 Data Mining

of 27

Transcript of 01 Data Mining

  • 8/12/2019 01 Data Mining

    1/27

    Torturando a los datos para que nos

    digan la verdad

    Curso Taller Minera de Datos

    Aplicaciones en Marketing

    1

  • 8/12/2019 01 Data Mining

    2/27

    www.dataminingperu.com

    Esquema del Curso TallerData Mining

    2

    Herramientas:- SPSS

    - Excel

    - SQL Server

    - Rapid Miner

    http://www.dataminingperu.com/http://www.dataminingperu.com/
  • 8/12/2019 01 Data Mining

    3/27

    www.dataminingperu.com

    Introduccin

    Jonny Chambi Canahuire. MBA por la Universidad Peruana de Ciencias

    Aplicadas. Master en Marketing y Gestin Comercial. Bachiller en Ingeniera

    Estadstica por la Universidad Nacional de Ingeniera. Con experiencia en

    ms de 8 aos en la construccin de modelos analticos para la gestin

    Comercial.

    Wilson Arias Huamani. Bachiller de Ingeniera Estadstica por la UniversidadNacional de Ingeniera. Con experiencia en el desarrollo de modelos de

    riesgo crediticio para entidades bancarias. Ha desarrollado su trabajo en

    entidades como Banco Falabella, Banco Interbank y BBVA Banco

    Continental.

    3

    http://www.dataminingperu.com/http://www.dataminingperu.com/
  • 8/12/2019 01 Data Mining

    4/27

    I - Introduccin

    Curso Taller Minera de Datos

    Aplicaciones en Marketing

    4

  • 8/12/2019 01 Data Mining

    5/27

    www.dataminingperu.com

    Introduccin

    5

    http://www.dataminingperu.com/http://www.dataminingperu.com/
  • 8/12/2019 01 Data Mining

    6/27

    Qu es Business Intelligence?

    Conjunto de estrategias y herramientas enfocadas a la administracin y

    creacin de conocimiento mediante el anlisis de datos exi stentes en laorganizacin o empresa.

    6

  • 8/12/2019 01 Data Mining

    7/27

    Que es la Minera de Datos?

    Consiste en la extraccin no trivial de inform acin que reside de manera implcita en

    los datos.

    La minera de datos prepara, son dea y explora los datos para extraer la informacin

    oculta en ellos. Data mining is a multi-disciplinary field which combines statistics, machine learning,

    artificial intelligence and database technology.

    7

  • 8/12/2019 01 Data Mining

    8/27

    Que es Big Data?

    8

  • 8/12/2019 01 Data Mining

    9/27

    Reportes

    Estndar

    Reportes

    Ad Hoc

    Query

    Drill Down

    Alertas

    Anlisis

    Estadstico

    Pronostico

    Modelado

    Predictivo

    Optimizacin

    Grado de Inteligencia

    ValoralNegocio

    Que paso?

    Por qu Paso?

    Qu va a pasar?

    Cmo me preparo?

    Niveles de Anlisis

    9

  • 8/12/2019 01 Data Mining

    10/27

    Tipos de Anlisis

    Para Explicar

    el Pasado

    Univariado

    Bivariado

    Categrico

    Numrico

    - Totales y Porcentajes

    - Grficos: Barra y Pie

    - Min, Max, Media, Mediana, Moda

    - Rangos Intercuartilicos, Varianza,Desviacin Estndar, Coeficiente de

    Variacin

    - Kurtosis y Asimetria

    - Grficos: Histograma y Cajas (Boxplot)

    Categrico Vs

    Categrico

    Numrico Vs

    Numrico

    Categrico Vs

    Numrico

    - Chi Cuadrado

    - Grficos: Barras y de dos Ejes

    - Correlacin

    - Scatter Plot (Dispersin)

    - Z Test, T Test, ANOVA

    - Grficos: Barras y Lneas

    10

  • 8/12/2019 01 Data Mining

    11/27

    Anlisis de Variables Nmericas

    11

    Univariate Analysis - Numerical

    Estadstico Visualizacin Ecuacin Descripcin

    Total Histograma N Nmero de observaciones de la variable

    Mnimo Box Plot Min El menor valor de la variable

    Mximo Box Plot Max El mximo valor de la variable

    Media Box Plot La suma de todos los valores de la variable dividida entre la suma

    Mediana Box PlotEl valor central. La mediana divide a la variable en dos partes iguales

    por debajo y arriba de este valor.

    Moda Histograma El valor ms frecuente de la variable. Puede ser no nico.

    Cuantiles Box PlotConjunto de puntos de corte que dividen a la muestra en partes iguales

    (Cuartiles, Quintiles, Percentiles)

    Rango Box Plot Max-Min La diferencia entre el mximo y el mnimo

    Varianza Histograma El indicador de la dispersin de la variable.

    Desviacin Estandar Histograma La raz cuadrada de la Varianza. Se expresa en las mismas unidades .

    Coeficiente de Variacin Histograma La dispersin expresada en funcin a la media.

    Coef. de Asimtra HistogramaSirve para identificar si una distribucin es asimetrca o no, con

    respecto a la media.

    Kurtosis HistogramaEstadstico que sirve para medir cuanto se asemeja a una distribucin

    normal.

  • 8/12/2019 01 Data Mining

    12/27

    Tipos de Anlisis

    Para Predecir

    el Futuro

    Clasificacin

    Segmentacin

    Arboles de

    Decisin

    Regresin

    Logstica

    Reglas de

    Asociacin

    SVM

    Redes

    Neuronales

    Naive Baues

    Aglomerativa

    Divisiva

    K-means

    EstimacinRegresin

    Mltiple

    12

  • 8/12/2019 01 Data Mining

    13/27

    Funciones o Tareas del DM

    Clasificacin

    Clasificar si un cliente desea adquirir una tarjeta de crdito o un producto especifico.

    Se pueden clasificar en ms de dos niveles.

    Estimacin

    Predecir un valor no conocido y que sea de carcter continuo.

    Ejemplo: Un estimador de Ingresos.

    Prediccin

    Estrictamente es la tarea de identificar un valor en el futuro.

    Demanda de un producto, Estimacin de precios. Estimacin del valor de una accin en el mercado.

    Clustering

    Segmentacin. Se trata de dividir los registros en grupos heterogneos y que son homogeneos dentro delos mismos.

    Segmentacin por estilos de vida.

    Asociacin

    Conocido tambien como Market Basket Analysis. Consiste en encontrar registros que de forma natural seles puede encontrar juntos. Estos puedes ser productos, transacciones, secuencias de operaciones, etc.

    13

  • 8/12/2019 01 Data Mining

    14/27

    Minera de Datos Tareas: Clasificacin

    14

    Mtodos que permiten determinar la clase de un objeto previamentedefinido.

    Tcnicas

    Estadstica,

    Arboles de Decisin

    Bayes Redes Neuronales

    Anlisis de Regresin

    ...

    Como clasificaruna nueva

    observacin?X

    Y

  • 8/12/2019 01 Data Mining

    15/27

    Clasificacin: Regresin Lineal

    15

    La regresin calcula

    coeficiente wi para

    minimizar el error

    cuadrtico en el ajuste de

    la ecuacin lineal. No es lo suficientemente

    flxible

    w0 + w1x + w2y >= 0

    X

    Y

  • 8/12/2019 01 Data Mining

    16/27

    Tcnicas de Clasificacin: Arboles de Decisin

    16

    X

    Y

    52

    3

    Si X > 5 Entonces Azul

    Sino Y > 3 Entonces Azul Sino X > 2 Entonces Naranja

    Sino Azul

    Regla de Decisin

  • 8/12/2019 01 Data Mining

    17/27

    Clasificacin: Redes Neuronales

    17

    Se pueden elegir regiones ms

    complejas.

    Pueden ser ms precisas.

    Sin embargo, puedesobreajustar la data. Encontrar

    patrones en data totalmente

    aleatoria.

    X

    Y

  • 8/12/2019 01 Data Mining

    18/27

    Tareas del Data Mining: Clustering

    18

    El Objetivo es encontrar agrupaciones naturales sobre elementos no

    clasificados.

    X

    Y

  • 8/12/2019 01 Data Mining

    19/27

    Aplicaciones de la Minera de Datos

    Banca y Finanzas

    Determinacin de Fraude con el uso de Tarjetas de Crdito

    Generacin de Score de Riesgos para clientes morosos.

    Determinacin del Gasto en Tarjetas de Crdito por Grupos

    Retail

    Analisis de Canasta

    Segmentacin de Clientes

    Propensin a la compra de Productos Estrella Estimacin de Stocks

    Telecomunicaciones

    Establecimiento de Patrones de Llamadas

    Modelo de Carga en Redes

    Deteccin de Fraude

    Seguros y Salud

    Prediccin de clientes que contratan nuevas plizas

    Identificacin de Comportamiento Fraudulento

    Identificacin de patrones de comportamiento para clientes con riesgo.

    19

  • 8/12/2019 01 Data Mining

    20/27

    Mejorar las campaas de marketing

    para la venta de Tarjetas de Crdito.

    Problema de Negocio

    Mejorar la gestin de los clientes en

    base al uso del producto.

    Identificar los clientes con mayor

    valor potencial.

    Evitar la cancelacin de los mejores

    clientes.

    Mejorar los ratios de mora de los

    clientes de tarjeta de crdito.

    Generar un modelo de propensin

    para la compra.

    Modelo de segmentacin por uso.

    Generar un modelo de Valor de

    cliente. Segmentacin por valor.

    Generar un modelo de Churn o de

    fuga de clientes.

    Generar un modelo de riesgo

    crediticio.

    Problema de Minera de Datos

    Ejemplos de Minera de Datos

    20

  • 8/12/2019 01 Data Mining

    21/27

    Herramientas

    Comerciales

    Open Source

    http://www.r-project.org/

    http://www.cs.waikato.ac.nz/ml/weka/

    http://rapid-i.com/

    http://orange.biolab.si/

    21

    http://www.r-project.org/http://www.cs.waikato.ac.nz/ml/weka/http://rapid-i.com/http://orange.biolab.si/http://orange.biolab.si/http://rapid-i.com/http://rapid-i.com/http://rapid-i.com/http://www.cs.waikato.ac.nz/ml/weka/http://www.r-project.org/http://www.r-project.org/http://www.r-project.org/http://orange.biolab.si/
  • 8/12/2019 01 Data Mining

    22/27

    Herramientas ms Utilizadas de Data Mining

    22

    Fuente: 5th Annual Data Miner Survey www.rexeranalytics.com

    http://www.rexeranalytics.com/http://www.rexeranalytics.com/
  • 8/12/2019 01 Data Mining

    23/27

    Diferencias entre las Herramientas

    23

    Fuente: 5th Annual Data Miner Survey www.rexeranalytics.com

    Que se requiere para tener xito en minera de

    http://www.rexeranalytics.com/http://www.rexeranalytics.com/
  • 8/12/2019 01 Data Mining

    24/27

    Que se requiere para tener xito en minera de

    Datos?

    24

    Experiencia en

    Tema o negocio

    Datos Modelos

    Analticos

  • 8/12/2019 01 Data Mining

    25/27

    Transformar los Datos

    Actuar

    Medir los resultados

    Identificar

    En informacin accionable

    usando tcnicas de MD

    Con la informacin disponible

    Sobre los esfuerzos, para

    completar el ciclo de

    aprendizaje.

    Las oportunidades de negocio,

    donde el anlisis de los datos

    puede proporcionar valor.

    El virtuoso ciclo de la Minera de Datos

    25

  • 8/12/2019 01 Data Mining

    26/27

    www.dataminingperu.com

    Consultas

    Realiza una Consulta

    26

    http://www.dataminingperu.com/http://www.dataminingperu.com/Contactenos.htmlhttp://www.dataminingperu.com/Contactenos.htmlhttp://www.dataminingperu.com/Contactenos.htmlhttp://www.dataminingperu.com/
  • 8/12/2019 01 Data Mining

    27/27

    Contacto

    @jonnychambi

    facebook/jonny.chambi

    linkedin.com/in/jonnychambi

    [email protected]

    27