Minería de Datos. Algo más que el ejemplo del Tenis.
description
Transcript of Minería de Datos. Algo más que el ejemplo del Tenis.
Minería de Datos. Algo más que el ejemplo del Tenis.Sergio Carrillo VilaData Platform Engineer – Business IntelligenceMicrosoft Business Management Specialist
Click here to add your MVP logo or MS Cert [email protected]
α ¿Qué es la minería de datos?β Usos de la minería de datos
α El ciclo de vida de un proyecto de Minería de Datosα Los datos para Minería de datos. Demoα Algoritmos
β Naive-Bayes. Demoβ Arboles de decisión. Demoβ Reglas de asociación. Demo
α Excel como herramienta de Minería de Datos. Demo
α Preguntas
Agenda
α Proceso de analizar los datos para encontrar patrones ocultos mediante el uso de metodologías automáticas
α Análisis Predictivo
α Aumentar el valor de nuestros datos
¿Qué es la minería de datos?
α Generación de Recomendacionesα Detección de Anomalíasα Administración de Riegosα Segmentación de Clientesα Previsionesα Anuncios personalizadosα …
¿Qué es la minería de datos?Usos de la minería de datos
Ciclo de VidaDe un proyecto de Minería de Datos
Transformación
Actuación
Medición
Identificación
α Interpretación de los datosα Vista sobre los datos
β Estadisticasβ Frecuencias
α Casosα Atributos
β Categóricos o nominalesβ Rankingsβ Intervalosβ Variables numéricas
α Estados
Los datos para la Minería
DEMODatos para la minería
α Es importante conocer nuestro datoβ No nos vamos a embarcar en un proyecto de mineria sin
hacerloα Es importante interpretar estos datos
β No juntemos peras con manzanas α La exploración de los datos…
β Puede mostrarnos anomalías en nuestro negocioβ Puede plantearnos nuevos problemas
Resumiendo
α Ofrece un método sistemático para aprender basado en los datos.
α Cuenta las correlaciones que hay entre la variable que queremos predecir y el resto de variables
α Una vez que tiene calculada las correlaciones, aplica las probabilidades.
α No puede utilizar atributos continuos para predecir, en el caso de tenerlos, utilizar rangos.
α Parámetrosβ MAXIMUN_INPUT_ATTRIBUTESβ MAXIMUN_OUTPUT_ATTRIBUTESβ MAXIMUN_STATESβ MINIMUM_DEPENDENCY_PROBABILITY
AlgoritmosNaive-Bayes
DEMONaive-Bayes
α Naive-Bayes es un algoritmo rápidoα Solo para atributos discretosα Visualizaciones desde SSMS y BIDSα DMX como lenguaje de consulta
Resumiendo
α Va dividiendo los datos recursivamente en pequeños conjuntos
α Evalúa como cada atributo va dividiendo estos conjuntos, colocando en la parte superior los mas restrictivos.
α Es un algoritmo de clasificaciónα Puede ser usado con atributos continuosα Hay que tener cuidado con el sobre entrenamientoα Algunos parámetros
β MINIMUN_SUPPORTβ SCORE_METHODβ SPLIT_METHOD
AlgoritmosArboles de decisión
DEMOArboles de decisión
α Es un algoritmo fácil de entenderα Riego de sobre entrenamientoα Permite el uso de atributos continuos
Resumiendo
α Es un algoritmo especialmente diseñado para el analisis de asociaciones
α Detecta reglas en nuestros datosβ Si A&&B C
α Cuenta la frecuencia de combinaciones de varios estados del atributo
α No utiliza probabilidadesα Cuando una combinación es muy frecuente, pasa a
ser una reglaα Parámetros:
β (MAXIMUN | MINIMUN)_ITEMSET_SIZEβ MAXIMUN_ITEMSET_COUNT
AlgoritmosReglas de asociación
DEMOReglas de Asociación
α Las reglas de asociación nos permite encontrar relaciones entre los valores de los atributos
α No es necesario que tengamos los valores en una tabla, podemos utilizar más de una
Resumiendo
α Add-in para Excel 2007β Da problemas para Excel 2010β Solo para versiones de 32bits
α Permite realizar modelos de forma temporalβ Crea una base de datos multidimensional en ASβ Vuelca los modelos y estructuras en esa base de datos
α Es más fácil para el usuario
Excel como herramienta MD
DEMOExcel como herramienta de Minería de Datos
α Desde Excel podemos crear nuestros modelos de mineria
α Tenemos accesibles casi todas la funcionalidadα Podemos explorar los datosα No necesitamos almacenes en base de datos para
nuestros datos de mineria
Resumiendo
Preguntas ?
No olvideis rellenar las evaluaciones!Os invitamos al Solid Quality Summit
Mas de 60 sesiones técnicas todas alrededor de SQL Server y SharePoint (Madrid 6 al 10 de Junio), mas info en mi email o
Sergio Carrillo VilaData Platform Engineer – Business Intelligence
Microsoft Business Management Specialist
Click here to add your MVP logo or MS Cert [email protected]
Gracias!Sergio Carrillo Vila
Data Platform Engineer – Business IntelligenceMicrosoft Business Management Specialist
Click here to add your MVP logo or MS Cert [email protected]