01 Introduccion a La Mineria de Datos 29 [Modo de ad

download 01 Introduccion a La Mineria de Datos 29 [Modo de ad

of 29

Transcript of 01 Introduccion a La Mineria de Datos 29 [Modo de ad

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    1/29

    minera de datos

    Ph.D. (c) MSc. Carlos Alberto Cobos Lozadaccobos unicauca.edu.co

    http://www.unicauca.edu.co/~ccobosGrupo de I+D en Tecnologas de la Informacin (GTI)Departamento de SistemasFacultad de Ingeniera Electrnica y Telecomunicaciones

    Universidad del Cauca

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    2/29

    Definicin

    Gartner Group (www.gartner.com): es el proceso de descubrir nuevas ysignificantes correlaciones, patrones y tendencias en grandes

    de reconocimiento de patrones as como tcnicas estadsticas ymatemticas

    MIT Technology Review (enero 2001) la selecciona como una de las 10tecnologas emergentes que cambiarn al mundo, ejemplo: BostonCeltis (basketball) en Septiembre-Diciembre de 2003 busca experto enDM

    Witten & Frank (2000): es la extraccin de informacin implcita,previamente desconocida y potencialmente til desde los datos

    Fayyad (1997): es la aplicacin de algoritmos para extraer patrones de

    los datos, siendo esto una parte del descubrimiento de conocimiento

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    3/29

    Definicin

    Conexin Datos: smbolos Informacin: datos ue son

    Informacin

    Conocimiento

    Entender lospatrones

    Entender losprincipios

    procesados para que seantiles; proveen respuestas apreguntas del tipo quin,qu, dnde y cundo

    Conocimiento: aplicacin dedatos e informacin apreguntas del tipo cmo o

    Datos Entendimiento

    n en er as

    relacionespor qu

    Sabidura: la comprensin delos principios

    http://www.systems-thinking.org/dikw/dikw.htm

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    4/29

    Justificacin

    John Naisbitt: estamos ahogndonos en informacinero hambrientos de conocimiento

    Explosin en recoleccin de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable

    El incremento en el acceso a los datos desde la web El incremento en la competencia en una economa global El desarrollo de herramientas comerciales y acadmicas de

    , , , ,

    PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y

    almacenamiento

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    5/29

    Justificacin

    Confluyen varias disciplinas

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    6/29

    Proceso de desarrollo

    CRISP-DM (Cross Industry Standard Process for Data Mining)

    Comprensin delnegocio

    Anlisis de losdatos

    Preparacin delos datos

    ModelamientoEvaluacin

    Despliegue Datos

    SEMMA (Sample, Explore, Modify, Model, Assess): ms orientado alas caractersticas tcnicas del desarrollo del proyecto, propietario

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    7/29

    Falacias de la minera de datos

    1. Existen herramientas de minera de datos que

    resolvern nuestras problemas

    2. El proceso de minera de datos es autnomorequiriendo muy poca intervencin humana

    3. La inversin en procesos de minera de datosse paga por si misma y rpidamente

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    8/29

    Falacias de la minera de datos

    4. Las herramientas o paquetes de minera de

    5. La minera de datos identifica las causas de

    nuestros problemas de negocios o deinvestigacin

    6. Con minera de datos se limpiaran y ordenaranautomticamente nuestras bases de datos

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    9/29

    Tareas de la minera de datos

    Descripcin Clasificacin

    Estimacin Prediccin

    A ru acin or similitud

    (Clustering) Asociacin

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    10/29

    Tareas de la minera de datos

    Descripcin

    tendencias

    Los modelos de minera de datos deben ser lo mstransparentes posibles. rboles de decisin vs. RedesNeuronales

    Tcnicas estadsticas (media, moda, mediana,desviacin estndar, mnimo , mximo, rango,correlaciones) y grficas, algoritmos genticos

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    11/29

    Demo 1 con Weka

    En Weka

    clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff

    Se explorar la pestaa de pre-procesamiento: atributos, medidasy grficas

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    12/29

    Tareas de la minera de datos

    Clasificacin Establecer a que valor

    Determinar si una enfermedadparticular esta presente

    registro Clasifica los ingresos (altos,

    medios, bajos) basado en laedad, genero, ocupacin

    Determinar si una operacinespecifica con tarjeta decrdito es fraudulenta

    Ubicar a un estudiante en untrack especifico de cursos

    estado financiero indica unaamenaza de terrorismo Determinar el tipo de medicina

    ms adecuada para unpaciente

    Redes neuronales, rboles dedecisin (C4.5, C5.0, CART),k-vecino ms cercano

    habilidades Determinar si otorgar una

    hipoteca es una buen o maladecisin (riesgo)

    Tomado de [1] para uso educativo

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    13/29

    Demo 2 con Weka

    En Weka

    clasificacion-drug.arff Uso del rbol de decisin J48 Visualizacin del rbol y explicacin de los resultados Matriz de confusin Instancias correctamente clasificadas Optimizacin basada en costos, ejemplo de tnel metacarpiano y

    el costo de falsos ositivos falsos ne ativos

    Importancia de los expertos: nuevo atributo a5/a6

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    14/29

    Tareas de la minera de datos

    Estimacin Similar a Clasificacin, pero la

    variable ob etivo es numrica

    Tcnicas estadsticas (ejemplo,regresin lineal simple,

    Estimar la presin de la sangre deun paciente basado en la edad,genero, ndice de masa corporal ylos niveles de sodio en la sangre

    Estimar la cantidad de dinero queuna familia de cuatro personas

    seleccionada al azar gastara en lascompras de regreso al colegio Estimar el promedio de un

    estudiante de postgrado basado ensu romedio en los resultados

    corre ac n, regres n m p e ,redes neuronales

    universitarios de pregrado

    Tomado de [1] para uso educativo

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    15/29

    Tareas de la minera de datos

    Prediccin Similar a clasificacin y

    Tcnicas estadsticas, redesneuronales, rboles de decisinC4.5, C5.0, CART , k-vecino ms,

    resultados se ubican en elfuturo Predecir el incremento en el

    nmero de muertes enaccidentes de trfico si el

    prximo ao se aumenta ellimite de velocidad Predecir el ganador de la

    segunda temporada de ftbol

    cercano, algoritmos genticos

    basado en los resultadosestadsticos de los equipos Predecir el precio del

    inventario en tres (3) meses Tomado de [1] para uso educativo

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    16/29

    Tareas de la minera de datos

    Agrupacin por similitud(Clustering)

    Agrupar los resultados debsquedas en Internet

    instancias/objetos decaractersticas similares y sediferencien de los que estn enotras clases

    No hay variable objetivo Es a menudo un procesopreliminar en el proceso de

    minera de datos En auditoria, segmentar el

    Agrupacin Jerrquica, K-means, Red Kohonen, FuzzyC-means

    compor am en o nanc ero

    entre benignas y sospechosas Reducir el nmero de atributos

    a tratar en un DataSet

    Tomado de [1] para uso educativo

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    17/29

    Demo 3 con Weka

    En Weka Uso de la estaa de clusterin con el archivo clusterin -sencillo.arff La columna clase es slo para introducir el ejemplo, pero en un

    problema de clustering normalmente los datos no estn pre-clasificados

    Uso de la pestaa de Visualizacin para ver la distribucin de las

    clases en cada uno de los atributos Visualmente se definen cuales caractersticas son apropiadas

    (varianza-desviacin en cada eje)

    dimensiones o caractersticas seleccionadas Remover la clase en la pestaa de pre-procesamiento Ejecucin de SimpleKmeans con 3 clusters Mostrar como hacer validacin cuando se conoce la clase

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    18/29

    Tareas de la minera de datos

    Asociacin Encontrar los atributos ue

    Determinar la

    van juntos Conocido como anlisis de

    afinidad o anlisis de lacanasta de mercado

    Si Entonces Cuales tems se compran

    donde una nuevadroga genera efectossecundarios peligrosos

    Reglas de asociacin

    Establecer cualessituaciones degradan la redde telecomunicaciones

    con algoritmos Apriori, GRI, FP Grow

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    19/29

    Demo 4 con Weka

    En Weka Uso de la estaa de Asociacin con el archivo Basket.arff Se usa informacin de la tarjeta Se deja informacin slo de los productos comprados en cada

    transaccin Se usa el algoritmo apriori Explicacin del soporte Explicacin de la confianza

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    20/29

    Aplicaciones

    Mejorar la eficiencia del marketing Identificar prospectos

    Escoger el canal de comunicacin para alcanzar losprospectos Crear mensajes apropiados para grupos de prospectos

    Ejemplo: un mensaje en la pgina de deportes del peridico, otrodistinto en la pgina de poltica

    Ejemplo: un mensaje destacando el precio para usuarios sensiblesal precio y otro destacando la conveniencia del producto (comprasy/o pedidos nocturnos, dominicales y festivos)

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    21/29

    Aplicaciones

    Retener clientes rentables

    ,crditos) Prevenir fraudes

    Recuperar clientes Mejorar la satisfaccin de los clientes

    Incrementar ventas Mejorar la rentabilidad de sus clientes

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    22/29

    Aplicaciones

    venta cruzada (cross-selling) e incremento de

    -

    Retener talento humano Definir lneas de capacitacin y retencin de

    talento humano

    Gestin de la cadena de suministro

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    23/29

    Industrias donde aplica:

    Aplicaciones

    Proveedores

    Seguros Telecomunicaciones Venta al por menor (e-commerce)

    Venta al por mayor Turismo Educacin

    Gente

    Deptos.Administrativos

    AuditoriaDeptos.

    Operativos

    Productos

    Salud

    Otros

    Clientes

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    24/29

    Aplicaciones

    En industrias manufactureras (vehculos), encontrarcuales situaciones generan la mayor cantidad de

    rec amos garan as En educacin, encontrar relaciones entre tipos de

    estudios y origen de los estudiantes en una universidad

    Predecir condiciones financieras especificas que llevanuna empresa a la banca rota

    Organizar una campaa de turismo interno para eldepartamento

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    25/29

    Aplicaciones

    Clasificacin de datos estelares Dia nostico medico

    Tnel carpiano Medicinas en tratamientos

    Text Mining Web Mining

    Contenido Estructura - Navegacin Uso

    Bio-Informtica

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    26/29

    Aplicaciones en GTI

    Bsqueda en Internet BIM (2008): Ontologas, Resultado de los motores de bsqueda

    oog e, a oo, , er e usuar o, ner a e ex os DSS para viveros automatizados (2008)

    Bodegas de datos y OLAP

    Clasificacin (C4.5, C5.0, CART) http://www.unicauca.edu.co/biotecnologia/ediciones/vol6/3.pdf

    - http://www.revistas.unal.edu.co/index.php/ingeinv/article/download/18177/19087

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    27/29

    Aplicaciones en GTI

    DSS para el repositorio de acceso pblico de objetos deaprendizaje (SPAR, 2009)

    Bodegas, OLAP y Minera Web (de contenidos)

    Sistema de recomendacin de patrones pedaggicosbasado en ontologas y minera de datos (2009) Singular Value Decomposition, Frobenius, k-nn

    Reconocimiento Balstico (2010) rocesam en o y n s s e m genes, gor mos en cos,

    los k vecinos ms cercanos (k-nn) y validacin cruzada http://revistas.uis.edu.co/index.php/revistauisingenierias/article/view/505

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    28/29

    Aplicaciones en GTI

    Bsqueda en Internet Clustering en general (Harmony Search, k-means) (2009)

    Web Document Clustering Global-Best Harmony Search y Fp-growth (2010) Algoritmos memticos con tcnicas de niching (2010)

    En proceso (2010 2011) -

    Web Document Clustering basado en Cuckoo search Web Document Clustering desde una perspectiva hper-

    heurstica Web Document Clustering basado en Mquinas de Soporte

    Vectorial

    f

  • 8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad

    29/29

    Referencias

    1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T.Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2

    . , . . . .

    ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEEPress.3. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan.

    Wiley Publishing, Indiana, 2005.4. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and

    Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524.5. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin:

    Datawarehouse y Datamining. Departamento de Sistemas Informticos yComputacin. Universidad Politcnica de Valencia.

    . . . .

    6. Wang, John (Editor). Data Mining: Opportunities and Challenges.Hershey, PA, USA: Idea Group Inc., 2003.