AnaÌlisis Multidimensional de Datos

29
Datos y objetos simbólicos Análisis multidimensional de datos

description

análisis multidimensional de datos- Presentación power point. Maestría en Metodología de la investigación

Transcript of AnaÌlisis Multidimensional de Datos

Datos y objetos simblicos

Datos y objetos simblicos

Anlisis multidimensional de datos

Anlisis multidimensional de datos (AMD)

Anlisis multidimensional clsico: se estudian conjuntos de objetos individuales representados por elementos atmicos de datos.

Anlisis multidimensional de datos

Describir cualquier situacin, por ejemplo, las caractersticas fsicas de una persona, la situacin poltica en un pas, las propiedades de una imagen, el rendimiento de un proceso, el anlisis de una obra de arte, requiere tener en cuenta simultneamente varias variables. Para describir las caractersticas fsicas de una persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de sus piernas, etc. Para describir la situacin poltica de un pas, variables como la existencia o no de un rgimen democrtico, el grado de participacin poltica de los ciudadanos, el nmero de partidos y sus afiliados, etc. El anlisis de datos multivariantes tienen por objeto el estudio de varias variables evaluadas en unidades de anlisis de una poblacin. Pretende los siguientes objetivos:

Objetivos del anlisis multivariado

Resumir el conjunto de variables en una pocas nuevas variables, construidas como transformaciones de las originales, con la mnima prdida de informacin.Por ejemplo, el crecimiento de los precios en una economa se resume en un ndice de precios, la calidad de una universidad o de un departamento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se resumen en la ropa de confeccin en unas pocas variables indicadoras del conjunto. Disponer de estas indicadores tiene varias ventajas: (1) si son pocas podemos representarlas grficamente y comparar distintos conjuntos de datos o instantes en el tiempo; (2) simplifican el anlisis al permitir trabajar con un nmero menor de variables; (3) si las variables indicadoras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada. El anlisis multivariante de datos proporciona mtodos objetivos para conocer cuntas variables indicadoras, que a veces se denomina factores, son necesarias para describir una realidad compleja y determinar su estructura.

Objetivos del anlisis multivariado

Encontrar grupos en los datos si existen.

Si observamos un conjunto de variables en un estudio sobre empresas, esperamos que los datos indiquen una divisin de las empresas en grupos en funcin de su rentabilidad, su eficacia comercial o su estructura productiva.

En muchas situaciones los grupos son desconocidos a priori y queremos disponer de un procedimiento objetivo para obtener los grupos existentes y clasificar las observaciones.

Objetivos del anlisis multivariado

Clasificar nuevas observaciones en grupos definidos.

los grupos estn bien definidos a priori y queremos clasificar nuevas observaciones. Por ejemplo, queremos clasificar a clientes que solicitan crditos como fiables o no, personas como enfermas o no, o disear una mquina que clasifique monedas o billetes en clases prefijadas.

Para alcanzar estos tres objetivos una herramienta importante es entender la estructura de dependencia entre las variables, ya que las relaciones entre las variables son las que permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables individuales o clasificar en casos complejos. Un problema distinto es relacionar dos conjuntos de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de variables. En particular, los dos grupos de variables pueden corresponder a las mismas variables medidas en dos momentos distintos en el tiempo o en el espacio y queremos ver la relacin entre ambos conjuntos.

Las tcnicas de anlisis multivariante tienen aplicaciones en todos los campos cientficos y comenzaron desarrollndose para resolver problemas de clasificacin en Biologa, se ex- tendieron para encontrar variables indicadoras y factores en Psicometra, Marketing y las Ciencias sociales y han alcanzado una gran aplicacin en Ingeniera y Ciencias de la computacin como herramientas para resumir la informacin y disear sistemas de clasificacin automtica y de reconocimiento de patrones

Administracin de Empresas: Construir tipologas de clientes. Agricultura: Clasificar terrenos de cultivo por fotos areas.

Arqueologa: Clasificar restos arqueolgicos.

Biometra: Identicar los factores que determinan la forma de un organismo vivo.

Ciencias de la Computacin: Disear algoritmos de clasificacin automtica.

Ciencias de la Educacin: Investigar la efectividad del aprendizaje a distancia.

Ciencias del medio ambiente: Investigar las dimensiones de la contaminacin ambiental.

Documentacin: Clasificar revistas por sus artculos y construir indicadores bibliomtricos.

Economa: Identificar las dimensiones del desarrollo econmico.

Geologa: Clasificar sedimentos.

Historia: Determinar la importancia relativa de los factores que caracterizan los periodos prerevolucionarios.

I

Ingeniera: Transmitir ptimamente seales por canales digitales.

Lingstica: Encontrar patrones de asociacin de palabras.

Medicina: Identificar tumores mediante imgenes digitales.

Psicologa: Determinar los factores que componen la inteligencia humana

Sociologa y Ciencia Poltica: Construir tipologas de los votantes de un partido.

DESCRIPCIN DE DATOS MULTIVARIANTES

La informacin de partida para los mtodos estudiados puede ser de varios tipos.

La ms habitual es una tabla donde aparecen los valores de p variables observadas sobre n elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numricamente, como la edad de una persona, su estatura o su renta, o cualitativas, cuando su valor sea un atributo o categora, como el gnero, el color de los ojos o el municipio de nacimiento. Las variables cuantitativas pueden a su vez clasificarse en continuas o de intervalo, cuando pueden tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando slo toman

valores enteros, como el nmero de hermanos. Las variables cualitativas pueden clasificarse en binarias, cuando toman nicamente dos valores posibles, como el gnero (mujer, hombre) o generales, cuando toman muchos valores posibles, como el municipio de residencia.

Ejemplo

En 100 estudiantes de una universidad medimos la edad, el gnero (1 mujer, 0 hombre), la calificacin media, el municipio de residencia (que se codifica en 4 categoras en funcin del tamao) y el curso ms alto en que se encuentra matriculado. Los datos iniciales se representan en una tabla de 100 filas, cada una de ellas correspondiente a los datos de un estudiante. La tabla tendr 5 columnas, cada una de ellas conteniendo los valores de una de las 5 variables definidas. De estas 5 variables 3 son cuantitativas, una binaria (el gnero) y otra cualitativa general (municipio de residencia, que tomar los valores 1, 2, 3, y 4). Alternativamente podramos codificar el municipio de residencia con tres variables binarias, y entonces, la matriz de datos tendr n =100 filas y p = 7 columnas correspondientes a las tres cuantitativas, el gnero, y las tres variables binarias adicionales para describir el tamao del municipio de residencia.

Ejemplo

En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las medidas de 30 variables ambientales y de contaminacin atmosfrica en dicho punto. Cada hora tendremos una matriz de datos con 400 filas, los puntos de observacin, y 30 columnas, las 30 variables observadas.

Objeto simblico

Modo de representacin de datos complejos.

Surge de analizar diferentes bases de datos

Datos y objetos simblicos

Tradicionalmente se representan las UA como entidades simples y las variables adoptando un valor o categora en cada individuo

Datos y objetos simblicos

Los valores de las variables pueden no ser atmicos

Grupo de valores, un intervalo de valores o una distribucin de probabilidad

Ejemplo:

La variable y: tiempo dedicado a la prctica de deporte.

Evaluada como el nmero de minutos dedicados a la prctica del deporte por da

Un objeto simblico puede describir:

Un grupo

Una clase de entidades

Ejemplo Tabla simblica:

SEXOEDADPROFESINOS1{Mujer 0,33Varn 0,67}[25,57]{Profesionales 0,35, personal directivo 0,25, jefes administ. 0,4}OS2[mujer 0,50Varn 0,50}[18.42]{comerciantes-vendedores 0,55; administrativos 0,45}

Datos simblicos relativos a las variables sexo, residencia y estado civil

Diagrama de Diday

P()

P()

y

y

h

h

y

E

E

: conjunto de unidades de anlisis

descripcin de los elementos de

Y:

Asocia a cualquier w de su descripcin

D: conjunto de descripcin de subconjunto de

OS: es un conjunto de propiedades concernientes

a un subconjunto de

D

Ejemplo (Patricia Calvo, Cristina Prado, Yolanda Prez, Marina Ayestarn;

Eustat, Instituto Vasco de Estadstica):

A partir de la informacin obtenida acerca de los accidentes de trfico

y sus posibles causas se crean 18 objetos simblicos en funcin de

Factores concurrentes al accidente y en funcin de su gravedad.

Las nueve modalidades que corresponden a los factores concurrentes

son: distraccin, infraccin-velocidad, alcohol-drogas, mal estado del

vehculo, mal estado del camino, meteorologa adversa, cansancio-

enfermedad, inexperiencia, otros no definidos.

En cuanto a la gravedad del accidente se diferencian dos modalidades

Segn haya habido muertos o no.

Dos modalidades que al cruzar con los nueve anteriores crea dieciocho

objetos simblicos.

Uno de esos objetos simblicos se expresa por el siguiente bloque

de texto:

"alcohol-drogas con muertos"(16) =

[epoca ={"primavera"(0.0625),"invierno"(0.25), "verano"(0.4375),

"otoo"(0.25)}] ^ [facatmo = {"otros fact.atmos."(0.0625), "con

lluvia"(0.0625), "buen tiempo"(0.875)}] ^ [hora = {"7-9

horas"(0.1875), "16-18"(0.125), "0-6 horas"(0.0625), "21-

23"(0.25), "10-12 horas"(0.25), "19-20"(0.125)}] ^ [intersec =

{"no en intersec."(1)}] ^ [lumino = {"pleno da"(0.5625), "noche ilum.suf."(0.125),

"noche ilum.insuf."(0.1875), "noche sin ilumi."(0.125)}] ^

[superf = {"seca y limpia"(0.875), "mojada"(0.125)}] ^

[tipoacc = {"salida de calzada"(0.1875), "frontal"(0.375), "vuelco"(0.0625),

"atropello"(0.125), "choque con obstculo"(0.125), "otro"(0.125)}] ^[tipodia =

{"laborable"(0.25), "vspera de festivo" (0.375), "festivo"(0.375)}] ^

[tipovia = {"autopista o autova"(0.25), "va convencional"(0.5),

"resto vas"(0.25)}] ^ [zona =

{"variante"(0.0625), "zona urbana"(0.0625), "carretera"(0.875)}]

Diagrama de Kiviatt

(TcnicasMultivariablesPropsito del AnlisisContrastesCorrelacinMtodosDescriptivosAjuste deModelosPrediccin dePertenenciaVD=1Nmerode VDVD>1VD=1Nmerode VDVD>1Reduccin dela informacinTipo de descripcinClasificacinSincrnicoTipo deAjusteDiacrnicoK=2Nde gruposK>2K=2Nde gruposK>2VI=1Nde VIVI>1ContinuasTipo de VarDiscretasContinuasTipo de VarDiscretasT de StudentContrastes noparamtricosANOVAT de HotelingMANOVAR de PearsonCorrelacin noparamtricaRegresinMltipleCorrelacinCannicaAnlisisDiscriminanteAnlisisFactorialEscalas MultidimensionalesAnlisis deCorrespondenciasClusterAnlisisModelosCausalesModelos deSeries TemporalesARIMAModelosLog-lineales)

Las variables que describen los objetos simblicos pueden ser a su vez:

Variables con dominio Taxonmico: Si ofrecen la posibilidad de definir una jerarqua en los valores que toma la variable. Esta taxonoma representa un conocimiento a priori de los datos.

Estado civil = soltero, no soltero (casado, viudo, divorciado/separado).

Variables Madre-Hija (o Dependencias Jerrquicas): Si ofrecen la posibilidad de definir variables que no son aplicables a todos los individuos, pero s lo son a individuos que verifican algunas propiedades.

SI Relacin con la Actividad = parado ENTONCES Tipo de Contrato es no aplicable.

Variables con Dependencias Lgicas (o Reglas): Si ofrecen la posibilidad de definir conocimiento a priori de los datos en forma de restriccin de las posibles combinaciones de valores para diferentes variables.

SI edad>65 ENTONCES Situacin profesional = Retirado