Cluster by mixtures. The Trace criteria (K-means)

Post on 02-Feb-2016

218 views 0 download

Tags:

Transcript of Cluster by mixtures. The Trace criteria (K-means)

Cluster by mixtures

The Trace criteria (K-means)

Equal variances: The determinant

General situation:

Mixture estimation

The EM algorithm

Métodos de Proyección(*)

• Idea central: buscar direcciones de proyección que muestren la heterogeneidad de una muestra.

• Proyectar los datos y buscar grupos sobre las proyecciones

* Peña, D. y Prieto, J. (2001). “Cluster Identification using Projections” “Cluster Identification using Projections” The Journal of American Statistical Association, 96, 456, 1433-1445, 2001The Journal of American Statistical Association, 96, 456, 1433-1445, 2001

Heterogeneidad

• ¿Cómo encontrar direcciones que muestren la heterogeneidad?

Heterogeneidad univariante

• Llamemos =

A la variabilidad de una variable (la j) respecto a su media

Kurtosis, para la normal =3

Coef. Kurtosis =12

Coef. Kurtosis= 1.38

Resultado principal

• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas, la dirección que minimiza la kurtosis es la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

• Puede demostrarse que si queremos alta separación en la proyeccion de dos distribuciones arbitrarias, medida por

Conclusión

• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas minimizando la kurtosis obtenemos la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

Metodo de Proyeccion (PP)

Exploracion de las direcciones

Ejemplo Ruspini

Comportamiento del procedimiento

Comportamiento del procedimiento

Algunas conclusiones

• Buscar clusters en proyecciones

1. Evita la maldición de la dimensión

2. Es muy eficiente en dimensión alta

3. Es óptimo para mezclas de normales con la misma varianza

4. Asegura alta capacidad de separación lineal para cualquier distribución

• Las direcciones mejores de separación son interesantes en si mismas para reducir el número de variables

Conclusiones generales

• Discriminación y cluster son problemas muy relacionados con la misma solución óptima en casos simples:

La mejor direccion de discriminación, en el sentido de Fisher, es la mejor dirección para hacer clusters, en el sentido de minimizar la kurtosis de los datos proyectados