Cluster by mixtures. The Trace criteria (K-means)

47
Cluster by mixtures

Transcript of Cluster by mixtures. The Trace criteria (K-means)

Page 1: Cluster by mixtures. The Trace criteria (K-means)

Cluster by mixtures

Page 2: Cluster by mixtures. The Trace criteria (K-means)
Page 3: Cluster by mixtures. The Trace criteria (K-means)
Page 4: Cluster by mixtures. The Trace criteria (K-means)
Page 5: Cluster by mixtures. The Trace criteria (K-means)
Page 6: Cluster by mixtures. The Trace criteria (K-means)
Page 7: Cluster by mixtures. The Trace criteria (K-means)

The Trace criteria (K-means)

Page 8: Cluster by mixtures. The Trace criteria (K-means)

Equal variances: The determinant

Page 9: Cluster by mixtures. The Trace criteria (K-means)

General situation:

Page 10: Cluster by mixtures. The Trace criteria (K-means)
Page 11: Cluster by mixtures. The Trace criteria (K-means)

Mixture estimation

Page 12: Cluster by mixtures. The Trace criteria (K-means)
Page 13: Cluster by mixtures. The Trace criteria (K-means)
Page 14: Cluster by mixtures. The Trace criteria (K-means)
Page 15: Cluster by mixtures. The Trace criteria (K-means)

The EM algorithm

Page 16: Cluster by mixtures. The Trace criteria (K-means)
Page 17: Cluster by mixtures. The Trace criteria (K-means)
Page 18: Cluster by mixtures. The Trace criteria (K-means)
Page 19: Cluster by mixtures. The Trace criteria (K-means)
Page 20: Cluster by mixtures. The Trace criteria (K-means)
Page 21: Cluster by mixtures. The Trace criteria (K-means)
Page 22: Cluster by mixtures. The Trace criteria (K-means)
Page 23: Cluster by mixtures. The Trace criteria (K-means)
Page 24: Cluster by mixtures. The Trace criteria (K-means)
Page 25: Cluster by mixtures. The Trace criteria (K-means)

Métodos de Proyección(*)

• Idea central: buscar direcciones de proyección que muestren la heterogeneidad de una muestra.

• Proyectar los datos y buscar grupos sobre las proyecciones

* Peña, D. y Prieto, J. (2001). “Cluster Identification using Projections” “Cluster Identification using Projections” The Journal of American Statistical Association, 96, 456, 1433-1445, 2001The Journal of American Statistical Association, 96, 456, 1433-1445, 2001

Page 26: Cluster by mixtures. The Trace criteria (K-means)

Heterogeneidad

• ¿Cómo encontrar direcciones que muestren la heterogeneidad?

Page 27: Cluster by mixtures. The Trace criteria (K-means)

Heterogeneidad univariante

• Llamemos =

A la variabilidad de una variable (la j) respecto a su media

Page 28: Cluster by mixtures. The Trace criteria (K-means)
Page 29: Cluster by mixtures. The Trace criteria (K-means)
Page 30: Cluster by mixtures. The Trace criteria (K-means)

Kurtosis, para la normal =3

Coef. Kurtosis =12

Page 31: Cluster by mixtures. The Trace criteria (K-means)

Coef. Kurtosis= 1.38

Page 32: Cluster by mixtures. The Trace criteria (K-means)

Resultado principal

• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas, la dirección que minimiza la kurtosis es la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

Page 33: Cluster by mixtures. The Trace criteria (K-means)

• Puede demostrarse que si queremos alta separación en la proyeccion de dos distribuciones arbitrarias, medida por

Page 34: Cluster by mixtures. The Trace criteria (K-means)

Conclusión

• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas minimizando la kurtosis obtenemos la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

Page 35: Cluster by mixtures. The Trace criteria (K-means)

Metodo de Proyeccion (PP)

Page 36: Cluster by mixtures. The Trace criteria (K-means)
Page 37: Cluster by mixtures. The Trace criteria (K-means)

Exploracion de las direcciones

Page 38: Cluster by mixtures. The Trace criteria (K-means)
Page 39: Cluster by mixtures. The Trace criteria (K-means)
Page 40: Cluster by mixtures. The Trace criteria (K-means)
Page 41: Cluster by mixtures. The Trace criteria (K-means)

Ejemplo Ruspini

Page 42: Cluster by mixtures. The Trace criteria (K-means)
Page 43: Cluster by mixtures. The Trace criteria (K-means)

Comportamiento del procedimiento

Page 44: Cluster by mixtures. The Trace criteria (K-means)

Comportamiento del procedimiento

Page 45: Cluster by mixtures. The Trace criteria (K-means)

Algunas conclusiones

• Buscar clusters en proyecciones

1. Evita la maldición de la dimensión

2. Es muy eficiente en dimensión alta

3. Es óptimo para mezclas de normales con la misma varianza

4. Asegura alta capacidad de separación lineal para cualquier distribución

Page 46: Cluster by mixtures. The Trace criteria (K-means)

• Las direcciones mejores de separación son interesantes en si mismas para reducir el número de variables

Page 47: Cluster by mixtures. The Trace criteria (K-means)

Conclusiones generales

• Discriminación y cluster son problemas muy relacionados con la misma solución óptima en casos simples:

La mejor direccion de discriminación, en el sentido de Fisher, es la mejor dirección para hacer clusters, en el sentido de minimizar la kurtosis de los datos proyectados