Constrained k means clustering with background knowledge - COP-Kmeans

14
. . Constrained K-means Clustering with Background Knowledge COP-Kmeans Sibelius Seraphini Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo 1 de dezembro de 2014 Sibelius Seraphini COP-Kmeans 1 / 14

Transcript of Constrained k means clustering with background knowledge - COP-Kmeans

Page 1: Constrained k means clustering with background knowledge - COP-Kmeans

.

......

Constrained K-means Clustering with BackgroundKnowledgeCOP-Kmeans

Sibelius Seraphini

Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo

1 de dezembro de 2014

Sibelius Seraphini COP-Kmeans 1 / 14

Page 2: Constrained k means clustering with background knowledge - COP-Kmeans

.. k-Means

...1 Escolhe aleatoriamente k centros para os clusters

...2 Atribuir cada objeto para o cluster de centro mais próximo

...3 Atualizar cada centro para a média dos objetos do clustercorrespondente

Sibelius Seraphini COP-Kmeans 2 / 14

Page 3: Constrained k means clustering with background knowledge - COP-Kmeans

..k-MeansPerspectiva de Otimização

Variância intra-cluster

min

K∑

k=1

L∑i=1

δ(xi, ck)N∑

j=1

(xij − xkj)2

Sibelius Seraphini COP-Kmeans 3 / 14

Page 4: Constrained k means clustering with background knowledge - COP-Kmeans

.. Como incorporar conhecimento prévio?

Agrupamento de Dados Semi-SupervisionadoRestrições

Nível de InstânciaNível de Cluster

Sibelius Seraphini COP-Kmeans 4 / 14

Page 5: Constrained k means clustering with background knowledge - COP-Kmeans

.. Restrições (COP-kMeans)

Restrições em Nível de Instância

Must-Link — duas instâncias devem estar no mesmo clusterCannot-Link — duas instâncias não devem estar no mesmocluster

Restrições nunca são quebradas

Sibelius Seraphini COP-Kmeans 5 / 14

Page 6: Constrained k means clustering with background knowledge - COP-Kmeans

.. COP-kMeans

...1 Escolhe aleatoriamente k centros para os clusters

...2 Atribuir cada objeto para o cluster de centro mais próximosem violar as restrições

...3 Atualizar cada centro para a média dos objetos do clustercorrespondente

Sibelius Seraphini COP-Kmeans 6 / 14

Page 7: Constrained k means clustering with background knowledge - COP-Kmeans

.. Tratando Restrições

Para todos as instâncias tentar atribuí-lo ao centro k mais próximo...1 Sem restrição quebrada

Atribuir a instância i ao cluster k...2 Restrição quebrada → existe outro próximo cluster?

Retorna para 1, se simFalhar

Sibelius Seraphini COP-Kmeans 7 / 14

Page 8: Constrained k means clustering with background knowledge - COP-Kmeans

..COP-kMeansPerspectiva de Otimização

min{∑K

k=1

∑Li=1

[δ(xi, ck)

∑Nj=1(xij − xkj)2

]}sujeito a

12

∑Li=1

∑Lj=1

[Con(i, j) ·

[12Con(i, j)− β(Ii, Ij) + 1

2

]]= 0

Con(i, j) =

1, se xi e xj é Must-Link−1, se xi e xj é Cannot-Link0, caso contrário

β(Ii, Ij) ={

1, se Ii = Ij0, caso contrário

Sibelius Seraphini COP-Kmeans 8 / 14

Page 9: Constrained k means clustering with background knowledge - COP-Kmeans

.. Resultados Experimentais

(K. Wagstaff et al. 2001)

Sibelius Seraphini COP-Kmeans 9 / 14

Page 10: Constrained k means clustering with background knowledge - COP-Kmeans

..Resultados ExperimentaisDescoberta de pista utilizando GPS

(K. Wagstaff et al. 2001)

Sibelius Seraphini COP-Kmeans 10 / 14

Page 11: Constrained k means clustering with background knowledge - COP-Kmeans

.. Limitações

Sensível a ordem de atribuiçãoSolucionado por (Hong e Kwong 2009), usando um conjuntode algoritmos de agrupamento

Sibelius Seraphini COP-Kmeans 11 / 14

Page 12: Constrained k means clustering with background knowledge - COP-Kmeans

.. Quando restrições são vantajosas?

Mesmo número de restrições leva a diferentes desempenhos

(K. L. Wagstaff, Basu eDavidson 2006)

InconsistênciaMédia de restriçõesinsatisfeitas utilizando oalgoritmo sem restrições

IncoerênciaOs pontos envolvidos narestrição ML deveriamestar perto, enquanto quepontos envolvidos narestrição CL deveriamestar afastados

Sibelius Seraphini COP-Kmeans 12 / 14

Page 13: Constrained k means clustering with background knowledge - COP-Kmeans

.. Agrupamento de Dados Semi-Supervisionado

PC-KMeans - satisfação de restrição soft, i.e., algumasrestrições podem ser quebradas (Bilenko, Basu e Mooney2004)M-KMeans - aprendizagem de métrica (função de distância)utilizando as restrições (Bilenko, Basu e Mooney 2004)MPC-KMeans - abordagem hibrida - aprendizagem de métricae de satisfação de restrição soft (Bilenko, Basu e Mooney2004)

Sibelius Seraphini COP-Kmeans 13 / 14

Page 14: Constrained k means clustering with background knowledge - COP-Kmeans

.. ReferênciasMikhail Bilenko, Sugato Basu e Raymond J Mooney.“Integrating constraints and metric learning insemi-supervised clustering”. Em: Proceedings of thetwenty-first international conference on Machinelearning. ACM. 2004, p. 11.Yi Hong e Sam Kwong. “Learning assignment order ofinstances for the constrained k-means clusteringalgorithm”. Em: Systems, Man, and Cybernetics, PartB: Cybernetics, IEEE Transactions on 39.2 (2009),pp. 568–574.Kiri Wagstaff et al. “Constrained k-means clusteringwith background knowledge”. Em: ICML. Vol. 1.2001, pp. 577–584.Kiri L Wagstaff, Sugato Basu e Ian Davidson. “Whenis constrained clustering beneficial, and why?” Em:Ionosphere 58.60.1 (2006), pp. 62–3.

Sibelius Seraphini COP-Kmeans 14 / 14