Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

34
Classificação/ Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Transcript of Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Page 1: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação/Categorização

Christian Diego – cdadIcamaan Viegas – ibvs

Page 2: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Roteiro

Introdução Construção de classificadores Aplicações Algoritmos

Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching

Avaliação de Classificadores K-Fold Cross Validation Curva ROC

Referências

Page 3: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação

Definição Classificar um documento de acordo com

classes previamente definidas

Objetivos Organizar documentos Facilitar sua busca automática Facilitar sua visualização

Page 4: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação

Documentos

Classe 1

Classe 2

Classe 3

Page 5: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Clustering X Classificação

Clustering Criar grupos de documentos Classes geradas automaticamente

Classificação Definir a que grupo pertence um documento Classes pré-definidas

Page 6: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Construção de Classificadores

Classificação Manual Realizada por um especialista

Construção Manual do Classificador Regras escritas manualmente

Construção Automática do Classificador Algoritmos de aprendizagem automática

Page 7: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Construção Automática

Conjunto de Treinamento Treinamento do algoritmo

Conjunto de Validação Ajuste do sistema

Conjunto de Teste Avaliação do desempenho do sistema

Page 8: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Construção Automática

DocumentosRepresentação Inicial

Redução da Dimensãoou

Seleção de Termos

Representação FinalIndução

ConhecimentoAdicional

Categorização

Page 9: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Aplicações

Sites Recomendação

Emails Filtro de Spam

Base de documentosRSS Feed’sReconhecimento de AssinaturaReconhecimento de voz

Page 10: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Atributos

Categóricos Nomes ou rótulos

Verde, casado, muito, baixo, pequeno Operações

Igualdade, diferençaNuméricos

Número Inteiros, Reais

Operações Igualdade, diferença, adição, subtração...

Page 11: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Distâncias

Diversas maneiras de calcular Euclidiana, Manhattan, Quadrática, Co-seno...

Problemas Atributos Categóricos Um atributo numérico pode ter um peso

excessivo em relação aos demais

Page 12: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Algoritmos

Relevance Feedback (Rocchio)

K-Nearrest Neighbor (k-NN)

Template Matching

Page 13: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Relevance Feedback (Rocchio)

Adaptação para Categorização de Texto Modelo Vetorial Utilizando vetores ponderados do TF/IDF Para cada categoria cria um vetor de

“protótipo”, somando todos os vetores dos documentos desta categoria

Similaridade por Cosseno

Page 14: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Relevance Feedback (Rocchio)

Classe 1

Classe 2

Page 15: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Relevance Feedback (Rocchio)

Protótipo:Classe 1

Protótipo:Classe 2

Page 16: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

k-NN

Processo de aprendizagem baseado em instâncias

Classificação baseado nos k vizinhos mais próximos

Simplesmente armazena os exemplos de treinamento

Se utiliza de todos os atributos disponíveis

Page 17: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

k-NN

Para 1-NN classifica como +Para 5-NN classifica como -

Page 18: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

k-NN

Page 19: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

k-NN

Ponderar o peso de cada vizinho de acordo com a distância Robusto a ruído Maior efetividade quando há uma grande

quantidade de dados de treinamento

Page 20: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

k-NN

Desvantagens O custo de classificação de novos padrões

pode ser alto Considera todos os atributos, quando apenas

alguns deles podem ser importantes

Page 21: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Template Matching

Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada

Aplicações Reconhecimento de assinatura, voz, faces, etc. Bioinformática Estimação de Movimento

Page 22: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Template Matching

Page 23: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Template Matching

Page 24: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Avaliação de Classificadores

É necessário ter métricas para avaliar a eficácia de um classificador

Como dividir o conjunto de exemplos em treinamento, validação e testes

Page 25: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

K-Fold Cross Validation

O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação

Iterativo A parte selecionada para testes é trocada até

que todas tenham sido escolhidas

Page 26: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

K-Fold Cross Validation

Example Set

Page 27: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

K-Fold Cross Validation

Análise Estatística Hipótese Nula Hipótese Alternativa Nível de confiabilidade - Significância

Utiliza-se após a aplicação do K-Fold Cross Validation

Page 28: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Curva ROC

Reciever Operating Characteristics

Curva ROC é um método para visualização e comparação da performance de classificadores

Não é afetado pelo desbalanceamento das classes nos exemplos

Page 29: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Curva ROC

Page 30: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Curva ROC

Page 31: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Curva ROC

Área sob a curva Comparação de dois

algoritmos

Page 32: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Curva ROC

Desvantagens Problemas com mais de duas classes

Separar em várias Curvas ROC Problema de desbalanceamento

Cálculo das Áreas Associar pesos a cada classe

Não é possível visualizar as áreas calculadas

Page 33: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Referências

Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006.

Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina

Slide de Flávia Barros: Mineração da Web

Page 34: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação/Categorização

Christian Diego – cdadIcamaan Viegas – ibvs