DATA MINING - UFSCmauro.roisenberg/ine5377/Cursos-ICA/DM... · 2004. 8. 6. · 1 1 KDD KNOWLEDGE...

1

1

KDD KNOWLEDGE DISCOVERY KDD KNOWLEDGE DISCOVERYDATA BASEDATA BASE

DATA MININGDATA MININGICA ELÉTRICA PUC-RIOICA ELÉTRICA PUC-RIO

2

DATA MINING DATA MINING

nn PosicionamentoPosicionamentonn Introdução - KDD - DW Introdução - KDD - DWnn Descoberta de Conhecimento - Caminho Descoberta de Conhecimento - Caminhonn O Passo “DATA MINING” O Passo “DATA MINING”nn Aprendizagem por Máquina - ML Aprendizagem por Máquina - MLnn Conhecimento Conhecimentonn Aplicações Reais Aplicações Reaisnn Aspectos Formais da Aprendizagem Aspectos Formais da Aprendizagem

3

POSICIONAMENTO POSICIONAMENTO

HOJE, A MAIORIA DAS ORGANIZAÇÕES PRODUZ MAISHOJE, A MAIORIA DAS ORGANIZAÇÕES PRODUZ MAISINFORMAÇÕES EM UMA SEMANA DO QUE MUITASINFORMAÇÕES EM UMA SEMANA DO QUE MUITAS

PESSOAS PODERIAM LER EM TODA VIDA.PESSOAS PODERIAM LER EM TODA VIDA.

“MAIS DADOS SIGNIFICA MENOS INFORMAÇÕES”“MAIS DADOS SIGNIFICA MENOS INFORMAÇÕES”

2

4

POSICIONAMENTOPOSICIONAMENTO

SENDO ASSIM, A DISPONIBILIZAÇÃO DOS DADOS NÃOSENDO ASSIM, A DISPONIBILIZAÇÃO DOS DADOS NÃOBASTARÁ, SERÁ VITAL QUE SE POSSABASTARÁ, SERÁ VITAL QUE SE POSSA

INTERPRETAR, ANALISAR E RELACIONAR ESTESINTERPRETAR, ANALISAR E RELACIONAR ESTESDADOS PARA QUE SE DESENVOLVA ESTRATÉGIASDADOS PARA QUE SE DESENVOLVA ESTRATÉGIAS

DE AÇÃO.DE AÇÃO.

PARA ATENDER ESTE NOVO CONTEXTO SURGE UMAPARA ATENDER ESTE NOVO CONTEXTO SURGE UMANOVA LINHA DE PESQUISA DENOMINADANOVA LINHA DE PESQUISA DENOMINADA

DESCOBERTA DE CONHECIMENTO EM BASES DEDESCOBERTA DE CONHECIMENTO EM BASES DEDADOS - KDDDADOS - KDD

5

POSICIONAMENTOPOSICIONAMENTO

ESTATÍSTICA RECONHECIMENTO DE PADRÕES

VISUALIZAÇÃO

BANCO DE DADOS

APRENDIZADO DE MÁQUINA

INTELIGÊNCIA ARTIFICIAL

DATA WAREHOUSING

KDD

6

INTRODUÇÃOINTRODUÇÃO

nn Utilizar os computadores para a descobertaUtilizar os computadores para a descobertade novas e significativas informações.de novas e significativas informações.

nn Para constituir sistemas de computadoresPara constituir sistemas de computadoresque aprendam porque não haveráque aprendam porque não haveráinteligência artificial sem aprendizageminteligência artificial sem aprendizagemartificial.artificial.

3

7

INTRODUÇÃOINTRODUÇÃO

nn KDD e Data Mining => o KDD é empregadoKDD e Data Mining => o KDD é empregadopara descrever todo o processo depara descrever todo o processo deextração de conhecimentos dos dadosextração de conhecimentos dos dadosenquanto que data mining deve serenquanto que data mining deve serempregado somente para o estágio deempregado somente para o estágio dedescoberta do processo de KDD.descoberta do processo de KDD.

8

KDDKDD

QUANTO AOS RESULTADOSQUANTO AOS RESULTADOS

“KDD é o processo, não trivial, de extração de informações,“KDD é o processo, não trivial, de extração de informações,implícitas, previamente desconhecidas e potencialmenteimplícitas, previamente desconhecidas e potencialmenteúteis, a partir dos dados armazenados em um banco deúteis, a partir dos dados armazenados em um banco dedados.” [Frawley, Piatetsky-Shapiro & Matheus,1991]dados.” [Frawley, Piatetsky-Shapiro & Matheus,1991]

QUANTO AO PROCESSOQUANTO AO PROCESSO

“KDD é uma tarefa de descoberta de conhecimento“KDD é uma tarefa de descoberta de conhecimentointensivo, consistindo de interações complexas, feitas aointensivo, consistindo de interações complexas, feitas aolongo do tempo, entre o homem e uma grande base delongo do tempo, entre o homem e uma grande base dedados, possivelmente suportada por um conjuntodados, possivelmente suportada por um conjuntoheterogêneo de ferramentas. [Brachman & Anand,1995]heterogêneo de ferramentas. [Brachman & Anand,1995]

9

KDD - O USUÁRIOKDD - O USUÁRIO

BANCO DE DADOS

DADOSPROCESSADOS SAÍDAS

META "INSIGHT"

FATORES EXTERNOSCOMPLEMENTARES

APRESENTAÇÃO

ANÁLISE EVISUALIZAÇÃO

CONSULTAS

4

10

DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE

nn Pontos PrincipaisPontos Principais•• BDs Operacionais e Data Warehouse;BDs Operacionais e Data Warehouse;

•• Porque usar Data Warehouse;Porque usar Data Warehouse;

•• Integração entre Data Mining e DataIntegração entre Data Mining e DataWarehouse;Warehouse;

11


nn As organizações passaram a estruturarAs organizações passaram a estruturarseus dados em duas categorias :seus dados em duas categorias :

•• BDs Operacionais: destinados às operaçõesBDs Operacionais: destinados às operaçõesnormais;normais;

•• Data Warehouse: projetados para o suporte àsData Warehouse: projetados para o suporte àsdecisões estratégicas, ao prover uma sólidadecisões estratégicas, ao prover uma sólidaplataforma de dados históricos integrados aplataforma de dados históricos integrados apartir dos quais se pode fazer análises.partir dos quais se pode fazer análises.

12


5

13


nn Porque usar Data WarehousesPorque usar Data Warehouses•• A pesquisa no passado das organizaçõesA pesquisa no passado das organizações

ajuda na tomada de decisões e a maneira maisajuda na tomada de decisões e a maneira maisfácil de acessá-las é estabelecendo um Datafácil de acessá-las é estabelecendo um DataWarehouse;Warehouse;

•• Tentar analisar os dados operacionais é quaseTentar analisar os dados operacionais é quaseimpossível porque :impossível porque :

–– existem aplicações diferentes;existem aplicações diferentes;

–– não existem dados históricos.não existem dados históricos.

14


nn Regras que governam a estrutura básicaRegras que governam a estrutura básicade um Data Warehouse:de um Data Warehouse:•• dependência temporal;dependência temporal;

•• não-volatilidade;não-volatilidade;

•• orientação subjetiva;orientação subjetiva;

•• integrado.integrado.

15


nn Integração com Data Mining:Integração com Data Mining:•• Comparar milhões de registros sem saberComparar milhões de registros sem saber

exatamente o tipo de informação desejada;exatamente o tipo de informação desejada;

•• Deseja encontrar padrões de dadosDeseja encontrar padrões de dadosescondidos.escondidos.

nn Ferramentas de inteligência:Ferramentas de inteligência:•• ponto de conjunção entre o DW e as pessoasponto de conjunção entre o DW e as pessoas

que o utilizam sendo portanto a diferença entreque o utilizam sendo portanto a diferença entresucesso ou fracasso .sucesso ou fracasso .

6

16


17


nn A implementação do KDD envolveA implementação do KDD envolvedeterminados custos:determinados custos:•• do Data Warehousing;do Data Warehousing;

•• da reengenharia do processo do negócio;da reengenharia do processo do negócio;

•• do Data Mining.do Data Mining.

nn O problema com esses custos é o de queO problema com esses custos é o de queos benefícios reais só são percebidos aos benefícios reais só são percebidos alongo prazo.longo prazo.

18

O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO

nn Regras de associação:Regras de associação:•• 90% das mulheres com carros esporte90% das mulheres com carros esporte

vermelhos e cães pequenos usamvermelhos e cães pequenos usam

•• Chanel 5;Chanel 5;

•• O número de regras de associação queO número de regras de associação quepodem ser encontrados em um banco depodem ser encontrados em um banco dedados é quase infinito.dados é quase infinito.

7

19


nn Técnicas de visualizaçãoTécnicas de visualização::

•• Método útil de descoberta de padrões emMétodo útil de descoberta de padrões emconjuntos de dados, e pode ser usado no inícioconjuntos de dados, e pode ser usado no iníciodo processo de aprendizagem para obter umdo processo de aprendizagem para obter umsentimento da qualidade do conjunto de dadossentimento da qualidade do conjunto de dadose aonde os padrões podem ser encontrados.e aonde os padrões podem ser encontrados.

20


nn Análise Preliminar dos Dados usandoAnálise Preliminar dos Dados usandoferramentas tradicionais => para conhecerferramentas tradicionais => para conheceraspectos básicos e estruturais do conjuntoaspectos básicos e estruturais do conjuntode dados.de dados.•• Um resultado trivial, que é obtido por umUm resultado trivial, que é obtido por um

método extremamente simples, é chamadométodo extremamente simples, é chamadopredição ingênua; e um algoritmo que desejapredição ingênua; e um algoritmo que desejaaprender alguma coisa , deve sempre fazeraprender alguma coisa , deve sempre fazermelhor do que essa predição.melhor do que essa predição.

21


nn Ferramentas :Ferramentas :•• Técnicas Estatísticas;Técnicas Estatísticas;

•• Visualização;Visualização;

•• Árvores de Decisão;Árvores de Decisão;

•• Regras de Associação;Regras de Associação;

•• Algoritmos Genéticos;Algoritmos Genéticos;

•• Redes Neurais.Redes Neurais.

8

22


nn Data Mining => existem algoritmos deData Mining => existem algoritmos deaprendizagem que vão bem em uma parteaprendizagem que vão bem em uma partedo conjunto de dados e em outra partedo conjunto de dados e em outra partefalham indicando, então, a necessidade defalham indicando, então, a necessidade dehibridização na aprendizagem.hibridização na aprendizagem.

23


nn O processo de descoberta deO processo de descoberta deconhecimentos consiste de seisconhecimentos consiste de seisestágiosestágios::•• Seleção de Dados;Seleção de Dados;

•• Limpeza;Limpeza;

•• Enriquecimento;Enriquecimento;

•• Codificação;Codificação;

•• Data Mining;Data Mining;

•• Relatórios.Relatórios.

24

DESCOBERTA DA TAREFADESCOBERTA DA TAREFA

Para realizar uma tarefa de KDD éPara realizar uma tarefa de KDD é

necessário pedir ao cliente que exponhanecessário pedir ao cliente que exponha

o problema e o objetivo de forma queo problema e o objetivo de forma que

este fique bem claro.este fique bem claro.

É importante saber com precisão o queÉ importante saber com precisão o que

estamos procurando, e para que estamosestamos procurando, e para que estamos

realizando esta procura.realizando esta procura.

9

25

SELEÇÃO DOS DADOSSELEÇÃO DOS DADOS

Quando iniciamos o processo KDD,Quando iniciamos o processo KDD,

começamos fazendo uma seleção doscomeçamos fazendo uma seleção dos

dados, no Banco de Dados Operacional.dados, no Banco de Dados Operacional.

Para facilitar o processo, esses dadosPara facilitar o processo, esses dados

são copiados para um Banco de Dadossão copiados para um Banco de Dados

separado do separado do operacional.operacional.

26

LIMPEZALIMPEZA

Um importante elemento na operação deUm importante elemento na operação de

limpeza é o algoritmo para retirar dadoslimpeza é o algoritmo para retirar dados

duplicados.duplicados.

Outro problema de poluição é a falta deOutro problema de poluição é a falta de

consistência do domínio.consistência do domínio.

27

ENRIQUECIMENTOENRIQUECIMENTO

Conseguir de alguma forma maisConseguir de alguma forma maisinformação, que possa ser facilmente unidainformação, que possa ser facilmente unidaaos registros existentes, enriquecendo osaos registros existentes, enriquecendo osdados, para que estes contribuam nodados, para que estes contribuam noprocesso de descoberta de conhecimento.processo de descoberta de conhecimento.

10

28

CODIFICAÇÃOCODIFICAÇÃO

Depois de terem sido enriquecidos, os dadosDepois de terem sido enriquecidos, os dadosdevem ser codificados, para ficarem numadevem ser codificados, para ficarem numaforma que possam ser usados como entradaforma que possam ser usados como entradados algoritmos de reconhecimento de padrões.dos algoritmos de reconhecimento de padrões.

Codificação é uma atividade criativa que deveCodificação é uma atividade criativa que deveser realizada repetidas vezes para obter aser realizada repetidas vezes para obter amelhor solução.melhor solução.

A maneira como codificamos a informaçãoA maneira como codificamos a informaçãodeterminará o tipo de padrão que vamosdeterminará o tipo de padrão que vamosencontrar.encontrar.

29

MINERAÇÃO DOS DADOS MINERAÇÃO DOS DADOSALGUMAS DAS TÉCNICAS DE INTERESSEALGUMAS DAS TÉCNICAS DE INTERESSE

nn Ferramenta de consulta ( SQL );Ferramenta de consulta ( SQL );

nn Técnicas estatísticas;Técnicas estatísticas;

nn Visualização;Visualização;

nn Processamento analítico on-line (OLAP);Processamento analítico on-line (OLAP);

nn Aproximação baseado em casos;Aproximação baseado em casos;

nn Árvore de decisão;Árvore de decisão;

nn Redes neurais;Redes neurais;

nn Regras de associação;Regras de associação;

nn Algoritmos Genéticos.Algoritmos Genéticos.

30

FERRAMENTA DE CONSULTAFERRAMENTA DE CONSULTA

O primeiro passo no projeto de MineraçãoO primeiro passo no projeto de Mineraçãode dados deverá sempre ser uma análisede dados deverá sempre ser uma análiserústica do conjunto de dados usando umarústica do conjunto de dados usando umaferramenta tradicional de consulta, poisferramenta tradicional de consulta, poisantes de aplicar um algoritmo de análiseantes de aplicar um algoritmo de análisemais avançado nós necessitamos conhecermais avançado nós necessitamos conheceralguns aspectos básicos e as estruturas doalguns aspectos básicos e as estruturas doconjunto de dados.conjunto de dados.

11

31

TÉCNICAS ESTATÍSTICATÉCNICAS ESTATÍSTICA

Uma boa maneira de iniciar o processo éUma boa maneira de iniciar o processo éextraindo algumas informações estatísticasextraindo algumas informações estatísticassimples do conjunto de dados.simples do conjunto de dados.

Estes números são muito importantes, poisEstes números são muito importantes, poiseles nos dão uma norma para julgar oeles nos dão uma norma para julgar odesempenho dos algoritmos dedesempenho dos algoritmos deaprendizagem e do reconhecimento deaprendizagem e do reconhecimento depadrões.padrões.

32

TÉCNICAS DE VISUALIZAÇÃOTÉCNICAS DE VISUALIZAÇÃO

As técnicas de visualização são métodosAs técnicas de visualização são métodosmuito úteis de descoberta de padrões nummuito úteis de descoberta de padrões numconjunto de dados, e devem ser usados noconjunto de dados, e devem ser usados noprincípio do processo de mineração deprincípio do processo de mineração dedados, para se ter um sentimento dadados, para se ter um sentimento daqualidade do conjunto de dados qualidade do conjunto de dados ee onde os onde ospadrões devem ser encontrados.padrões devem ser encontrados.

33

FERRAMENTA OLAPFERRAMENTA OLAP

Para responder as várias consultas, comPara responder as várias consultas, comdiversos tipos de relações, possíveis dediversos tipos de relações, possíveis deserem formuladas por diretores, gerentes,serem formuladas por diretores, gerentes,etc., onde a análise multidimensional éetc., onde a análise multidimensional énecessária, é que ferramentas de OLAPnecessária, é que ferramentas de OLAPforam desenvolvidas.foram desenvolvidas.

HH OLAP foi desenvolvida para facilitarOLAP foi desenvolvida para facilitara análise de tais relações.a análise de tais relações.

12

34

K-VIZINHOS MAIS PRÓXIMOSK-VIZINHOS MAIS PRÓXIMOS

Registros que estão próximos uns dosRegistros que estão próximos uns dosoutros fazem parte da vizinhança dosoutros fazem parte da vizinhança dosoutros. Registros de mesmo tipo estarãooutros. Registros de mesmo tipo estarãopróximos uns dos outros no espaço depróximos uns dos outros no espaço dedados.dados.

Baseado nisso é que o algoritmo deBaseado nisso é que o algoritmo deaprendizado, simples mas poderoso, de K-aprendizado, simples mas poderoso, de K-Nearest Neighbour foi desenvolvido. SuaNearest Neighbour foi desenvolvido. Suafilosofia básica é:filosofia básica é:

''faz como seu vizinho faz'faz como seu vizinho faz'..

35

ÁRVORE DE DECISÃOÁRVORE DE DECISÃO

nn Tendo um BD, e se você deseja prever oTendo um BD, e se você deseja prever ocomportamento de um certo indivíduo, vocêcomportamento de um certo indivíduo, vocêdeverá verificar qual dos atributos disponíveisdeverá verificar qual dos atributos disponíveisnos dará mais informação.nos dará mais informação.

nn Então você deverá investigar se existe umEntão você deverá investigar se existe umpatamar deste atributo que possa separarpatamar deste atributo que possa separarindivíduos com um comportamento oposto.indivíduos com um comportamento oposto.

nn Assim, fazemos para todos atributos, até queAssim, fazemos para todos atributos, até quetenhamos classificado corretamente todos ostenhamos classificado corretamente todos osindivíduos, criando uma árvore de decisão para oindivíduos, criando uma árvore de decisão para onosso BD.nosso BD.

36

REGRAS DE ASSOCIAÇÃOREGRAS DE ASSOCIAÇÃO

nn É infinito o número de possíveis regras deÉ infinito o número de possíveis regras deassociação que podemos encontrar numassociação que podemos encontrar numBD.BD.

nn Como encontramos um número muitoComo encontramos um número muitogrande de regras, é muito difícil separargrande de regras, é muito difícil separarinformações válidas das que são merosinformações válidas das que são merosruídos.ruídos.

nn É necessário introduzir alguma medida,É necessário introduzir alguma medida,para distinguir associações interessantespara distinguir associações interessantesdas que não são interessantes.das que não são interessantes.

13

37

RELATÓRIORELATÓRIO

A apresentação dos resultado do processoA apresentação dos resultado do processopode ter várias formas.pode ter várias formas.

Pode ser usado:Pode ser usado:

uu uma descrição textual das tendências;uma descrição textual das tendências;

uu um gráfico elaborado, que mostre asum gráfico elaborado, que mostre as

relações do modelo.relações do modelo.

38

O PASSO DATA MININGO PASSO DATA MINING

É o passo do processo KDD que envolve aÉ o passo do processo KDD que envolve aobtenção de um modelo que represente oobtenção de um modelo que represente ocomportamento dos dados.comportamento dos dados.

“É o processo de reconhecimento de padrões,“É o processo de reconhecimento de padrões,válidos ou não, existentes nos dadosválidos ou não, existentes nos dadosarmazenados em um banco de dados.” [Fayyad,armazenados em um banco de dados.” [Fayyad,Piatetsky-Shapiro & Smyth,1995]Piatetsky-Shapiro & Smyth,1995]

39

DATA MINING - MÉTODOSDATA MINING - MÉTODOSTAREFAS DE ENGENHARIA TAREFAS DE ENGENHARIA

DO CONHECIMENTODO CONHECIMENTO

TAREFAS DE TAREFAS DE CLASSIFICAÇÃOCLASSIFICAÇÃO

TAREFAS DE TAREFAS DE RESOLUÇÃO DE PROBLEMASRESOLUÇÃO DE PROBLEMAS

•• REGRAS DEREGRAS DEASSOCIAÇÃOASSOCIAÇÃO•• ÁRVORES DEÁRVORES DEDECISÃODECISÃO•• K-VIZINHO MAISK-VIZINHO MAISPRÓXIMOPRÓXIMO

•• REDES NEURAISREDES NEURAIS

•• ALGORITMOSALGORITMOSGENÉTICOSGENÉTICOS

• PROGRAMAÇÃOPROGRAMAÇÃO LÓGICA INDUTIVA LÓGICA INDUTIVA

14

40

APRENDIZADO DE MÁQUINAAPRENDIZADO DE MÁQUINA

A habilidade de aprender com base emA habilidade de aprender com base emobservações é fundamental para qualquer serobservações é fundamental para qualquer serinteligente.inteligente.

APRENDER:APRENDER:•• Habilidade de se aprimorar em uma determinadaHabilidade de se aprimorar em uma determinada

tarefa;tarefa;

•• Habilidade de adquirir conhecimento novo e melhor.Habilidade de adquirir conhecimento novo e melhor.

BASE DE CONHECIMENTOBASE DE CONHECIMENTO

MÁQUINA PROCEDIMENTALMÁQUINA PROCEDIMENTAL

EXEMPLOS AVALIAÇÃO DO DESEMPENHO

41

PROGRAMAÇÃO LÓGICAPROGRAMAÇÃO LÓGICAINDUTIVA - ILPINDUTIVA - ILP

APRENDIZADO INDUTIVO DE MÁQUINAAPRENDIZADO INDUTIVO DE MÁQUINAMETA - APRENDER A PARTIR DE OBSERVAÇÕESMETA - APRENDER A PARTIR DE OBSERVAÇÕES

PROGRAMAÇÃO LÓGICAPROGRAMAÇÃO LÓGICAFORMALISMO DA LÓGICA DE PRIMEIRA ORDEMFORMALISMO DA LÓGICA DE PRIMEIRA ORDEMPARA A REPRESENTAÇÃO DO MODELOPARA A REPRESENTAÇÃO DO MODELO

ILPILP

42

JUSTIFICATIVA - EXEMPLOJUSTIFICATIVA - EXEMPLOCONSUMIDORES-EM-POTENCIAL CASADOSCONSUMIDORES-EM-POTENCIAL CASADOS

NOME IDADE SEXO SALÁRIO CONSUMIDOR MARIDO ESPOSANOME IDADE SEXO SALÁRIO CONSUMIDOR MARIDO ESPOSAana 32 F 500 sim marcos anaana 32 F 500 sim marcos ana

joana 53 F 10.000 sim pedro janejoana 53 F 10.000 sim pedro janemariana 27 F 900 nãomariana 27 F 900 não

jane 55 F 900 simjane 55 F 900 sim

marcos 30 M 5.000 simmarcos 30 M 5.000 sim

pedro 50 M 7.000 simpedro 50 M 7.000 sim

R1: SE Salário(Nome) R1: SE Salário(Nome) >> 5.000 ENTÃO Consumidor-potencial(Nome). 5.000 ENTÃO Consumidor-potencial(Nome).

R2: SE Sexo(Nome) = “F” E Idade(Nome) R2: SE Sexo(Nome) = “F” E Idade(Nome) >> 32 ENTÃO Consumidor- 32 ENTÃO Consumidor-potencial(Nome).potencial(Nome).

R1: SE Casado(Nome,Esposa) E Consumidor-potencial(Nome) R1: SE Casado(Nome,Esposa) E Consumidor-potencial(Nome) >> 5.000 ENTÃO 5.000 ENTÃOConsumidor-potencial(Esposa).Consumidor-potencial(Esposa).

R1: SE Casado(Nome,Esposa) E Salário(Nome) R1: SE Casado(Nome,Esposa) E Salário(Nome) >> 5.000 ENTÃO Consumidor- 5.000 ENTÃO Consumidor-potencial(Esposa).potencial(Esposa).

15

43

O PROBLEMA ILPO PROBLEMA ILP

nn DADO:DADO:•• UM CONJUNTO DE EXEMPLOS (POSITIVOS EUM CONJUNTO DE EXEMPLOS (POSITIVOS E

NEGATIVOS), DE UM PREDICADO OBJETIVO P,NEGATIVOS), DE UM PREDICADO OBJETIVO P,PARA TREINAMENTO;PARA TREINAMENTO;

•• UMA LINGUAGEM DE DESCRIÇÃO DE CONCEITOSUMA LINGUAGEM DE DESCRIÇÃO DE CONCEITOSL;L;

•• O CONHECIMENTO PRÉVIO B (BASE DE DADOS).O CONHECIMENTO PRÉVIO B (BASE DE DADOS).

nn ENCONTRA-SE:ENCONTRA-SE:•• UMA DEFINIÇÃO H PARA P, EXPRESSA EM LUMA DEFINIÇÃO H PARA P, EXPRESSA EM L..

44

ILP - EXEMPLOILP - EXEMPLO

B= B= avô(X,Y) pai(X,Z), pais(Z,Y).avô(X,Y) pai(X,Z), pais(Z,Y).

pai(henrique,jane). pai(henrique,jane).

mãe(jane,joão). mãe(jane,joão). mãe(jane, alice) mãe(jane, alice)

EE++= avô(henrique,joão)= avô(henrique,joão)

avô(henrique,alice) avô(henrique,alice)

EE--= avô(joão,henrique).= avô(joão,henrique).

avô(alice,joão). avô(alice,joão).

H = pais(X,Y)H = pais(X,Y) mãe(X,Y). mãe(X,Y).

45

ILP E BANCO DE DADOSILP E BANCO DE DADOSRELACIONALRELACIONAL

nn DADOSDADOSPREDICADO(ARGUMENTO1,...,ARGUMENTOn)PREDICADO(ARGUMENTO1,...,ARGUMENTOn)RELAÇÃO(ATRIBUTO1,...,ATRIBUTOn)RELAÇÃO(ATRIBUTO1,...,ATRIBUTOn)

nn NÍVEL DE CLÁUSULANÍVEL DE CLÁUSULA? - pais(X,Y), pais(Y,ian)? - pais(X,Y), pais(Y,ian)

SELECT P1.pais, P2.filhoSELECT P1.pais, P2.filhoFROM PAIS P1,P2FROM PAIS P1,P2WHERE P1.filho = P2.pais AND P2.filho = “ian”WHERE P1.filho = P2.pais AND P2.filho = “ian”

16

46

O QUE É APRENDIZADO?O QUE É APRENDIZADO?

nn É a capacidade de adquirir conhecimentoÉ a capacidade de adquirir conhecimentopara realizar tarefas conhecidas ou novaspara realizar tarefas conhecidas ou novassob circunstâncias idênticas ou similaressob circunstâncias idênticas ou similaresas apresentadas durante o treinamento.as apresentadas durante o treinamento.

47

COMPUTADOR COMCOMPUTADOR COMAUTO-APRENDIZADOAUTO-APRENDIZADO

nn É necessário um método de treinamentoÉ necessário um método de treinamentoque permita a execução de novas tarefasque permita a execução de novas tarefasdesconhecidas.desconhecidas.

nn É necessário restringir o problema paraÉ necessário restringir o problema paraespecializar o computador em umaespecializar o computador em umadeterminada área.determinada área.

48

ML - ML - MACHIME LEARNINGMACHIME LEARNINGEM DATA MINING EM DATA MINING

nn A crescente disponibilidade de grandesA crescente disponibilidade de grandesbases de dados e a crescente necessidadebases de dados e a crescente necessidadede interpretar esses dadosde interpretar esses dadosautomaticamente, mesmo com a limitadaautomaticamente, mesmo com a limitadacapacidade dos computadores atuais, podecapacidade dos computadores atuais, podeproduzir resultados valiosos para umaproduzir resultados valiosos para umaorganização.organização.

17

49

O QUE É APRENDIZAGEMO QUE É APRENDIZAGEM

nn Existe um ciclo empírico de aprendizagem:Existe um ciclo empírico de aprendizagem:•• observações => ponto de partida;observações => ponto de partida;

•• análises => para tentar achar padrões;análises => para tentar achar padrões;

•• teoria => formulada a partir do achado deteoria => formulada a partir do achado dealgumas regularidades;algumas regularidades;

•• predição => a teoria deverá ser capaz depredição => a teoria deverá ser capaz deprever novos fenômenos que possam serprever novos fenômenos que possam serverificados por novas observações.verificados por novas observações.

50

METODOLOGIA CIENTÍFICAMETODOLOGIA CIENTÍFICA

nn ObservaçãoObservaçãoConjunto de exemplosConjunto de exemplos

nn AnáliseAnáliseProcura de padrõesProcura de padrões

nn TeoriaTeoriaFormulação de uma hipóteseFormulação de uma hipótese

nn PrediçãoPrediçãoPredição de novas conclusõesPredição de novas conclusões

51

HIPÓTESEHIPÓTESE

nn Os padrões encontrados através de IA nãoOs padrões encontrados através de IA nãodevem ser considerados como hipótesesdevem ser considerados como hipótesesdefinitivas.definitivas.

nn Eles são apenas hipóteses com validadeEles são apenas hipóteses com validadetemporária.temporária.

nn Os resultados de IA devem serOs resultados de IA devem sercomprovados com a sua relevânciacomprovados com a sua relevânciaestatística.estatística.

18

52

HIPÓTESEHIPÓTESE

nn Classificação precisaClassificação precisa1 acerto1 acerto em 3em 31 erro 1 erro em 1 milhãoem 1 milhão

nn TransparênciaTransparênciaA hipótese deve ser facilmente A hipótese deve ser facilmente interpretada pelos humanos.interpretada pelos humanos.

nn Relevância EstatísticaRelevância EstatísticaEspaço de Amostra RepresentativoEspaço de Amostra Representativo

nn Conteúdo da InformaçãoConteúdo da Informação

53

CONCEITOCONCEITO

É o conhecimento das qualidades,É o conhecimento das qualidades,atributos, características, propriedades queatributos, características, propriedades quedefinem um conjunto de instâncias.definem um conjunto de instâncias.

nn COMPLETOCOMPLETOQuando reconhece todas as instâncias deQuando reconhece todas as instâncias deum conceitoum conceito

nn CONSISTENTECONSISTENTEQuando não classifica nenhum exemploQuando não classifica nenhum exemplonegativo.negativo.

54

COMPLEXIDADE DOCOMPLEXIDADE DOESPAÇO DE BUSCAESPAÇO DE BUSCA

nn ML pode ser compreendida como umML pode ser compreendida como umproblema de busca para encontrar aproblema de busca para encontrar ahipótese correta.hipótese correta.

nn É importante estabelecer a quantidade deÉ importante estabelecer a quantidade depossíveis hipóteses e como estes estãopossíveis hipóteses e como estes estãorelacionados, antes de implementar orelacionados, antes de implementar oalgoritmo de ML.algoritmo de ML.

nn Na maioria dos casos o número deNa maioria dos casos o número depotenciais hipóteses é infinito.potenciais hipóteses é infinito.

19

55

COMPLEXIDADE DOCOMPLEXIDADE DOESPAÇO DE BUSCAESPAÇO DE BUSCA

nn PARALELISMOPARALELISMOQuanto maior o número de hipóteses,Quanto maior o número de hipóteses,maior será a possibilidade de se encontrarmaior será a possibilidade de se encontraruma melhor hipótese.uma melhor hipótese.

Existem problemas de reconhecimento deExistem problemas de reconhecimento depadrões que não podem ser solucionadospadrões que não podem ser solucionadospor algoritmos de aprendizado.por algoritmos de aprendizado.

56

O QUE É APRENDIZAGEMO QUE É APRENDIZAGEM

nn O julgamento a priori do desempenho deO julgamento a priori do desempenho deum algoritmo de aprendizagem pode serum algoritmo de aprendizagem pode serdado pela complexidade do seu espaço dedado pela complexidade do seu espaço debusca.busca.

nn Quanto mais complexo, mais refinada é aQuanto mais complexo, mais refinada é asua teoria para as hipóteses.sua teoria para as hipóteses.

57

ALGORITMOS DE BUSCAALGORITMOS DE BUSCA

ãã ESPAÇO DE BUSCA ESPAÇO DE BUSCA

ãã ESTRATÉGIAS DE BUSCA ESTRATÉGIAS DE BUSCA

ãã HEURÍSTICAS E CONHECIMENTO HEURÍSTICAS E CONHECIMENTO

ESPECÍFICO DO DOMÍNIO ESPECÍFICO DO DOMÍNIO

ãã ESTRATÉGIAS ALTERNATIVAS ESTRATÉGIAS ALTERNATIVAS

20

58

ESPAÇO DE BUSCAESPAÇO DE BUSCA

Muitos sistemas de mineração de dadosMuitos sistemas de mineração de dadosescolhem uma descrição inicial, e modificam-naescolhem uma descrição inicial, e modificam-nainterativamente melhorando sua qualidade.interativamente melhorando sua qualidade.Estas modificações são operações na descrição.Estas modificações são operações na descrição.

pp ESPAÇO DE BUSCA (D, F, O) -ESPAÇO DE BUSCA (D, F, O) - descrição,descrição,operação, funções de qualidade.operação, funções de qualidade.

pp ESPAÇO DA DESCRIÇÃO - É o conjunto deESPAÇO DA DESCRIÇÃO - É o conjunto detodas as descrições de uma representaçãotodas as descrições de uma representaçãoparticular.particular.

59

OPERAÇÕESOPERAÇÕES

FF GENERALIZAÇÃOGENERALIZAÇÃOEnfraquecem a descriçãoEnfraquecem a descrição(cobre mais objetos)(cobre mais objetos)

FF ESPECIALIZAÇÃOESPECIALIZAÇÃOFortalecem a descriçãoFortalecem a descrição(cobre menos objetos)(cobre menos objetos)

60

FUNÇÕES DE QUALIDADEFUNÇÕES DE QUALIDADE

nn Ajusta valores para cada descriçãoAjusta valores para cada descriçãoindicando sua qualidade.indicando sua qualidade.

nn CRITÉRIOSCRITÉRIOS::

VALIDADE DA REGRAVALIDADE DA REGRA

EXATIDÃO DA REGRAEXATIDÃO DA REGRAAprendizado SupervisionadoAprendizado SupervisionadoAprendizado Não SupervisionadoAprendizado Não Supervisionado

21

61

EXATIDÃOEXATIDÃOAPRENDIZADO SUPERVISIONADOAPRENDIZADO SUPERVISIONADO

nn A descrição para uma classe é A descrição para uma classe é CORRETACORRETAse ela cobre todos os exemplos desejadosse ela cobre todos os exemplos desejadose nenhum dos indesejados.e nenhum dos indesejados.

nn Mas algumas descrições Mas algumas descrições NÃO CORRETASNÃO CORRETASpodem ser úteis para se encontrar novaspodem ser úteis para se encontrar novasdescrições.descrições.

nn Assim temos: Assim temos: NÍVEIS DE EXATIDÃONÍVEIS DE EXATIDÃO

62

EXATIDÃOEXATIDÃO - - APRENDIZADOAPRENDIZADO NÃO SUPERVISIONADONÃO SUPERVISIONADO

nn Qualquer descrição simples que cobre o conjuntoQualquer descrição simples que cobre o conjuntode treinamento inteiro é assumido como de altade treinamento inteiro é assumido como de altaqualidade.qualidade.

nn A A função qualidade função qualidade pode depender também dopode depender também doajusteajuste, i.é., quão perto a descrição está próxima, i.é., quão perto a descrição está próximado conjunto de exemplos.do conjunto de exemplos.

nn Então, Então, procuramos pela descrição mais simplesprocuramos pela descrição mais simplescom o melhor ajuste.com o melhor ajuste.

63

BUSCA HEURÍSTICABUSCA HEURÍSTICA

nn É reduzir o esforço da busca pela seleçãoÉ reduzir o esforço da busca pela seleçãoda operação que encontra , de formada operação que encontra , de formapossivelmente mais eficiente a descriçãopossivelmente mais eficiente a descriçãocom qualidade suficiente.com qualidade suficiente.

nn Requer informações sobre o domínio deRequer informações sobre o domínio debusca chamadas:busca chamadas:

HEURÍSTICA HEURÍSTICA ououDOMÍNIO DO CONHECIMENTODOMÍNIO DO CONHECIMENTO

22

64

ESTABELECENDO UMESTABELECENDO UMAMBIENTE KDDAMBIENTE KDD

nn Tipos de conhecimentos reconhecidos emTipos de conhecimentos reconhecidos emData Mining :Data Mining :HH superficial => usando SQL; superficial => usando SQL;

HH multi-dimensional => usando OLAP; multi-dimensional => usando OLAP;

HH escondido => usando algoritmos de escondido => usando algoritmos deaprendizagem;aprendizagem;

HH profundo => somente com pistas que nos profundo => somente com pistas que nosdigam aonde olhar (o mínimo local não édigam aonde olhar (o mínimo local não édestacável)destacável)

65

ESTABELECENDO UMESTABELECENDO UMAMBIENTE KDDAMBIENTE KDD

nn Ponto de Partida : formulação dosPonto de Partida : formulação dosrequisitos específicos da informaçãorequisitos específicos da informaçãorelativos à ação específica.relativos à ação específica.

pp Definir : Definir :

–– O que desejamos saber e O que desejamos saber e

–– O que necessitamos fazer com esse O que necessitamos fazer com esseconhecimentoconhecimento..

66

DIFERENTES FORMAS DEDIFERENTES FORMAS DECONHECIMENTOCONHECIMENTO

ââ SUPERFICIALSUPERFICIAL

ââ MULTI-DIMENSIONAL MULTI-DIMENSIONAL

ââ ESCONDIDO ESCONDIDO

ââ PROFUNDO PROFUNDO

23

67

CONHECIMENTOCONHECIMENTOSUPERFICIALSUPERFICIAL

nn Pode ser facilmente extraído de Banco dePode ser facilmente extraído de Banco deDados usando ferramentas e linguagens deDados usando ferramentas e linguagens dequeries como o SQL.queries como o SQL.

68

CONHECIMENTOCONHECIMENTOMULTI-DIMENSIONALMULTI-DIMENSIONAL

nn Pode ser extraído analisando-se as informaçõesPode ser extraído analisando-se as informaçõescom ferramentas de OLAP (On-Line Analyticalcom ferramentas de OLAP (On-Line AnalyticalProcessing).Processing).

nn Explora os diferentes tipos de clustering eExplora os diferentes tipos de clustering eordenações dos dados.ordenações dos dados.

nn A maioria dessas tarefas podem ser realizadasA maioria dessas tarefas podem ser realizadasusando-se o SQL. Porém, o OLAP são asusando-se o SQL. Porém, o OLAP são asferramentas mais adequadas.ferramentas mais adequadas.

nn Contudo, o OLAP não é tão poderoso quanto oContudo, o OLAP não é tão poderoso quanto oData Mining para encontrar as soluções ótimas.Data Mining para encontrar as soluções ótimas.

69

CONHECIMENTOCONHECIMENTOESCONDIDOESCONDIDO

nn Extraídos com relativa facilidade usando-seExtraídos com relativa facilidade usando-setécnicas de reconhecimento de padrões outécnicas de reconhecimento de padrões oualgoritmos de máquinas de aprendizado.algoritmos de máquinas de aprendizado.

nn Podem ser também encontrados usando-sePodem ser também encontrados usando-seSQL. Porém, com um consumoSQL. Porém, com um consumoextremamente maior de tempo.extremamente maior de tempo.

24

70

CONHECIMENTOCONHECIMENTOPROFUNDOPROFUNDO

nn Está armazenado, mas somente pode serEstá armazenado, mas somente pode serencontrado se tivermos algum indício queencontrado se tivermos algum indício quenos indique por onde começar a procura.nos indique por onde começar a procura.

nn A diferença em relação ao conhecimentoA diferença em relação ao conhecimentoescondido é o ESPAÇO DE BUSCA.escondido é o ESPAÇO DE BUSCA.

nn Um algoritmo de busca pode não convergirUm algoritmo de busca pode não convergirpara resultados significativos em certaspara resultados significativos em certaspartes do espaço de busca.partes do espaço de busca.

71

INICIANDOINICIANDO

nn O ponto inicial é a formulação de umaO ponto inicial é a formulação de umanecessidade de uma informação específicanecessidade de uma informação específicarelacionada a uma ação específica.relacionada a uma ação específica.

•• O que se deseja saber?O que se deseja saber?

•• O que se deseja fazer com esseO que se deseja fazer com esseconhecimento?conhecimento?

72

EXEMPLOEXEMPLO

nn Cartas personalizadas:Cartas personalizadas:•• Quantos clusters desejamos encontrar?1Quantos clusters desejamos encontrar?1

•• Quantos clusters esperamos encontrar?Quantos clusters esperamos encontrar?–– reorganização de responsabilidades departamentaisreorganização de responsabilidades departamentais

–– estratégias de vendas em diferentes áreasestratégias de vendas em diferentes áreas

•• Qual a taxa de atualização das informações?Qual a taxa de atualização das informações?

Quanto mais detalhada um clustering, maior aQuanto mais detalhada um clustering, maior achance de mudar em um determinado período.chance de mudar em um determinado período.

25

73

DATA MININGDATA MINING

nn Não é bem uma nova técnica, masNão é bem uma nova técnica, masuma nova maneira de lidar com asuma nova maneira de lidar com asinformações.informações.

74

AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SEINICIAR UM KDDINICIAR UM KDD

nn Fazer um Levantamento dos Hardwares eFazer um Levantamento dos Hardwares eSoftwares existentes.Softwares existentes.

nn Fazer uma lista de necessidades.Fazer uma lista de necessidades.•• Qual o propósito do KDD?Qual o propósito do KDD?•• Quais são os critérios de sucesso do KDD?Quais são os critérios de sucesso do KDD?•• Como será mensurado esse sucesso?Como será mensurado esse sucesso?•• Bancos de Dados, Redes, Aplicações,Bancos de Dados, Redes, Aplicações,

Servidores, etc.Servidores, etc.nn Avaliar a qualidade dos dados disponíveis.Avaliar a qualidade dos dados disponíveis.

•• Para que propósito foi coletado?Para que propósito foi coletado?

75

AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SE INICIAR UM KDDINICIAR UM KDD

nn Fazer um inventário dos Banco de DadosFazer um inventário dos Banco de Dadosdisponíveis.disponíveis.•• Internamente e ExternamenteInternamente e Externamente

nn Verificar a existência de um DataVerificar a existência de um DataWarehouse.Warehouse.•• Que tipo de dados estão disponíveisQue tipo de dados estão disponíveis•• Podemos verificar os detalhes dos dadosPodemos verificar os detalhes dos dados

operacionais?operacionais?

nn Formular o conhecimento que aFormular o conhecimento que aorganização necessita.organização necessita.

26

76

AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SE INICIAR UM KDD INICIAR UM KDD

nn Identificar os grupos de engenheiros deIdentificar os grupos de engenheiros deconhecimento ou os grupos de decisão queconhecimento ou os grupos de decisão queaplicarão os resultados.aplicarão os resultados.•• Que tipo de decisões precisam ser tomadas?Que tipo de decisões precisam ser tomadas?•• Quais padrões são úteis?Quais padrões são úteis?

nn Analisar se o conhecimento encontrado éAnalisar se o conhecimento encontrado érealmente útil para a organização.realmente útil para a organização.

nn Listar os Processos e as Transforma-Listar os Processos e as Transforma-ções que serão aplicados aos BD’s antesções que serão aplicados aos BD’s antesque esses possam ser utilizados no KDD.que esses possam ser utilizados no KDD.

77

EXEMPLOEXEMPLO

nn DATA DE NASCIMENTODATA DE NASCIMENTO•• corretas nas seguradoras de vida;corretas nas seguradoras de vida;

•• 30% a 40% em branco ou incorretas nos30% a 40% em branco ou incorretas nosbancos.bancos.

Se as datas de nascimentos estãoSe as datas de nascimentos estãoincorretas, é impossível descobrir padrõesincorretas, é impossível descobrir padrõescorretos relacionados a idade.corretos relacionados a idade.

78

POLUIÇÃO DOS DADOSPOLUIÇÃO DOS DADOS

nn A melhor maneira de evitá-las éA melhor maneira de evitá-las éorganizando a entrada dos dados.organizando a entrada dos dados.

nn Análises no domínio da consistênciaAnálises no domínio da consistênciaprecisam de programas com profundoprecisam de programas com profundoconhecimento semântico dos atributos.conhecimento semântico dos atributos.

nn A remoção de dados poluídos geralmenteA remoção de dados poluídos geralmenteimplica num processo de re-engenharia dosimplica num processo de re-engenharia dosnegócios.negócios.

27

79

ENRIQUECIMENTO DOSENRIQUECIMENTO DOSDADOSDADOS

nn Muitas empresas trocam dados paraMuitas empresas trocam dados paracoordenar suas operações de marketing.coordenar suas operações de marketing.

nn Agregar BD’s de terceiros não é uma tarefaAgregar BD’s de terceiros não é uma tarefasimples.simples.

nn Existem problemas de reconstrução dasExistem problemas de reconstrução dasfamílias de relacionamentos.famílias de relacionamentos.

nn Futuramente mais informação e BD’sFuturamente mais informação e BD’sestarão disponíveis em termos comerciais.estarão disponíveis em termos comerciais.

80

EXEMPLOEXEMPLO

rr Cia Telefônica - Cia AéreaCia Telefônica - Cia Aérea•• BD’s com o comportamento das chamadas dosBD’s com o comportamento das chamadas dos

usuários.usuários.

•• Seleção de um grupo de usuários de interesse.Seleção de um grupo de usuários de interesse.

•• Descobre-se que muitos fazem chamadas paraDescobre-se que muitos fazem chamadas parao Japão.o Japão.

•• Monta-se uma promoção especial de viagensMonta-se uma promoção especial de viagenspara o Japão a esse grupo.para o Japão a esse grupo.

81

10 REGRAS DE OURO10 REGRAS DE OURO

nn Suportar um Conjunto de Dados extremamenteSuportar um Conjunto de Dados extremamentegrandes.grandes.

nn Suportar aprendizado híbrido.Suportar aprendizado híbrido.nn Estabelecer um DW.Estabelecer um DW.nn Facilidade de Limpeza dos dados.Facilidade de Limpeza dos dados.nn Facilidade de Codificação Dinâmica.Facilidade de Codificação Dinâmica.nn Integração com DSS.Integração com DSS.nn Arquitetura Extensível.Arquitetura Extensível.nn Suporte a BD’s Heterogêneos.Suporte a BD’s Heterogêneos.nn Arquitetura Cliente/Servidor.Arquitetura Cliente/Servidor.nn Otimização de Cache.Otimização de Cache.

28

82

EXEMPLOEXEMPLO

nn Locadora de Automóveis: Locadora de Automóveis:•• Código de Endereçamento PostalCódigo de Endereçamento Postal

–– Códigos de endereços do exterior geralmente sãoCódigos de endereços do exterior geralmente sãoincompatíveis com o campo de cadastro na tela deincompatíveis com o campo de cadastro na tela deentrada de dados.entrada de dados.

–– Geralmente, acaba usando-se o código da agênciaGeralmente, acaba usando-se o código da agêncialocadora, apenas para permitir a entrada dos dadoslocadora, apenas para permitir a entrada dos dadose efetuar a locação do automóvel.e efetuar a locação do automóvel.

–– Ao se realizar o Data Mining, será encontrado umAo se realizar o Data Mining, será encontrado umgrupo interessante de vários clientes, que moramgrupo interessante de vários clientes, que moramna vizinhança da agência locadora.na vizinhança da agência locadora.

83

PERFIL DO CLIENTEPERFIL DO CLIENTESELEÇÃO DOS DADOSSELEÇÃO DOS DADOS

Como o objetivo é de encontrar apenas umaComo o objetivo é de encontrar apenas uma

rústica clusterização, podemos iniciar comrústica clusterização, podemos iniciar com

uma amostra de 1% dos registros escolhidosuma amostra de 1% dos registros escolhidos

aleatoriamente, começando portanto comaleatoriamente, começando portanto com

100.000 registros.100.000 registros.

84

PERFIL DO CLIENTEPERFIL DO CLIENTEENRIQUECIMENTOENRIQUECIMENTO

Em adição aos dados do próprio banco,Em adição aos dados do próprio banco,alguns dados demográficos são compradosalguns dados demográficos são compradose adicionados ao arquivo original, quee adicionados ao arquivo original, queconsiste nos preços médios da casa e doconsiste nos preços médios da casa e docarro.carro.

Assim temos informações suficientes deAssim temos informações suficientes decada cliente. Num total de mais ou menoscada cliente. Num total de mais ou menos20 atributos.20 atributos.

29

85

PERFIL DO CLIENTEPERFIL DO CLIENTE

Os produtos investigados são:Os produtos investigados são:

ãã PagamentosPagamentos

ãã Economia Economia

ãã Depósitos Depósitos

ãã Hipotecas Hipotecas

ãã Empréstimos Empréstimos

ãã Seguros Seguros

86

PERFIL DO CLIENTEPERFIL DO CLIENTEMINERAÇÃO DE DADOSMINERAÇÃO DE DADOS

Na solução do problema podemos utilizar:Na solução do problema podemos utilizar:

nn Um sistema utilizando técnica da distânciaUm sistema utilizando técnica da distânciajuntamente com algoritmos genéticos;juntamente com algoritmos genéticos;

nn Regra de associação;Regra de associação;

nn Árvore de decisão.Árvore de decisão.

A construção de um sistema de previsão ouA construção de um sistema de previsão oude classificação pode ser visto como ade classificação pode ser visto como acriação de uma função que determina qualcriação de uma função que determina qualserá o comportamento de cada cliente.será o comportamento de cada cliente.

87

PERFIL DO CLIENTE PERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS

ää Técnica da distância e Algoritmo GenéticoTécnica da distância e Algoritmo Genético

nn Como o perfil do cliente consiste deComo o perfil do cliente consiste deatributos quantitativos é possível compararatributos quantitativos é possível compararclientes, criando uma medida de distânciaclientes, criando uma medida de distânciaentre eles.entre eles.

Então, aplicamos Algoritmo Genético paraEntão, aplicamos Algoritmo Genético paraencontrar uma clusterização ótima para oencontrar uma clusterização ótima para oconjunto de dados. Assim, podemos preverconjunto de dados. Assim, podemos prevero comportamento de um novo cliente.o comportamento de um novo cliente.

30

88

PERFIL DO CLIENTEPERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS

ää Regra de AssociaçãoRegra de Associação

nn Podemos, utilizando a técnica de regras dePodemos, utilizando a técnica de regras deassociação, encontrar regras queassociação, encontrar regras quedeterminam qual o grupo de clientes quedeterminam qual o grupo de clientes quedemonstram interesse pelo produtodemonstram interesse pelo produto‘seguro’ .‘seguro’ .

Encontramos regras do tipo:Encontramos regras do tipo:hipoteca - empréstimo - economia = segurohipoteca - empréstimo - economia = seguroCom confidencia de 62% e suporte de 2%Com confidencia de 62% e suporte de 2%

89

PERFIL DO CLIENTEPERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS

ää Árvore de decisãoÁrvore de decisão

nn Construindo a árvore de decisão para oConstruindo a árvore de decisão para oproduto seguro, temos que, o saldo daproduto seguro, temos que, o saldo daconta do cliente é o atributo mais decisivo:conta do cliente é o atributo mais decisivo:•• Clientes com saldos inferiores a 901 pouco seClientes com saldos inferiores a 901 pouco se

interessam por seguro;interessam por seguro;

•• Clientes, com saldo superiores a 901, e que,Clientes, com saldo superiores a 901, e que,possuem cartão de crédito e um volume depossuem cartão de crédito e um volume denegócio superior a 30.980 apresentam grandenegócio superior a 30.980 apresentam grandeinteresse pelo produto seguro (67%).interesse pelo produto seguro (67%).

90

ALGUMAS APLICAÇÕES NAALGUMAS APLICAÇÕES NAVIDA REALVIDA REAL

ä Para fornecer uma ampla visão daspossibilidades das técnicas apresentadasde Mineração de Dados, apresemos trêsexemplos:FF Aplicação em Marketing - Perfil de um cliente;Aplicação em Marketing - Perfil de um cliente;

FF Porque passou no vestibular e não se Porque passou no vestibular e não seinscreveu!inscreveu!

FF Aplicação em engenharia reversa - Aplicação em engenharia reversa -Descoberta de relação entre chavesDescoberta de relação entre chavesestrangeiras.estrangeiras.

31

91

PERFIL DO CLIENTEPERFIL DO CLIENTEDEFINIÇÃO DA TAREFADEFINIÇÃO DA TAREFA

ää Devemos investigar o Banco de Dados deDevemos investigar o Banco de Dados deum grande Banco, contendo milhões deum grande Banco, contendo milhões deregistros, com dados de seus clientes.registros, com dados de seus clientes.

O Banco possui dois tipos de clientes:O Banco possui dois tipos de clientes:

nn O comprador simples - é aquele queO comprador simples - é aquele quecompra apenas um produto;compra apenas um produto;

nn O comprador múltiplo - é aquele queO comprador múltiplo - é aquele quecompra mais de um produto.compra mais de um produto.

92

PERFIL DO CLIENTEPERFIL DO CLIENTEOBJETIVOOBJETIVO

ää O objetivo do Departamento de Vendas doO objetivo do Departamento de Vendas doBanco é de ampliar as vendas de seusBanco é de ampliar as vendas de seusprodutos à seus clientes.produtos à seus clientes.

nn Para isso precisamos obter umaPara isso precisamos obter umasegmentação grosseira dos compradoressegmentação grosseira dos compradoresmúltiplos, para encontrar uma clusterizaçãomúltiplos, para encontrar uma clusterizaçãodeste grupo em vinte classes. E então,deste grupo em vinte classes. E então,para cada classe ,avaliar a oportunidadepara cada classe ,avaliar a oportunidadede certos grupos de produtos.de certos grupos de produtos.

93

ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM

HH AprendizagemAprendizagem•• Sob o ponto de vista matemático, pode serSob o ponto de vista matemático, pode ser

descrita como sendo uma compressão dodescrita como sendo uma compressão doconjunto de dados. Se a descrição criada éconjunto de dados. Se a descrição criada émenor que os dados originais, entãomenor que os dados originais, entãoefetivamente houve aprendizagem.efetivamente houve aprendizagem.

•• 10010111001100101 => conjunto original;10010111001100101 => conjunto original;

•• 10101 => teoria da codificação;10101 => teoria da codificação;

•• 1000011 => conjunto codificado pela teoria.1000011 => conjunto codificado pela teoria.

32

94


HH Ruído e RedundânciaRuído e Redundância

•• Ruído pode ser visto como uma distorção ouRuído pode ser visto como uma distorção oumutação da mensagem, originados pormutação da mensagem, originados porinfluências externasinfluências externas..

•• Um bom entendimento de fenômenos comoUm bom entendimento de fenômenos comoruído e redundância é de vital importância pararuído e redundância é de vital importância paraverificar os benefícios da aplicação dosverificar os benefícios da aplicação dosalgoritmos de aprendizagem a conjuntos dealgoritmos de aprendizagem a conjuntos dedados.dados.

95


HH Situação AtualSituação Atual

•• Bancos de Dados maiores e mais complexos;Bancos de Dados maiores e mais complexos;

•• Geração automática das informações;Geração automática das informações;

•• Grande Produção de Dados não-estruturados;Grande Produção de Dados não-estruturados;

•• Cópias de Dados Operacionais em grandesCópias de Dados Operacionais em grandesDW para DSS;DW para DSS;

•• Bilhões de registros da ordem de TbytesBilhões de registros da ordem de Tbytes;;

96


HH Situação Atual (cont.)Situação Atual (cont.)

•• SQL é muito lento para essa demanda de DM;SQL é muito lento para essa demanda de DM;

•• Algoritmos de reconhecimentos de padrões:Algoritmos de reconhecimentos de padrões:

–– armazenam muitos dados intermediários;armazenam muitos dados intermediários;

–– acesso atípico às tabelas;acesso atípico às tabelas;

–– baixa eficiência.baixa eficiência.

33

97


HH NecessidadesNecessidades

•• Nova tecnologia para manter esse grandeNova tecnologia para manter esse grandeconjunto de dados;conjunto de dados;

•• Novos métodos de busca e consulta;Novos métodos de busca e consulta;

•• Paralelismo.Paralelismo.

98


HH Relacionamentos e Tabelas Relacionamentos e Tabelas

•• O Banco de Dados Relacional é umaO Banco de Dados Relacional é umaplataforma para consulta sobre objetosplataforma para consulta sobre objetosexclusivamente identificados;exclusivamente identificados;

•• Essa exclusividade dos objetos não éEssa exclusividade dos objetos não édesejável em Data Mining.desejável em Data Mining.

99


HH Chaves e Dependência EstatísticaChaves e Dependência Estatística

•• Objetos identificados por Chaves;Objetos identificados por Chaves;

•• Demais campos => funcionalmenteDemais campos => funcionalmentedependentes do valor da Chave;dependentes do valor da Chave;

•• Na terceira forma normal => dependências sãoNa terceira forma normal => dependências sãosubstituídas por chaves estrangeiras;substituídas por chaves estrangeiras;

•• Assim podemos formar regras como:Assim podemos formar regras como:–– Se o CEP é AA123 então a cidade é Paris.Se o CEP é AA123 então a cidade é Paris.

34

100


nn

C L IE N T E C E P P R O D U T O

1 2 3 4 A A 1 2 3 V IN H O

6 7 8 9 A A 1 2 3 P Ã O

3 4 5 6 B B 1 2 3 C A R N E

4 5 6 7 A A 1 2 3 V IN H O

C E P C I D A D E

A A 1 2 3 P A R I S

B B 1 2 3 N E W Y O R K

101


HH Dependências em Data MiningDependências em Data Mining

•• Dependência funcional:Dependência funcional:

––metodologia de projeto de BDs relacionais;metodologia de projeto de BDs relacionais;

––é uma prevenção contra anormalidades deé uma prevenção contra anormalidades deatualizações em lote.atualizações em lote.

•• As atualizações no DW são em lote;As atualizações no DW são em lote;

•• Interesse nas dependências estatísticas:Interesse nas dependências estatísticas:

––67% das pessoas com CEP AA12367% das pessoas com CEP AA123compram vinho.compram vinho.

102


HH ConclusõesConclusões

ãã Alguns algoritmos funcionam melhor do queAlguns algoritmos funcionam melhor do queoutros em certos conjuntos de dados;outros em certos conjuntos de dados;

ãã Suporte à decisão, Data Werehousing e Data Suporte à decisão, Data Werehousing e DataMining exigem uma interpretaçãoMining exigem uma interpretaçãocompletamente nova da tecnologia de BD;completamente nova da tecnologia de BD;

ãã Generalizações devem estar comprometidas Generalizações devem estar comprometidascom uma teoria coerente e a implicaçãocom uma teoria coerente e a implicaçãotécnica na vida real deve ser considerada.técnica na vida real deve ser considerada.

35

103


nn Podemos dizer, portanto, que existe uma Podemos dizer, portanto, que existe umarelação entre a compreensibilidade e os padrõesrelação entre a compreensibilidade e os padrõesda mensagem.da mensagem.

nn Mensagens aleatórias não contém nenhum Mensagens aleatórias não contém nenhumpadrão e portanto não é possível dar umapadrão e portanto não é possível dar umadescrição melhor desta mensagem. A descriçãodescrição melhor desta mensagem. A descriçãoneste caso é a própria mensagem.neste caso é a própria mensagem.

nn O que não é o caso para mensagens O que não é o caso para mensagenscompreensíveis. Como por exemplo uma quecompreensíveis. Como por exemplo uma quecontenha um megabyte de uns, que pode sercontenha um megabyte de uns, que pode serdescrita como “um megabyte de uns”.descrita como “um megabyte de uns”.

104

VISUALIZAÇÃO EVISUALIZAÇÃO EANÁLISEANÁLISE

HH O ambiente de desenvolvimento interativo deve fornecerO ambiente de desenvolvimento interativo deve fornecerum conjunto de ferramentas de visualização e análise.um conjunto de ferramentas de visualização e análise.

HH A análise permite ao usuário selecionar uma variedade deA análise permite ao usuário selecionar uma variedade dedados, dependendo do objeto que está sendodados, dependendo do objeto que está sendoinspecionado. Para inspecionado. Para Redes Neurais por exemplo ,Redes Neurais por exemplo , um ou um oumais parâmetros da rede pode ser selecionado. Para basemais parâmetros da rede pode ser selecionado. Para basede de regra fuzzyregra fuzzy, variáveis fuzzy e regras fuzzy podem ser, variáveis fuzzy e regras fuzzy podem serescolhidas. Todos objetos podem mostrar os buffers deescolhidas. Todos objetos podem mostrar os buffers deentrada e saída.entrada e saída.

Introdução a DATA MINING Introdução a DATA MINING

ICA Elétrica PUC-RIOICA Elétrica PUC-RIO

36

AgendaAgenda Conceitos Conceitos

Objetivo Objetivo

Motivação Motivação

DO DO →→ DW DW

Aplicações Aplicações

Áreas de Pesquisas Áreas de Pesquisas

Tarefas Tarefas

Conclusões Conclusões

ICA Elétrica PUC-RIO

Esta apresentaçãoproporciona uma introduçãogeral sobre DATA MINING esuas aplicações .

Agosto de 1999.

107

O QUE FAZ DATA MININGO QUE FAZ DATA MINING

nn OS BANCOS tem OS BANCOS tem DADOSDADOSnn QUE PODEM SER transformadosQUE PODEM SER transformados

nn em em INFORMAÇÕESINFORMAÇÕES

nn EM SEGUIDA podem ser transformadosEM SEGUIDA podem ser transformadosem em CONHECIMENTOCONHECIMENTO

nn É O QUE FAZ DATA MININGÉ O QUE FAZ DATA MINING

nn procura conhecimento em BDprocura conhecimento em BD

ConceitosConceitos

nn Data Mining é a busca de informaçõesData Mining é a busca de informaçõesvaliosas em grandes volumes de dados.valiosas em grandes volumes de dados.

nn Data Warehouse é um repositório de dados,Data Warehouse é um repositório de dados,que contém dados históricos, integrados porque contém dados históricos, integrados porassunto ou domínio de aplicação, paraassunto ou domínio de aplicação, parautilização em ambientes de análise de dados eutilização em ambientes de análise de dados esistemas de apoio à decisão.sistemas de apoio à decisão.

37

ConceitosConceitos

nn A comunidade de banco de dados desenvolveuA comunidade de banco de dados desenvolveuferramentas para a análise de Data Warehouseferramentas para a análise de Data Warehousechamada OLAP (On-Line Analitycal Processing).chamada OLAP (On-Line Analitycal Processing).

nn As ferramentas OLAP enfocam análisesAs ferramentas OLAP enfocam análisesmultidimensionais de dados de modo superiormultidimensionais de dados de modo superioraos mecanismos oferecidos pelas ferramentasaos mecanismos oferecidos pelas ferramentastradicionais.tradicionais.

ObjetivoObjetivo

Descobrir informações e conhecimentos,Descobrir informações e conhecimentos,através do reconhecimento de novos fatosatravés do reconhecimento de novos fatos

e relações existentes em uma base dee relações existentes em uma base dedados.dados.

MotivaçãoMotivação

O enorme crescimento das bases de dadosO enorme crescimento das bases de dadoscomerciais, governamentais e científicas vemcomerciais, governamentais e científicas vem

ultrapassando a habilidade técnica e aultrapassando a habilidade técnica e acapacidade humana na interpretação dessescapacidade humana na interpretação desses

dados.dados.

38

MotivaçãoMotivação

A idéia chave é tornar disponível paraA idéia chave é tornar disponível parao gerenciamento as informaçõeso gerenciamento as informações

críticas que podem ser usadas paracríticas que podem ser usadas parafuturos processamentos analíticos efuturos processamentos analíticos e

tomadas de decisões.tomadas de decisões.

DO DO →→→→ DW DW

nn Os dados brutos armazenados nos bancos de dadosOs dados brutos armazenados nos bancos de dadosnão estão na melhor forma para a mineração de dados.não estão na melhor forma para a mineração de dados.

nn Os dados antes de serem transportados para o DataOs dados antes de serem transportados para o Datawarehouse eles sofrem algumas transformações:warehouse eles sofrem algumas transformações:•• ExtraçãoExtração

•• TransformaçãoTransformação

•• LimpezaLimpeza

•• IntegraçãoIntegração

DO DO →→→→ DW DW

Extração Transformação Limpeza Data Warehouse

Bancos de dadosTransacionais

39

AplicaçõesAplicações

nn Classificação e Regressão - Classificar os dados através deClassificação e Regressão - Classificar os dados através demodelos de comportamento.modelos de comportamento.

nn Séries Temporais Similares - identificar séries similaresSéries Temporais Similares - identificar séries similarescoletadas ao longo de um período de tempo.coletadas ao longo de um período de tempo.

nn Associação - encontrar relacionamento entre os dados.Associação - encontrar relacionamento entre os dados.

nn Padrões Seqüenciais - descobrir eventos relacionados quePadrões Seqüenciais - descobrir eventos relacionados queocorrem ao longo de um período de tempo.ocorrem ao longo de um período de tempo.

116

CLASSIFICAÇÃOCLASSIFICAÇÃO

nn Cada registro pertence a umaCada registro pertence a umaclasse,indicada pelo valor de um atributoclasse,indicada pelo valor de um atributoobjetivoobjetivo

nn cada registro consiste de :cada registro consiste de :

nn um atributo objetivo;um atributo objetivo;

nn um conjunto de atributos qualitativosum conjunto de atributos qualitativos

nn objetivo ? : usar o relacionamentoobjetivo ? : usar o relacionamentodescoberto para prever a classe (meta)descoberto para prever a classe (meta)

nn de um registro com classe desconhecida.de um registro com classe desconhecida.

117

Classificação (CONT)Classificação (CONT)

nn EXEMPLO:EXEMPLO:

nn uma editora tem um BD sobre clientes deuma editora tem um BD sobre clientes derestaurantes em 3 países , e acaba derestaurantes em 3 países , e acaba depublicar um livro “Guia de Restaurantes”publicar um livro “Guia de Restaurantes”

nn e deseja saber quais clientes prováveise deseja saber quais clientes prováveiscompradores(mala direta) do livro.compradores(mala direta) do livro.

nn atributo objetivo : comprar (sim/não)atributo objetivo : comprar (sim/não)

nn DADOS de entrada para um sistemaDADOS de entrada para um sistema

nn de classificação (a seguir)de classificação (a seguir)

40

118

SEXO PAÍS IDADE OBJETIVOSEXO PAÍS IDADE OBJETIVO(resultado de mini pesquisa)(resultado de mini pesquisa)

m BR 25 Sm USA 21 Sf BR 23 Sf USA 34 Sf BR 30 Nm ITA 21 Nm ITA 20 N

119

REGRAS de classificação descobertasREGRAS de classificação descobertasa partir dos dados anterioresa partir dos dados anteriores

nn SE ( País = ITA) ENTÃO (comprar=não)SE ( País = ITA) ENTÃO (comprar=não)

nn SE (País=USA) ENTÃO (comprar=sim)SE (País=USA) ENTÃO (comprar=sim)

nn SE (País=BR e idade=<=25)SE (País=BR e idade=<=25)

nn ENTÃO (comprar=sim) ENTÃO (comprar=sim)

nn SE (País=BR ……..SE (País=BR ……..

120

Descoberta de regras deDescoberta de regras deASSOCIAÇÀOASSOCIAÇÀO

nn Cada registro corresponde a umaCada registro corresponde a umatransação de um cliente, com itenstransação de um cliente, com itensassumindo valores binários (s/n),indicandoassumindo valores binários (s/n),indicando

nn se o cliente comprou ou não o respectivose o cliente comprou ou não o respectivoitem.item.

nn UMA REGRA DE ASSOCIAÇÀO é umUMA REGRA DE ASSOCIAÇÀO é um

nn relacionamento SE (X) ENTÃO (Y)relacionamento SE (X) ENTÃO (Y)

nn onde X e Y tem: X interseção y = vazioonde X e Y tem: X interseção y = vazio

41

121

A cada regra são atribuídos 2 fatoresA cada regra são atribuídos 2 fatores

nn Suporte (SP) =no. de registros com X e Y /Suporte (SP) =no. de registros com X e Y /

nn no. total de registrosno. total de registros

nn Confiança (conf) = no. de reg.com X e Y /Confiança (conf) = no. de reg.com X e Y /

nn no. de registros com X.no. de registros com X.

nn OBJETIVO : descobrir todas regras deOBJETIVO : descobrir todas regras deassociação com um mínimo Sup e umassociação com um mínimo Sup e ummínimo Conf.mínimo Conf.

122

Descoberta de Regras de AssociaçãoDescoberta de Regras de Associação

Dados de entrada para um sistema deDados de entrada para um sistema deassociaçãoassociação

No. tr. leite café cerveja pããoo manteiga Arroz Feijããoo

123456789

10

nããoosimnããoossiimmnããoonããoonããoonããoonããoonããoo

simnããoossiimmssiimmnããoonããoonããoonããoonããoonããoo

nããoosimnããoonããoossiimmnããoonããoonããoonããoonããoo

simsimsimsimnããoonããoossiimmnããoonããoonããoo

simsimsimsimnããoossiimmnããoonããoonããoonããoo

nããoonããoonããoonããoonããoonããoonããoonããoossiimmssiimm

nããoonããoonããoonããoonããoonããoonããoossiimmssiimmnããoo

123

Regras de Associação descobertas aRegras de Associação descobertas apartir dos dados abaixo:partir dos dados abaixo:

nn Conjunto de Itens Freqüente: café, pConjunto de Itens Freqüente: café, pão. Sup. = 0,3ão. Sup. = 0,3

•• Regra: SE (café) ENTRegra: SE (café) ENTÃO (pão). ÃO (pão). Conf. = 1 Conf. = 1

nn Conjunto de Itens Freqüente: café, manteiga. Sup. = 0,3Conjunto de Itens Freqüente: café, manteiga. Sup. = 0,3

•• Regra: SE (café) ENTÃO (manteiga). Conf. = 1Regra: SE (café) ENTÃO (manteiga). Conf. = 1nn Conjunto de Itens Freqüente: pão, manteiga. Sup. = 0,4Conjunto de Itens Freqüente: pão, manteiga. Sup. = 0,4

•• Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8

•• Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8nn Conjunto de Itens Freqüente: café, pão, manteiga Sup.= 0,3Conjunto de Itens Freqüente: café, pão, manteiga Sup.= 0,3

•• Regra: SE (café E pão) ENTÃO (manteiga). Conf. = 1Regra: SE (café E pão) ENTÃO (manteiga). Conf. = 1

•• Regra: SE (café E manteiga) ENTÃO (pão). Conf. = 1Regra: SE (café E manteiga) ENTÃO (pão). Conf. = 1

•• Regra: SE (café) ENTÃO (manteiga E pão). Conf. = 1Regra: SE (café) ENTÃO (manteiga E pão). Conf. = 1

42

124

Descobrindo regras de associaçãoDescobrindo regras de associação

Algoritmo tem 2 fases:Algoritmo tem 2 fases:

nn Fase I:Fase I:

•• Descobrir conjuntos de itens freqüentes.Descobrir conjuntos de itens freqüentes.

•• Descobrir todos os conjuntos de itens com suporte maior ou igualDescobrir todos os conjuntos de itens com suporte maior ou igualao mínimo suporte especificado pelo usuário.ao mínimo suporte especificado pelo usuário.

nn Fase II:Fase II:

•• Descobrir regras com alto fator de confiança.Descobrir regras com alto fator de confiança.

•• A partir dos conjuntos de itens freqüentes, descobrir regras deA partir dos conjuntos de itens freqüentes, descobrir regras deassociação com fator de confiança maior ou igual ao especificadoassociação com fator de confiança maior ou igual ao especificadopelo usuário.pelo usuário.

125

Calculando o suporte de conjunto deCalculando o suporte de conjunto deitensitens

nn Suporte = No. de transações contendo o conjunto de itens, dividido pelo No. total deSuporte = No. de transações contendo o conjunto de itens, dividido pelo No. total detransações.transações.

nn 1° passo:1° passo:•• Calcular suporte de conjuntos com 1 item.Calcular suporte de conjuntos com 1 item.

Item leite:Item leite: Sup = 0,2.Sup = 0,2.Item café:Item café: Sup = 0,3.Sup = 0,3.Item cerveja:Item cerveja: Sup = 0,2.Sup = 0,2.Item pão:Item pão: Sup = 0,5.Sup = 0,5.Item manteiga:Item manteiga: Sup = 0,5Sup = 0,5Item arroz:Item arroz: Sup = 0,2.Sup = 0,2.Item feijão:Item feijão: Sup = 0,2.Sup = 0,2.

Itens freqüentes (Sup Itens freqüentes (Sup ≥≥≥≥ 0,3): 0,3):•• café, pão, manteiga. café, pão, manteiga.

126

Calculando o suporte de conjuntos deCalculando o suporte de conjuntos deitensitens

nn 2° passo:2° passo:•• Calcular suporte de conjuntos com 2 itens.Calcular suporte de conjuntos com 2 itens.

nn Otimização:Otimização:Se um item I não é freqüente, um conjunto com 2 itens, um dois quais é oSe um item I não é freqüente, um conjunto com 2 itens, um dois quais é oitem I, não pode ser freqüente. Logo, conjuntos contendo item I podem seritem I, não pode ser freqüente. Logo, conjuntos contendo item I podem serignorados.ignorados.

Conjunto de itens: café, pão.Conjunto de itens: café, pão. Sup = 0,3.Sup = 0,3.Conjunto de itens: café, manteiga.Conjunto de itens: café, manteiga. Sup = 0,3.Sup = 0,3.Conjunto de itens: manteiga, pão.Conjunto de itens: manteiga, pão. Sup = 0,4.Sup = 0,4.

Conjuntos de itens freqüentes (Sup Conjuntos de itens freqüentes (Sup ≥≥≥≥ 0,3): 0,3):{caf{caféé, p, pãão}, {cafo}, {caféé, manteiga}, {manteiga, p, manteiga}, {manteiga, pãão}o}

43

127

Calculando o suporte de conjunto deCalculando o suporte de conjunto deitensitens

nn 3° passo: 3° passo:

•• Calcular suporte de conjuntos com 3 itens.Calcular suporte de conjuntos com 3 itens.

nn Otimização:Otimização:Se o conjunto de itens {I, J} não é freqüente, um conjunto com 3 itensSe o conjunto de itens {I, J} não é freqüente, um conjunto com 3 itensincluindo os itens {I, J} não pode ser freqüente. Logo, conjuntos contendoincluindo os itens {I, J} não pode ser freqüente. Logo, conjuntos contendoitens {I, J} podem ser ignorados.itens {I, J} podem ser ignorados.

Conjuntos de itens: café, pão, manteiga.Conjuntos de itens: café, pão, manteiga.

Sup = 0,3.Sup = 0,3.

Conjuntos de itens freqüentes (Sup Conjuntos de itens freqüentes (Sup ≥≥ 0,3): 0,3):

{caf{caféé, p, pãão, manteiga}.o, manteiga}.

128

Calculando fator de confiança de regras candidatas,Calculando fator de confiança de regras candidatas,geradas a partir de conjuntos de itens freqüentesgeradas a partir de conjuntos de itens freqüentes

nn Conf. da regra “Conf. da regra “SE X ENTÃO Y”SE X ENTÃO Y” é No. de transações contendo X e Y dividido é No. de transações contendo X e Y divididopelo No. de transações contendo X.pelo No. de transações contendo X.

nn Conjunto de itens: {café, pão}. Conjunto de itens: {café, pão}.

SE café ENTÃO pão.SE café ENTÃO pão. Conf = 1,0.Conf = 1,0.SE pão ENTÃO café.SE pão ENTÃO café. Conf = 0,6.Conf = 0,6.

nn Conjunto de itens: {café, manteiga}.Conjunto de itens: {café, manteiga}.

SE café ENTÃO manteiga.SE café ENTÃO manteiga. Conf = 1,0.Conf = 1,0.SE manteiga ENTÃO café.SE manteiga ENTÃO café. Conf = 0,6.Conf = 0,6.

nn Conjunto de itens: {manteiga, pão}. Conjunto de itens: {manteiga, pão}.

SE manteiga ENTÃO pão.SE manteiga ENTÃO pão. Conf = 0,8.Conf = 0,8.SE pão ENTÃO manteiga.SE pão ENTÃO manteiga. Conf = 0,8.Conf = 0,8.

129

Calculando fator de confiança de regras candidatas,Calculando fator de confiança de regras candidatas,geradas a partir de conjuntos de itens freqüentesgeradas a partir de conjuntos de itens freqüentes

nn Conjunto de itens: {café, manteiga, pão}.Conjunto de itens: {café, manteiga, pão}.

SE café, pão ENTÃO manteiga. SE café, pão ENTÃO manteiga. Conf = 1,0.Conf = 1,0.

SE café, manteiga ENTÃO pão. SE café, manteiga ENTÃO pão. Conf = 1,0.Conf = 1,0.

SE manteiga, pão ENTÃO café. SE manteiga, pão ENTÃO café. Conf = 0,75.Conf = 0,75.

SE café ENTÃO pão, manteiga.SE café ENTÃO pão, manteiga. Conf = 1,0.Conf = 1,0.

SE pão ENTÃO café, manteiga.SE pão ENTÃO café, manteiga. Conf = 0,6.Conf = 0,6.

SE manteiga ENTÃO café, pão.SE manteiga ENTÃO café, pão. Conf = 0,6.Conf = 0,6.

Finalmente, seleciona-se regras com Conf. maior ou igual ao valorFinalmente, seleciona-se regras com Conf. maior ou igual ao valor

mínimo especificado pelo usuário (ex. 0,8).mínimo especificado pelo usuário (ex. 0,8).

44

130

Associação vs. ClassificaçãoAssociação vs. Classificaçãonn Associação:Associação:

•• problema é “simétrico”: todos os itens podem aparecer ou no problema é “simétrico”: todos os itens podem aparecer ou no antecedenteantecedente ou no ou noconseqüenteconseqüente de uma regra; de uma regra;

•• qualidade de uma regra é avaliada por fatores de Conf e Sup definidos peloqualidade de uma regra é avaliada por fatores de Conf e Sup definidos pelousuário;usuário;

•• definição do problema é clara, determinística: o sistema tem de achar definição do problema é clara, determinística: o sistema tem de achar todastodas regras regrascom Sup e Conf maior ou igual a com Sup e Conf maior ou igual a thresholds thresholds pré-definidos:pré-definidos:

•• na maioria da literatura, o desafio é projetar algoritmos eficientes.na maioria da literatura, o desafio é projetar algoritmos eficientes.

nn Classificação:Classificação:•• problema é assimétrico: um único atributo meta a ser previsto, dados demaisproblema é assimétrico: um único atributo meta a ser previsto, dados demais

atributos;atributos;•• regras são avaliadas em dados de teste regras são avaliadas em dados de teste não vistosnão vistos durante treinamento (prever o durante treinamento (prever o

futuro);futuro);•• qualidade de uma regra é muito mais difícil de avaliar, logo não é muito claro quaisqualidade de uma regra é muito mais difícil de avaliar, logo não é muito claro quais

regras deveriam ser descobertas pelo sistema;regras deveriam ser descobertas pelo sistema;•• eficiência ainda é importante, mas o desafio principal é projetar algoritmoseficiência ainda é importante, mas o desafio principal é projetar algoritmos

eficazes.eficazes.

131

AplicaçõesAplicações

nn Agrupamento ou Clustering - segmentar as informações emAgrupamento ou Clustering - segmentar as informações emgrupos definíveis e homogêneos, com base em algumasgrupos definíveis e homogêneos, com base em algumascaracterísticas.características.

nn Segmentação de Bancos de Dados.Segmentação de Bancos de Dados.

nn Sumarização e Visualização.Sumarização e Visualização.

nn Mineração de Textos.Mineração de Textos.

132

“Clustering” (Agrupamento)“Clustering” (Agrupamento)

0 0 0 0 0 0 0 0 0 0 0 0

A2

A1

0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0

O sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores deO sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores deatributos semelhantes) em uma mesma classe.atributos semelhantes) em uma mesma classe.

Após clustering, pode-se aplicar métodos de classificação e sumarização paraApós clustering, pode-se aplicar métodos de classificação e sumarização paradescobrir regras de classificação (que discriminem registros de diferentes classes) edescobrir regras de classificação (que discriminem registros de diferentes classes) eregras de sumarização (que produzem descrições características de cada classe)regras de sumarização (que produzem descrições características de cada classe)

45

133

“Clustering” - Exemplo:“Clustering” - Exemplo:

nn Dados de entrada para um sistema de clustering - cada cliente é descrito pelosDados de entrada para um sistema de clustering - cada cliente é descrito pelosseguintes atributos:seguintes atributos:

•• IdadeIdade•• SexoSexo

•• Gastos com artigos esportivosGastos com artigos esportivos

•• Gastos com mobíliaGastos com mobília

•• Gastos com livrosGastos com livros•• Gastos com roupasGastos com roupas

nn Informações sobre a média geral de todos clientes:Informações sobre a média geral de todos clientes:•• 42 anos,42 anos,

•• gastam $500 em artigos esportivos,gastam $500 em artigos esportivos,

•• $1000 mobília, etc.$1000 mobília, etc.

134

Após clusteringApós clustering

nn Um cluster contém clientes que, em média:Um cluster contém clientes que, em média:•• têm 20 anos,têm 20 anos,

•• gastam $1000 com artigos esportivos,gastam $1000 com artigos esportivos,•• gastam $100 em mobília, etc.gastam $100 em mobília, etc.

nn Clustering geralmente é usado para uma exploração / entendimentoClustering geralmente é usado para uma exploração / entendimentoinicial dos dados.inicial dos dados.

nn Em geral, não há uma “resposta correta” para um problema de clustering.Em geral, não há uma “resposta correta” para um problema de clustering.

135

Dois tipos básicos de clusteringDois tipos básicos de clustering

nn Hierárquico:Hierárquico:

descobre uma hierarquia de clusters;descobre uma hierarquia de clusters;

usuário pode escolher, após clustering, ousuário pode escolher, após clustering, o

número de clusters mais útil para ele(a);número de clusters mais útil para ele(a);

tende a ser computacionalmente caro.tende a ser computacionalmente caro.

nn Não hierárquico:Não hierárquico:

requer que usuário pré-defina, antes derequer que usuário pré-defina, antes de

clustering, o número de clusters;clustering, o número de clusters;

é menos caro computacionalmente.é menos caro computacionalmente.

46

136

Exemplo - agência de arranjo de namoros:Exemplo - agência de arranjo de namoros:[Berson & Smith 98][Berson & Smith 98]

Cliente idade salário olhos123456789

10

62534732212750462768

médiomédioalto

médioaltoalto

baixoalto

baixobaixo

cast.verdecast.verdeazulcast.azulazulazulazul

137

Agrupando por compatibilidade financeiraAgrupando por compatibilidade financeira


10

47212746625332502768

altoaltoaltoalto

médiomédiomédiobaixobaixobaixo

cast.azulcast.azulcast.verdeverdeazulazulazul

138

Exemplo - agência de arranjo de namoros:Exemplo - agência de arranjo de namoros:


10

62534732212750462768

médiomédioalto

médioaltoalto

baixoalto

baixobaixo

cast.verdecast.verdeazulcast.azulazulazulazul

47

139

Agrupando por compatibilidade física:Agrupando por compatibilidade física:


10123

21272732465068625347

altobaixoalto

médioalto

baixobaixomédiomédioalto

azulazulcast.verdeazulazulazulcast.verdecast.

140

Classificação versus clusteringClassificação versus clustering

nn Classificação:Classificação:

•• há um único atributo meta, e os demais atributoshá um único atributo meta, e os demais atributossão previsores;são previsores;

•• parte do problema consiste em determinarparte do problema consiste em determinarautomaticamente a importância dos atributosautomaticamente a importância dos atributosprevisores;previsores;

•• há medidas objetivas para medir a qualidade dahá medidas objetivas para medir a qualidade daclassificação (ex. taxa de acerto);classificação (ex. taxa de acerto);

•• classificação é usada principalmente para previsãoclassificação é usada principalmente para previsão..

141

Classificação versus clusteringClassificação versus clustering

nn Clustering:Clustering:•• não há um atributo especial;não há um atributo especial;

•• a importância de cada atributo é geralmentea importância de cada atributo é geralmenteconsiderada equivalente à dos demais;considerada equivalente à dos demais;

•• é difícil medir a qualidade de clustering;é difícil medir a qualidade de clustering;

•• Clustering é usado principalmente paraClustering é usado principalmente paraexploração e sumarização de dadosexploração e sumarização de dados

48

Áreas de PesquisasÁreas de Pesquisas

nn Estatística Estatística (reconhecimento de padrões estatísticos e análise(reconhecimento de padrões estatísticos e análiseexploratória de dados).exploratória de dados).

nn Banco de Dados Banco de Dados (questões de eficiência e escalabilidade na(questões de eficiência e escalabilidade naarmazenagem, manusear grandes quantidades de dados, DW)armazenagem, manusear grandes quantidades de dados, DW)

nn Inteligência Artificial Inteligência Artificial (aprendizado de máquina, agentes(aprendizado de máquina, agentesinteligentes).inteligentes).

TarefasTarefas

nn Preparação dos dados.Preparação dos dados.

nn Redução dos dados.Redução dos dados.

nn Modelagem dos dados.Modelagem dos dados.

nn Análises de soluções.Análises de soluções.

ConclusõesConclusõesData WarehouseData Warehousenn Utilização altamente imprevisível, aplicações não estruturadas,Utilização altamente imprevisível, aplicações não estruturadas,

analíticas.analíticas.

nn Tempo de resposta: segundos a alguns minutos.Tempo de resposta: segundos a alguns minutos.

nn Dados relacionais, não voláteis (‘snapshots’), bastanteDados relacionais, não voláteis (‘snapshots’), bastantedesnormalizados.desnormalizados.

nn Informações organizadas por área de análise, históricas (deInformações organizadas por área de análise, históricas (decinco a dez anos).cinco a dez anos).

nn Usuários finais: gerência e consumidores de informação.Usuários finais: gerência e consumidores de informação.

49

ConclusõesConclusõesData MartData Martnn Tipo de Data Warehouse em que os dados estão mais próximosTipo de Data Warehouse em que os dados estão mais próximos

aos usuários.aos usuários.

nn Menores e mais fáceis de serem gerenciados.Menores e mais fáceis de serem gerenciados.

nn Permite tomada de decisões em nível departamental.Permite tomada de decisões em nível departamental.

nn Dados relacionais ou multidimensionais, não voláteisDados relacionais ou multidimensionais, não voláteis

ConclusõesConclusõesOLAP ServesOLAP Servesnn Menores que os data warehouses.Menores que os data warehouses.

nn Bons recursos de exploração analítica.Bons recursos de exploração analítica.

nn Dados multidimensionais, não voláteisDados multidimensionais, não voláteis

nn Solução complementar ao data warehouse.Solução complementar ao data warehouse.

ConclusõesConclusõesOperational Data StoreOperational Data Storenn Utilização previsível, parcialmente estruturada, parcialmenteUtilização previsível, parcialmente estruturada, parcialmente

analítica.analítica.

nn Tempo de resposta: segundos a alguns minutos.Tempo de resposta: segundos a alguns minutos.

nn Dados relacionais, voláteis ou correntes, desnormalizados.Dados relacionais, voláteis ou correntes, desnormalizados.

nn Informações organizadas por área de análise, históricas (de 30 aInformações organizadas por área de análise, históricas (de 30 a60 dias).60 dias).

nn Usuários finais: consumidores de informação.Usuários finais: consumidores de informação.

50

ConclusõesConclusõesData MiningData Miningnn Baseados nos paradigmas de hipótese e descoberta.Baseados nos paradigmas de hipótese e descoberta.

nn Baseado em algoritmos de inteligência artificial.Baseado em algoritmos de inteligência artificial.

nn Conceitos e ferramentas recentes.Conceitos e ferramentas recentes.

nn Busca de padrão e comportamentos na base de dados.Busca de padrão e comportamentos na base de dados.

Duvidas ?Duvidas ?

(emmanuel([email protected])@ele.puc-rio.br)

DATA MINING - UFSCmauro.roisenberg/ine5377/Cursos-ICA/DM... · 2004. 8. 6. · 1 1 KDD KNOWLEDGE...

Documents

Transcript of DATA MINING - UFSCmauro.roisenberg/ine5377/Cursos-ICA/DM... · 2004. 8. 6. · 1 1 KDD KNOWLEDGE...