DATA MINING - UFSCmauro.roisenberg/ine5377/Cursos-ICA/DM... · 2004. 8. 6. · 1 1 KDD KNOWLEDGE...
Transcript of DATA MINING - UFSCmauro.roisenberg/ine5377/Cursos-ICA/DM... · 2004. 8. 6. · 1 1 KDD KNOWLEDGE...
1
1
KDD KNOWLEDGE DISCOVERY KDD KNOWLEDGE DISCOVERYDATA BASEDATA BASE
DATA MININGDATA MININGICA ELÉTRICA PUC-RIOICA ELÉTRICA PUC-RIO
2
DATA MINING DATA MINING
nn PosicionamentoPosicionamentonn Introdução - KDD - DW Introdução - KDD - DWnn Descoberta de Conhecimento - Caminho Descoberta de Conhecimento - Caminhonn O Passo “DATA MINING” O Passo “DATA MINING”nn Aprendizagem por Máquina - ML Aprendizagem por Máquina - MLnn Conhecimento Conhecimentonn Aplicações Reais Aplicações Reaisnn Aspectos Formais da Aprendizagem Aspectos Formais da Aprendizagem
3
POSICIONAMENTO POSICIONAMENTO
HOJE, A MAIORIA DAS ORGANIZAÇÕES PRODUZ MAISHOJE, A MAIORIA DAS ORGANIZAÇÕES PRODUZ MAISINFORMAÇÕES EM UMA SEMANA DO QUE MUITASINFORMAÇÕES EM UMA SEMANA DO QUE MUITAS
PESSOAS PODERIAM LER EM TODA VIDA.PESSOAS PODERIAM LER EM TODA VIDA.
“MAIS DADOS SIGNIFICA MENOS INFORMAÇÕES”“MAIS DADOS SIGNIFICA MENOS INFORMAÇÕES”
2
4
POSICIONAMENTOPOSICIONAMENTO
SENDO ASSIM, A DISPONIBILIZAÇÃO DOS DADOS NÃOSENDO ASSIM, A DISPONIBILIZAÇÃO DOS DADOS NÃOBASTARÁ, SERÁ VITAL QUE SE POSSABASTARÁ, SERÁ VITAL QUE SE POSSA
INTERPRETAR, ANALISAR E RELACIONAR ESTESINTERPRETAR, ANALISAR E RELACIONAR ESTESDADOS PARA QUE SE DESENVOLVA ESTRATÉGIASDADOS PARA QUE SE DESENVOLVA ESTRATÉGIAS
DE AÇÃO.DE AÇÃO.
PARA ATENDER ESTE NOVO CONTEXTO SURGE UMAPARA ATENDER ESTE NOVO CONTEXTO SURGE UMANOVA LINHA DE PESQUISA DENOMINADANOVA LINHA DE PESQUISA DENOMINADA
DESCOBERTA DE CONHECIMENTO EM BASES DEDESCOBERTA DE CONHECIMENTO EM BASES DEDADOS - KDDDADOS - KDD
5
POSICIONAMENTOPOSICIONAMENTO
ESTATÍSTICA RECONHECIMENTO DE PADRÕES
VISUALIZAÇÃO
BANCO DE DADOS
APRENDIZADO DE MÁQUINA
INTELIGÊNCIA ARTIFICIAL
DATA WAREHOUSING
KDD
6
INTRODUÇÃOINTRODUÇÃO
nn Utilizar os computadores para a descobertaUtilizar os computadores para a descobertade novas e significativas informações.de novas e significativas informações.
nn Para constituir sistemas de computadoresPara constituir sistemas de computadoresque aprendam porque não haveráque aprendam porque não haveráinteligência artificial sem aprendizageminteligência artificial sem aprendizagemartificial.artificial.
3
7
INTRODUÇÃOINTRODUÇÃO
nn KDD e Data Mining => o KDD é empregadoKDD e Data Mining => o KDD é empregadopara descrever todo o processo depara descrever todo o processo deextração de conhecimentos dos dadosextração de conhecimentos dos dadosenquanto que data mining deve serenquanto que data mining deve serempregado somente para o estágio deempregado somente para o estágio dedescoberta do processo de KDD.descoberta do processo de KDD.
8
KDDKDD
QUANTO AOS RESULTADOSQUANTO AOS RESULTADOS
“KDD é o processo, não trivial, de extração de informações,“KDD é o processo, não trivial, de extração de informações,implícitas, previamente desconhecidas e potencialmenteimplícitas, previamente desconhecidas e potencialmenteúteis, a partir dos dados armazenados em um banco deúteis, a partir dos dados armazenados em um banco dedados.” [Frawley, Piatetsky-Shapiro & Matheus,1991]dados.” [Frawley, Piatetsky-Shapiro & Matheus,1991]
QUANTO AO PROCESSOQUANTO AO PROCESSO
“KDD é uma tarefa de descoberta de conhecimento“KDD é uma tarefa de descoberta de conhecimentointensivo, consistindo de interações complexas, feitas aointensivo, consistindo de interações complexas, feitas aolongo do tempo, entre o homem e uma grande base delongo do tempo, entre o homem e uma grande base dedados, possivelmente suportada por um conjuntodados, possivelmente suportada por um conjuntoheterogêneo de ferramentas. [Brachman & Anand,1995]heterogêneo de ferramentas. [Brachman & Anand,1995]
9
KDD - O USUÁRIOKDD - O USUÁRIO
BANCO DE DADOS
DADOSPROCESSADOS SAÍDAS
META "INSIGHT"
FATORES EXTERNOSCOMPLEMENTARES
APRESENTAÇÃO
ANÁLISE EVISUALIZAÇÃO
CONSULTAS
4
10
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn Pontos PrincipaisPontos Principais•• BDs Operacionais e Data Warehouse;BDs Operacionais e Data Warehouse;
•• Porque usar Data Warehouse;Porque usar Data Warehouse;
•• Integração entre Data Mining e DataIntegração entre Data Mining e DataWarehouse;Warehouse;
11
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn As organizações passaram a estruturarAs organizações passaram a estruturarseus dados em duas categorias :seus dados em duas categorias :
•• BDs Operacionais: destinados às operaçõesBDs Operacionais: destinados às operaçõesnormais;normais;
•• Data Warehouse: projetados para o suporte àsData Warehouse: projetados para o suporte àsdecisões estratégicas, ao prover uma sólidadecisões estratégicas, ao prover uma sólidaplataforma de dados históricos integrados aplataforma de dados históricos integrados apartir dos quais se pode fazer análises.partir dos quais se pode fazer análises.
12
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
5
13
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn Porque usar Data WarehousesPorque usar Data Warehouses•• A pesquisa no passado das organizaçõesA pesquisa no passado das organizações
ajuda na tomada de decisões e a maneira maisajuda na tomada de decisões e a maneira maisfácil de acessá-las é estabelecendo um Datafácil de acessá-las é estabelecendo um DataWarehouse;Warehouse;
•• Tentar analisar os dados operacionais é quaseTentar analisar os dados operacionais é quaseimpossível porque :impossível porque :
–– existem aplicações diferentes;existem aplicações diferentes;
–– não existem dados históricos.não existem dados históricos.
14
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn Regras que governam a estrutura básicaRegras que governam a estrutura básicade um Data Warehouse:de um Data Warehouse:•• dependência temporal;dependência temporal;
•• não-volatilidade;não-volatilidade;
•• orientação subjetiva;orientação subjetiva;
•• integrado.integrado.
15
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn Integração com Data Mining:Integração com Data Mining:•• Comparar milhões de registros sem saberComparar milhões de registros sem saber
exatamente o tipo de informação desejada;exatamente o tipo de informação desejada;
•• Deseja encontrar padrões de dadosDeseja encontrar padrões de dadosescondidos.escondidos.
nn Ferramentas de inteligência:Ferramentas de inteligência:•• ponto de conjunção entre o DW e as pessoasponto de conjunção entre o DW e as pessoas
que o utilizam sendo portanto a diferença entreque o utilizam sendo portanto a diferença entresucesso ou fracasso .sucesso ou fracasso .
6
16
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
17
DATA MINING EDATA MINING EDATA WAREHOUSEDATA WAREHOUSE
nn A implementação do KDD envolveA implementação do KDD envolvedeterminados custos:determinados custos:•• do Data Warehousing;do Data Warehousing;
•• da reengenharia do processo do negócio;da reengenharia do processo do negócio;
•• do Data Mining.do Data Mining.
nn O problema com esses custos é o de queO problema com esses custos é o de queos benefícios reais só são percebidos aos benefícios reais só são percebidos alongo prazo.longo prazo.
18
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn Regras de associação:Regras de associação:•• 90% das mulheres com carros esporte90% das mulheres com carros esporte
vermelhos e cães pequenos usamvermelhos e cães pequenos usam
•• Chanel 5;Chanel 5;
•• O número de regras de associação queO número de regras de associação quepodem ser encontrados em um banco depodem ser encontrados em um banco dedados é quase infinito.dados é quase infinito.
7
19
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn Técnicas de visualizaçãoTécnicas de visualização::
•• Método útil de descoberta de padrões emMétodo útil de descoberta de padrões emconjuntos de dados, e pode ser usado no inícioconjuntos de dados, e pode ser usado no iníciodo processo de aprendizagem para obter umdo processo de aprendizagem para obter umsentimento da qualidade do conjunto de dadossentimento da qualidade do conjunto de dadose aonde os padrões podem ser encontrados.e aonde os padrões podem ser encontrados.
20
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn Análise Preliminar dos Dados usandoAnálise Preliminar dos Dados usandoferramentas tradicionais => para conhecerferramentas tradicionais => para conheceraspectos básicos e estruturais do conjuntoaspectos básicos e estruturais do conjuntode dados.de dados.•• Um resultado trivial, que é obtido por umUm resultado trivial, que é obtido por um
método extremamente simples, é chamadométodo extremamente simples, é chamadopredição ingênua; e um algoritmo que desejapredição ingênua; e um algoritmo que desejaaprender alguma coisa , deve sempre fazeraprender alguma coisa , deve sempre fazermelhor do que essa predição.melhor do que essa predição.
21
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn Ferramentas :Ferramentas :•• Técnicas Estatísticas;Técnicas Estatísticas;
•• Visualização;Visualização;
•• Árvores de Decisão;Árvores de Decisão;
•• Regras de Associação;Regras de Associação;
•• Algoritmos Genéticos;Algoritmos Genéticos;
•• Redes Neurais.Redes Neurais.
8
22
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn Data Mining => existem algoritmos deData Mining => existem algoritmos deaprendizagem que vão bem em uma parteaprendizagem que vão bem em uma partedo conjunto de dados e em outra partedo conjunto de dados e em outra partefalham indicando, então, a necessidade defalham indicando, então, a necessidade dehibridização na aprendizagem.hibridização na aprendizagem.
23
O PROCESSO DE DESCOBERTA O PROCESSO DE DESCOBERTA DE CONHECIMENTO DE CONHECIMENTO
nn O processo de descoberta deO processo de descoberta deconhecimentos consiste de seisconhecimentos consiste de seisestágiosestágios::•• Seleção de Dados;Seleção de Dados;
•• Limpeza;Limpeza;
•• Enriquecimento;Enriquecimento;
•• Codificação;Codificação;
•• Data Mining;Data Mining;
•• Relatórios.Relatórios.
24
DESCOBERTA DA TAREFADESCOBERTA DA TAREFA
Para realizar uma tarefa de KDD éPara realizar uma tarefa de KDD é
necessário pedir ao cliente que exponhanecessário pedir ao cliente que exponha
o problema e o objetivo de forma queo problema e o objetivo de forma que
este fique bem claro.este fique bem claro.
É importante saber com precisão o queÉ importante saber com precisão o que
estamos procurando, e para que estamosestamos procurando, e para que estamos
realizando esta procura.realizando esta procura.
9
25
SELEÇÃO DOS DADOSSELEÇÃO DOS DADOS
Quando iniciamos o processo KDD,Quando iniciamos o processo KDD,
começamos fazendo uma seleção doscomeçamos fazendo uma seleção dos
dados, no Banco de Dados Operacional.dados, no Banco de Dados Operacional.
Para facilitar o processo, esses dadosPara facilitar o processo, esses dados
são copiados para um Banco de Dadossão copiados para um Banco de Dados
separado do separado do operacional.operacional.
26
LIMPEZALIMPEZA
Um importante elemento na operação deUm importante elemento na operação de
limpeza é o algoritmo para retirar dadoslimpeza é o algoritmo para retirar dados
duplicados.duplicados.
Outro problema de poluição é a falta deOutro problema de poluição é a falta de
consistência do domínio.consistência do domínio.
27
ENRIQUECIMENTOENRIQUECIMENTO
Conseguir de alguma forma maisConseguir de alguma forma maisinformação, que possa ser facilmente unidainformação, que possa ser facilmente unidaaos registros existentes, enriquecendo osaos registros existentes, enriquecendo osdados, para que estes contribuam nodados, para que estes contribuam noprocesso de descoberta de conhecimento.processo de descoberta de conhecimento.
10
28
CODIFICAÇÃOCODIFICAÇÃO
Depois de terem sido enriquecidos, os dadosDepois de terem sido enriquecidos, os dadosdevem ser codificados, para ficarem numadevem ser codificados, para ficarem numaforma que possam ser usados como entradaforma que possam ser usados como entradados algoritmos de reconhecimento de padrões.dos algoritmos de reconhecimento de padrões.
Codificação é uma atividade criativa que deveCodificação é uma atividade criativa que deveser realizada repetidas vezes para obter aser realizada repetidas vezes para obter amelhor solução.melhor solução.
A maneira como codificamos a informaçãoA maneira como codificamos a informaçãodeterminará o tipo de padrão que vamosdeterminará o tipo de padrão que vamosencontrar.encontrar.
29
MINERAÇÃO DOS DADOS MINERAÇÃO DOS DADOSALGUMAS DAS TÉCNICAS DE INTERESSEALGUMAS DAS TÉCNICAS DE INTERESSE
nn Ferramenta de consulta ( SQL );Ferramenta de consulta ( SQL );
nn Técnicas estatísticas;Técnicas estatísticas;
nn Visualização;Visualização;
nn Processamento analítico on-line (OLAP);Processamento analítico on-line (OLAP);
nn Aproximação baseado em casos;Aproximação baseado em casos;
nn Árvore de decisão;Árvore de decisão;
nn Redes neurais;Redes neurais;
nn Regras de associação;Regras de associação;
nn Algoritmos Genéticos.Algoritmos Genéticos.
30
FERRAMENTA DE CONSULTAFERRAMENTA DE CONSULTA
O primeiro passo no projeto de MineraçãoO primeiro passo no projeto de Mineraçãode dados deverá sempre ser uma análisede dados deverá sempre ser uma análiserústica do conjunto de dados usando umarústica do conjunto de dados usando umaferramenta tradicional de consulta, poisferramenta tradicional de consulta, poisantes de aplicar um algoritmo de análiseantes de aplicar um algoritmo de análisemais avançado nós necessitamos conhecermais avançado nós necessitamos conheceralguns aspectos básicos e as estruturas doalguns aspectos básicos e as estruturas doconjunto de dados.conjunto de dados.
11
31
TÉCNICAS ESTATÍSTICATÉCNICAS ESTATÍSTICA
Uma boa maneira de iniciar o processo éUma boa maneira de iniciar o processo éextraindo algumas informações estatísticasextraindo algumas informações estatísticassimples do conjunto de dados.simples do conjunto de dados.
Estes números são muito importantes, poisEstes números são muito importantes, poiseles nos dão uma norma para julgar oeles nos dão uma norma para julgar odesempenho dos algoritmos dedesempenho dos algoritmos deaprendizagem e do reconhecimento deaprendizagem e do reconhecimento depadrões.padrões.
32
TÉCNICAS DE VISUALIZAÇÃOTÉCNICAS DE VISUALIZAÇÃO
As técnicas de visualização são métodosAs técnicas de visualização são métodosmuito úteis de descoberta de padrões nummuito úteis de descoberta de padrões numconjunto de dados, e devem ser usados noconjunto de dados, e devem ser usados noprincípio do processo de mineração deprincípio do processo de mineração dedados, para se ter um sentimento dadados, para se ter um sentimento daqualidade do conjunto de dados qualidade do conjunto de dados ee onde os onde ospadrões devem ser encontrados.padrões devem ser encontrados.
33
FERRAMENTA OLAPFERRAMENTA OLAP
Para responder as várias consultas, comPara responder as várias consultas, comdiversos tipos de relações, possíveis dediversos tipos de relações, possíveis deserem formuladas por diretores, gerentes,serem formuladas por diretores, gerentes,etc., onde a análise multidimensional éetc., onde a análise multidimensional énecessária, é que ferramentas de OLAPnecessária, é que ferramentas de OLAPforam desenvolvidas.foram desenvolvidas.
HH OLAP foi desenvolvida para facilitarOLAP foi desenvolvida para facilitara análise de tais relações.a análise de tais relações.
12
34
K-VIZINHOS MAIS PRÓXIMOSK-VIZINHOS MAIS PRÓXIMOS
Registros que estão próximos uns dosRegistros que estão próximos uns dosoutros fazem parte da vizinhança dosoutros fazem parte da vizinhança dosoutros. Registros de mesmo tipo estarãooutros. Registros de mesmo tipo estarãopróximos uns dos outros no espaço depróximos uns dos outros no espaço dedados.dados.
Baseado nisso é que o algoritmo deBaseado nisso é que o algoritmo deaprendizado, simples mas poderoso, de K-aprendizado, simples mas poderoso, de K-Nearest Neighbour foi desenvolvido. SuaNearest Neighbour foi desenvolvido. Suafilosofia básica é:filosofia básica é:
''faz como seu vizinho faz'faz como seu vizinho faz'..
35
ÁRVORE DE DECISÃOÁRVORE DE DECISÃO
nn Tendo um BD, e se você deseja prever oTendo um BD, e se você deseja prever ocomportamento de um certo indivíduo, vocêcomportamento de um certo indivíduo, vocêdeverá verificar qual dos atributos disponíveisdeverá verificar qual dos atributos disponíveisnos dará mais informação.nos dará mais informação.
nn Então você deverá investigar se existe umEntão você deverá investigar se existe umpatamar deste atributo que possa separarpatamar deste atributo que possa separarindivíduos com um comportamento oposto.indivíduos com um comportamento oposto.
nn Assim, fazemos para todos atributos, até queAssim, fazemos para todos atributos, até quetenhamos classificado corretamente todos ostenhamos classificado corretamente todos osindivíduos, criando uma árvore de decisão para oindivíduos, criando uma árvore de decisão para onosso BD.nosso BD.
36
REGRAS DE ASSOCIAÇÃOREGRAS DE ASSOCIAÇÃO
nn É infinito o número de possíveis regras deÉ infinito o número de possíveis regras deassociação que podemos encontrar numassociação que podemos encontrar numBD.BD.
nn Como encontramos um número muitoComo encontramos um número muitogrande de regras, é muito difícil separargrande de regras, é muito difícil separarinformações válidas das que são merosinformações válidas das que são merosruídos.ruídos.
nn É necessário introduzir alguma medida,É necessário introduzir alguma medida,para distinguir associações interessantespara distinguir associações interessantesdas que não são interessantes.das que não são interessantes.
13
37
RELATÓRIORELATÓRIO
A apresentação dos resultado do processoA apresentação dos resultado do processopode ter várias formas.pode ter várias formas.
Pode ser usado:Pode ser usado:
uu uma descrição textual das tendências;uma descrição textual das tendências;
uu um gráfico elaborado, que mostre asum gráfico elaborado, que mostre as
relações do modelo.relações do modelo.
38
O PASSO DATA MININGO PASSO DATA MINING
É o passo do processo KDD que envolve aÉ o passo do processo KDD que envolve aobtenção de um modelo que represente oobtenção de um modelo que represente ocomportamento dos dados.comportamento dos dados.
“É o processo de reconhecimento de padrões,“É o processo de reconhecimento de padrões,válidos ou não, existentes nos dadosválidos ou não, existentes nos dadosarmazenados em um banco de dados.” [Fayyad,armazenados em um banco de dados.” [Fayyad,Piatetsky-Shapiro & Smyth,1995]Piatetsky-Shapiro & Smyth,1995]
39
DATA MINING - MÉTODOSDATA MINING - MÉTODOSTAREFAS DE ENGENHARIA TAREFAS DE ENGENHARIA
DO CONHECIMENTODO CONHECIMENTO
TAREFAS DE TAREFAS DE CLASSIFICAÇÃOCLASSIFICAÇÃO
TAREFAS DE TAREFAS DE RESOLUÇÃO DE PROBLEMASRESOLUÇÃO DE PROBLEMAS
•• REGRAS DEREGRAS DEASSOCIAÇÃOASSOCIAÇÃO•• ÁRVORES DEÁRVORES DEDECISÃODECISÃO•• K-VIZINHO MAISK-VIZINHO MAISPRÓXIMOPRÓXIMO
•• REDES NEURAISREDES NEURAIS
•• ALGORITMOSALGORITMOSGENÉTICOSGENÉTICOS
• PROGRAMAÇÃOPROGRAMAÇÃO LÓGICA INDUTIVA LÓGICA INDUTIVA
14
40
APRENDIZADO DE MÁQUINAAPRENDIZADO DE MÁQUINA
A habilidade de aprender com base emA habilidade de aprender com base emobservações é fundamental para qualquer serobservações é fundamental para qualquer serinteligente.inteligente.
APRENDER:APRENDER:•• Habilidade de se aprimorar em uma determinadaHabilidade de se aprimorar em uma determinada
tarefa;tarefa;
•• Habilidade de adquirir conhecimento novo e melhor.Habilidade de adquirir conhecimento novo e melhor.
BASE DE CONHECIMENTOBASE DE CONHECIMENTO
MÁQUINA PROCEDIMENTALMÁQUINA PROCEDIMENTAL
EXEMPLOS AVALIAÇÃO DO DESEMPENHO
41
PROGRAMAÇÃO LÓGICAPROGRAMAÇÃO LÓGICAINDUTIVA - ILPINDUTIVA - ILP
APRENDIZADO INDUTIVO DE MÁQUINAAPRENDIZADO INDUTIVO DE MÁQUINAMETA - APRENDER A PARTIR DE OBSERVAÇÕESMETA - APRENDER A PARTIR DE OBSERVAÇÕES
PROGRAMAÇÃO LÓGICAPROGRAMAÇÃO LÓGICAFORMALISMO DA LÓGICA DE PRIMEIRA ORDEMFORMALISMO DA LÓGICA DE PRIMEIRA ORDEMPARA A REPRESENTAÇÃO DO MODELOPARA A REPRESENTAÇÃO DO MODELO
ILPILP
42
JUSTIFICATIVA - EXEMPLOJUSTIFICATIVA - EXEMPLOCONSUMIDORES-EM-POTENCIAL CASADOSCONSUMIDORES-EM-POTENCIAL CASADOS
NOME IDADE SEXO SALÁRIO CONSUMIDOR MARIDO ESPOSANOME IDADE SEXO SALÁRIO CONSUMIDOR MARIDO ESPOSAana 32 F 500 sim marcos anaana 32 F 500 sim marcos ana
joana 53 F 10.000 sim pedro janejoana 53 F 10.000 sim pedro janemariana 27 F 900 nãomariana 27 F 900 não
jane 55 F 900 simjane 55 F 900 sim
marcos 30 M 5.000 simmarcos 30 M 5.000 sim
pedro 50 M 7.000 simpedro 50 M 7.000 sim
R1: SE Salário(Nome) R1: SE Salário(Nome) >> 5.000 ENTÃO Consumidor-potencial(Nome). 5.000 ENTÃO Consumidor-potencial(Nome).
R2: SE Sexo(Nome) = “F” E Idade(Nome) R2: SE Sexo(Nome) = “F” E Idade(Nome) >> 32 ENTÃO Consumidor- 32 ENTÃO Consumidor-potencial(Nome).potencial(Nome).
R1: SE Casado(Nome,Esposa) E Consumidor-potencial(Nome) R1: SE Casado(Nome,Esposa) E Consumidor-potencial(Nome) >> 5.000 ENTÃO 5.000 ENTÃOConsumidor-potencial(Esposa).Consumidor-potencial(Esposa).
R1: SE Casado(Nome,Esposa) E Salário(Nome) R1: SE Casado(Nome,Esposa) E Salário(Nome) >> 5.000 ENTÃO Consumidor- 5.000 ENTÃO Consumidor-potencial(Esposa).potencial(Esposa).
15
43
O PROBLEMA ILPO PROBLEMA ILP
nn DADO:DADO:•• UM CONJUNTO DE EXEMPLOS (POSITIVOS EUM CONJUNTO DE EXEMPLOS (POSITIVOS E
NEGATIVOS), DE UM PREDICADO OBJETIVO P,NEGATIVOS), DE UM PREDICADO OBJETIVO P,PARA TREINAMENTO;PARA TREINAMENTO;
•• UMA LINGUAGEM DE DESCRIÇÃO DE CONCEITOSUMA LINGUAGEM DE DESCRIÇÃO DE CONCEITOSL;L;
•• O CONHECIMENTO PRÉVIO B (BASE DE DADOS).O CONHECIMENTO PRÉVIO B (BASE DE DADOS).
nn ENCONTRA-SE:ENCONTRA-SE:•• UMA DEFINIÇÃO H PARA P, EXPRESSA EM LUMA DEFINIÇÃO H PARA P, EXPRESSA EM L..
44
ILP - EXEMPLOILP - EXEMPLO
B= B= avô(X,Y) pai(X,Z), pais(Z,Y).avô(X,Y) pai(X,Z), pais(Z,Y).
pai(henrique,jane). pai(henrique,jane).
mãe(jane,joão). mãe(jane,joão). mãe(jane, alice) mãe(jane, alice)
EE++= avô(henrique,joão)= avô(henrique,joão)
avô(henrique,alice) avô(henrique,alice)
EE--= avô(joão,henrique).= avô(joão,henrique).
avô(alice,joão). avô(alice,joão).
H = pais(X,Y)H = pais(X,Y) mãe(X,Y). mãe(X,Y).
45
ILP E BANCO DE DADOSILP E BANCO DE DADOSRELACIONALRELACIONAL
nn DADOSDADOSPREDICADO(ARGUMENTO1,...,ARGUMENTOn)PREDICADO(ARGUMENTO1,...,ARGUMENTOn)RELAÇÃO(ATRIBUTO1,...,ATRIBUTOn)RELAÇÃO(ATRIBUTO1,...,ATRIBUTOn)
nn NÍVEL DE CLÁUSULANÍVEL DE CLÁUSULA? - pais(X,Y), pais(Y,ian)? - pais(X,Y), pais(Y,ian)
SELECT P1.pais, P2.filhoSELECT P1.pais, P2.filhoFROM PAIS P1,P2FROM PAIS P1,P2WHERE P1.filho = P2.pais AND P2.filho = “ian”WHERE P1.filho = P2.pais AND P2.filho = “ian”
16
46
O QUE É APRENDIZADO?O QUE É APRENDIZADO?
nn É a capacidade de adquirir conhecimentoÉ a capacidade de adquirir conhecimentopara realizar tarefas conhecidas ou novaspara realizar tarefas conhecidas ou novassob circunstâncias idênticas ou similaressob circunstâncias idênticas ou similaresas apresentadas durante o treinamento.as apresentadas durante o treinamento.
47
COMPUTADOR COMCOMPUTADOR COMAUTO-APRENDIZADOAUTO-APRENDIZADO
nn É necessário um método de treinamentoÉ necessário um método de treinamentoque permita a execução de novas tarefasque permita a execução de novas tarefasdesconhecidas.desconhecidas.
nn É necessário restringir o problema paraÉ necessário restringir o problema paraespecializar o computador em umaespecializar o computador em umadeterminada área.determinada área.
48
ML - ML - MACHIME LEARNINGMACHIME LEARNINGEM DATA MINING EM DATA MINING
nn A crescente disponibilidade de grandesA crescente disponibilidade de grandesbases de dados e a crescente necessidadebases de dados e a crescente necessidadede interpretar esses dadosde interpretar esses dadosautomaticamente, mesmo com a limitadaautomaticamente, mesmo com a limitadacapacidade dos computadores atuais, podecapacidade dos computadores atuais, podeproduzir resultados valiosos para umaproduzir resultados valiosos para umaorganização.organização.
17
49
O QUE É APRENDIZAGEMO QUE É APRENDIZAGEM
nn Existe um ciclo empírico de aprendizagem:Existe um ciclo empírico de aprendizagem:•• observações => ponto de partida;observações => ponto de partida;
•• análises => para tentar achar padrões;análises => para tentar achar padrões;
•• teoria => formulada a partir do achado deteoria => formulada a partir do achado dealgumas regularidades;algumas regularidades;
•• predição => a teoria deverá ser capaz depredição => a teoria deverá ser capaz deprever novos fenômenos que possam serprever novos fenômenos que possam serverificados por novas observações.verificados por novas observações.
50
METODOLOGIA CIENTÍFICAMETODOLOGIA CIENTÍFICA
nn ObservaçãoObservaçãoConjunto de exemplosConjunto de exemplos
nn AnáliseAnáliseProcura de padrõesProcura de padrões
nn TeoriaTeoriaFormulação de uma hipóteseFormulação de uma hipótese
nn PrediçãoPrediçãoPredição de novas conclusõesPredição de novas conclusões
51
HIPÓTESEHIPÓTESE
nn Os padrões encontrados através de IA nãoOs padrões encontrados através de IA nãodevem ser considerados como hipótesesdevem ser considerados como hipótesesdefinitivas.definitivas.
nn Eles são apenas hipóteses com validadeEles são apenas hipóteses com validadetemporária.temporária.
nn Os resultados de IA devem serOs resultados de IA devem sercomprovados com a sua relevânciacomprovados com a sua relevânciaestatística.estatística.
18
52
HIPÓTESEHIPÓTESE
nn Classificação precisaClassificação precisa1 acerto1 acerto em 3em 31 erro 1 erro em 1 milhãoem 1 milhão
nn TransparênciaTransparênciaA hipótese deve ser facilmente A hipótese deve ser facilmente interpretada pelos humanos.interpretada pelos humanos.
nn Relevância EstatísticaRelevância EstatísticaEspaço de Amostra RepresentativoEspaço de Amostra Representativo
nn Conteúdo da InformaçãoConteúdo da Informação
53
CONCEITOCONCEITO
É o conhecimento das qualidades,É o conhecimento das qualidades,atributos, características, propriedades queatributos, características, propriedades quedefinem um conjunto de instâncias.definem um conjunto de instâncias.
nn COMPLETOCOMPLETOQuando reconhece todas as instâncias deQuando reconhece todas as instâncias deum conceitoum conceito
nn CONSISTENTECONSISTENTEQuando não classifica nenhum exemploQuando não classifica nenhum exemplonegativo.negativo.
54
COMPLEXIDADE DOCOMPLEXIDADE DOESPAÇO DE BUSCAESPAÇO DE BUSCA
nn ML pode ser compreendida como umML pode ser compreendida como umproblema de busca para encontrar aproblema de busca para encontrar ahipótese correta.hipótese correta.
nn É importante estabelecer a quantidade deÉ importante estabelecer a quantidade depossíveis hipóteses e como estes estãopossíveis hipóteses e como estes estãorelacionados, antes de implementar orelacionados, antes de implementar oalgoritmo de ML.algoritmo de ML.
nn Na maioria dos casos o número deNa maioria dos casos o número depotenciais hipóteses é infinito.potenciais hipóteses é infinito.
19
55
COMPLEXIDADE DOCOMPLEXIDADE DOESPAÇO DE BUSCAESPAÇO DE BUSCA
nn PARALELISMOPARALELISMOQuanto maior o número de hipóteses,Quanto maior o número de hipóteses,maior será a possibilidade de se encontrarmaior será a possibilidade de se encontraruma melhor hipótese.uma melhor hipótese.
Existem problemas de reconhecimento deExistem problemas de reconhecimento depadrões que não podem ser solucionadospadrões que não podem ser solucionadospor algoritmos de aprendizado.por algoritmos de aprendizado.
56
O QUE É APRENDIZAGEMO QUE É APRENDIZAGEM
nn O julgamento a priori do desempenho deO julgamento a priori do desempenho deum algoritmo de aprendizagem pode serum algoritmo de aprendizagem pode serdado pela complexidade do seu espaço dedado pela complexidade do seu espaço debusca.busca.
nn Quanto mais complexo, mais refinada é aQuanto mais complexo, mais refinada é asua teoria para as hipóteses.sua teoria para as hipóteses.
57
ALGORITMOS DE BUSCAALGORITMOS DE BUSCA
ãã ESPAÇO DE BUSCA ESPAÇO DE BUSCA
ãã ESTRATÉGIAS DE BUSCA ESTRATÉGIAS DE BUSCA
ãã HEURÍSTICAS E CONHECIMENTO HEURÍSTICAS E CONHECIMENTO
ESPECÍFICO DO DOMÍNIO ESPECÍFICO DO DOMÍNIO
ãã ESTRATÉGIAS ALTERNATIVAS ESTRATÉGIAS ALTERNATIVAS
20
58
ESPAÇO DE BUSCAESPAÇO DE BUSCA
Muitos sistemas de mineração de dadosMuitos sistemas de mineração de dadosescolhem uma descrição inicial, e modificam-naescolhem uma descrição inicial, e modificam-nainterativamente melhorando sua qualidade.interativamente melhorando sua qualidade.Estas modificações são operações na descrição.Estas modificações são operações na descrição.
pp ESPAÇO DE BUSCA (D, F, O) -ESPAÇO DE BUSCA (D, F, O) - descrição,descrição,operação, funções de qualidade.operação, funções de qualidade.
pp ESPAÇO DA DESCRIÇÃO - É o conjunto deESPAÇO DA DESCRIÇÃO - É o conjunto detodas as descrições de uma representaçãotodas as descrições de uma representaçãoparticular.particular.
59
OPERAÇÕESOPERAÇÕES
FF GENERALIZAÇÃOGENERALIZAÇÃOEnfraquecem a descriçãoEnfraquecem a descrição(cobre mais objetos)(cobre mais objetos)
FF ESPECIALIZAÇÃOESPECIALIZAÇÃOFortalecem a descriçãoFortalecem a descrição(cobre menos objetos)(cobre menos objetos)
60
FUNÇÕES DE QUALIDADEFUNÇÕES DE QUALIDADE
nn Ajusta valores para cada descriçãoAjusta valores para cada descriçãoindicando sua qualidade.indicando sua qualidade.
nn CRITÉRIOSCRITÉRIOS::
VALIDADE DA REGRAVALIDADE DA REGRA
EXATIDÃO DA REGRAEXATIDÃO DA REGRAAprendizado SupervisionadoAprendizado SupervisionadoAprendizado Não SupervisionadoAprendizado Não Supervisionado
21
61
EXATIDÃOEXATIDÃOAPRENDIZADO SUPERVISIONADOAPRENDIZADO SUPERVISIONADO
nn A descrição para uma classe é A descrição para uma classe é CORRETACORRETAse ela cobre todos os exemplos desejadosse ela cobre todos os exemplos desejadose nenhum dos indesejados.e nenhum dos indesejados.
nn Mas algumas descrições Mas algumas descrições NÃO CORRETASNÃO CORRETASpodem ser úteis para se encontrar novaspodem ser úteis para se encontrar novasdescrições.descrições.
nn Assim temos: Assim temos: NÍVEIS DE EXATIDÃONÍVEIS DE EXATIDÃO
62
EXATIDÃOEXATIDÃO - - APRENDIZADOAPRENDIZADO NÃO SUPERVISIONADONÃO SUPERVISIONADO
nn Qualquer descrição simples que cobre o conjuntoQualquer descrição simples que cobre o conjuntode treinamento inteiro é assumido como de altade treinamento inteiro é assumido como de altaqualidade.qualidade.
nn A A função qualidade função qualidade pode depender também dopode depender também doajusteajuste, i.é., quão perto a descrição está próxima, i.é., quão perto a descrição está próximado conjunto de exemplos.do conjunto de exemplos.
nn Então, Então, procuramos pela descrição mais simplesprocuramos pela descrição mais simplescom o melhor ajuste.com o melhor ajuste.
63
BUSCA HEURÍSTICABUSCA HEURÍSTICA
nn É reduzir o esforço da busca pela seleçãoÉ reduzir o esforço da busca pela seleçãoda operação que encontra , de formada operação que encontra , de formapossivelmente mais eficiente a descriçãopossivelmente mais eficiente a descriçãocom qualidade suficiente.com qualidade suficiente.
nn Requer informações sobre o domínio deRequer informações sobre o domínio debusca chamadas:busca chamadas:
HEURÍSTICA HEURÍSTICA ououDOMÍNIO DO CONHECIMENTODOMÍNIO DO CONHECIMENTO
22
64
ESTABELECENDO UMESTABELECENDO UMAMBIENTE KDDAMBIENTE KDD
nn Tipos de conhecimentos reconhecidos emTipos de conhecimentos reconhecidos emData Mining :Data Mining :HH superficial => usando SQL; superficial => usando SQL;
HH multi-dimensional => usando OLAP; multi-dimensional => usando OLAP;
HH escondido => usando algoritmos de escondido => usando algoritmos deaprendizagem;aprendizagem;
HH profundo => somente com pistas que nos profundo => somente com pistas que nosdigam aonde olhar (o mínimo local não édigam aonde olhar (o mínimo local não édestacável)destacável)
65
ESTABELECENDO UMESTABELECENDO UMAMBIENTE KDDAMBIENTE KDD
nn Ponto de Partida : formulação dosPonto de Partida : formulação dosrequisitos específicos da informaçãorequisitos específicos da informaçãorelativos à ação específica.relativos à ação específica.
pp Definir : Definir :
–– O que desejamos saber e O que desejamos saber e
–– O que necessitamos fazer com esse O que necessitamos fazer com esseconhecimentoconhecimento..
66
DIFERENTES FORMAS DEDIFERENTES FORMAS DECONHECIMENTOCONHECIMENTO
ââ SUPERFICIALSUPERFICIAL
ââ MULTI-DIMENSIONAL MULTI-DIMENSIONAL
ââ ESCONDIDO ESCONDIDO
ââ PROFUNDO PROFUNDO
23
67
CONHECIMENTOCONHECIMENTOSUPERFICIALSUPERFICIAL
nn Pode ser facilmente extraído de Banco dePode ser facilmente extraído de Banco deDados usando ferramentas e linguagens deDados usando ferramentas e linguagens dequeries como o SQL.queries como o SQL.
68
CONHECIMENTOCONHECIMENTOMULTI-DIMENSIONALMULTI-DIMENSIONAL
nn Pode ser extraído analisando-se as informaçõesPode ser extraído analisando-se as informaçõescom ferramentas de OLAP (On-Line Analyticalcom ferramentas de OLAP (On-Line AnalyticalProcessing).Processing).
nn Explora os diferentes tipos de clustering eExplora os diferentes tipos de clustering eordenações dos dados.ordenações dos dados.
nn A maioria dessas tarefas podem ser realizadasA maioria dessas tarefas podem ser realizadasusando-se o SQL. Porém, o OLAP são asusando-se o SQL. Porém, o OLAP são asferramentas mais adequadas.ferramentas mais adequadas.
nn Contudo, o OLAP não é tão poderoso quanto oContudo, o OLAP não é tão poderoso quanto oData Mining para encontrar as soluções ótimas.Data Mining para encontrar as soluções ótimas.
69
CONHECIMENTOCONHECIMENTOESCONDIDOESCONDIDO
nn Extraídos com relativa facilidade usando-seExtraídos com relativa facilidade usando-setécnicas de reconhecimento de padrões outécnicas de reconhecimento de padrões oualgoritmos de máquinas de aprendizado.algoritmos de máquinas de aprendizado.
nn Podem ser também encontrados usando-sePodem ser também encontrados usando-seSQL. Porém, com um consumoSQL. Porém, com um consumoextremamente maior de tempo.extremamente maior de tempo.
24
70
CONHECIMENTOCONHECIMENTOPROFUNDOPROFUNDO
nn Está armazenado, mas somente pode serEstá armazenado, mas somente pode serencontrado se tivermos algum indício queencontrado se tivermos algum indício quenos indique por onde começar a procura.nos indique por onde começar a procura.
nn A diferença em relação ao conhecimentoA diferença em relação ao conhecimentoescondido é o ESPAÇO DE BUSCA.escondido é o ESPAÇO DE BUSCA.
nn Um algoritmo de busca pode não convergirUm algoritmo de busca pode não convergirpara resultados significativos em certaspara resultados significativos em certaspartes do espaço de busca.partes do espaço de busca.
71
INICIANDOINICIANDO
nn O ponto inicial é a formulação de umaO ponto inicial é a formulação de umanecessidade de uma informação específicanecessidade de uma informação específicarelacionada a uma ação específica.relacionada a uma ação específica.
•• O que se deseja saber?O que se deseja saber?
•• O que se deseja fazer com esseO que se deseja fazer com esseconhecimento?conhecimento?
72
EXEMPLOEXEMPLO
nn Cartas personalizadas:Cartas personalizadas:•• Quantos clusters desejamos encontrar?1Quantos clusters desejamos encontrar?1
•• Quantos clusters esperamos encontrar?Quantos clusters esperamos encontrar?–– reorganização de responsabilidades departamentaisreorganização de responsabilidades departamentais
–– estratégias de vendas em diferentes áreasestratégias de vendas em diferentes áreas
•• Qual a taxa de atualização das informações?Qual a taxa de atualização das informações?
Quanto mais detalhada um clustering, maior aQuanto mais detalhada um clustering, maior achance de mudar em um determinado período.chance de mudar em um determinado período.
25
73
DATA MININGDATA MINING
nn Não é bem uma nova técnica, masNão é bem uma nova técnica, masuma nova maneira de lidar com asuma nova maneira de lidar com asinformações.informações.
74
AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SEINICIAR UM KDDINICIAR UM KDD
nn Fazer um Levantamento dos Hardwares eFazer um Levantamento dos Hardwares eSoftwares existentes.Softwares existentes.
nn Fazer uma lista de necessidades.Fazer uma lista de necessidades.•• Qual o propósito do KDD?Qual o propósito do KDD?•• Quais são os critérios de sucesso do KDD?Quais são os critérios de sucesso do KDD?•• Como será mensurado esse sucesso?Como será mensurado esse sucesso?•• Bancos de Dados, Redes, Aplicações,Bancos de Dados, Redes, Aplicações,
Servidores, etc.Servidores, etc.nn Avaliar a qualidade dos dados disponíveis.Avaliar a qualidade dos dados disponíveis.
•• Para que propósito foi coletado?Para que propósito foi coletado?
75
AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SE INICIAR UM KDDINICIAR UM KDD
nn Fazer um inventário dos Banco de DadosFazer um inventário dos Banco de Dadosdisponíveis.disponíveis.•• Internamente e ExternamenteInternamente e Externamente
nn Verificar a existência de um DataVerificar a existência de um DataWarehouse.Warehouse.•• Que tipo de dados estão disponíveisQue tipo de dados estão disponíveis•• Podemos verificar os detalhes dos dadosPodemos verificar os detalhes dos dados
operacionais?operacionais?
nn Formular o conhecimento que aFormular o conhecimento que aorganização necessita.organização necessita.
26
76
AS 9 ETAPAS PARA SEAS 9 ETAPAS PARA SE INICIAR UM KDD INICIAR UM KDD
nn Identificar os grupos de engenheiros deIdentificar os grupos de engenheiros deconhecimento ou os grupos de decisão queconhecimento ou os grupos de decisão queaplicarão os resultados.aplicarão os resultados.•• Que tipo de decisões precisam ser tomadas?Que tipo de decisões precisam ser tomadas?•• Quais padrões são úteis?Quais padrões são úteis?
nn Analisar se o conhecimento encontrado éAnalisar se o conhecimento encontrado érealmente útil para a organização.realmente útil para a organização.
nn Listar os Processos e as Transforma-Listar os Processos e as Transforma-ções que serão aplicados aos BD’s antesções que serão aplicados aos BD’s antesque esses possam ser utilizados no KDD.que esses possam ser utilizados no KDD.
77
EXEMPLOEXEMPLO
nn DATA DE NASCIMENTODATA DE NASCIMENTO•• corretas nas seguradoras de vida;corretas nas seguradoras de vida;
•• 30% a 40% em branco ou incorretas nos30% a 40% em branco ou incorretas nosbancos.bancos.
Se as datas de nascimentos estãoSe as datas de nascimentos estãoincorretas, é impossível descobrir padrõesincorretas, é impossível descobrir padrõescorretos relacionados a idade.corretos relacionados a idade.
78
POLUIÇÃO DOS DADOSPOLUIÇÃO DOS DADOS
nn A melhor maneira de evitá-las éA melhor maneira de evitá-las éorganizando a entrada dos dados.organizando a entrada dos dados.
nn Análises no domínio da consistênciaAnálises no domínio da consistênciaprecisam de programas com profundoprecisam de programas com profundoconhecimento semântico dos atributos.conhecimento semântico dos atributos.
nn A remoção de dados poluídos geralmenteA remoção de dados poluídos geralmenteimplica num processo de re-engenharia dosimplica num processo de re-engenharia dosnegócios.negócios.
27
79
ENRIQUECIMENTO DOSENRIQUECIMENTO DOSDADOSDADOS
nn Muitas empresas trocam dados paraMuitas empresas trocam dados paracoordenar suas operações de marketing.coordenar suas operações de marketing.
nn Agregar BD’s de terceiros não é uma tarefaAgregar BD’s de terceiros não é uma tarefasimples.simples.
nn Existem problemas de reconstrução dasExistem problemas de reconstrução dasfamílias de relacionamentos.famílias de relacionamentos.
nn Futuramente mais informação e BD’sFuturamente mais informação e BD’sestarão disponíveis em termos comerciais.estarão disponíveis em termos comerciais.
80
EXEMPLOEXEMPLO
rr Cia Telefônica - Cia AéreaCia Telefônica - Cia Aérea•• BD’s com o comportamento das chamadas dosBD’s com o comportamento das chamadas dos
usuários.usuários.
•• Seleção de um grupo de usuários de interesse.Seleção de um grupo de usuários de interesse.
•• Descobre-se que muitos fazem chamadas paraDescobre-se que muitos fazem chamadas parao Japão.o Japão.
•• Monta-se uma promoção especial de viagensMonta-se uma promoção especial de viagenspara o Japão a esse grupo.para o Japão a esse grupo.
81
10 REGRAS DE OURO10 REGRAS DE OURO
nn Suportar um Conjunto de Dados extremamenteSuportar um Conjunto de Dados extremamentegrandes.grandes.
nn Suportar aprendizado híbrido.Suportar aprendizado híbrido.nn Estabelecer um DW.Estabelecer um DW.nn Facilidade de Limpeza dos dados.Facilidade de Limpeza dos dados.nn Facilidade de Codificação Dinâmica.Facilidade de Codificação Dinâmica.nn Integração com DSS.Integração com DSS.nn Arquitetura Extensível.Arquitetura Extensível.nn Suporte a BD’s Heterogêneos.Suporte a BD’s Heterogêneos.nn Arquitetura Cliente/Servidor.Arquitetura Cliente/Servidor.nn Otimização de Cache.Otimização de Cache.
28
82
EXEMPLOEXEMPLO
nn Locadora de Automóveis: Locadora de Automóveis:•• Código de Endereçamento PostalCódigo de Endereçamento Postal
–– Códigos de endereços do exterior geralmente sãoCódigos de endereços do exterior geralmente sãoincompatíveis com o campo de cadastro na tela deincompatíveis com o campo de cadastro na tela deentrada de dados.entrada de dados.
–– Geralmente, acaba usando-se o código da agênciaGeralmente, acaba usando-se o código da agêncialocadora, apenas para permitir a entrada dos dadoslocadora, apenas para permitir a entrada dos dadose efetuar a locação do automóvel.e efetuar a locação do automóvel.
–– Ao se realizar o Data Mining, será encontrado umAo se realizar o Data Mining, será encontrado umgrupo interessante de vários clientes, que moramgrupo interessante de vários clientes, que moramna vizinhança da agência locadora.na vizinhança da agência locadora.
83
PERFIL DO CLIENTEPERFIL DO CLIENTESELEÇÃO DOS DADOSSELEÇÃO DOS DADOS
Como o objetivo é de encontrar apenas umaComo o objetivo é de encontrar apenas uma
rústica clusterização, podemos iniciar comrústica clusterização, podemos iniciar com
uma amostra de 1% dos registros escolhidosuma amostra de 1% dos registros escolhidos
aleatoriamente, começando portanto comaleatoriamente, começando portanto com
100.000 registros.100.000 registros.
84
PERFIL DO CLIENTEPERFIL DO CLIENTEENRIQUECIMENTOENRIQUECIMENTO
Em adição aos dados do próprio banco,Em adição aos dados do próprio banco,alguns dados demográficos são compradosalguns dados demográficos são compradose adicionados ao arquivo original, quee adicionados ao arquivo original, queconsiste nos preços médios da casa e doconsiste nos preços médios da casa e docarro.carro.
Assim temos informações suficientes deAssim temos informações suficientes decada cliente. Num total de mais ou menoscada cliente. Num total de mais ou menos20 atributos.20 atributos.
29
85
PERFIL DO CLIENTEPERFIL DO CLIENTE
Os produtos investigados são:Os produtos investigados são:
ãã PagamentosPagamentos
ãã Economia Economia
ãã Depósitos Depósitos
ãã Hipotecas Hipotecas
ãã Empréstimos Empréstimos
ãã Seguros Seguros
86
PERFIL DO CLIENTEPERFIL DO CLIENTEMINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
Na solução do problema podemos utilizar:Na solução do problema podemos utilizar:
nn Um sistema utilizando técnica da distânciaUm sistema utilizando técnica da distânciajuntamente com algoritmos genéticos;juntamente com algoritmos genéticos;
nn Regra de associação;Regra de associação;
nn Árvore de decisão.Árvore de decisão.
A construção de um sistema de previsão ouA construção de um sistema de previsão oude classificação pode ser visto como ade classificação pode ser visto como acriação de uma função que determina qualcriação de uma função que determina qualserá o comportamento de cada cliente.será o comportamento de cada cliente.
87
PERFIL DO CLIENTE PERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
ää Técnica da distância e Algoritmo GenéticoTécnica da distância e Algoritmo Genético
nn Como o perfil do cliente consiste deComo o perfil do cliente consiste deatributos quantitativos é possível compararatributos quantitativos é possível compararclientes, criando uma medida de distânciaclientes, criando uma medida de distânciaentre eles.entre eles.
Então, aplicamos Algoritmo Genético paraEntão, aplicamos Algoritmo Genético paraencontrar uma clusterização ótima para oencontrar uma clusterização ótima para oconjunto de dados. Assim, podemos preverconjunto de dados. Assim, podemos prevero comportamento de um novo cliente.o comportamento de um novo cliente.
30
88
PERFIL DO CLIENTEPERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
ää Regra de AssociaçãoRegra de Associação
nn Podemos, utilizando a técnica de regras dePodemos, utilizando a técnica de regras deassociação, encontrar regras queassociação, encontrar regras quedeterminam qual o grupo de clientes quedeterminam qual o grupo de clientes quedemonstram interesse pelo produtodemonstram interesse pelo produto‘seguro’ .‘seguro’ .
Encontramos regras do tipo:Encontramos regras do tipo:hipoteca - empréstimo - economia = segurohipoteca - empréstimo - economia = seguroCom confidencia de 62% e suporte de 2%Com confidencia de 62% e suporte de 2%
89
PERFIL DO CLIENTEPERFIL DO CLIENTE MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
ää Árvore de decisãoÁrvore de decisão
nn Construindo a árvore de decisão para oConstruindo a árvore de decisão para oproduto seguro, temos que, o saldo daproduto seguro, temos que, o saldo daconta do cliente é o atributo mais decisivo:conta do cliente é o atributo mais decisivo:•• Clientes com saldos inferiores a 901 pouco seClientes com saldos inferiores a 901 pouco se
interessam por seguro;interessam por seguro;
•• Clientes, com saldo superiores a 901, e que,Clientes, com saldo superiores a 901, e que,possuem cartão de crédito e um volume depossuem cartão de crédito e um volume denegócio superior a 30.980 apresentam grandenegócio superior a 30.980 apresentam grandeinteresse pelo produto seguro (67%).interesse pelo produto seguro (67%).
90
ALGUMAS APLICAÇÕES NAALGUMAS APLICAÇÕES NAVIDA REALVIDA REAL
ä Para fornecer uma ampla visão daspossibilidades das técnicas apresentadasde Mineração de Dados, apresemos trêsexemplos:FF Aplicação em Marketing - Perfil de um cliente;Aplicação em Marketing - Perfil de um cliente;
FF Porque passou no vestibular e não se Porque passou no vestibular e não seinscreveu!inscreveu!
FF Aplicação em engenharia reversa - Aplicação em engenharia reversa -Descoberta de relação entre chavesDescoberta de relação entre chavesestrangeiras.estrangeiras.
31
91
PERFIL DO CLIENTEPERFIL DO CLIENTEDEFINIÇÃO DA TAREFADEFINIÇÃO DA TAREFA
ää Devemos investigar o Banco de Dados deDevemos investigar o Banco de Dados deum grande Banco, contendo milhões deum grande Banco, contendo milhões deregistros, com dados de seus clientes.registros, com dados de seus clientes.
O Banco possui dois tipos de clientes:O Banco possui dois tipos de clientes:
nn O comprador simples - é aquele queO comprador simples - é aquele quecompra apenas um produto;compra apenas um produto;
nn O comprador múltiplo - é aquele queO comprador múltiplo - é aquele quecompra mais de um produto.compra mais de um produto.
92
PERFIL DO CLIENTEPERFIL DO CLIENTEOBJETIVOOBJETIVO
ää O objetivo do Departamento de Vendas doO objetivo do Departamento de Vendas doBanco é de ampliar as vendas de seusBanco é de ampliar as vendas de seusprodutos à seus clientes.produtos à seus clientes.
nn Para isso precisamos obter umaPara isso precisamos obter umasegmentação grosseira dos compradoressegmentação grosseira dos compradoresmúltiplos, para encontrar uma clusterizaçãomúltiplos, para encontrar uma clusterizaçãodeste grupo em vinte classes. E então,deste grupo em vinte classes. E então,para cada classe ,avaliar a oportunidadepara cada classe ,avaliar a oportunidadede certos grupos de produtos.de certos grupos de produtos.
93
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH AprendizagemAprendizagem•• Sob o ponto de vista matemático, pode serSob o ponto de vista matemático, pode ser
descrita como sendo uma compressão dodescrita como sendo uma compressão doconjunto de dados. Se a descrição criada éconjunto de dados. Se a descrição criada émenor que os dados originais, entãomenor que os dados originais, entãoefetivamente houve aprendizagem.efetivamente houve aprendizagem.
•• 10010111001100101 => conjunto original;10010111001100101 => conjunto original;
•• 10101 => teoria da codificação;10101 => teoria da codificação;
•• 1000011 => conjunto codificado pela teoria.1000011 => conjunto codificado pela teoria.
32
94
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Ruído e RedundânciaRuído e Redundância
•• Ruído pode ser visto como uma distorção ouRuído pode ser visto como uma distorção oumutação da mensagem, originados pormutação da mensagem, originados porinfluências externasinfluências externas..
•• Um bom entendimento de fenômenos comoUm bom entendimento de fenômenos comoruído e redundância é de vital importância pararuído e redundância é de vital importância paraverificar os benefícios da aplicação dosverificar os benefícios da aplicação dosalgoritmos de aprendizagem a conjuntos dealgoritmos de aprendizagem a conjuntos dedados.dados.
95
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Situação AtualSituação Atual
•• Bancos de Dados maiores e mais complexos;Bancos de Dados maiores e mais complexos;
•• Geração automática das informações;Geração automática das informações;
•• Grande Produção de Dados não-estruturados;Grande Produção de Dados não-estruturados;
•• Cópias de Dados Operacionais em grandesCópias de Dados Operacionais em grandesDW para DSS;DW para DSS;
•• Bilhões de registros da ordem de TbytesBilhões de registros da ordem de Tbytes;;
96
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Situação Atual (cont.)Situação Atual (cont.)
•• SQL é muito lento para essa demanda de DM;SQL é muito lento para essa demanda de DM;
•• Algoritmos de reconhecimentos de padrões:Algoritmos de reconhecimentos de padrões:
–– armazenam muitos dados intermediários;armazenam muitos dados intermediários;
–– acesso atípico às tabelas;acesso atípico às tabelas;
–– baixa eficiência.baixa eficiência.
33
97
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH NecessidadesNecessidades
•• Nova tecnologia para manter esse grandeNova tecnologia para manter esse grandeconjunto de dados;conjunto de dados;
•• Novos métodos de busca e consulta;Novos métodos de busca e consulta;
•• Paralelismo.Paralelismo.
98
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Relacionamentos e Tabelas Relacionamentos e Tabelas
•• O Banco de Dados Relacional é umaO Banco de Dados Relacional é umaplataforma para consulta sobre objetosplataforma para consulta sobre objetosexclusivamente identificados;exclusivamente identificados;
•• Essa exclusividade dos objetos não éEssa exclusividade dos objetos não édesejável em Data Mining.desejável em Data Mining.
99
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Chaves e Dependência EstatísticaChaves e Dependência Estatística
•• Objetos identificados por Chaves;Objetos identificados por Chaves;
•• Demais campos => funcionalmenteDemais campos => funcionalmentedependentes do valor da Chave;dependentes do valor da Chave;
•• Na terceira forma normal => dependências sãoNa terceira forma normal => dependências sãosubstituídas por chaves estrangeiras;substituídas por chaves estrangeiras;
•• Assim podemos formar regras como:Assim podemos formar regras como:–– Se o CEP é AA123 então a cidade é Paris.Se o CEP é AA123 então a cidade é Paris.
34
100
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
nn
C L IE N T E C E P P R O D U T O
1 2 3 4 A A 1 2 3 V IN H O
6 7 8 9 A A 1 2 3 P Ã O
3 4 5 6 B B 1 2 3 C A R N E
4 5 6 7 A A 1 2 3 V IN H O
C E P C I D A D E
A A 1 2 3 P A R I S
B B 1 2 3 N E W Y O R K
101
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH Dependências em Data MiningDependências em Data Mining
•• Dependência funcional:Dependência funcional:
––metodologia de projeto de BDs relacionais;metodologia de projeto de BDs relacionais;
––é uma prevenção contra anormalidades deé uma prevenção contra anormalidades deatualizações em lote.atualizações em lote.
•• As atualizações no DW são em lote;As atualizações no DW são em lote;
•• Interesse nas dependências estatísticas:Interesse nas dependências estatísticas:
––67% das pessoas com CEP AA12367% das pessoas com CEP AA123compram vinho.compram vinho.
102
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
HH ConclusõesConclusões
ãã Alguns algoritmos funcionam melhor do queAlguns algoritmos funcionam melhor do queoutros em certos conjuntos de dados;outros em certos conjuntos de dados;
ãã Suporte à decisão, Data Werehousing e Data Suporte à decisão, Data Werehousing e DataMining exigem uma interpretaçãoMining exigem uma interpretaçãocompletamente nova da tecnologia de BD;completamente nova da tecnologia de BD;
ãã Generalizações devem estar comprometidas Generalizações devem estar comprometidascom uma teoria coerente e a implicaçãocom uma teoria coerente e a implicaçãotécnica na vida real deve ser considerada.técnica na vida real deve ser considerada.
35
103
ASPECTOS FORMAIS DAASPECTOS FORMAIS DAAPRENDIZAGEMAPRENDIZAGEM
nn Podemos dizer, portanto, que existe uma Podemos dizer, portanto, que existe umarelação entre a compreensibilidade e os padrõesrelação entre a compreensibilidade e os padrõesda mensagem.da mensagem.
nn Mensagens aleatórias não contém nenhum Mensagens aleatórias não contém nenhumpadrão e portanto não é possível dar umapadrão e portanto não é possível dar umadescrição melhor desta mensagem. A descriçãodescrição melhor desta mensagem. A descriçãoneste caso é a própria mensagem.neste caso é a própria mensagem.
nn O que não é o caso para mensagens O que não é o caso para mensagenscompreensíveis. Como por exemplo uma quecompreensíveis. Como por exemplo uma quecontenha um megabyte de uns, que pode sercontenha um megabyte de uns, que pode serdescrita como “um megabyte de uns”.descrita como “um megabyte de uns”.
104
VISUALIZAÇÃO EVISUALIZAÇÃO EANÁLISEANÁLISE
HH O ambiente de desenvolvimento interativo deve fornecerO ambiente de desenvolvimento interativo deve fornecerum conjunto de ferramentas de visualização e análise.um conjunto de ferramentas de visualização e análise.
HH A análise permite ao usuário selecionar uma variedade deA análise permite ao usuário selecionar uma variedade dedados, dependendo do objeto que está sendodados, dependendo do objeto que está sendoinspecionado. Para inspecionado. Para Redes Neurais por exemplo ,Redes Neurais por exemplo , um ou um oumais parâmetros da rede pode ser selecionado. Para basemais parâmetros da rede pode ser selecionado. Para basede de regra fuzzyregra fuzzy, variáveis fuzzy e regras fuzzy podem ser, variáveis fuzzy e regras fuzzy podem serescolhidas. Todos objetos podem mostrar os buffers deescolhidas. Todos objetos podem mostrar os buffers deentrada e saída.entrada e saída.
Introdução a DATA MINING Introdução a DATA MINING
ICA Elétrica PUC-RIOICA Elétrica PUC-RIO
36
AgendaAgenda Conceitos Conceitos
Objetivo Objetivo
Motivação Motivação
DO DO →→ DW DW
Aplicações Aplicações
Áreas de Pesquisas Áreas de Pesquisas
Tarefas Tarefas
Conclusões Conclusões
ICA Elétrica PUC-RIO
Esta apresentaçãoproporciona uma introduçãogeral sobre DATA MINING esuas aplicações .
Agosto de 1999.
107
O QUE FAZ DATA MININGO QUE FAZ DATA MINING
nn OS BANCOS tem OS BANCOS tem DADOSDADOSnn QUE PODEM SER transformadosQUE PODEM SER transformados
nn em em INFORMAÇÕESINFORMAÇÕES
nn EM SEGUIDA podem ser transformadosEM SEGUIDA podem ser transformadosem em CONHECIMENTOCONHECIMENTO
nn É O QUE FAZ DATA MININGÉ O QUE FAZ DATA MINING
nn procura conhecimento em BDprocura conhecimento em BD
ConceitosConceitos
nn Data Mining é a busca de informaçõesData Mining é a busca de informaçõesvaliosas em grandes volumes de dados.valiosas em grandes volumes de dados.
nn Data Warehouse é um repositório de dados,Data Warehouse é um repositório de dados,que contém dados históricos, integrados porque contém dados históricos, integrados porassunto ou domínio de aplicação, paraassunto ou domínio de aplicação, parautilização em ambientes de análise de dados eutilização em ambientes de análise de dados esistemas de apoio à decisão.sistemas de apoio à decisão.
37
ConceitosConceitos
nn A comunidade de banco de dados desenvolveuA comunidade de banco de dados desenvolveuferramentas para a análise de Data Warehouseferramentas para a análise de Data Warehousechamada OLAP (On-Line Analitycal Processing).chamada OLAP (On-Line Analitycal Processing).
nn As ferramentas OLAP enfocam análisesAs ferramentas OLAP enfocam análisesmultidimensionais de dados de modo superiormultidimensionais de dados de modo superioraos mecanismos oferecidos pelas ferramentasaos mecanismos oferecidos pelas ferramentastradicionais.tradicionais.
ObjetivoObjetivo
Descobrir informações e conhecimentos,Descobrir informações e conhecimentos,através do reconhecimento de novos fatosatravés do reconhecimento de novos fatos
e relações existentes em uma base dee relações existentes em uma base dedados.dados.
MotivaçãoMotivação
O enorme crescimento das bases de dadosO enorme crescimento das bases de dadoscomerciais, governamentais e científicas vemcomerciais, governamentais e científicas vem
ultrapassando a habilidade técnica e aultrapassando a habilidade técnica e acapacidade humana na interpretação dessescapacidade humana na interpretação desses
dados.dados.
38
MotivaçãoMotivação
A idéia chave é tornar disponível paraA idéia chave é tornar disponível parao gerenciamento as informaçõeso gerenciamento as informações
críticas que podem ser usadas paracríticas que podem ser usadas parafuturos processamentos analíticos efuturos processamentos analíticos e
tomadas de decisões.tomadas de decisões.
DO DO →→→→ DW DW
nn Os dados brutos armazenados nos bancos de dadosOs dados brutos armazenados nos bancos de dadosnão estão na melhor forma para a mineração de dados.não estão na melhor forma para a mineração de dados.
nn Os dados antes de serem transportados para o DataOs dados antes de serem transportados para o Datawarehouse eles sofrem algumas transformações:warehouse eles sofrem algumas transformações:•• ExtraçãoExtração
•• TransformaçãoTransformação
•• LimpezaLimpeza
•• IntegraçãoIntegração
DO DO →→→→ DW DW
Extração Transformação Limpeza Data Warehouse
Bancos de dadosTransacionais
39
AplicaçõesAplicações
nn Classificação e Regressão - Classificar os dados através deClassificação e Regressão - Classificar os dados através demodelos de comportamento.modelos de comportamento.
nn Séries Temporais Similares - identificar séries similaresSéries Temporais Similares - identificar séries similarescoletadas ao longo de um período de tempo.coletadas ao longo de um período de tempo.
nn Associação - encontrar relacionamento entre os dados.Associação - encontrar relacionamento entre os dados.
nn Padrões Seqüenciais - descobrir eventos relacionados quePadrões Seqüenciais - descobrir eventos relacionados queocorrem ao longo de um período de tempo.ocorrem ao longo de um período de tempo.
116
CLASSIFICAÇÃOCLASSIFICAÇÃO
nn Cada registro pertence a umaCada registro pertence a umaclasse,indicada pelo valor de um atributoclasse,indicada pelo valor de um atributoobjetivoobjetivo
nn cada registro consiste de :cada registro consiste de :
nn um atributo objetivo;um atributo objetivo;
nn um conjunto de atributos qualitativosum conjunto de atributos qualitativos
nn objetivo ? : usar o relacionamentoobjetivo ? : usar o relacionamentodescoberto para prever a classe (meta)descoberto para prever a classe (meta)
nn de um registro com classe desconhecida.de um registro com classe desconhecida.
117
Classificação (CONT)Classificação (CONT)
nn EXEMPLO:EXEMPLO:
nn uma editora tem um BD sobre clientes deuma editora tem um BD sobre clientes derestaurantes em 3 países , e acaba derestaurantes em 3 países , e acaba depublicar um livro “Guia de Restaurantes”publicar um livro “Guia de Restaurantes”
nn e deseja saber quais clientes prováveise deseja saber quais clientes prováveiscompradores(mala direta) do livro.compradores(mala direta) do livro.
nn atributo objetivo : comprar (sim/não)atributo objetivo : comprar (sim/não)
nn DADOS de entrada para um sistemaDADOS de entrada para um sistema
nn de classificação (a seguir)de classificação (a seguir)
40
118
SEXO PAÍS IDADE OBJETIVOSEXO PAÍS IDADE OBJETIVO(resultado de mini pesquisa)(resultado de mini pesquisa)
m BR 25 Sm USA 21 Sf BR 23 Sf USA 34 Sf BR 30 Nm ITA 21 Nm ITA 20 N
119
REGRAS de classificação descobertasREGRAS de classificação descobertasa partir dos dados anterioresa partir dos dados anteriores
nn SE ( País = ITA) ENTÃO (comprar=não)SE ( País = ITA) ENTÃO (comprar=não)
nn SE (País=USA) ENTÃO (comprar=sim)SE (País=USA) ENTÃO (comprar=sim)
nn SE (País=BR e idade=<=25)SE (País=BR e idade=<=25)
nn ENTÃO (comprar=sim) ENTÃO (comprar=sim)
nn SE (País=BR ……..SE (País=BR ……..
120
Descoberta de regras deDescoberta de regras deASSOCIAÇÀOASSOCIAÇÀO
nn Cada registro corresponde a umaCada registro corresponde a umatransação de um cliente, com itenstransação de um cliente, com itensassumindo valores binários (s/n),indicandoassumindo valores binários (s/n),indicando
nn se o cliente comprou ou não o respectivose o cliente comprou ou não o respectivoitem.item.
nn UMA REGRA DE ASSOCIAÇÀO é umUMA REGRA DE ASSOCIAÇÀO é um
nn relacionamento SE (X) ENTÃO (Y)relacionamento SE (X) ENTÃO (Y)
nn onde X e Y tem: X interseção y = vazioonde X e Y tem: X interseção y = vazio
41
121
A cada regra são atribuídos 2 fatoresA cada regra são atribuídos 2 fatores
nn Suporte (SP) =no. de registros com X e Y /Suporte (SP) =no. de registros com X e Y /
nn no. total de registrosno. total de registros
nn Confiança (conf) = no. de reg.com X e Y /Confiança (conf) = no. de reg.com X e Y /
nn no. de registros com X.no. de registros com X.
nn OBJETIVO : descobrir todas regras deOBJETIVO : descobrir todas regras deassociação com um mínimo Sup e umassociação com um mínimo Sup e ummínimo Conf.mínimo Conf.
122
Descoberta de Regras de AssociaçãoDescoberta de Regras de Associação
Dados de entrada para um sistema deDados de entrada para um sistema deassociaçãoassociação
No. tr. leite café cerveja pããoo manteiga Arroz Feijããoo
123456789
10
nããoosimnããoossiimmnããoonããoonããoonããoonããoonããoo
simnããoossiimmssiimmnããoonããoonããoonããoonããoonããoo
nããoosimnããoonããoossiimmnããoonããoonããoonããoonããoo
simsimsimsimnããoonããoossiimmnããoonããoonããoo
simsimsimsimnããoossiimmnããoonããoonããoonããoo
nããoonããoonããoonããoonããoonããoonããoonããoossiimmssiimm
nããoonããoonããoonããoonããoonããoonããoossiimmssiimmnããoo
123
Regras de Associação descobertas aRegras de Associação descobertas apartir dos dados abaixo:partir dos dados abaixo:
nn Conjunto de Itens Freqüente: café, pConjunto de Itens Freqüente: café, pão. Sup. = 0,3ão. Sup. = 0,3
•• Regra: SE (café) ENTRegra: SE (café) ENTÃO (pão). ÃO (pão). Conf. = 1 Conf. = 1
nn Conjunto de Itens Freqüente: café, manteiga. Sup. = 0,3Conjunto de Itens Freqüente: café, manteiga. Sup. = 0,3
•• Regra: SE (café) ENTÃO (manteiga). Conf. = 1Regra: SE (café) ENTÃO (manteiga). Conf. = 1nn Conjunto de Itens Freqüente: pão, manteiga. Sup. = 0,4Conjunto de Itens Freqüente: pão, manteiga. Sup. = 0,4
•• Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8
•• Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8nn Conjunto de Itens Freqüente: café, pão, manteiga Sup.= 0,3Conjunto de Itens Freqüente: café, pão, manteiga Sup.= 0,3
•• Regra: SE (café E pão) ENTÃO (manteiga). Conf. = 1Regra: SE (café E pão) ENTÃO (manteiga). Conf. = 1
•• Regra: SE (café E manteiga) ENTÃO (pão). Conf. = 1Regra: SE (café E manteiga) ENTÃO (pão). Conf. = 1
•• Regra: SE (café) ENTÃO (manteiga E pão). Conf. = 1Regra: SE (café) ENTÃO (manteiga E pão). Conf. = 1
42
124
Descobrindo regras de associaçãoDescobrindo regras de associação
Algoritmo tem 2 fases:Algoritmo tem 2 fases:
nn Fase I:Fase I:
•• Descobrir conjuntos de itens freqüentes.Descobrir conjuntos de itens freqüentes.
•• Descobrir todos os conjuntos de itens com suporte maior ou igualDescobrir todos os conjuntos de itens com suporte maior ou igualao mínimo suporte especificado pelo usuário.ao mínimo suporte especificado pelo usuário.
nn Fase II:Fase II:
•• Descobrir regras com alto fator de confiança.Descobrir regras com alto fator de confiança.
•• A partir dos conjuntos de itens freqüentes, descobrir regras deA partir dos conjuntos de itens freqüentes, descobrir regras deassociação com fator de confiança maior ou igual ao especificadoassociação com fator de confiança maior ou igual ao especificadopelo usuário.pelo usuário.
125
Calculando o suporte de conjunto deCalculando o suporte de conjunto deitensitens
nn Suporte = No. de transações contendo o conjunto de itens, dividido pelo No. total deSuporte = No. de transações contendo o conjunto de itens, dividido pelo No. total detransações.transações.
nn 1° passo:1° passo:•• Calcular suporte de conjuntos com 1 item.Calcular suporte de conjuntos com 1 item.
Item leite:Item leite: Sup = 0,2.Sup = 0,2.Item café:Item café: Sup = 0,3.Sup = 0,3.Item cerveja:Item cerveja: Sup = 0,2.Sup = 0,2.Item pão:Item pão: Sup = 0,5.Sup = 0,5.Item manteiga:Item manteiga: Sup = 0,5Sup = 0,5Item arroz:Item arroz: Sup = 0,2.Sup = 0,2.Item feijão:Item feijão: Sup = 0,2.Sup = 0,2.
Itens freqüentes (Sup Itens freqüentes (Sup ≥≥≥≥ 0,3): 0,3):•• café, pão, manteiga. café, pão, manteiga.
126
Calculando o suporte de conjuntos deCalculando o suporte de conjuntos deitensitens
nn 2° passo:2° passo:•• Calcular suporte de conjuntos com 2 itens.Calcular suporte de conjuntos com 2 itens.
nn Otimização:Otimização:Se um item I não é freqüente, um conjunto com 2 itens, um dois quais é oSe um item I não é freqüente, um conjunto com 2 itens, um dois quais é oitem I, não pode ser freqüente. Logo, conjuntos contendo item I podem seritem I, não pode ser freqüente. Logo, conjuntos contendo item I podem serignorados.ignorados.
Conjunto de itens: café, pão.Conjunto de itens: café, pão. Sup = 0,3.Sup = 0,3.Conjunto de itens: café, manteiga.Conjunto de itens: café, manteiga. Sup = 0,3.Sup = 0,3.Conjunto de itens: manteiga, pão.Conjunto de itens: manteiga, pão. Sup = 0,4.Sup = 0,4.
Conjuntos de itens freqüentes (Sup Conjuntos de itens freqüentes (Sup ≥≥≥≥ 0,3): 0,3):{caf{caféé, p, pãão}, {cafo}, {caféé, manteiga}, {manteiga, p, manteiga}, {manteiga, pãão}o}
43
127
Calculando o suporte de conjunto deCalculando o suporte de conjunto deitensitens
nn 3° passo: 3° passo:
•• Calcular suporte de conjuntos com 3 itens.Calcular suporte de conjuntos com 3 itens.
nn Otimização:Otimização:Se o conjunto de itens {I, J} não é freqüente, um conjunto com 3 itensSe o conjunto de itens {I, J} não é freqüente, um conjunto com 3 itensincluindo os itens {I, J} não pode ser freqüente. Logo, conjuntos contendoincluindo os itens {I, J} não pode ser freqüente. Logo, conjuntos contendoitens {I, J} podem ser ignorados.itens {I, J} podem ser ignorados.
Conjuntos de itens: café, pão, manteiga.Conjuntos de itens: café, pão, manteiga.
Sup = 0,3.Sup = 0,3.
Conjuntos de itens freqüentes (Sup Conjuntos de itens freqüentes (Sup ≥≥ 0,3): 0,3):
{caf{caféé, p, pãão, manteiga}.o, manteiga}.
128
Calculando fator de confiança de regras candidatas,Calculando fator de confiança de regras candidatas,geradas a partir de conjuntos de itens freqüentesgeradas a partir de conjuntos de itens freqüentes
nn Conf. da regra “Conf. da regra “SE X ENTÃO Y”SE X ENTÃO Y” é No. de transações contendo X e Y dividido é No. de transações contendo X e Y divididopelo No. de transações contendo X.pelo No. de transações contendo X.
nn Conjunto de itens: {café, pão}. Conjunto de itens: {café, pão}.
SE café ENTÃO pão.SE café ENTÃO pão. Conf = 1,0.Conf = 1,0.SE pão ENTÃO café.SE pão ENTÃO café. Conf = 0,6.Conf = 0,6.
nn Conjunto de itens: {café, manteiga}.Conjunto de itens: {café, manteiga}.
SE café ENTÃO manteiga.SE café ENTÃO manteiga. Conf = 1,0.Conf = 1,0.SE manteiga ENTÃO café.SE manteiga ENTÃO café. Conf = 0,6.Conf = 0,6.
nn Conjunto de itens: {manteiga, pão}. Conjunto de itens: {manteiga, pão}.
SE manteiga ENTÃO pão.SE manteiga ENTÃO pão. Conf = 0,8.Conf = 0,8.SE pão ENTÃO manteiga.SE pão ENTÃO manteiga. Conf = 0,8.Conf = 0,8.
129
Calculando fator de confiança de regras candidatas,Calculando fator de confiança de regras candidatas,geradas a partir de conjuntos de itens freqüentesgeradas a partir de conjuntos de itens freqüentes
nn Conjunto de itens: {café, manteiga, pão}.Conjunto de itens: {café, manteiga, pão}.
SE café, pão ENTÃO manteiga. SE café, pão ENTÃO manteiga. Conf = 1,0.Conf = 1,0.
SE café, manteiga ENTÃO pão. SE café, manteiga ENTÃO pão. Conf = 1,0.Conf = 1,0.
SE manteiga, pão ENTÃO café. SE manteiga, pão ENTÃO café. Conf = 0,75.Conf = 0,75.
SE café ENTÃO pão, manteiga.SE café ENTÃO pão, manteiga. Conf = 1,0.Conf = 1,0.
SE pão ENTÃO café, manteiga.SE pão ENTÃO café, manteiga. Conf = 0,6.Conf = 0,6.
SE manteiga ENTÃO café, pão.SE manteiga ENTÃO café, pão. Conf = 0,6.Conf = 0,6.
Finalmente, seleciona-se regras com Conf. maior ou igual ao valorFinalmente, seleciona-se regras com Conf. maior ou igual ao valor
mínimo especificado pelo usuário (ex. 0,8).mínimo especificado pelo usuário (ex. 0,8).
44
130
Associação vs. ClassificaçãoAssociação vs. Classificaçãonn Associação:Associação:
•• problema é “simétrico”: todos os itens podem aparecer ou no problema é “simétrico”: todos os itens podem aparecer ou no antecedenteantecedente ou no ou noconseqüenteconseqüente de uma regra; de uma regra;
•• qualidade de uma regra é avaliada por fatores de Conf e Sup definidos peloqualidade de uma regra é avaliada por fatores de Conf e Sup definidos pelousuário;usuário;
•• definição do problema é clara, determinística: o sistema tem de achar definição do problema é clara, determinística: o sistema tem de achar todastodas regras regrascom Sup e Conf maior ou igual a com Sup e Conf maior ou igual a thresholds thresholds pré-definidos:pré-definidos:
•• na maioria da literatura, o desafio é projetar algoritmos eficientes.na maioria da literatura, o desafio é projetar algoritmos eficientes.
nn Classificação:Classificação:•• problema é assimétrico: um único atributo meta a ser previsto, dados demaisproblema é assimétrico: um único atributo meta a ser previsto, dados demais
atributos;atributos;•• regras são avaliadas em dados de teste regras são avaliadas em dados de teste não vistosnão vistos durante treinamento (prever o durante treinamento (prever o
futuro);futuro);•• qualidade de uma regra é muito mais difícil de avaliar, logo não é muito claro quaisqualidade de uma regra é muito mais difícil de avaliar, logo não é muito claro quais
regras deveriam ser descobertas pelo sistema;regras deveriam ser descobertas pelo sistema;•• eficiência ainda é importante, mas o desafio principal é projetar algoritmoseficiência ainda é importante, mas o desafio principal é projetar algoritmos
eficazes.eficazes.
131
AplicaçõesAplicações
nn Agrupamento ou Clustering - segmentar as informações emAgrupamento ou Clustering - segmentar as informações emgrupos definíveis e homogêneos, com base em algumasgrupos definíveis e homogêneos, com base em algumascaracterísticas.características.
nn Segmentação de Bancos de Dados.Segmentação de Bancos de Dados.
nn Sumarização e Visualização.Sumarização e Visualização.
nn Mineração de Textos.Mineração de Textos.
132
“Clustering” (Agrupamento)“Clustering” (Agrupamento)
0 0 0 0 0 0 0 0 0 0 0 0
A2
A1
0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0
O sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores deO sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores deatributos semelhantes) em uma mesma classe.atributos semelhantes) em uma mesma classe.
Após clustering, pode-se aplicar métodos de classificação e sumarização paraApós clustering, pode-se aplicar métodos de classificação e sumarização paradescobrir regras de classificação (que discriminem registros de diferentes classes) edescobrir regras de classificação (que discriminem registros de diferentes classes) eregras de sumarização (que produzem descrições características de cada classe)regras de sumarização (que produzem descrições características de cada classe)
45
133
“Clustering” - Exemplo:“Clustering” - Exemplo:
nn Dados de entrada para um sistema de clustering - cada cliente é descrito pelosDados de entrada para um sistema de clustering - cada cliente é descrito pelosseguintes atributos:seguintes atributos:
•• IdadeIdade•• SexoSexo
•• Gastos com artigos esportivosGastos com artigos esportivos
•• Gastos com mobíliaGastos com mobília
•• Gastos com livrosGastos com livros•• Gastos com roupasGastos com roupas
nn Informações sobre a média geral de todos clientes:Informações sobre a média geral de todos clientes:•• 42 anos,42 anos,
•• gastam $500 em artigos esportivos,gastam $500 em artigos esportivos,
•• $1000 mobília, etc.$1000 mobília, etc.
134
Após clusteringApós clustering
nn Um cluster contém clientes que, em média:Um cluster contém clientes que, em média:•• têm 20 anos,têm 20 anos,
•• gastam $1000 com artigos esportivos,gastam $1000 com artigos esportivos,•• gastam $100 em mobília, etc.gastam $100 em mobília, etc.
nn Clustering geralmente é usado para uma exploração / entendimentoClustering geralmente é usado para uma exploração / entendimentoinicial dos dados.inicial dos dados.
nn Em geral, não há uma “resposta correta” para um problema de clustering.Em geral, não há uma “resposta correta” para um problema de clustering.
135
Dois tipos básicos de clusteringDois tipos básicos de clustering
nn Hierárquico:Hierárquico:
descobre uma hierarquia de clusters;descobre uma hierarquia de clusters;
usuário pode escolher, após clustering, ousuário pode escolher, após clustering, o
número de clusters mais útil para ele(a);número de clusters mais útil para ele(a);
tende a ser computacionalmente caro.tende a ser computacionalmente caro.
nn Não hierárquico:Não hierárquico:
requer que usuário pré-defina, antes derequer que usuário pré-defina, antes de
clustering, o número de clusters;clustering, o número de clusters;
é menos caro computacionalmente.é menos caro computacionalmente.
46
136
Exemplo - agência de arranjo de namoros:Exemplo - agência de arranjo de namoros:[Berson & Smith 98][Berson & Smith 98]
Cliente idade salário olhos123456789
10
62534732212750462768
médiomédioalto
médioaltoalto
baixoalto
baixobaixo
cast.verdecast.verdeazulcast.azulazulazulazul
137
Agrupando por compatibilidade financeiraAgrupando por compatibilidade financeira
Cliente idade salário olhos356812479
10
47212746625332502768
altoaltoaltoalto
médiomédiomédiobaixobaixobaixo
cast.azulcast.azulcast.verdeverdeazulazulazul
138
Exemplo - agência de arranjo de namoros:Exemplo - agência de arranjo de namoros:
Cliente idade salário olhos123456789
10
62534732212750462768
médiomédioalto
médioaltoalto
baixoalto
baixobaixo
cast.verdecast.verdeazulcast.azulazulazulazul
47
139
Agrupando por compatibilidade física:Agrupando por compatibilidade física:
Cliente idade salário olhos596487
10123
21272732465068625347
altobaixoalto
médioalto
baixobaixomédiomédioalto
azulazulcast.verdeazulazulazulcast.verdecast.
140
Classificação versus clusteringClassificação versus clustering
nn Classificação:Classificação:
•• há um único atributo meta, e os demais atributoshá um único atributo meta, e os demais atributossão previsores;são previsores;
•• parte do problema consiste em determinarparte do problema consiste em determinarautomaticamente a importância dos atributosautomaticamente a importância dos atributosprevisores;previsores;
•• há medidas objetivas para medir a qualidade dahá medidas objetivas para medir a qualidade daclassificação (ex. taxa de acerto);classificação (ex. taxa de acerto);
•• classificação é usada principalmente para previsãoclassificação é usada principalmente para previsão..
141
Classificação versus clusteringClassificação versus clustering
nn Clustering:Clustering:•• não há um atributo especial;não há um atributo especial;
•• a importância de cada atributo é geralmentea importância de cada atributo é geralmenteconsiderada equivalente à dos demais;considerada equivalente à dos demais;
•• é difícil medir a qualidade de clustering;é difícil medir a qualidade de clustering;
•• Clustering é usado principalmente paraClustering é usado principalmente paraexploração e sumarização de dadosexploração e sumarização de dados
48
Áreas de PesquisasÁreas de Pesquisas
nn Estatística Estatística (reconhecimento de padrões estatísticos e análise(reconhecimento de padrões estatísticos e análiseexploratória de dados).exploratória de dados).
nn Banco de Dados Banco de Dados (questões de eficiência e escalabilidade na(questões de eficiência e escalabilidade naarmazenagem, manusear grandes quantidades de dados, DW)armazenagem, manusear grandes quantidades de dados, DW)
nn Inteligência Artificial Inteligência Artificial (aprendizado de máquina, agentes(aprendizado de máquina, agentesinteligentes).inteligentes).
TarefasTarefas
nn Preparação dos dados.Preparação dos dados.
nn Redução dos dados.Redução dos dados.
nn Modelagem dos dados.Modelagem dos dados.
nn Análises de soluções.Análises de soluções.
ConclusõesConclusõesData WarehouseData Warehousenn Utilização altamente imprevisível, aplicações não estruturadas,Utilização altamente imprevisível, aplicações não estruturadas,
analíticas.analíticas.
nn Tempo de resposta: segundos a alguns minutos.Tempo de resposta: segundos a alguns minutos.
nn Dados relacionais, não voláteis (‘snapshots’), bastanteDados relacionais, não voláteis (‘snapshots’), bastantedesnormalizados.desnormalizados.
nn Informações organizadas por área de análise, históricas (deInformações organizadas por área de análise, históricas (decinco a dez anos).cinco a dez anos).
nn Usuários finais: gerência e consumidores de informação.Usuários finais: gerência e consumidores de informação.
49
ConclusõesConclusõesData MartData Martnn Tipo de Data Warehouse em que os dados estão mais próximosTipo de Data Warehouse em que os dados estão mais próximos
aos usuários.aos usuários.
nn Menores e mais fáceis de serem gerenciados.Menores e mais fáceis de serem gerenciados.
nn Permite tomada de decisões em nível departamental.Permite tomada de decisões em nível departamental.
nn Dados relacionais ou multidimensionais, não voláteisDados relacionais ou multidimensionais, não voláteis
ConclusõesConclusõesOLAP ServesOLAP Servesnn Menores que os data warehouses.Menores que os data warehouses.
nn Bons recursos de exploração analítica.Bons recursos de exploração analítica.
nn Dados multidimensionais, não voláteisDados multidimensionais, não voláteis
nn Solução complementar ao data warehouse.Solução complementar ao data warehouse.
ConclusõesConclusõesOperational Data StoreOperational Data Storenn Utilização previsível, parcialmente estruturada, parcialmenteUtilização previsível, parcialmente estruturada, parcialmente
analítica.analítica.
nn Tempo de resposta: segundos a alguns minutos.Tempo de resposta: segundos a alguns minutos.
nn Dados relacionais, voláteis ou correntes, desnormalizados.Dados relacionais, voláteis ou correntes, desnormalizados.
nn Informações organizadas por área de análise, históricas (de 30 aInformações organizadas por área de análise, históricas (de 30 a60 dias).60 dias).
nn Usuários finais: consumidores de informação.Usuários finais: consumidores de informação.
50
ConclusõesConclusõesData MiningData Miningnn Baseados nos paradigmas de hipótese e descoberta.Baseados nos paradigmas de hipótese e descoberta.
nn Baseado em algoritmos de inteligência artificial.Baseado em algoritmos de inteligência artificial.
nn Conceitos e ferramentas recentes.Conceitos e ferramentas recentes.
nn Busca de padrão e comportamentos na base de dados.Busca de padrão e comportamentos na base de dados.
Duvidas ?Duvidas ?
(emmanuel([email protected])@ele.puc-rio.br)