Data Mining: Conceitos e Técnicas. DM, DW e OLAP.
Transcript of Data Mining: Conceitos e Técnicas. DM, DW e OLAP.
![Page 1: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/1.jpg)
Data Mining: Conceitos e Técnicas
![Page 2: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/2.jpg)
DM, DW e OLAP
![Page 3: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/3.jpg)
Data Warehousing e OLAP para Data Mining
• O que é data warehouse?
• De data warehousing para data mining
![Page 4: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/4.jpg)
Data Warehousing e OLAP para Data Mining
• Data Warehouse: A Memória da Empresa
• Data Mining: A Inteligência da Empresa
![Page 5: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/5.jpg)
O que é Data Warehouse?
• Definido de diversas formas, mas não rigorosamente:– É uma base de dados de suporte que é
mantida separadamente da base de dados operacional da organização;
– Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;
![Page 6: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/6.jpg)
O que é Data Warehouse?
• “Um data warehouse é uma coleção de dados:
1. orientada a assunto (subject-oriented);2. integrada;3. variante no tempo, e4. não-volátil
para suporte a decisões de gerenciamento”.—W. H. Inmon
• Data warehousing: o processo de construção e uso de data warehouses.
![Page 7: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/7.jpg)
Usos do data warehouse
• Processamento de Informações:– Suporta consultas, análise estatística básica e
relatórios usando tabelas, gráficos, etc.
• Processamento analítico:– Análise multi-dimensional doas dados contidos no
data warehouse;
– Suporta operações OLAP básicas (slice-dice, drilling, pivoting);
![Page 8: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/8.jpg)
Usos do data warehouse
• Data mining:– Descoberta de conhecimento em padrões;
– Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.
![Page 9: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/9.jpg)
De OLAP para OLAM
Por que OLAM?• Alta qualidade dos dados nos data warehouses;
– DW contem dados integrados, consistentes e limpos.
• Estrutura para o tratamento de informação disponível no ambiente de DW:– ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e
ferramentas OLAP;
• Análise de dados exploratória baseada em OLAP;– Mineração com drilling, dicing, pivoting, etc.
• Seleção on-line das funções de data mining:– Integração e intercâmbio de múltiplas funções de mineração,
algoritmos e tarefas.
![Page 10: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/10.jpg)
Uma arquitetura OLAM
Data Warehouse
Meta Data
MDDB
OLAMEngine
OLAPEngine
User GUI API
Data Cube API
Database API
Data cleaning
Data integration
Layer3
OLAP/OLAM
Layer2
MDDB
Layer1
Data Repository
Layer4
User Interface
Filtering&Integration Filtering
Databases
Mining query Mining result
![Page 11: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/11.jpg)
Pré-processamento de dados
![Page 12: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/12.jpg)
Por que pré-processar os dados ?
• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de
atributos de interesse ou existência de atributos agregados;
– Ruidosos: contem erros e desvios;– Inconsistentes: contem discrepâncias em nomes e na
codificação.
• Sem dados de qualidade, sem resultados de qualidade em DM:– Decisões de qualidade devem estar baseadas em dados
de qualidade;– DW necessita da integração consistente de dados de
qualidade.
![Page 13: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/13.jpg)
Medida multidimensional da qualidade dos dados
• Uma visão multidimensional bem aceita:– Correção;– Completude;– Consistência;– Atualidade (timeliness);– Credibilidade;– Valor adicionado;– Interpretabilidade;– Acessibilidade.
• Categorias abrangentes:– Intrínseca, contextual, representacional e acessibilidade.
![Page 14: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/14.jpg)
Principais tarefas no pré-processamento dos dados
• Limpeza dos dados:– Preenchimento de valores inexistentes, atenuação de
dados ruidosos, identificação e remoção de desvios, resolução de inconsistências;
• Integração de dados:– Integração de múltiplos DB, data cubos, e arquivos;
• Transformações nos dados:– normalização e agregação;
• Redução de dados:– Obtenção de uma representação reduzida em volume
mas que produz resultados de análise idênticos ou similares.
![Page 15: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/15.jpg)
Principais tarefas no pré-processamento dos dados
• Limpeza dos dados: Valores faltantes
1. Ignorar a tupla;2. Preencher o valor manualmente;3. Usar uma constante global;4. Usar o valor médio do atributo na base;5. Usar o valor médio do atributo na classe;6. Usar o valor mais provável.
![Page 16: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/16.jpg)
Principais tarefas no pré-processamento dos dados
• Limpeza dos dados: Atenuação de dados ruidosos
1. Discretização;2. Agrupamento;3. Interação humana;4. Regressão.
![Page 17: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/17.jpg)
Principais tarefas no pré-processamento dos dados
• Limpeza dos dados: Inconsistências
1. Eliminar dados;2. Corrigir manualmente;3. Ignorar.
![Page 18: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/18.jpg)
Principais tarefas no pré-processamento dos dados
• Integração de dados:– Integração de esquemas de BD: problema
da identificação de entidades;– Redundâncias;– Detecção e resolução de valores
conflitantes nos dados.
![Page 19: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/19.jpg)
Principais tarefas no pré-processamento dos dados
• Transformações nos dados:– Suavização (smooting);– Agregação;– Generalização;– Normalização (entre 0 e 1);– Construção de atributos.
![Page 20: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/20.jpg)
Principais tarefas no pré-processamento dos dados
• Redução de dados:– Agregação de data cubes;– Redução de dimensionalidade;– Compressão de dados;– Redução de instâncias;– Geração de hierarquias de conceitos.
![Page 21: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/21.jpg)
Formas de pré-processamento de dados
![Page 22: Data Mining: Conceitos e Técnicas. DM, DW e OLAP.](https://reader035.fdocuments.us/reader035/viewer/2022062300/552fc144497959413d8e0300/html5/thumbnails/22.jpg)
Sumário
• A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining;
• A preparação de dados inclui:– Limpeza e Integração de dados;– Redução de dados e seleção de características;– Discretização: intervalos iguais, freqüências iguais,
agrupamento.
• Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.