Data analysis open data

53
1 Data Analysis Open Data Professoras: Ceça e Roberta Estudantes: Jonathan e Lisandra Departamento de Estatística e Informática (DEINFO) Universidade Federal Rural de Pernambuco (UFRPE)

Transcript of Data analysis open data

Page 1: Data analysis open data

1

Data Analysis

Open DataProfessoras: Ceça e Roberta

Estudantes: Jonathan e LisandraDepartamento de Estatística e Informática (DEINFO)

Universidade Federal Rural de Pernambuco (UFRPE)

Page 2: Data analysis open data

ABCdas TIC

Page 3: Data analysis open data

Analytics

ABCdas TIC

DaaS Database as a Service

AaaS Analytics as a Service

Page 4: Data analysis open data

BD Relacional

Data Warehouse

OLAP e Data Mining: Inteligência da Empresa

Memória da

Empresa

Page 5: Data analysis open data

BIG DATA

DATA WAREHOUSE

DATA MINING

MACHINE LEARNING

A mina de ouro dos bits!

Competência

Page 6: Data analysis open data

Open Data

Page 7: Data analysis open data

Big Data é um tsunami (ainda) em alto mar

Data Mining Lifecycle

Page 8: Data analysis open data

Explosão de Dados

Source: International Data Corporation (IDC) - https://www.idc.com

Web 2.0 e IoT

10

20

30

40

2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020

2011 1,7 ZB

2017 14 ZB

2020 40 ZB

The measure of all digital data created, replicated and consumed

The Digital Universe

Page 9: Data analysis open data

Fonte: IBM - http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html

15 petabytes de dados estruturados (10%) e não estruturados (90%) são gerados todos os dias!

Page 10: Data analysis open data
Page 11: Data analysis open data

Big Data can be characterised as amount

of digital data that is uncomfortable to

store, transport or analyse.

Page 12: Data analysis open data

Seleção

Page 13: Data analysis open data

Pré-Processamento

Page 14: Data analysis open data

TransformaçãoEstratificação

Discretização

Cenários

Page 15: Data analysis open data

Mineração e Interpretação dos

Resultados

Page 16: Data analysis open data

BIG

DATAcharacterised using 4V’s

Page 17: Data analysis open data
Page 18: Data analysis open data
Page 19: Data analysis open data
Page 20: Data analysis open data
Page 21: Data analysis open data

The amount of data

generated on planet earth

is growing exponentially

Page 22: Data analysis open data

How much of the vast

amounts of data do we

analyse?

Page 23: Data analysis open data

0,5%Just imagine the potential here!

Source: https://www.forbes.com/sites/bernardmarr

Page 24: Data analysis open data

3% dos dados potencialmente úteis é identificado,

menos ainda é analisado.

Page 25: Data analysis open data
Page 26: Data analysis open data

Se você não está pagando

pelo produto/software,

você é o produto!Produto = dados que você gera

Page 27: Data analysis open data
Page 28: Data analysis open data

Deseja conhecer o perfil de clientes/estudantes/pacientes?

Deseja encontrar tendências úteis, tais como o comportamento dosconsumidores?

Pretende agregar valor (R$) com as técnicas de análise de dados?

Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar?

Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação daspolíticas públicas em benefício dos cidadãos?

Então, prepare-se para seus dados!

Page 29: Data analysis open data

Previsão

Descrição

Page 30: Data analysis open data

Aplicações Potenciais de DM

Áreas de Aplicações

Vendas e Marketing

Redes Sociais

Bancos e Finanças

Política

Saúde

Educação

(MDE)

Entre outras...

Page 31: Data analysis open data

Exemplo clássico de DM

O que cerveja tem a ver com fraldas?

Suposições:

– Tem o mesmo número de letras?– Cerveja no presente, fraldas no futuro?– ???

Page 32: Data analysis open data

• Constatou-se que muitos homens casados, entre 25 e 35 anos,compravam fraldas e cervejas às sextas-feiras à tarde/noite(provavelmente no caminho do trabalho para casa).

• Walmart otimizou as prateleiras nos pontos de vendas,colocando as fraldas ao lado das cervejas.

• Resultado: o consumo cresceu ainda mais.30%

Page 33: Data analysis open data

Exemplo 2 (caso verídico em 2012)

Grande rede de varejo dos EUA descobre gravidez de adolescente antes dos pais.

TARGET

Page 34: Data analysis open data

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

http://www.nytimes.com/2012/02/19/magazine/shopping-

habits.html?pagewanted=all&module=Search&mabReward=

relbias%3As&_r=0

Exemplo 2

Page 35: Data analysis open data

Exemplo 3 - Banco Itaú

Enviava mais de 1 milhão de malas diretas, para todos os correntistas.

– No máximo 2% deles respondiam às promoções.

Hoje, com a mineração dos dados, as cartas são enviadas apenas a quem tem maior chance de responder.

– A taxa de retorno subiu para 30%.– A conta do correio foi reduzida a 1/5.

Page 36: Data analysis open data

Exemplo 4 - SERPRO

Investiu milhões no seu projeto de DW e DM, desenvolvido emparceria com a Oracle.

Consolidou 5% de suas informações, mas atualmente já é possívelfazer em 5 minutos cruzamentos de dados que antes demandavamdias de trabalho.

Page 37: Data analysis open data

PROJETOS

Page 38: Data analysis open data

Projeto de Pesquisa

Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq)

OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional),

visando investigar obstáculos enfrentados pelos docentes, discentes e instituiçõesque ofertam cursos na modalidade a distância.

DADOS:Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES:

2007 a 2014

Page 39: Data analysis open data

Projeto de Pesquisa

Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq)

Deu origem a dois novos projetos:

1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação aDistância (PIBITI/CNPq) – 2014 a 2015.

2. Mineração de Dados Educacionais em Ambientes B-learning deInstituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016

Page 40: Data analysis open data

Projeto de Pesquisa

Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP

OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfilde estudantes e instituições brasileiras de ensino fundamental, médio e superior.

DADOS:

Censo Escolar

Censo da Educação Superior

2014 e 2015

Page 41: Data analysis open data

Projeto de Pesquisa

Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP

Deu origem a dois novos projetos:

1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de DadosEducacionais do INEP (PIBIC/CNPq) – 2017.

2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dosCensos da Educação Básica e Superior (PIBITI/CNPq) – 2017.

Page 42: Data analysis open data

Orientações TCCBacharelado em Sistemas de Informação

Page 43: Data analysis open data

Orientações TCC

2014/2015

Comparação de Algoritmos do Aprendizado deMáquina Aplicados na Mineração de DadosEducacionais – Mirela.

Descoberta de Conhecimento Utilizando Mineraçãode Dados Educacionais Abertos – Tancicleide.

Implementação de SIG e Mapas de Kernel visandoAcessibilidade na Educação Superior – Fernanda.

Page 44: Data analysis open data

Orientações TCC

2016

Análise de desempenho de banco de dados não relacionais nocenário de dados abertos educacionais – Felipe.

Processo de descoberta de conhecimento em Big Dataeducacional para implementação de um Sistema de InformaçãoGeográfica – Rafaella.

Análise de modelos de dados não relacionais emultidimensionais no contexto de Big Data – Maria Camila.

Um framework multiplataforma para análise e monitoramentode dados governamentais – Geraldo.

Page 45: Data analysis open data

Orientações TCC

2017 (em andamento...)

Processo KDD de Decretos e Convênios: Estudo de CasoALEPE – Gustavo.

Mapas de Kernel para Análise de Dados Minerados DoMercado – Anderson.

Page 46: Data analysis open data

Pesquisas em Análises de Dados e Dados Abertos

Obtenção (e limpeza) dos dados!

Limitações

Page 47: Data analysis open data
Page 48: Data analysis open data

Big Data é um tsunami AINDA em alto mar

Data Analyst

Data Scientist

Page 49: Data analysis open data

Portal Brasileiro de Dados Abertos

Dados Abertos do Recife

Convênios e Contratos da Administração Pública Federal

Portal de Transparência dos Recursos Públicos Federais

Portal de Transparência do Conselho Nacional de Justiça

Portal de Transparência do Ministério Público Federal

Portal de Transparência da Polícia Federal

Instituto Brasileiro de Geografia e Estatística (IBGE)

Dados Abertos Educacionais do INEP/MEC

UCI Repository of Machine Learning Databases

Kaggle Datasets

Dados abertos da NASA

Gapminder

Google Public Data e Google Finance

Freebase

DataViva

Bases de Dados Abertas (Diversos Domínios)

Page 50: Data analysis open data

Fonte: http://youtu.be/tfaYKbbYnXU (vídeo)

Page 51: Data analysis open data

Introdução ao Tema

Cap. 28 - Conceitos de Mineração de DadosCap. 29 - Visão Geral de Data Warehousing e OLAP

Cap. 20Depósito e Mineração de Dados

Page 52: Data analysis open data

William H. Inmon

Ian H. Witten

Pang-Ning Tan

Jiawei Han; Micheline Kamber;

Jian Pei

Matthew A. Russell

Gordon S. Linoff

Michael J. A. Berry

Viktor Mayer-schonberger

Bibliografias Indicadas

Roland Bouman

Page 53: Data analysis open data

53

Data Analysis

Open DataProfessoras: Ceça e Roberta

Estudantes: Jonathan e LisandraDepartamento de Estatística e Informática (DEINFO)

Universidade Federal Rural de Pernambuco (UFRPE)