Data Science Leonardo Sápiras - Amazon S3 · Big Data Ciência de dados Inteligência Artificial...
Transcript of Data Science Leonardo Sápiras - Amazon S3 · Big Data Ciência de dados Inteligência Artificial...
pen4education
Data ScienceA ciência de dados em redes sociais: uma análise sobre o Facebook
Leonardo SápirasMestre em Ciência da Computação
pen4education
Apresentação● Bacharel em Sistemas de Informação (FACCAT)
● Mestre em Ciência da Computação (UFRGS)
● Coordenador de TI (FACCAT)
● Professor universitário (FACCAT)
● Áreas de interesse
○ Desenvolvimento WEB
○ Mineração de dados
○ Big Data
○ Ciência de dados
○ Inteligência Artificial
Contatos
https://www.facebook.com/leonardosapiras
https://www.linkedin.com/in/leonardosapiras/
https://www.leonardosapiras.com.br
pen4education
Roteiro• Facebook
• Como obter dados
• GraphAPI
• Estrutura de dados
• Privacidade
• Case - Análise de dados de grupos regionais
pen4education
FacebookLançamento em fevereiro de 2004
Maior rede social do mundo
2,23 bilhões de usuários
150 milhões de usuários diários
pen4education
FacebookPor minuto:● 317.000 atualizações de status
● 400 novos usuários
● 147.000 fotos publicadas
● 54.000 compartilhamentos
pen4education
Dados
Muitos, muitos dados!!!
pen4education
É possível extrair informação útil para meu negócio?
pen4education
pen4education
https://developers.facebook.com/docs/graph-api/
pen4education
Graph API• Nós
• "objetos" individuais• Usuário, Foto, Página ou Comentário
• Arestas• conexões entre uma coleção de objetos e um objeto único
• Fotos em uma Página• Comentários em uma Foto
• Campos • dados a respeito de um objeto• Ex: data de aniversário do Usuário ou o nome de uma Página
pen4education
pen4education
pen4education
pen4education
É possível extrair qualquer dado?
pen4education
DadosFeed
Grupos
Páginas
Usuários
Publicações
Comentários
Comentários de comentários
Reações
pen4education
pen4education
pen4education
pen4education
Como fica a privacidade?
pen4education
Unsupported get request. Object with ID '<ID> does not exist, cannot be loaded due to missing permissions, or does not support this operation. Please read the Graph API documentation at https://developers.facebook.com/docs/graph-api
pen4education
É possível extrair informação útil para meu negócio?
pen4education
É possível extrair informação útil para nossa sociedade?
pen4education
CASE
Análise de dados em redes sociais
pen4education
ObjetivosObter de grupos de discussão a percepção de uma população regional sobre:
• Educação• Saúde• Segurança
pen4education
Metodologia de pesquisa
Estudo de caso aplicado em grupos de discussão do Vale do Paranhana
pen4education
pen4education
Problema
pen4education
Como?
Mineração de opiniões
pen4education
Mineração de opiniões• Estudo computacional de opiniões, sentimentos e emoções descritos textualmente
(LIU, 2010).
• Tem como objetivo extrair e processar opiniões sobre produtos e outras entidades
(TSYTSARAU, 2010).
• Classificação da polaridade da opinião.
• Pode ser realizada em diferentes níveis
• Documento
• Sentença
• Entidade ou aspecto
pen4education
Mineração de opiniõesOpinião é uma quíntupla (ej, ajk, sijkl, hi, tl) onde:
ej é a entidade alvoajk é um aspecto da entidade ej sijkl é o valor da polaridade do sentimento que o detentor da opinião hi tem sobre o aspecto ajk da entidade ej no instante tlhi é o detentor da opiniãotl é o instante de tempo no qual a opinião foi expressa
pen4education
pen4education
Como?
Alvo da opinião Opinião
pen4education
Desafios• Sarcasmo• Ironia• Recursos escassos de léxicos com qualidade para o
português• Acrônimos• Problemas de escrita
• “iscola”, “postão”, “robaro a móto”• Emojis
pen4education
Proposta
pen4education
Ferramentas
pen4education
pen4education
pen4education
ExtraçãoDados extraídos em json
Salvos em base MongoDB
3GB de dados brutos
pen4education
Extração de dados
Grupo Publicações Comentários Total de documentos
Fala Taquara 02 4337 13895 18232
FalaTaquara 8236 89163 97399
Fala Igrejinha 9899 96440 106339
Fala Rolante !!!!! 1031 131 1162
23503 199629 223132
pen4education
pen4education
Pré-processamento• Quebra de documentos em sentenças
• Remoção de documentos duplicados ou com 90% de similaridade
(Método cosseno)
• Remoção de caracteres especiais
• Stemming
• Part-of-speech -> identificação de substantivos
pen4education
pen4education
Fala sobre quais dos assuntos analisados?
Expressa opinião positiva ou negativa?
Menciona algo relacionado ao Vale do Paranhana?
pen4education
Anotação
pen4education
pen4education
AlgoritmosSearchGridCV
CountVectorizer
TfidfTransformer
SVM
SGD
XGBOOST
NaiveBayes
Random Forest
pen4education
Classificação
pen4education
pen4education
pen4education
pen4education
Resultados
pen4education
pen4education
pen4education
ConclusõesEm 7,67% das publicações é possível identificar
menções ao Vale do Paranhana.
pen4education
ConclusõesDos 223.132 documentos extraídos, 52.410 (23,48%) foram classificados para:• Educação• Saúde• Segurança
pen4education
ConclusõesDos 223.132 documentos extraídos, 52.410 (23,48%) foram classificados para:• Educação• Saúde• Segurança Assunto mais mencionado
pen4education
ConclusõesDos 223.132 documentos extraídos, 52.410 (23,48%) foram classificados para:• Educação• Saúde• Segurança Mais opiniões negativas
(83%)
pen4education
ConclusõesDos 223.132 documentos extraídos, 52.410 (23,48%) foram classificados para:• Educação• Saúde• Segurança
Mais opiniões positivas (59%)
pen4education
Obrigado
pen4education