INSTITUCIONAL | Data science no marketing estatística e computação para entender o consumidor...

40
DATA SCIENCE NO MARKETING Estatística e Computação para entender o consumidor

Transcript of INSTITUCIONAL | Data science no marketing estatística e computação para entender o consumidor...

DATA SCIENCE NO MARKETING Estatística e Computação para entender o consumidor

POR QUE PRECISAMOS DE DATA SCIENCE NO MARKETING?

Leo [email protected] na DP6Professor ESPM

PARA DESCREVER, ANALISAR E ENTENDER

Estatística descritiva­ Distribuição­ Dispersão, Média, Mediana, Desvio-Padrão

Reporting­ Geração de relatórios­ Agrupamentos, Drill-down

Dashboards­ Alertas visuais

Data Visualization­ Análise gráfica

PARA PROJETAR O FUTURO

Análise de Séries Temporais­ ARIMA

Regressão­ Simples­ Multivariada

Decomposição­ Tendência­ Sazonalidade­ Erro

PARA ESTIMAR RESULTADOS E RELAÇÕES

Regressão linear­ Simples­ Multivariada

Regressão Logística

Conjoint Analysis­ Precificação baseada em valor

PARA CLASSIFICAR MENSAGENS

Classificação de conteúdo em redessociais­ Categorias e Sentimentos­ SVM – Support Vector Machines

Identificar SPAM­ Naive Bayes

Árvores de decisão, Random Forests, etc

PARA AGRUPAR CONSUMIDORES

Identificar automaticamente elementos em comum­ Agrupamento hierárquico

Identificar grupos diferentes naturalmente­ k-Means

PARA SUGERIR PRODUTOS

Identificar compras comuns­ Basket Analysis­ Regras de associação

Identificar preferências comuns­ Filtragem colaborativa

ESTATÍSTICA APLICADA NO MARKETING Decisões racionais baseadas emdados

MEDIA MIX MODELLING: OTIMIZANDO O ORÇAMENTO DE MÍDIA MATEMATICAMENTE

1/6/

145/

6/14

9/6/

146/

13/2

014

6/17

/201

46/

21/2

014

6/25

/201

46/

29/2

014

3/7/

147/

7/14

11/7

/14

7/15

/201

47/

19/2

014

7/23

/201

47/

27/2

014

7/31

/201

44/

8/14

8/8/

1412

/8/1

48/

16/2

014

8/20

/201

48/

24/2

014

8/28

/201

41/

9/14

5/9/

149/

9/14

9/13

/201

49/

17/2

014

9/21

/201

49/

25/2

014

9/29

/201

43/

10/1

47/

10/1

411

/10/

1410

/15/

2014

10/1

9/20

1410

/23/

2014

10/2

7/20

1410

/31/

2014

4/11

/14

8/11

/14

12/1

1/14

11/1

6/20

1411

/20/

2014

11/2

4/20

1411

/28/

2014

2/12

/14

6/12

/14

10/1

2/14

12/1

4/20

1412

/18/

2014

12/2

2/20

1412

/26/

2014

12/3

0/20

14

TV Investment Online Media Investment Always On InvestmentTotal Visits Normalized Total Leads Normalized

COM ESTATÍSTICA, REGRESSÕES E CORRELAÇÕES ÉPOSSÍVEL ENXERGAR AS RELAÇÕES ENTRE AS SÉRIESDE DADOS

O RESULTADO SÃO PARÂMETROS QUE PERMITEMPREVER O RESULTADO DE ACORDO COM O INVESTIMENTO

Vendas = 5.000 (base) + 0.0067 * Investimento TV + 0.0375 * Investimento Online + 0.0082 * Investimento Social

QUE DADOS INCLUIR NO M.M.M?

Media Mix

Model

Dados de Investimento

(quebrado por dia, hora, canal, região,

etc)

Dados relacionados(sazonalides,

programações, eventos

importantes, etc)

Dados de resultados

(conversões, compras, receita)

Ferramenta para análise estatística

(Excel, Google Sheets, R, etc)

MAS A REALIDADE É MAIS COMPLEXA QUE O M.M.M

ENTRANDO A FUNDO NO CICLO DIGITAL, VEMOS QUE O ÚLTIMO PASSO NÃO É O ÚNICO RESPONSÁVEL PELA DECISÃO Last Click

Banner no Portal

X

Acessou FanPage

Clicou em link no twitter

Procurou no Google

Link Patrocinado

Comprou o

produto

CADA MODELO DEVE SER ESCOLHIDO DE ACORDOCOM A IMPORTÂNCIA DA ETAPA NA JORNADA

Primeiro clickÚltimo click Linear

Posicional Desvalorização Temporal Personalizado

E SE COLOCARMOS INTELIGÊNCIA ARTIFICIAL PARA ENCONTRAR O MODELO PERFEITO PARA NOSSOPRODUTO?

VISUAL IQ: MÉTRICAS ON E OFF-LINE COM MACHINE LEARNING PARA RECOMENDAR O INVESTIMENTO IDEAL

MARKETSHARE: FAZ O MESMO COM MODELO DE ATRIBUIÇÃO + MMM

ADOMETRY: ANALIZA O IMPACTO DAS VEICULAÇÕESDE TV NAS BUSCAS E NAS CONVERSÕES PARA APRIMORAR A ATRIBUIÇÃO

DEEP LEARNING Criando máquinas profundasque criam seus próprios modelos

O PROBLEMA: TRANSFORMAR OS TEXTOS EM NÚMEROS

Texto 3 Texto N

Texto 2Texto 1Categorias

Sentimentos

Tópicos

Temas

Padrões de classificação

Classificaçãomanual

Categoria 1 Categoria 2 Categoria 3 Categoria N

Transformando palavras em números

Centenas, Milhares de menções, posts

E GERAR INTELIGÊNCIA PARA NOSSAS DECISÕES

COMO FAZEMOS ATUALMENTE?Classificação Manual

Regras automáticas (por palavras-chave, etc)

MAS PODEMOS FAZER MELHOR!

Texto 3 Texto N

Texto 2Texto 1

Centenas, Milhares de menções, posts

Categoria 1 Categoria 2 Categoria 3 Categoria N

Transformando palavras em números

Classificaçãoautomática

Método Supervisionado

Processamento de linguagem natural

(NLP)

Filtro por palavras-chave Análise semântica Base ontológica

Utiliza algoritmos e estatística para avaliar o significado de palavras e suas relações em uma sentença

Necessita de atualização da base de dados utilizada

TÉCNICAS COMUNS

MACHINE LEARNING: COMPUTADORES TRABALHANDO COMO NÓS E PARA NÓS…

k-Means

Naive Bayes

Árvores de decisão

Singular Value Decomposition (SVD)

Support Vector Machines (SVM)

TF-IDF

Semântica latente

= Algoritmos e técnicasde Data Mining / Text Mining para

processar conteúdo

QUE FERRAMENTAS ESTÃO DISPONÍVEIS?

FerramentasOpen-Source

FerramentasComerciais

FrameworksDeep Learning

DESAFIOS DA CLASSIFICAÇÃO DE TEXTOS E DOCUMENTOS

*Mais desafios em: A Review of Machine Learning Algorithms for Text-DocumentsClassification – A. Kahn, B. Baharudin, L. Hong Lee, K. Khan

Tokenização, ou a corretadivisão das frases em palavrassimples ou compostas que façam

sentido.“pau de selfie”

Características do discurso, clareza da informação.

Regionalismos, uai!Ironias, Sarcasmos e #sqn

Contexto do conteúdo: político, econômico, social, midiático

#meuamigosecreto

Gramática e Sintaxe, normalização para agruparsinônimos e erros de grafia.Manga, Manga e Mangá.

Você, Voce e Vc

Entidades do conteúdo: Hashtags, Geotags, Nomes,

Links, etchttp, checkins,

#oqueeuquisdizernumahashtag

E ESSE DESAFIO?

VAMOS TESTAR!

Ferramenta de monitoramento

CLASSIFICAMOS 1MIL MENÇÕES E COMPARAMOS:• Baseada em NLPFerramenta de

Monitoramento

• NLP avançadoSemantria

• Algoritmo de classificação em multi-categorias

Google Prediction

Bases Históricas

• Base1: 15 mil• Base2: 100mil

Classificação

• Sentimento em 4 classes• Positivo, Negativo, Neutro, Inválido

OS RESULTADOS

Ferramenta de monitoramento

Base: 2,6MM

14%Semantria (NLP)

Análise semântica e ontológica –tamanho da base desconhecida

41%Google Prediction

Base: 15mil

56%Google Prediction

Base: 100mil

64%

Tempo para classificação automática (1 mil menções): real-time

Acurácia comparada à classificação manual

Tempo para classificação manual (1 mil menções): 3 horas

É POSSÍVEL APERFEIÇOAR O MODELO, AJUSTANDO OS CONJUNTOS DE DADOS

O GOOGLE PREDICTION USA DEEP LEARNINGPARA REGRESSÃO E CLASSIFICAÇÃO

UMA CHAMADA TREINA O MODELO, A OUTRA REALIZA A CLASSIFICAÇÃOTreino Classificação

COMO FAZER O PROCESSO COMPLETO?

Coleta de dados de redes sociais

Amostragem aleatória

Classificação humana da

amostraCriação de

Modelo Preditivo

Treinamento do modelo com os

dados classificados

Validação da performance do

Modelo

Análise preditiva baseada no

modelo

QUER TESTAR TAMBÉM?dp6.bi/listening-prediction

CLOUD VISION API: DEEP LEARNING PARA IMAGENSPermite processar imagens em tempo real

Identifica:­ Elementos­ Textos­ Faces­ Pontos Turísticos­ Logomarcas­ Características da imagem

OBRIGADO [email protected]