5 Vs do Big Data
Como as soluções de Big Data têm revolucionado o mercado mundial
Sobre a Semantix
• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.• Especializada em busca, recomendações,
machine learning, processamento de linguagem natural e web semântica.
Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.
• Consultoria Open Source personalizada com profissionais certificados.
• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.
• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
Entre em contato!
Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]
Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
Agenda
Virtude
Volume
Variedade
Velocidade
Valor
Parte 1: Volume
Parte 1: Ponta do Iceberg
99% dos dados estão “debaixo d’água” e não são utilizados nas empresas
Parte 1: Onde colocar tanta informação?
Parte 1: Onde colocar tanta informação?
Parte 1: Onde colocar tanta informação?
Parte 1: Como processar tanta informação?
• Em 2007, o Google processava 400 PB de dados por mês;
• Em 2010, o Facebook processava 100 PB por mês;
• Tecnologia de Big Data é usada por todos os grandes players de internet.
• A partir de 2006, empresas de outros ramos passam a adotar soluções de Big Data nos EUA.
Parte 1: Como tudo começou?
“We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.”
Parte 1: Como tudo começou?
• Google precisava:• Gravar grandes volumes de dados não-estruturados (páginas HTML);• Processar essas páginas para buscar as citações (links) e calcular o
PageRank dessas páginas de acordo com as citações;• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-
IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.
Parte 1: Como tudo começou?
• Google percebeu que:• Informações não cabiam num único servidor;• Servidores quebram eventualmente;• Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.
Parte 1: Como tudo começou?
• Google criou:• Google File System: sistema de arquivo distribuído entre vários servidores
que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir bastante a chance de perda de dados;
• MapReduce: criou um framework que facilitaria para os desenvolvedores extrair informação de dados armazenados no Google File System, de forma paralelizada para aumentar a velocidade
• Engenheiros do Google publicaram papers sobre o GFS e sobre o MapReduce nos anos de 2003 e 2004.
Parte 1: Como tudo começou?
• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca.
• Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web.
• Se depara com o mesmo problema do Google: máquinas quebram.• Solução? Escrever um novo sistema baseado nos papers publicados pelos
engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS.• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com
uma licença Open Source da Fundação Apache.• Surge também uma database NoSQL inspirada em outro projeto do Google, o
BigTable, chamada HBase.
Parte 1: Como tudo começou?
• Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado atualmente.
• Já possui conectores com grandes ferramentas de BI e analytics• Usado também para processamento semântico• Escala horizontalmente para Petabytes de dados• Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce• Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL)
e Pig.
HDFS + MapReduce = HADOOP
Parte 1: Como tudo começou?
Podemos adicionar à lista também as ferramentas Solr (2006) e ElasticSearch (2010) como databases NoSQL com modelo de documentos
e voltadas para Search. Também são ferramentas de Big Data.
Parte 2: Variedade
Parte 2: Variedade
Parte 2: Variedade
Parte 2: Exemplos• Processar imagens de fotos para encontrar textos e catalogá-los
(MapReduce);• Fazer um “join” de dados de log do servidor web com tabelas do banco
de dados para fazer uma análise do que cada usuário está navegando no site (Pig, Hive);
• Buscar em logs de eventos de transações financeiras possíveis anomalias para detecção de fraude (Pig, Hive, MapReduce);
• Analisar o comportamento de milhões de usuários em um determinado serviço para construir data products (Pig, Hive, MapReduce, Tableau, QlikView, R);
• Criar mecanismos de machine learning a partir de avaliações de usuários feitas a produtos ou serviços para gerar recomendações inteligentes (Mahout, R, Octave, MatLab, Streaming);
• Fazer consultas semânticas de texto complexas utilizando ferramentas adequadas e obtendo rápidos resultados tanto para buscas quanto para recomendações inteligentes (Solr, ElasticSearch, Lucene);
Parte 3: VelocidadeAssumption 3: A data set fits on one machine...
Parte 3: A metáfora da colméia
Parte 3: Novos paradigmas
• Sistemas que utilizam muito memória RAM e logs de transações para aumentar a performance e garantir a confiabilidade;
• Computação paralelizada• Escalabilidade de petabytes, em vez de gigabytes• Armazenamento e processamento distribuído• Sistemas de Big Data aumentam a capacidade de sistemas
existentes em vez de substituí-los• Em alguns casos é possível substituir bancos transacionais para
algumas aplicações utilizando bancos de dados NoSQL como Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch dentre outros
• Cada ferramenta de Big Data tem a sua especialização. É necessário conhecer mais do que uma para tirar vantagens.
Parte 4: Virtude
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Simplicidade: “É preciso trabalhar duro para fazer o simples.” Steve
Jobs.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Generosidade: investir sem uma
expectativa de retorno imediata, mas com retorno
no longo prazo
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Caridade: compaixão,
entendimento dos clientes, política de privacidade,
esclarecimento do público
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Vontade: os profissionais
envolvidos devem ter muita vontade
de manipular dados. Data
jujutsu.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Prudência: novamente os
limites da ética. Exemplo do câncer
e da Angelina Jolie. Big Data pode mudar
muitas coisas.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Paciência: é preciso paciência. Desenvolver para Big Data lidar com exceções e muito trabalho amostral é realizado antes
do final.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Humildade: Big Data é uma forma
de autoconhecimento. É necessário ter humildade para aceitar o que os dados mostram.
Parte 5: Valor
Parte 5: Valor
“A vida é a flor da qual o amor é o mel”.
Victor Hugo
Parte 5: Morgan Stanley
• Análise de Portfolio:• Sistemas de database e de grid tradicionais não funcionam• Construíram um sistema baseado em Hadoop com uma infraestrutura barata• Arquitetura escalável para processar dados ainda maiores
• Detecção de fraude:• Análise de logs de banco de dados comparada com análise de logs web• Dados alterados no banco sem correspondência na web ligam um alerta• Economia de bilhões em fraudes.
Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/
Parte 5: Facebook
• Real-Time Big Data Analytics:• Arquitetura MapReduce não é suficiente por não ser real-time• Utilizou soluções que armazenam dados em memória para exibir informações
sobre opções “curtir”• Coloca 80% dos dados em memória• RAM é 100 a 1000x mais rápida do que disco• Coloca o código onde estão os dados• Armazena os dados persistentes após serem processados em bancos como
MySQL, HBase e Cassandra
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
Parte 5: Crossbow
• Genoma e testes genéticos por menos de 100 dólares• Arquitetura MapReduce para processar genes• Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos
de 100 dólares• Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética• Técnicas: detecção de padrões, classificação e cálculo de probabilidades.
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
Parte 5: Netflix
• Série House of Cards• A partir da análise de navegação e reviews, Netflix percebeu que poderia
criar uma série de sucesso;• Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados;• Entendeu que thrillers políticos tinham grande apelo com o seu público;
• Recomendação de filmes• Utiliza machine learning com técnicas de filtro colaborativo e k-nearest
neighbor.• Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o
catálogo é menor, mas ainda assim a precisão é muito boa.
Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data
Parte 5: LinkedIn
• Criou uma série de data products baseados em Hadoop como:• “People you may know” (2 pessoas)• “Year in review email” (1 pessoa, 1 mês)• “Network updates” (1 pessoa, 3 meses)• “Skills and Endorsements” (2 pessoas)• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes
projetos”.
Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop
Parte 5: Amazon
• O grande segredo da Amazon: recomendações• Recomendações por e-mail• Recomendações no momento da compra• Compras casadas• Análise do comportamento dos usuários
Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/
Parte 5: Obama
• Análise de sentimento no Twitter e exército de apoiadores no Facebook• Levantamento de dados de mídias sociais• Análise de sentimento• Alcançar o eleitor certo na hora certa• Diversas técnicas de data science sendo utilizadas
Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/
Parte 5: Ford
• Análise da cadeia de suprimentos e de que features colocará em cada carro• Comportamento dos usuários• Comportamento de compra• Integração com smartphones nos veículos• Carros melhores com dados analisados• Natural Language Processing para analisar comentários e sugestões de
usuários
Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/
Parte 5: Aetna
• Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever doenças• Resultados de exames• Consultas médicas (grafo)• Prevenção de câncer
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Globo.com
• Recomendação de notícias• Recomendação de notícias personalizada para usuários ou de acordo com os
artigos• Utiliza Hadoop, Mahout e Solr• Mais de 100 Gb por dia de log processados• Um dos maiores sites do Brasil em termos de audiência• Cliente Semantix de Big Data
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Doinet.com.br
• Busca de documentos• Mais de 90 milhões de documentos• Consulta com relevância• Cada documento podendo conter mais de 1000 páginas de dados• Formatos variados (PDF, Texto)• Recomendação de conteúdo.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Catho
• Mais de 10 data products de:• Busca (vagas, CVs, Empresas etc)• Recomendação por e-mail• Recomendação no site• Geração de conteúdo• Mais de 4 milhões de currículos• Utiliza Solr para os seus aplicativos de busca.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Como extrair valor?
• Capacitação profissional• Formação de novos Data Scientists• Capacitação nas novas tecnologias• Entendimento das tecnologias para melhor escolha de custo-benefício
• Criação de projetos• Data Scientists criam Data Products
• Data Analytics (dashboards, análises complexas, dados na íntegra em vez de amostras)
• Servidores de Busca• Aplicativos e softwares• Machine Learning
• Fim dos relatórios “executivos” tradicionais• Entrega de produtos que podem ser analisados pelos executivos de forma ad-
hoc e não mais os antigos relatórios impressos• Mudança de cultura em toda a empresa para uma readaptação à nova
realidade.
Parte 5: E a infra?
• Prepare-se para a escalabilidade horizontal.• Privada
• Custos com data center• Masters x Slaves
• Masters requerem muita memória, mas pouco disco, com RAID e gravando dados em NFS para não perder nada.
• Slaves requerem menos memória e CPU e muitos discos. Não vale a pena usar RAID. O melhor é JBOD: Just a Bunch of Disks.
• Pública• AWS (EC2 e EMR)• Azure• Escalabilidade On-Demand
Parte 5: Sem SQL?
• NoSQL no Hadoop: Impala• Capacidade de executar queries SQL em Real-Time• Habilita conservação de dados na memória RAM do Cluster• Consultas complexas de SQL usando álgebra relacional, em vez de
MapReduce (diferente do Hive)• Lançado em 2013
Parte 5: Search & Recommendation
• Solr 4 ou SolrCloud– Escalabilidade horizontal– Habilidade e versatilidade em consulta de dados– Orientada a documentos– Capaz de alimentar sistemas de análise, pois possui
ótimo sistema de agregação de dados (facets)– Alta disponibilidade aliada a alto poder de busca– Foi incorporado pela Cloudera recentemente como
ferramenta para consultar dados em larga escala.
INFINITAS POSSIBILIDADES
Sobre a Semantix
• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.• Especializada em busca, recomendações,
machine learning, processamento de linguagem natural e web semântica.
Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.
• Consultoria Open Source personalizada com profissionais certificados.
• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.
• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
Entre em contato!
Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]
Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
Top Related