A proposta dessa palestra é fundamentar alguns conceitos de BigData e explorar a dinâmica de como tratar um grande volume de dados para extrair valor. A ideia é apresentar a solução de dados na Plataforma de BigData da Globo.com usada pelo Sistema de Recomendação e comentar a experiência do seu desenvolvimento.
1. Ciro Cavani
Personalização
Globo.com
Plataforma de BigData da Globo.
com (Sistema de Recomendação)
Experiência de desenvolvimento
Rio BigData Meetup 21/10/2014
2. Sobre mim...
● Final da Geração X
● Engenharia de Computação no ITA
● Startup Mercado Financeiro, PeixeUrbano
● Globo.com, Personalização
● PUC-RJ
3. Globo.com e BigData?
BigData é a tecnologia que permite tratar um grande volume de dados para
produção de valor, conhecimento.
A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e
Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo
dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo.
O time de Personalização desenvolve a Plataforma de BigData usada no
Sistema de Recomendação para captura de dados e analise do perfil dos
usuários.
BigData agora é uma prioridade na Globo.com como uma nova área da
empresa que deve crescer e desenvolver novos Produtos de Dados.
4.
5.
6.
7.
8.
9. Agenda
1. Recomendação
(problema)
2. Plataforma de Dados
(solução)
3. Produção de Valor
(visão)
10. Agenda
1. Recomendação
(problema)
2. Plataforma de Dados
(solução)
3. Produção de Valor
(visão)
11. Expectativa
Aumentar a permanência do usuário no site, aumentar o
número de páginas consumidas, aumentar o engajamento
do usuário (comentários, compartilhamentos, …)
Ser capaz de personalizar o conteúdo da Globo.com em
diversos Produtos, de forma contextualizada.
Como a gente resolve esse problema? é BigData?
12. Recomendação
Filtrar o que é relevante para o Usuário.
Modelagem de Usuário, Conteúdo, Contexto.
Avaliação da Recomendação.
Inspiração
Netflix, Google News, New York Times, LinkedIn, Amazon
14. Conteúdo
Jornalismo, Esporte, Pessoas, Eventos,
Vídeos, Filmes, Publicidade…
Qual a dinâmica desse conteúdo? Quais
características são mais relevantes? Como
usar esse conhecimento?
15. Recomendação é BigData?
Dados sobre milhões de Usuários com acessos
diários (implícito e explícito), histórico.
Dados sobre milhares de Documentos
produzidos todo dia, metadados.
Algoritmos de Recomendação cruzando
grande parte desses dados, produzindo
modelos.
16. Agenda
1. Recomendação
(problema)
2. Plataforma de Dados
(solução)
3. Produção de Valor
(visão)
17. Plataforma de Dados
Como armazenar grande quantidade de dados e ainda
fazer processamento intensivo com esses dados?
Como capturar cada interação que os milhões de
usuários fazem nos sites e ainda reagir
‘instantaneamente’?
Como validar e ter ‘certeza’ de que as mudanças
estão melhorando as métricas?
18. Hadoop
Hadoop2 é dois sistemas:
● HDFS, sistema de
arquivos distribuído;
● YARN, sistema de
execução distribuído.
HBase, Pig, Mahout, Solr
imagem: http://hortonworks.com/hadoop/yarn/
19. Kafka
Cluster de distribuição de
mensagens (bilhões de
mensagens por dia) criado
pelo LinkedIn.
O Kafka se destaca em:
Performance - alto throughput
(recebimento, consumo);
Escalabilidade - muitos
consumidores, isolamento
entre consumidores;
Mensagens pequenas, não
estruturadas / opacas (bytes).
image: http://hortonworks.com/hadoop/kafka/
20. AB
Teste A/B, Monitoramento
de desempenho dos
algoritmos em Produção
21. MOE
MOE (Metric Optimization Engine) is
an efficient way to optimize a system’s
parameters, when evaluating
parameters is time-consuming or
expensive.
How does MOE work?
1. Build a Gaussian Process (GP)
with the historical data
2. Optimize the hyperparameters
of the Gaussian Process
3. Find the point(s) of highest
Expected Improvement (EI)
4. Return the point(s) to sample,
then repeat
image: http://yelp.github.io/MOE
22. Agenda
1. Recomendação
(problema)
2. Plataforma de Dados
(solução)
3. Produção de Valor
(visão)
23. Produção de Valor
Agora que você existe, me fale dos seus
problemas?
Compartilhando a Plataforma de BigData
Consulta Ad-hoc e Interativa aos Dados
Fomentando Novos Produtos de Dados
24. Hadoop como Serviço
Isolamento entre
Aplicações
Consulta interativa a
Dados
Front-end Amigável
(Não-programadores)
imagem: http://gethue.com/
25. Spark
http://spark.apache.org/
Apache Spark is a fast and general-purpose cluster
computing system. It provides high-level APIs in Java,
Scala and Python, and an optimized engine that supports
general execution graphs. It also supports a rich set of
higher-level tools including Spark SQL for SQL and
structured data processing, MLlib for machine
learning, GraphX for graph processing, and Spark
Streaming.
26. Mais Dados
Data science is the study of the generalizable
extraction of knowledge from data, yet the key
word is science. It incorporates varying
elements and builds on techniques and theories
from many fields(...) with the goal of extracting
meaning from data and creating data products.
The subject is not restricted to only big data,
although the fact that data is scaling up makes
big data an important aspect of data science.
fonte: http://en.wikipedia.org/wiki/Data_science