SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Ciro Cavani 
Personalização 
Globo.com 
Plataforma de BigData da Globo. 
com (Sistema de Recomendação) 
Experiência de desenvolvimento 
Rio BigData Meetup 21/10/2014
Sobre mim... 
● Final da Geração X 
● Engenharia de Computação no ITA 
● Startup Mercado Financeiro, PeixeUrbano 
● Globo.com, Personalização 
● PUC-RJ
Globo.com e BigData? 
BigData é a tecnologia que permite tratar um grande volume de dados para 
produção de valor, conhecimento. 
A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e 
Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo 
dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo. 
O time de Personalização desenvolve a Plataforma de BigData usada no 
Sistema de Recomendação para captura de dados e analise do perfil dos 
usuários. 
BigData agora é uma prioridade na Globo.com como uma nova área da 
empresa que deve crescer e desenvolver novos Produtos de Dados.
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Expectativa 
Aumentar a permanência do usuário no site, aumentar o 
número de páginas consumidas, aumentar o engajamento 
do usuário (comentários, compartilhamentos, …) 
Ser capaz de personalizar o conteúdo da Globo.com em 
diversos Produtos, de forma contextualizada. 
Como a gente resolve esse problema? é BigData?
Recomendação 
Filtrar o que é relevante para o Usuário. 
Modelagem de Usuário, Conteúdo, Contexto. 
Avaliação da Recomendação. 
Inspiração 
Netflix, Google News, New York Times, LinkedIn, Amazon
Usuário 
Identidade. 
Conhecimento sobre o Usuário. 
Gostos, Interesses, Mudanças. 
O que é relevante para um Usuário?
Conteúdo 
Jornalismo, Esporte, Pessoas, Eventos, 
Vídeos, Filmes, Publicidade… 
Qual a dinâmica desse conteúdo? Quais 
características são mais relevantes? Como 
usar esse conhecimento?
Recomendação é BigData? 
Dados sobre milhões de Usuários com acessos 
diários (implícito e explícito), histórico. 
Dados sobre milhares de Documentos 
produzidos todo dia, metadados. 
Algoritmos de Recomendação cruzando 
grande parte desses dados, produzindo 
modelos.
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Plataforma de Dados 
Como armazenar grande quantidade de dados e ainda 
fazer processamento intensivo com esses dados? 
Como capturar cada interação que os milhões de 
usuários fazem nos sites e ainda reagir 
‘instantaneamente’? 
Como validar e ter ‘certeza’ de que as mudanças 
estão melhorando as métricas?
Hadoop 
Hadoop2 é dois sistemas: 
● HDFS, sistema de 
arquivos distribuído; 
● YARN, sistema de 
execução distribuído. 
HBase, Pig, Mahout, Solr 
imagem: http://hortonworks.com/hadoop/yarn/
Kafka 
Cluster de distribuição de 
mensagens (bilhões de 
mensagens por dia) criado 
pelo LinkedIn. 
O Kafka se destaca em: 
Performance - alto throughput 
(recebimento, consumo); 
Escalabilidade - muitos 
consumidores, isolamento 
entre consumidores; 
Mensagens pequenas, não 
estruturadas / opacas (bytes). 
image: http://hortonworks.com/hadoop/kafka/
AB 
Teste A/B, Monitoramento 
de desempenho dos 
algoritmos em Produção
MOE 
MOE (Metric Optimization Engine) is 
an efficient way to optimize a system’s 
parameters, when evaluating 
parameters is time-consuming or 
expensive. 
How does MOE work? 
1. Build a Gaussian Process (GP) 
with the historical data 
2. Optimize the hyperparameters 
of the Gaussian Process 
3. Find the point(s) of highest 
Expected Improvement (EI) 
4. Return the point(s) to sample, 
then repeat 
image: http://yelp.github.io/MOE
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Produção de Valor 
Agora que você existe, me fale dos seus 
problemas? 
Compartilhando a Plataforma de BigData 
Consulta Ad-hoc e Interativa aos Dados 
Fomentando Novos Produtos de Dados
Hadoop como Serviço 
Isolamento entre 
Aplicações 
Consulta interativa a 
Dados 
Front-end Amigável 
(Não-programadores) 
imagem: http://gethue.com/
Spark 
http://spark.apache.org/ 
Apache Spark is a fast and general-purpose cluster 
computing system. It provides high-level APIs in Java, 
Scala and Python, and an optimized engine that supports 
general execution graphs. It also supports a rich set of 
higher-level tools including Spark SQL for SQL and 
structured data processing, MLlib for machine 
learning, GraphX for graph processing, and Spark 
Streaming.
Mais Dados 
Data science is the study of the generalizable 
extraction of knowledge from data, yet the key 
word is science. It incorporates varying 
elements and builds on techniques and theories 
from many fields(...) with the goal of extracting 
meaning from data and creating data products. 
The subject is not restricted to only big data, 
although the fact that data is scaling up makes 
big data an important aspect of data science. 
fonte: http://en.wikipedia.org/wiki/Data_science
Globo.com 
Gostou? 
Quer Trabalhar na Globo.com? 
Estamos Contratando 
https://github.com/globocom/IWantToWorkAtGloboCom 
ciro.cavani@corp.globo.com 
https://www.linkedin.com/in/cirocavani

Weitere ähnliche Inhalte

Andere mochten auch (20)

Procurador suzano
Procurador   suzanoProcurador   suzano
Procurador suzano
 
Algorithms
AlgorithmsAlgorithms
Algorithms
 
Durchbruchs Innovationen S4 R
Durchbruchs Innovationen S4 RDurchbruchs Innovationen S4 R
Durchbruchs Innovationen S4 R
 
Sistemas operativos
Sistemas operativosSistemas operativos
Sistemas operativos
 
AngloGold Ashanti Colombia
AngloGold Ashanti ColombiaAngloGold Ashanti Colombia
AngloGold Ashanti Colombia
 
Edital concurso caema,são luis do maranhão
Edital concurso caema,são luis do maranhãoEdital concurso caema,são luis do maranhão
Edital concurso caema,são luis do maranhão
 
Unimed guarulhos julho2012
Unimed guarulhos   julho2012Unimed guarulhos   julho2012
Unimed guarulhos julho2012
 
Código de Processo Penal
Código de Processo PenalCódigo de Processo Penal
Código de Processo Penal
 
Premio embalagemmarca2009
Premio embalagemmarca2009Premio embalagemmarca2009
Premio embalagemmarca2009
 
Curriculo
CurriculoCurriculo
Curriculo
 
La uva
La uvaLa uva
La uva
 
Teología A Distancia
Teología A DistanciaTeología A Distancia
Teología A Distancia
 
TJ/GO Juiz Substituto
TJ/GO Juiz SubstitutoTJ/GO Juiz Substituto
TJ/GO Juiz Substituto
 
Juleblomster
JuleblomsterJuleblomster
Juleblomster
 
Infraero - Guia de Bolso
Infraero - Guia de BolsoInfraero - Guia de Bolso
Infraero - Guia de Bolso
 
Cartilha idoso inss
Cartilha idoso inssCartilha idoso inss
Cartilha idoso inss
 
Juntando corazones
Juntando corazonesJuntando corazones
Juntando corazones
 
110210 care com presentation for poland v2
110210 care com  presentation for poland v2110210 care com  presentation for poland v2
110210 care com presentation for poland v2
 
kurikulum pai 1
kurikulum pai  1kurikulum pai  1
kurikulum pai 1
 
Scrum Sem Papel - MDS Itaú
Scrum Sem Papel - MDS Itaú Scrum Sem Papel - MDS Itaú
Scrum Sem Papel - MDS Itaú
 

Ähnlich wie BigData Globo.com Recomendação Plataforma Dados

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopUniversidade de São Paulo
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeJohn Lemos Forman
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 

Ähnlich wie BigData Globo.com Recomendação Plataforma Dados (20)

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
BigData
BigDataBigData
BigData
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 

BigData Globo.com Recomendação Plataforma Dados

  • 1. Ciro Cavani Personalização Globo.com Plataforma de BigData da Globo. com (Sistema de Recomendação) Experiência de desenvolvimento Rio BigData Meetup 21/10/2014
  • 2. Sobre mim... ● Final da Geração X ● Engenharia de Computação no ITA ● Startup Mercado Financeiro, PeixeUrbano ● Globo.com, Personalização ● PUC-RJ
  • 3. Globo.com e BigData? BigData é a tecnologia que permite tratar um grande volume de dados para produção de valor, conhecimento. A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo. O time de Personalização desenvolve a Plataforma de BigData usada no Sistema de Recomendação para captura de dados e analise do perfil dos usuários. BigData agora é uma prioridade na Globo.com como uma nova área da empresa que deve crescer e desenvolver novos Produtos de Dados.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 10. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 11. Expectativa Aumentar a permanência do usuário no site, aumentar o número de páginas consumidas, aumentar o engajamento do usuário (comentários, compartilhamentos, …) Ser capaz de personalizar o conteúdo da Globo.com em diversos Produtos, de forma contextualizada. Como a gente resolve esse problema? é BigData?
  • 12. Recomendação Filtrar o que é relevante para o Usuário. Modelagem de Usuário, Conteúdo, Contexto. Avaliação da Recomendação. Inspiração Netflix, Google News, New York Times, LinkedIn, Amazon
  • 13. Usuário Identidade. Conhecimento sobre o Usuário. Gostos, Interesses, Mudanças. O que é relevante para um Usuário?
  • 14. Conteúdo Jornalismo, Esporte, Pessoas, Eventos, Vídeos, Filmes, Publicidade… Qual a dinâmica desse conteúdo? Quais características são mais relevantes? Como usar esse conhecimento?
  • 15. Recomendação é BigData? Dados sobre milhões de Usuários com acessos diários (implícito e explícito), histórico. Dados sobre milhares de Documentos produzidos todo dia, metadados. Algoritmos de Recomendação cruzando grande parte desses dados, produzindo modelos.
  • 16. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 17. Plataforma de Dados Como armazenar grande quantidade de dados e ainda fazer processamento intensivo com esses dados? Como capturar cada interação que os milhões de usuários fazem nos sites e ainda reagir ‘instantaneamente’? Como validar e ter ‘certeza’ de que as mudanças estão melhorando as métricas?
  • 18. Hadoop Hadoop2 é dois sistemas: ● HDFS, sistema de arquivos distribuído; ● YARN, sistema de execução distribuído. HBase, Pig, Mahout, Solr imagem: http://hortonworks.com/hadoop/yarn/
  • 19. Kafka Cluster de distribuição de mensagens (bilhões de mensagens por dia) criado pelo LinkedIn. O Kafka se destaca em: Performance - alto throughput (recebimento, consumo); Escalabilidade - muitos consumidores, isolamento entre consumidores; Mensagens pequenas, não estruturadas / opacas (bytes). image: http://hortonworks.com/hadoop/kafka/
  • 20. AB Teste A/B, Monitoramento de desempenho dos algoritmos em Produção
  • 21. MOE MOE (Metric Optimization Engine) is an efficient way to optimize a system’s parameters, when evaluating parameters is time-consuming or expensive. How does MOE work? 1. Build a Gaussian Process (GP) with the historical data 2. Optimize the hyperparameters of the Gaussian Process 3. Find the point(s) of highest Expected Improvement (EI) 4. Return the point(s) to sample, then repeat image: http://yelp.github.io/MOE
  • 22. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 23. Produção de Valor Agora que você existe, me fale dos seus problemas? Compartilhando a Plataforma de BigData Consulta Ad-hoc e Interativa aos Dados Fomentando Novos Produtos de Dados
  • 24. Hadoop como Serviço Isolamento entre Aplicações Consulta interativa a Dados Front-end Amigável (Não-programadores) imagem: http://gethue.com/
  • 25. Spark http://spark.apache.org/ Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala and Python, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.
  • 26. Mais Dados Data science is the study of the generalizable extraction of knowledge from data, yet the key word is science. It incorporates varying elements and builds on techniques and theories from many fields(...) with the goal of extracting meaning from data and creating data products. The subject is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science. fonte: http://en.wikipedia.org/wiki/Data_science
  • 27. Globo.com Gostou? Quer Trabalhar na Globo.com? Estamos Contratando https://github.com/globocom/IWantToWorkAtGloboCom ciro.cavani@corp.globo.com https://www.linkedin.com/in/cirocavani