SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Downloaden Sie, um offline zu lesen
Recomendação
Recomendação de conteúdo
Em 2010...
Por dentro
Coleta de atividades antes
página visitada Papalog
página visitada Papalog
página visitada Papalog
Coleta de atividades atual
página visitada
tempo assistindo video
compartilhamento
comentário
tempo lendo matéria
Horizon
Gateway
porcentagem de scroll
Parquet e Spark SQL
df.groupBy(df("user"), df("object"))
.agg(first("user"), first("object"), max("scroll"))
.where(df("scroll") > 50)
Processamento paralelo
yarn
Tipos de algoritmos
● Content based
● User based
● Cold start
Content based
Conceito
BBB
Edredon
A
B
C
TF-IDF
Importância do termo no documento
Quão incomum é o termo no acervo
Entidades semânticas
User based
Collaborative filtering
Matriz de preferências
Preferências implícitas
Previsão n-dimensional
Duas dimensões:
f(x) = a + bx
Três dimensões:
f(x) = a + bx'1 + cx'2
N dimensões:
f(x) = a + bx'1 + cx'1 + … nx'n
Fatores latentes
Validação
Cross validation
K-fold cross validation
Força bruta
for (maxIter <- Array(5, 10, 15, 20)) {
for (feature <- Array(10, 20, 30, 40)) {
for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) {
for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {
Root mean square error
F-Score
Métricas por algoritmo
Baseada em testes AB
Resultados
Globo Esporte
BUG :(
Globo Esporte
GShow
75% a mais de
conversão em mobile
que outras ofertas
automáticas
173% a mais de
conversão em
desktop que outras
ofertas automáticas
GShow
TechTudo
TechTudo
+195%
na partipação na
retenção do usuário
em 2014
TechTudo: Home
TechTudo: Home
50% a mais de
conversão em
mobile que outras
ofertas automáticas
32% a mais de
conversão em
desktop que outras
ofertas automáticas
Globosatplay
GlobosatPlay
45% de melhoria
de conversão
@timotta

Weitere ähnliche Inhalte

Mehr von Tiago Albineli Motta

Challenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXChallenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXTiago Albineli Motta
 
Inteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosInteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosTiago Albineli Motta
 
Machine Learning no dia a dia do desenvolvedor (Atualizado)
Machine Learning no dia a dia do desenvolvedor (Atualizado)Machine Learning no dia a dia do desenvolvedor (Atualizado)
Machine Learning no dia a dia do desenvolvedor (Atualizado)Tiago Albineli Motta
 
Machine Learning no dia a dia do desenvolvedor
Machine Learning no dia a dia do desenvolvedorMachine Learning no dia a dia do desenvolvedor
Machine Learning no dia a dia do desenvolvedorTiago Albineli Motta
 
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayMachine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayTiago Albineli Motta
 
A ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoA ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoTiago Albineli Motta
 
Recomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comRecomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comTiago Albineli Motta
 
Testes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTestes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTiago Albineli Motta
 

Mehr von Tiago Albineli Motta (17)

Multi Armed Bandit
Multi Armed BanditMulti Armed Bandit
Multi Armed Bandit
 
Challenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXChallenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLX
 
Inteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosInteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dados
 
Machine Learning no dia a dia do desenvolvedor (Atualizado)
Machine Learning no dia a dia do desenvolvedor (Atualizado)Machine Learning no dia a dia do desenvolvedor (Atualizado)
Machine Learning no dia a dia do desenvolvedor (Atualizado)
 
Machine Learning no dia a dia do desenvolvedor
Machine Learning no dia a dia do desenvolvedorMachine Learning no dia a dia do desenvolvedor
Machine Learning no dia a dia do desenvolvedor
 
Experimentation anti patterns
Experimentation anti patternsExperimentation anti patterns
Experimentation anti patterns
 
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayMachine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
 
A ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoA ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendação
 
xCLiMF
xCLiMFxCLiMF
xCLiMF
 
Rastros digitais
Rastros digitaisRastros digitais
Rastros digitais
 
Recomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comRecomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.com
 
Otimizando seu projeto Rails
Otimizando seu projeto RailsOtimizando seu projeto Rails
Otimizando seu projeto Rails
 
Meta-programacao em python
Meta-programacao em pythonMeta-programacao em python
Meta-programacao em python
 
Testes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTestes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e Porque
 
Redis na Prática
Redis na PráticaRedis na Prática
Redis na Prática
 
Dinamizando Sites Estáticos
Dinamizando Sites EstáticosDinamizando Sites Estáticos
Dinamizando Sites Estáticos
 
Escalando Sites com Nginx
Escalando Sites com NginxEscalando Sites com Nginx
Escalando Sites com Nginx
 

Recomendação na Globo.com

Hinweis der Redaktion

  1. Referências em recomendação. Netflix e Amazon as mais reconhecidas pelo sucesso comercial.
  2. Explicar aqui o histórico, como começou lá em 2010 em webmedia, e diversas iniciativas de recomendação não personalizada e social.
  3. Apache recebe pageview e grava o log em um filer. Esse log é lido pelo papalog e as informações são consolidadas no redis.
  4. Explicar como coletamos atividades dos usuário através do horizon e as guardamos em nosso cluster hadoop. Informações que já trackeamos: pageviews, videoviews (todos plays, pauses e seeks), informações de scroll, tempo de leitura. Mencionar Parquet que é um formato de dados baseado no paper de bigquery do google.
  5. Exemplo de query no parquet com groupBy aggregação e filtro. Busca o maior scroll de cada usuario/objeto que seja mais de 50%
  6. Jobs spark fazem queries no parquet e gravam resultados no hbase e redis
  7. Explicar como funciona a extração do TF-IDF por documento
  8. Mostrar a importância de semantica e boa anotação de conteúdo para gerar um perfil relevante sobre usuário.
  9. Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
  10. Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
  11. Explicar como o objetivo da recomendação é prever o comportamento do usuário, iniciar por previsões simples como descobrir custo de uma casa de acordo com área. Depois em tres dimensões, custo dela de acordo com a área e a idade. Depois em n-dimensões… Mostrar como isso se aplica aos gostos do usuário. Falar da técnica de gradient descent para encontrar o erro minimo e a equação correta.
  12. ALS - Alternating leasts squares resolve as matrizes de usuarios e itens usando uma para gerar a outra alternadamente até alcançar o menor erro.
  13. O RMSE serve para verificar o quão erradas estão as preferências previstas pelo nosso algoritmo. Como nosso intuito na recomendação não é acertar esse valor, talvez essa métrica sirva mais para identificar underfittings e overfittings.
  14. Com o fscore podemos comparar qual melhor algoritmo de acordo com a precisão e a sensibilidade. Essa equação resolve dois problemas, se eu retornasse todos documentos, ou se um usuario viu muitos documentos.
  15. Explicar como a recomendação de cada produto é acompanhada diariamente e melhorada em novos experimentos
  16. Na aba pra você do globo esporte
  17. Na home desktop e na home mobile
  18. Na lateral da matéria do TechTudo
  19. Na lateral da matéria do TechTudo
  20. Na home e na página de vídeos