Recomendação na Globo.com

•

8 gefällt mir•1,707 views

O documento discute recomendação de conteúdo usando diferentes algoritmos como content based, user based e cold start. Ele também descreve métodos de processamento paralelo, validação e métricas para avaliar os resultados dos algoritmos de recomendação.

Internet

Coleta de atividades antes
página visitada Papalog
página visitada Papalog
página visitada Papalog

Coleta de atividades atual
página visitada
tempo assistindo video
compartilhamento
comentário
tempo lendo matéria
Horizon
Gateway
porcentagem de scroll

Parquet e Spark SQL
df.groupBy(df("user"), df("object"))
.agg(first("user"), first("object"), max("scroll"))
.where(df("scroll") > 50)

Tipos de algoritmos
● Content based
● User based
● Cold start

TF-IDF
Importância do termo no documento
Quão incomum é o termo no acervo

Previsão n-dimensional
Duas dimensões:
f(x) = a + bx
Três dimensões:
f(x) = a + bx'1 + cx'2
N dimensões:
f(x) = a + bx'1 + cx'1 + … nx'n

Força bruta
for (maxIter <- Array(5, 10, 15, 20)) {
for (feature <- Array(10, 20, 30, 40)) {
for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) {
for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {

75% a mais de
conversão em mobile
que outras ofertas
automáticas
173% a mais de
conversão em
desktop que outras
ofertas automáticas
GShow

TechTudo
+195%
na partipação na
retenção do usuário
em 2014

TechTudo: Home
50% a mais de
conversão em
mobile que outras
ofertas automáticas
32% a mais de
conversão em
desktop que outras
ofertas automáticas

GlobosatPlay
45% de melhoria
de conversão

Weitere ähnliche Inhalte

Mehr von Tiago Albineli Motta

Multi Armed BanditTiago Albineli Motta

Challenges and research for a real-time recommendation at OLXTiago Albineli Motta

Inteligência Artificial: Da ciência da computação à ciência de dadosTiago Albineli Motta

Machine Learning no dia a dia do desenvolvedor (Atualizado)Tiago Albineli Motta

Machine Learning no dia a dia do desenvolvedorTiago Albineli Motta

Experimentation anti patternsTiago Albineli Motta

Machine Learning e experimentos online para evitar o cancelamento no GloboPlayTiago Albineli Motta

A ciência de dados por traz de sistemas de recomendaçãoTiago Albineli Motta

xCLiMFTiago Albineli Motta

Rastros digitaisTiago Albineli Motta

Recomendação de ponta a ponta na Globo.comTiago Albineli Motta

Otimizando seu projeto RailsTiago Albineli Motta

Meta-programacao em pythonTiago Albineli Motta

Testes unitários e de integração: Quando e PorqueTiago Albineli Motta

Redis na PráticaTiago Albineli Motta

Dinamizando Sites EstáticosTiago Albineli Motta

Escalando Sites com NginxTiago Albineli Motta

Mehr von Tiago Albineli Motta (17)

Multi Armed Bandit

Challenges and research for a real-time recommendation at OLX

Inteligência Artificial: Da ciência da computação à ciência de dados

Machine Learning no dia a dia do desenvolvedor (Atualizado)

Machine Learning no dia a dia do desenvolvedor

Experimentation anti patterns

Machine Learning e experimentos online para evitar o cancelamento no GloboPlay

A ciência de dados por traz de sistemas de recomendação

xCLiMF

Rastros digitais

Recomendação de ponta a ponta na Globo.com

Otimizando seu projeto Rails

Meta-programacao em python

Testes unitários e de integração: Quando e Porque

Redis na Prática

Dinamizando Sites Estáticos

Escalando Sites com Nginx

Recomendação na Globo.com

1. Recomendação

2. Recomendação de conteúdo

3. Em 2010...

4. Por dentro

5. Coleta de atividades antes página visitada Papalog página visitada Papalog página visitada Papalog

6. Coleta de atividades atual página visitada tempo assistindo video compartilhamento comentário tempo lendo matéria Horizon Gateway porcentagem de scroll

7. Parquet e Spark SQL df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)

8. Processamento paralelo yarn

9. Tipos de algoritmos ● Content based ● User based ● Cold start

10. Content based

11. Conceito BBB Edredon A B C

12. TF-IDF Importância do termo no documento Quão incomum é o termo no acervo

13. Entidades semânticas

14. User based

15. Collaborative filtering

16. Matriz de preferências

17. Preferências implícitas

18. Previsão n-dimensional Duas dimensões: f(x) = a + bx Três dimensões: f(x) = a + bx'1 + cx'2 N dimensões: f(x) = a + bx'1 + cx'1 + … nx'n

19. Fatores latentes

20. Validação

21. Cross validation

22. K-fold cross validation

23. Força bruta for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {

24. Root mean square error

25. F-Score

26. Métricas por algoritmo

27. Baseada em testes AB

28. Resultados

29. Globo Esporte

30. BUG :( Globo Esporte

31. GShow

32. 75% a mais de conversão em mobile que outras ofertas automáticas 173% a mais de conversão em desktop que outras ofertas automáticas GShow

33. TechTudo

34. TechTudo +195% na partipação na retenção do usuário em 2014

35. TechTudo: Home

36. TechTudo: Home 50% a mais de conversão em mobile que outras ofertas automáticas 32% a mais de conversão em desktop que outras ofertas automáticas

37. Globosatplay

38. GlobosatPlay 45% de melhoria de conversão

39. @timotta

Hinweis der Redaktion

Referências em recomendação. Netflix e Amazon as mais reconhecidas pelo sucesso comercial.
Explicar aqui o histórico, como começou lá em 2010 em webmedia, e diversas iniciativas de recomendação não personalizada e social.
Apache recebe pageview e grava o log em um filer. Esse log é lido pelo papalog e as informações são consolidadas no redis.
Explicar como coletamos atividades dos usuário através do horizon e as guardamos em nosso cluster hadoop. Informações que já trackeamos: pageviews, videoviews (todos plays, pauses e seeks), informações de scroll, tempo de leitura. Mencionar Parquet que é um formato de dados baseado no paper de bigquery do google.
Exemplo de query no parquet com groupBy aggregação e filtro. Busca o maior scroll de cada usuario/objeto que seja mais de 50%
Jobs spark fazem queries no parquet e gravam resultados no hbase e redis
Explicar como funciona a extração do TF-IDF por documento
Mostrar a importância de semantica e boa anotação de conteúdo para gerar um perfil relevante sobre usuário.
Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
Explicar como o objetivo da recomendação é prever o comportamento do usuário, iniciar por previsões simples como descobrir custo de uma casa de acordo com área. Depois em tres dimensões, custo dela de acordo com a área e a idade. Depois em n-dimensões… Mostrar como isso se aplica aos gostos do usuário. Falar da técnica de gradient descent para encontrar o erro minimo e a equação correta.
ALS - Alternating leasts squares resolve as matrizes de usuarios e itens usando uma para gerar a outra alternadamente até alcançar o menor erro.
O RMSE serve para verificar o quão erradas estão as preferências previstas pelo nosso algoritmo. Como nosso intuito na recomendação não é acertar esse valor, talvez essa métrica sirva mais para identificar underfittings e overfittings.
Com o fscore podemos comparar qual melhor algoritmo de acordo com a precisão e a sensibilidade. Essa equação resolve dois problemas, se eu retornasse todos documentos, ou se um usuario viu muitos documentos.
Explicar como a recomendação de cada produto é acompanhada diariamente e melhorada em novos experimentos
Na aba pra você do globo esporte
Na home desktop e na home mobile
Na lateral da matéria do TechTudo
Na lateral da matéria do TechTudo
Na home e na página de vídeos

Recomendação na Globo.com

Empfohlen

Weitere ähnliche Inhalte

Mehr von Tiago Albineli Motta

Mehr von Tiago Albineli Motta (17)

Recomendação na Globo.com

Hinweis der Redaktion