SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Big Data na globo.com
Como estamos revolucionando com dados o
maior portal do Brasil
@renan_oliveira
dev version
www.renanoliveira.net
Eventos
• 3 bilhões de eventos diários
• 50 milhões de usuários únicos por mês
• +100 mil novos conteúdos por mês
O que fazemos?
RECOMENDAÇÃO ANALYTICS PIPELINE
• Lambda: Streaming + Batch
• APIs com tempo de resposta em ms
• Ferramentas de analise de dados
• MapReduce está morto :)
• Cuidado com HIVE Metastore :)
Arquitetura
Consumo do Kafka
• Usamos Spark Streaming
• Quase em tempo real
• Usamos para escrever os Parquets
• Algoritmos de atualização constante
Batch
• Usamos Spark + MLlib
• Lemos de vários parquets (pv, track..)
• Maioria dos algoritmos
• Salvamos em outros bancos para
facilitar o consumo nas APIs
ANÁLISE AD-HOC
object SparkExample extends App {
val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
val sql = new SQLContext(sc)
import sql.implicits._
val df_imp = sqlContext.read.parquet(“…”)
val expCount = df_imp.groupBy(df_imp.exp).count()
expCount.write.save(“…”)
}
object SparkExample extends App {
val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
val sql = new SQLContext(sc)
import sql.implicits._
val df_imp = sqlContext.read.parquet(“…”)
val expCount = df_imp.groupBy(df_imp.exp).count()
expCount.write.save(“…”)
}
val df_imp = sqlContext.read.parquet("/
namenode/impressions/2016042510")
object SparkExample extends App {
val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
val sql = new SQLContext(sc)
import sql.implicits._
val df_imp = sqlContext.read.parquet(“…”)
val expCount = df_imp.groupBy(df_imp.exp).count()
expCount.write.save(“…”)
}
val df_imp = sqlContext.read.parquet("/
namenode/impressions/2016042510")
val expCount =
df_imp.groupBy(df_imp.experiment).count(
).orderBy(desc("count")).head(10)
object SparkExample extends App {
val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
val sql = new SQLContext(sc)
import sql.implicits._
val df_imp = sqlContext.read.parquet(“…”)
val expCount = df_imp.groupBy(df_imp.exp).count()
expCount.write.save(“…”)
}
expCount.write.save("/namenode/
exp_count/x.parquet")
WORKFLOW
Globo AB
• 100 mil recomendações por minuto
• 15 ms de tempo de resposta (p50)
• +200 testes A/B nos últimos 2 anos
• +20 algoritmos diferentes
Números
Algoritmos
• Collaborative Filtering
• Content-Based
• Matrix Factorization - ALS
*Dados extraídos em maio de 2016
+30%+52%
*Dados extraídos em maio de 2016
+105% +40%
13.2%
feed
editorial
Maior diversidade
feed
recomendado
100%
*matérias que foram para o feed
Obrigado
renanoliveira.net
grandesdados.com
talentos.globo.com

Weitere ähnliche Inhalte

Was ist angesagt?

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...tdc-globalcode
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comtdc-globalcode
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura
 

Was ist angesagt? (7)

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
Google BigQuery
Google BigQueryGoogle BigQuery
Google BigQuery
 

Ähnlich wie Big Data na Globo.com - Dev Version - 2016

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
Arquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningArquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningFelipe Santos
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao KafkaDavi Alves
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data tdc-globalcode
 
Seus logs nas costas largas da AWS
Seus logs nas costas largas da AWSSeus logs nas costas largas da AWS
Seus logs nas costas largas da AWSMarcelo Palladino
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingRicardo de Avila Amaral
 
Big data e globo.com - Uma visão sobre a cultura de dados
Big data e globo.com - Uma visão sobre a cultura de dadosBig data e globo.com - Uma visão sobre a cultura de dados
Big data e globo.com - Uma visão sobre a cultura de dadosRenan Moreira de Oliveira
 
Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...
Qconsp 2016   escalando uma plataforma de e-mail transacional- aprendizado da...Qconsp 2016   escalando uma plataforma de e-mail transacional- aprendizado da...
Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...fabio perrella
 
Escalando uma plataforma de e-mail transacional- aprendizado das trincheiras
Escalando uma plataforma de e-mail transacional- aprendizado das trincheirasEscalando uma plataforma de e-mail transacional- aprendizado das trincheiras
Escalando uma plataforma de e-mail transacional- aprendizado das trincheirasCelso Crivelaro
 

Ähnlich wie Big Data na Globo.com - Dev Version - 2016 (20)

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
 
Arquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningArquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine Learning
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao Kafka
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Arquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXIArquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXI
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
 
Seus logs nas costas largas da AWS
Seus logs nas costas largas da AWSSeus logs nas costas largas da AWS
Seus logs nas costas largas da AWS
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark Streaming
 
Big data e globo.com - Uma visão sobre a cultura de dados
Big data e globo.com - Uma visão sobre a cultura de dadosBig data e globo.com - Uma visão sobre a cultura de dados
Big data e globo.com - Uma visão sobre a cultura de dados
 
Bancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWSBancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWS
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...
Qconsp 2016   escalando uma plataforma de e-mail transacional- aprendizado da...Qconsp 2016   escalando uma plataforma de e-mail transacional- aprendizado da...
Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...
 
Escalando uma plataforma de e-mail transacional- aprendizado das trincheiras
Escalando uma plataforma de e-mail transacional- aprendizado das trincheirasEscalando uma plataforma de e-mail transacional- aprendizado das trincheiras
Escalando uma plataforma de e-mail transacional- aprendizado das trincheiras
 

Mehr von Renan Moreira de Oliveira

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServicePicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServiceRenan Moreira de Oliveira
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Renan Moreira de Oliveira
 
Transição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveTransição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveRenan Moreira de Oliveira
 
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Renan Moreira de Oliveira
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comRenan Moreira de Oliveira
 

Mehr von Renan Moreira de Oliveira (15)

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServicePicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
AI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerceAI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerce
 
RecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendationRecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendation
 
Data science Framework
Data science FrameworkData science Framework
Data science Framework
 
iFood Recommendations
iFood RecommendationsiFood Recommendations
iFood Recommendations
 
Sistemas de Recomendação
Sistemas de RecomendaçãoSistemas de Recomendação
Sistemas de Recomendação
 
What is AB, MVT and MAB?
What is AB, MVT and MAB?What is AB, MVT and MAB?
What is AB, MVT and MAB?
 
Dados importam, seja data-driven!
Dados importam, seja data-driven!Dados importam, seja data-driven!
Dados importam, seja data-driven!
 
Machine Learning na globo-com
Machine Learning na globo-comMachine Learning na globo-com
Machine Learning na globo-com
 
Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 
Transição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveTransição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suave
 
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.com
 

Big Data na Globo.com - Dev Version - 2016

  • 1. Big Data na globo.com Como estamos revolucionando com dados o maior portal do Brasil @renan_oliveira dev version www.renanoliveira.net
  • 2. Eventos • 3 bilhões de eventos diários • 50 milhões de usuários únicos por mês • +100 mil novos conteúdos por mês
  • 3. O que fazemos? RECOMENDAÇÃO ANALYTICS PIPELINE
  • 4.
  • 5. • Lambda: Streaming + Batch • APIs com tempo de resposta em ms • Ferramentas de analise de dados • MapReduce está morto :) • Cuidado com HIVE Metastore :) Arquitetura
  • 6.
  • 7. Consumo do Kafka • Usamos Spark Streaming • Quase em tempo real • Usamos para escrever os Parquets • Algoritmos de atualização constante
  • 8. Batch • Usamos Spark + MLlib • Lemos de vários parquets (pv, track..) • Maioria dos algoritmos • Salvamos em outros bancos para facilitar o consumo nas APIs
  • 10. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) }
  • 11. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } val df_imp = sqlContext.read.parquet("/ namenode/impressions/2016042510")
  • 12. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } val df_imp = sqlContext.read.parquet("/ namenode/impressions/2016042510") val expCount = df_imp.groupBy(df_imp.experiment).count( ).orderBy(desc("count")).head(10)
  • 13. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } expCount.write.save("/namenode/ exp_count/x.parquet")
  • 15.
  • 16.
  • 18.
  • 19. • 100 mil recomendações por minuto • 15 ms de tempo de resposta (p50) • +200 testes A/B nos últimos 2 anos • +20 algoritmos diferentes Números
  • 20. Algoritmos • Collaborative Filtering • Content-Based • Matrix Factorization - ALS
  • 21. *Dados extraídos em maio de 2016 +30%+52%
  • 22. *Dados extraídos em maio de 2016 +105% +40%
  • 24.

Hinweis der Redaktion

  1. Testamos o HIVE e o PIG e não usamos mais
  2. Começamos contando que vamos capturar tudo, dado tem valor. Com isso em real time temos os dados para serem consumidos pelos jobs
  3. JUPYTER - Criar vídeo do Jupyter
  4. Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
  5. Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
  6. Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
  7. Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
  8. AIRFLOW
  9. Os tetes a/b foram importantes para segmentarmos as entregas e validarmos as ideias Atualmente já fizemos mais de 300 testes a/b
  10. 15 mil req/s 10 ms de tempo de resposta (p50)
  11. Temos mais de 30 algoritmos diferentes rodando em produção