SlideShare ist ein Scribd-Unternehmen logo
1 von 42
Downloaden Sie, um offline zu lesen
Trilha Big Data:
A jornada para construir um
Data Lake na nuvem
Matheus Espanhol Porto Alegre, 10 de Novembro de 2017
O que vem por aí...
Google Cloud Storage
Google BigQuery
SPECTRUM
Se você pensar em um Data Mart como uma garrafa de água:
limpa, embalada e estruturada para fácil consumo. O Data Lake é
onde a água se encontra em seu estado mais natural. Essa água
veio de diversas fontes e várias pessoas podem vir a examinar,
mergulhar ou colher amostras da água do lago.
James Dixon - Pentaho CTO
DATA LAKE
DATA LAKE
Armazena dados em formato natural
DATA LAKE
Todos os dados da organização em um só lugar
Armazena dados em formato natural
DATA LAKE
Insights rápidos
Todos os dados da organização em um só lugar
Armazena dados em formato natural
DATA LAKE
Fácil adaptação
a mudanças
Insights rápidos
Todos os dados da organização em um só lugar
Armazena dados em formato natural
DATA LAKE
Suporta todos os
tipos de dados
Fácil adaptação
a mudanças
Insights rápidos
Todos os dados da organização em um só lugar
Armazena dados em formato natural
DATA LAKE
Suporta todos os
tipos de dados
Fácil adaptação
a mudanças
Acessível para
diferentes perfis de
usuários
Insights rápidos
Todos os dados da organização em um só lugar
Armazena dados em formato natural
Amazon S3
Durabilidade de 99.999999999%
Disponibilidade de 99.99%
$0.023/GB
$0.0125/GB
$0.004/GB
Google Cloud Storage (GCS)
Durabilidade de 99.999999999%
Disponibilidade de 99.95%
Acesso instantâneo a todas classes de storage
$0.026/GB $0.023/GB $0.016/GB $0.010/GB
A Movile
Líder em marketplaces móveis
100 milhões de pessoas utilizam os serviços da Movile todo mês
Estamos conectados a mais de 70 operadoras em toda América
Comparativo entre cloud storages
Tabela: event_YYYYMM - 380 GB/mês
9 meses
2017
5 anos (event_201201 - event_201612)
3 meses
2017
Coldline Nearline Regional
18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês
9 meses
2017
5 anos (event_201201 - event_201612)
IA Standard
18.2 TB 3.4 TB 1.1 TB
Glacier
12 meses
2017
5 anos (event_201201 - event_201612)
Standard
18.2 TB 4.5 TB
IA
S3: $ 141,81 / mês
S3: $ 296,97 / mês
Presto
Presto - Monitoramento
Presto - Airpal
Amazon Elastic Map Reduce (EMR)
Facilita a configuração e gerenciamento de clusters Hadoop
EMR File System (EMRFS) para compatibilidade entre S3 e HDFS
Possibilidade de alocar instâncias Spot
Substituição automática de nós do cluster
Monitoramento com CloudWatch
Presto no EMR
Consultar diretamente os dados no S3
Dados mais utilizados no HDFS
Scale-up e Scale-down online
Excelente suporte SQL
Presto no EMR
Consultar diretamente os dados no S3
Dados mais utilizados no HDFS
Scale-up e Scale-down online
Excelente suporte SQL
Vamos substituir o Redshift?
Gargalo
Download do arquivo CSV do S3
Solução
Mudar formato de arquivo (Parquet, ORC)
Mudar compactação (Gzip, Snappy, LZ)
Aumentar número de worker nodes
Presto - Spark - Hive - EMR
Text Gzip Parquet Snappy Parquet Gzip ORC
Tempo de conversão do arquivo 93 min 37 min 78 min
Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB
Tempo de count 3:35 min 1:01 min 11 sec 16 sec
Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec
Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s
Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s
Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
Presto - Estimativa de custo mensal
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05
Extra S3 Storage (ORC) $230,52
1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$4.008,92
Serviço AWS $/hora Horas/mês Custo/mês
1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87
5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35
10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32
Extra S3 Storage (ORC) $230,52
1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33
Retorno de dados S3/IA $262,15
$296,97 + $2.287,54
-$1.721,38
Storage Processamento
Bigquery
SQL as a Service
Suporte a operações batch ou stream
Suporte ANSI SQL
Permite o mapeamento de arquivos no GCS
Bigquery
BigQuery - Estimativa de custo mensal
Storage BQ Processamento
$243,49
$674,06
Período / GCS
CSV Gzip
(TB) Usuários
Consultas
por mês
TBs
processados
Custo
Bigquery
3 meses (Regional) 1.1 10 150 7.10 $35,50
9 meses (Nearline) 3.4 3 2 17.8 $50,60
5 anos (Coldline) 18.2 3 0,2 8.11 $47,50
$133,60$296,97
Storage S3
Amazon Athena
Serviço de SQL sobre dados armazenados S3
“Presto as a Service”
Sistema de cobrança semelhante ao Google Bigquery
Uso de expressões regulares para parser de logs
Amazon Athena
CREATE EXTERNAL TABLE server_logs.transaction_log (
`log_type` string,
`log_date` timestamp,
`java_class` string,
...)
PARTITIONED BY (year int, month int, day int, server string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
'serialization.null.format' = 'null',
'input.regex' = '^x1b[39m[([^ ]*)]x1b[0;39ms+x1b[35m[([^,]*),([^
]*)]x1b[0;39ms+x1b[33m[([^ ]*)]x1b[0;39ms+x1b[35m[([^
]*)]x1b[0;39ms+|s+TransactionLogs+[s+id=([^ ]*);.*?s+applicationId=([^
...
]*);.*?s+instanceName=([^ ]*);.*?s+rotateNumber=([^ ]*);.*?s+transactionType=([^
]*);.*?s+chargePriority=([^
]*);.*?s+requestPerformedDate=([^;]*);.*?s+strategyId=([^ ]*).*?]s+([^.]*).*?$'
) LOCATION 's3://movile-data-lake/mobile-content/server_logs/transaction_log/'
Amazon Athena
ALTER TABLE server_logs.transaction_log ADD PARTITION
(year = 2017, month = 01, day = 04, server = 'server1')
LOCATION
's3://movile-data-lake/mobile-content/server_logs/transaction_log/2017/01/04/server1/'
aws s3 ls
s3://movile-data-lake/mobile-content/server_logs/transaction_log/2017/01/04/server1/
2017-01-09 17:50:47 37398164 transaction.k3m.2017-01-04.log.0.gz
2017-01-09 17:50:49 37686727 transaction.k3m.2017-01-04.log.1.gz
2017-01-09 17:50:53 33129444 transaction.k3m.2017-01-04.log.10.gz
2017-01-09 17:50:55 33307109 transaction.k3m.2017-01-04.log.11.gz
2017-01-09 17:50:57 33377788 transaction.k3m.2017-01-04.log.12.gz
2017-01-09 17:51:00 33448852 transaction.k3m.2017-01-04.log.13.gz
Athena - Estimativa de custo mensal
Período / S3
CSV Gzip
(TB) Usuários
Consultas
por mês
TBs
processados
Custo
Athena
Custo
leitura S3
12 meses (Standard) 4.5 13 152 24.9 $86.10
5 anos (I/A) 18.2 3 0,2 8.11 $47,50 $83,05
$133,60 $83,05
$216,65
$296,97
Storage S3 Processamento
$513,62
Tabelas externas no Redshift
Utiliza o metadado do Athena
Permite cruzar dados do S3 com tabelas do Redshift
Utiliza o processamento do cluster Redshift
Redshift Spectrum
SPECTRUM
CREATE EXTERNAL SCHEMA IF NOT EXISTS messages
FROM DATA CATALOG DATABASE 'messages'
iam_role 'arn:aws:iam::2222222222:role/movile-redshift-athena'
CREATE EXTERNAL DATABASE IF NOT EXISTS;
CREATE EXTERNAL TABLE messages.sent_messages(
id bigint
,sequence varchar
,msisdn bigint
...
) ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE LOCATION
's3://movile-data-lake/mobile-content/redshift/messages/sent_messages/csv;
Redshift Spectrum
Data Lake - Metadados
Data Lake - Próximos passos
Utilizar ferramentas open source para gerenciar metadados
AWS Glue: https://aws.amazon.com/glue
Kylo: https://kylo.io/
Apache Atlas: http://atlas.apache.org/
Metacat: https://github.com/Netflix/metacat
Facilitar a análise de dados mantendo a governança
Dremio: https://www.dremio.com/
Pense nisso...
Utilize a ferramenta certa para cada situação
Pense nisso...
Utilize a ferramenta certa para cada situação
Invista em governança e metadados
Pense nisso...
Utilize a ferramenta certa para cada situação
Invista em governança e metadados
Comece a entregar valor desde o início
Pense nisso...
Utilize a ferramenta certa para cada situação
Invista em governança e metadados
Comece a entregar valor desde o início
As pessoas não vão mais precisar de você
para encontrar e entender os dados
Contato
twitter.com/matheusespanhol
linkedin.com/in/matheusespanhol
slideshare.net/matheus.espanhol
matheusespanhol@gmail.com

Weitere ähnliche Inhalte

Ähnlich wie TDC2017 | POA Trilha BigData - A jornada para construir um Data Lake na nuvem

AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake
AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lakeAWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake
AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lakeAmazon Web Services LATAM
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem awsAmazon Web Services LATAM
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraAmazon Web Services LATAM
 
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-Terabyte
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-TerabyteTechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-Terabyte
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-TerabyteFabrício Catae
 
Explorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraExplorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraAmazon Web Services LATAM
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightAmazon Web Services LATAM
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Amazon Web Services LATAM
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 

Ähnlich wie TDC2017 | POA Trilha BigData - A jornada para construir um Data Lake na nuvem (20)

Fazendo seu DR na AWS
Fazendo seu DR na AWSFazendo seu DR na AWS
Fazendo seu DR na AWS
 
AWS Storage Day - Otimização do Amazon S3
AWS Storage Day - Otimização do Amazon S3AWS Storage Day - Otimização do Amazon S3
AWS Storage Day - Otimização do Amazon S3
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake
AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lakeAWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake
AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake
 
Introducao a aws storage backup e archiving
Introducao a aws storage backup e archivingIntroducao a aws storage backup e archiving
Introducao a aws storage backup e archiving
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem aws
 
Deep dive com Amazon Aurora
Deep dive com Amazon AuroraDeep dive com Amazon Aurora
Deep dive com Amazon Aurora
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
 
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-Terabyte
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-TerabyteTechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-Terabyte
TechEd 2009: Planejamento e Operação de Ambientes SharePoint Multi-Terabyte
 
Explorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraExplorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon Aurora
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSight
 
Começando com Amazon Redshift
Começando com Amazon RedshiftComeçando com Amazon Redshift
Começando com Amazon Redshift
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Falando de TCO na Nuvem AWS
Falando de TCO na Nuvem AWSFalando de TCO na Nuvem AWS
Falando de TCO na Nuvem AWS
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
Seu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big DataSeu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big Data
 

Mehr von tdc-globalcode

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadeTDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadetdc-globalcode
 
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...tdc-globalcode
 
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de SucessoTDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de Sucessotdc-globalcode
 
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPATDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPAtdc-globalcode
 
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinoTDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinotdc-globalcode
 
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...tdc-globalcode
 
TDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devicesTDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devicestdc-globalcode
 
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca PublicaTrilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publicatdc-globalcode
 
Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#tdc-globalcode
 
TDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case EasylocusTDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case Easylocustdc-globalcode
 
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?tdc-globalcode
 
TDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em GolangTDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em Golangtdc-globalcode
 
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QATDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QAtdc-globalcode
 
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciaTDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciatdc-globalcode
 
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR ServiceTDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Servicetdc-globalcode
 
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETTDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETtdc-globalcode
 
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8tdc-globalcode
 
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...tdc-globalcode
 
TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#tdc-globalcode
 
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net CoreTDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Coretdc-globalcode
 

Mehr von tdc-globalcode (20)

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadeTDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
 
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
 
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de SucessoTDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
 
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPATDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
 
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinoTDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
 
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
 
TDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devicesTDC2019 Intel Software Day - Inferencia de IA em edge devices
TDC2019 Intel Software Day - Inferencia de IA em edge devices
 
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca PublicaTrilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
 
Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#Trilha .Net - Programacao funcional usando f#
Trilha .Net - Programacao funcional usando f#
 
TDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case EasylocusTDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Go - Case Easylocus
 
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
 
TDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em GolangTDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - Clean architecture em Golang
 
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QATDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
 
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciaTDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
 
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR ServiceTDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
 
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETTDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
 
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
 
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
 
TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - .NET funcional com F#
 
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net CoreTDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor  em .Net Core
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
 

Kürzlich hochgeladen

Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Ilda Bicacro
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxMauricioOliveira258223
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorEdvanirCosta
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxferreirapriscilla84
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfEmanuel Pio
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesFabianeMartins35
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESEduardaReis50
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇJaineCarolaineLima
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfHELENO FAVACHO
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfCamillaBrito19
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfHELENO FAVACHO
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números Mary Alvarenga
 
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....LuizHenriquedeAlmeid6
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...IsabelPereira2010
 

Kürzlich hochgeladen (20)

Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptx
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de Professor
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptx
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdf
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
 
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
ATIVIDADE - CHARGE.pptxDFGHJKLÇ~ÇLJHUFTDRSEDFGJHKLÇ
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdf
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números
 
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....
Slides Lição 5, Betel, Ordenança para uma vida de vigilância e oração, 2Tr24....
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 

TDC2017 | POA Trilha BigData - A jornada para construir um Data Lake na nuvem

  • 1. Trilha Big Data: A jornada para construir um Data Lake na nuvem Matheus Espanhol Porto Alegre, 10 de Novembro de 2017
  • 2. O que vem por aí... Google Cloud Storage Google BigQuery SPECTRUM
  • 3. Se você pensar em um Data Mart como uma garrafa de água: limpa, embalada e estruturada para fácil consumo. O Data Lake é onde a água se encontra em seu estado mais natural. Essa água veio de diversas fontes e várias pessoas podem vir a examinar, mergulhar ou colher amostras da água do lago. James Dixon - Pentaho CTO
  • 5. DATA LAKE Armazena dados em formato natural
  • 6. DATA LAKE Todos os dados da organização em um só lugar Armazena dados em formato natural
  • 7. DATA LAKE Insights rápidos Todos os dados da organização em um só lugar Armazena dados em formato natural
  • 8. DATA LAKE Fácil adaptação a mudanças Insights rápidos Todos os dados da organização em um só lugar Armazena dados em formato natural
  • 9. DATA LAKE Suporta todos os tipos de dados Fácil adaptação a mudanças Insights rápidos Todos os dados da organização em um só lugar Armazena dados em formato natural
  • 10. DATA LAKE Suporta todos os tipos de dados Fácil adaptação a mudanças Acessível para diferentes perfis de usuários Insights rápidos Todos os dados da organização em um só lugar Armazena dados em formato natural
  • 11.
  • 12. Amazon S3 Durabilidade de 99.999999999% Disponibilidade de 99.99% $0.023/GB $0.0125/GB $0.004/GB
  • 13. Google Cloud Storage (GCS) Durabilidade de 99.999999999% Disponibilidade de 99.95% Acesso instantâneo a todas classes de storage $0.026/GB $0.023/GB $0.016/GB $0.010/GB
  • 14. A Movile Líder em marketplaces móveis 100 milhões de pessoas utilizam os serviços da Movile todo mês Estamos conectados a mais de 70 operadoras em toda América
  • 15. Comparativo entre cloud storages Tabela: event_YYYYMM - 380 GB/mês 9 meses 2017 5 anos (event_201201 - event_201612) 3 meses 2017 Coldline Nearline Regional 18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês 9 meses 2017 5 anos (event_201201 - event_201612) IA Standard 18.2 TB 3.4 TB 1.1 TB Glacier 12 meses 2017 5 anos (event_201201 - event_201612) Standard 18.2 TB 4.5 TB IA S3: $ 141,81 / mês S3: $ 296,97 / mês
  • 19. Amazon Elastic Map Reduce (EMR) Facilita a configuração e gerenciamento de clusters Hadoop EMR File System (EMRFS) para compatibilidade entre S3 e HDFS Possibilidade de alocar instâncias Spot Substituição automática de nós do cluster Monitoramento com CloudWatch
  • 20. Presto no EMR Consultar diretamente os dados no S3 Dados mais utilizados no HDFS Scale-up e Scale-down online Excelente suporte SQL
  • 21. Presto no EMR Consultar diretamente os dados no S3 Dados mais utilizados no HDFS Scale-up e Scale-down online Excelente suporte SQL Vamos substituir o Redshift?
  • 22.
  • 23. Gargalo Download do arquivo CSV do S3 Solução Mudar formato de arquivo (Parquet, ORC) Mudar compactação (Gzip, Snappy, LZ) Aumentar número de worker nodes
  • 24. Presto - Spark - Hive - EMR Text Gzip Parquet Snappy Parquet Gzip ORC Tempo de conversão do arquivo 93 min 37 min 78 min Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB Tempo de count 3:35 min 1:01 min 11 sec 16 sec Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
  • 25. Presto - Estimativa de custo mensal Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05 Extra S3 Storage (ORC) $230,52 1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $4.008,92 Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35 10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32 Extra S3 Storage (ORC) $230,52 1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $296,97 + $2.287,54 -$1.721,38 Storage Processamento
  • 26. Bigquery SQL as a Service Suporte a operações batch ou stream Suporte ANSI SQL Permite o mapeamento de arquivos no GCS
  • 28. BigQuery - Estimativa de custo mensal Storage BQ Processamento $243,49 $674,06 Período / GCS CSV Gzip (TB) Usuários Consultas por mês TBs processados Custo Bigquery 3 meses (Regional) 1.1 10 150 7.10 $35,50 9 meses (Nearline) 3.4 3 2 17.8 $50,60 5 anos (Coldline) 18.2 3 0,2 8.11 $47,50 $133,60$296,97 Storage S3
  • 29. Amazon Athena Serviço de SQL sobre dados armazenados S3 “Presto as a Service” Sistema de cobrança semelhante ao Google Bigquery Uso de expressões regulares para parser de logs
  • 31. CREATE EXTERNAL TABLE server_logs.transaction_log ( `log_type` string, `log_date` timestamp, `java_class` string, ...) PARTITIONED BY (year int, month int, day int, server string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( 'serialization.format' = '1', 'serialization.null.format' = 'null', 'input.regex' = '^x1b[39m[([^ ]*)]x1b[0;39ms+x1b[35m[([^,]*),([^ ]*)]x1b[0;39ms+x1b[33m[([^ ]*)]x1b[0;39ms+x1b[35m[([^ ]*)]x1b[0;39ms+|s+TransactionLogs+[s+id=([^ ]*);.*?s+applicationId=([^ ... ]*);.*?s+instanceName=([^ ]*);.*?s+rotateNumber=([^ ]*);.*?s+transactionType=([^ ]*);.*?s+chargePriority=([^ ]*);.*?s+requestPerformedDate=([^;]*);.*?s+strategyId=([^ ]*).*?]s+([^.]*).*?$' ) LOCATION 's3://movile-data-lake/mobile-content/server_logs/transaction_log/' Amazon Athena
  • 32. ALTER TABLE server_logs.transaction_log ADD PARTITION (year = 2017, month = 01, day = 04, server = 'server1') LOCATION 's3://movile-data-lake/mobile-content/server_logs/transaction_log/2017/01/04/server1/' aws s3 ls s3://movile-data-lake/mobile-content/server_logs/transaction_log/2017/01/04/server1/ 2017-01-09 17:50:47 37398164 transaction.k3m.2017-01-04.log.0.gz 2017-01-09 17:50:49 37686727 transaction.k3m.2017-01-04.log.1.gz 2017-01-09 17:50:53 33129444 transaction.k3m.2017-01-04.log.10.gz 2017-01-09 17:50:55 33307109 transaction.k3m.2017-01-04.log.11.gz 2017-01-09 17:50:57 33377788 transaction.k3m.2017-01-04.log.12.gz 2017-01-09 17:51:00 33448852 transaction.k3m.2017-01-04.log.13.gz
  • 33. Athena - Estimativa de custo mensal Período / S3 CSV Gzip (TB) Usuários Consultas por mês TBs processados Custo Athena Custo leitura S3 12 meses (Standard) 4.5 13 152 24.9 $86.10 5 anos (I/A) 18.2 3 0,2 8.11 $47,50 $83,05 $133,60 $83,05 $216,65 $296,97 Storage S3 Processamento $513,62
  • 34. Tabelas externas no Redshift Utiliza o metadado do Athena Permite cruzar dados do S3 com tabelas do Redshift Utiliza o processamento do cluster Redshift Redshift Spectrum SPECTRUM
  • 35. CREATE EXTERNAL SCHEMA IF NOT EXISTS messages FROM DATA CATALOG DATABASE 'messages' iam_role 'arn:aws:iam::2222222222:role/movile-redshift-athena' CREATE EXTERNAL DATABASE IF NOT EXISTS; CREATE EXTERNAL TABLE messages.sent_messages( id bigint ,sequence varchar ,msisdn bigint ... ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE LOCATION 's3://movile-data-lake/mobile-content/redshift/messages/sent_messages/csv; Redshift Spectrum
  • 36. Data Lake - Metadados
  • 37. Data Lake - Próximos passos Utilizar ferramentas open source para gerenciar metadados AWS Glue: https://aws.amazon.com/glue Kylo: https://kylo.io/ Apache Atlas: http://atlas.apache.org/ Metacat: https://github.com/Netflix/metacat Facilitar a análise de dados mantendo a governança Dremio: https://www.dremio.com/
  • 38. Pense nisso... Utilize a ferramenta certa para cada situação
  • 39. Pense nisso... Utilize a ferramenta certa para cada situação Invista em governança e metadados
  • 40. Pense nisso... Utilize a ferramenta certa para cada situação Invista em governança e metadados Comece a entregar valor desde o início
  • 41. Pense nisso... Utilize a ferramenta certa para cada situação Invista em governança e metadados Comece a entregar valor desde o início As pessoas não vão mais precisar de você para encontrar e entender os dados