SlideShare uma empresa Scribd logo
1 de 80
Baixar para ler offline
São Paulo
Amazon Elastic MapReduce
melhores práticas
Felipe Garcia, Amazon Web Services
28 de Maio, 2015 | São Paulo, SP
Computação Armazenamento
Infraestrutura Global AWS
Banco de Dados
Serviços de Aplicativos
Implantação e Administração
Rede
Análise
Amazon Elastic MapReduce
Gerenciado, cluster elástico de Hadoop (1.x & 2.x)
Integra com Amazon S3, Amazon DynamoDB, Amazon
Kinesis e Amazon Redshift
Instale Storm, Spark, Presto, Hive, Pig, Impala, &
ferramentas de usuário final automaticamente
Suporte nativo para instâncias Spot
Banco de dados HBase NoSQL integrado
Amazon EMR
Amazon EMR
Amazon EMR é como qualquer outro Hadoop
Baseado na versão open source do Apache
Hadoop, ou 3 versões de MapR
Acesse todas as configurações do Hadoop
Acesso root as instâncias
Instale qualquer software no cluster
Versão comum de ferramentas (Hive, Pig, Impala)
Configuração
Configurando Hadoop
--bootstrap-actions
Path=s3://elasticmapreduce/bootstrap-
actions/configure-hadoop
--keyword-config-file – mescla valores com novo arquivo de config.
--keyword-key-value – sobrescreve pares chave-valor específicos
Nome do Arquivo de
Configuração
Palavra Chave do
Arquivo de
Configuração (keyword)
Atalho Para o Nome do
Arquivo
Atalho Para Par Chave-
Valor
core-site.xml core C c
hdfs-site.xml hdfs H h
mapred-site.xml mapred M m
yarn-site.xml yarn Y y
Configurando Hadoop
Configurando o número de mappers por task tracker
--bootstrap-actions Name=Configurar
Mappers,Path=s3://elasticmapreduce/bootstrap-
actions/configure-hadoop,Args=[-
M,s3://myawsbucket/config.xml,-
m,mapred.tasktracker.map.tasks.maximum=2]
Útil para Tasks de Mapper com baixo consumo de
memória
Mais trabalho pode ser feito pela instância
Configurando Hadoop
Configurando o tamanho do bloco HDFS para
1MB
--bootstrap-actions
Path=s3://elasticmapreduce/bootstrap-
actions/configure-hadoop,Args=[-
m,dfs.block.size=1048576]
Útil quando pequenos arquivos são utilizados no
HDFS
Configurando Hadoop 1
Reutilizar os mappers
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-
actions/configure-hadoop,Args=[-
m,mapred.job.reuse.jvm.num.tasks=N]
-1 = Sempre
Tempo de início de um Mapper é de ~ 2-20 seconds
Útil para Tasks com um grande número de Mappers
Mappers devem ser “limpos” depois da execução (relevante
para Java)
Configurando a JVM
Configura o heap size, Java opts, e sobrescrever o hadoop-user-env.sh
Hadoop 1
namenode, datanode, jobtracker, tasktracker, ou client
Hadoop 2
namenode, datanode, resourcemanager, nodemanager, ou client
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-
actions/configure-daemons,Args=[–{namenode}-heap-size=2048,
--{namenode}-opts=-XX:GCTimeRatio=19]
Amazon EMR – recursos exclusivos
Amazon EMR –
recursos exclusivos
Amazon S3 / Amazon EMR
Visão Consistente
Bootstrapping
Resize do Cluster
Cluster transientes e Spot
Utilizar diferentes tipos de instância
Amazon EMR Visão Consistente
Fornece uma ‘visão consistente’ do dado
armazendo no S3, de dentro do cluster
Certifica que todos arquivos criados por
um Step estão disponíveis para os Steps
seguintes
Usa diretamente EMRFS para importar e
sincronizar dados com o S3
Re-tentativas configurável e metastore
Novo arquivo de configuração emrfs-
site.xml
fs.s3.consistent* System properties
EMRfs
HDFS
Amazon EMR
Amazon S3 Amazon
DynamoDB
Registro de arquivos
processados
Arquivos
Amazon EMR Visão Consistente
Gerencie dados no EMRFS usando o cliente emrfs:
emrfs
– describe-metadata, set-metadata-capacity, delete-
metadata, create-metadata, list-metadata-stores –
Trabalhar com os metadados armazenados
– diff – Exibe o que está no bucket e não está no índice
– delete – Remove entradas do índice
– sync – Certifica que o índice está sincronizado com um
bucket
– import – Importa itens do bucket no índice
Tamanho de arquivo & Compressão
Melhores práticas para tamanho de arquivos
Evite arquivos pequenos sob qualquer custo
Qualquer coisa menor que 100MB
Uma Task de Mapper é gerada para cada quebra de
arquivo
Cada Mapper/Reducer lança uma nova JVM (Hadoop 1)
Tempo de CPU é requerido para lançar uma nova JVM
Impacto do tamanho do arquivo no Map/Reduce
Tasks de Mapper demoram 2 seg para iniciar e estarem prontas para
processar
10TB de 100MB
= 100.000 mappers * 2 seg
= 55 horas CPU gastas configurando Tasks de Mappers
Impacto do tamanho do arquivo no Map/Reduce
Tasks de Mapper demoram 2 seg para iniciar e estarem prontas para processar
10TB of 1GB Files
= 10.000 Mappers * 2 sec
= 5 horas CPU gastas configurando Tasks de Mappers
Boa prática: Tamanho do arquivo no
S3
Qual é o melhor tamanho de arquivo no S3 para o
Hadoop?
Em torno de 1 a 2GB
Porque?
Boa prática: Tamanho do arquivo no
S3
Tempo de vida de uma Task não deve ser menor
do que 60 segundos
Uma Task atinge até de 10 a 15MB/s de
velocidade ao S3
≈60 seg * 15MB 1GB
E se eu tiver arquivos
pequenos?
Lidando com arquivos pequenos
Use S3DistCP para
juntar arquivos
pequenos
S3DistCP usa uma
expressão regular para
combinar arquivos
pequenos em maiores
aws emr add-steps --cluster-id
<cluster>
--steps Name=GroupSmallFiles,
Type=CUSTOM_JAR,
Args=files,home/hadoop/lib/emr-
s3distcp-1.0.jar,
src,s3://meubucketaws/logs,
dest,hdfs:///local,
groupBy,.*(i-w.log).*,
targetSize,128…
Compressão
Sempre comprima arquivos no S3
Comprima o resultado de uma Task
Reduz a banda utilizada entre o Amazon S3 e o
Amazon EMR
Reduz custos de armazenamento
Reduz I/O de disco
Aumenta a velocidade do seu Job
Compressão
Tipos compressão:
Alguns são rápidos, MAS oferecem menos redução de espaço
Alguns são eficientes no espaço, MAS lentos
Alguns podem ser divididos, outros não
Algorítmo % Compressão Velocidade
Compressão
Velocidade
Descompressão
GZIP 87% 21MB/s 118MB/s
LZO 80% 135MB/s 410MB/s
Snappy 78% 172MB/s 409MB/s
Compressão
Se for sensível a latência, compressão mais rápida é uma melhor
escolha
Se tiver uma grande quantidade de dados, utilize algum com maior
compressão
Se não tiver nenhum requisito específico, escolha o LZO
Utilize o S3DistCP para altrar o tipo de compressão dos seus arquivos
-outputCodec,lzo
Amazon S3 & HDFS
Boa prática: Amazon S3 como fonte de dados
primária
Use Amazon S3 como sua
fonte de dados permanente
HDFS para armazenamento
temporário entre jobs
Nenhum passo adicional para
copiar dados para HDFS
Amazon EMR Cluster
Task Instance GroupCore Instance Group
HDF
S
HDF
S
Amazon S3
Benefícios: Amazon S3 como fonte de dados
primária
Capacidade de desligar seu cluster
Benefício FANTÁSTICO!!
Durabilidade 99.999999999%
Benefícios: Amazon S3 como fonte de dados
primária
Sem necessidade de escalar HDFS
Capacidade
Replicação para durabilidade
Amazon S3 escala para os seus dados
Tanto para IOPs como para armazenamento
Benefícios: Amazon S3 como fonte de dados
primária
Capacidade de compartilhar dados entre múltiplos
clusters
Difícil de fazer com HDFS
EMR
EMR
Amazon
S3
Benefícios: Amazon S3 como fonte de dados
primária
Tire vantagem das funcionalidades do Amazon S3
Criptografia server-side
Políticas de ciclo de vida
Versionamento para proteger contra corrupção de dados
Crie clusters elásticos
Adicione nós, para ler mais dados do Amazon S3
Com os dados salvos no Amazon S3, remova nós
E sobre a localidade dos dados?
Rode os clusters na mesma região que o seu
bucket do Amazon S3
Os nós do Amazon EMR tem uma conexão de alta
velocidade com o Amazon S3
Se o seu job é dependente de CPU/Memória,
localidade dos dados não fará muita diferença
Boa prática: HDFS para baixa latência
Use HDFS para workloads
que necessitem de acesso
repetido ao dados
Use Amazon S3 sua fonte
de dados permanente
Amazon EMR Cluster
Task Instance GroupCore Instance Group
HDF
S
HDF
S
Amazon S3
Boa prática: HDFS para baixa latência
1. Dado armazenado no
Amazon S3
Boa prática: HDFS para baixa latência
2. Crie o cluster Amazon EMR e
copie o dado para o HDFS
com S3DistCP
S3DistCP
Boa prática: HDFS para baixa latência
3. Processe o dado em HDFS
Boa prática: HDFS para baixa latência
4. Armazene os resultados no
Amazon S3
S3DistCP
Boa prática: HDFS para baixa latência
Boa prática para workloads com I/O intensivo
Benefícios do Amazon S3 discutidos anteriormente,
ainda se aplicam
Durabilidade
Escalabilidade
Custo
Acréscimo na complexidade operacional
Fluxo com Amazon S3
& HDFS
Estendendo o Amazon EMR
Ações de bootstrap e ferramentas do Amazon
EMR
EMR
HDFS
Pig
Ferramentas de macro do Amazon EMR
Hive 0.13.1
• Suporte a ORC
• Funções Window
• Tipos decimais
• Comando TRUNCATE
• Melhor otimizador
(menos necessidade
de hinting)
Pig 0.12.0
• Transmite UDF’s não
escritos em Java
• Suporte nativo a Avro
• Suporte nativo a
Parquet
• Tipos de dados
melhorados
Impala 1.2.4
• SQL engine em memória
• Suporte a tabelas
HBASE
• Suporte a Parquet –
formato de arquivo
orientado a coluna
• Consultas e console
interativo
HBase 0.94.18
• Banco de dados
• Snapshots
• Cache de leitura
melhorado e
otimização de busca
• Transações
melhoradas
Leia dados diretamente do
Kinesis no Hive, Pig,
Streaming e Cascading
Sem persistência intermediária
de dados requerida
Maneira simples de introduzir fontes de dados em
tempo real, em Sistemas de Processamento em
Batch
Suporte a múltiplas aplicações & Checkpoint
automático
Integração do Amazon EMR com Amazon Kinesis
drop table call_data_records;
CREATE TABLE call_data_records (
start_time bigint,
end_time bigint,
phone_number STRING,
carrier STRING,
recorded_duration bigint,
calculated_duration bigint,
lat double,
long double
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ","
STORED BY
'com.amazon.emr.kinesis.hive.KinesisStorageHandler'
TBLPROPERTIES("kinesis.stream.name"="TestAggregatorStream");
Integrando Amazon EMR com Amazon
Kinesis
Apache Hue
• Interface de usuário para o Hadoop
• Buscador de arquivos para Amazon S3 & HDFS
• Editor de consulta para Hive/Pig/Impala
• Visualização de alocação de Containers/Tasks para
para os nós, arquivos de log, monitoramento de
processo
• Suporte para autenticação LDAP
• Suporte a Metastore Remoto
Criando novas ações de bootstrap
Bash shell script
Executa como root
Armazenado no Amazon S3
Executado na criação ou redimensionamento do cluster
Dimensionando seu cluster
Alocação de recursos da instância
Hadoop 1 – Número estático de Mappers/Reducers
configurado nos nós do cluster
Hadoop 2 – Número variável de aplicações Hadoop
baseadas em quebras de arquivo e memória
disponível
Útil para entender dimensionamento antigo vs novo
Número de Tasks* = MapReduce RAM / Container Max RAM
Escolhendo o tipo de instância EMR
Instância EC2
Map
Tasks
Reduce
Tasks
m1.small 2 1
m1.large 3 1
m1.xlarge 8 3
m2.xlarge 3 1
m2.2xlarge 6 2
m2.4xlarge 14 4
m3.xlarge 6 1
m3.2xlarge 12 3
cg1.4xlarge 12 3
cc2.8xlarge 24 6
c3.4xlarge 24 6
hi1.4xlarge 24 6
hs1.8xlarge 24 6
cr1.8xlarge &
c3.8xlarge
48 12
1
2
4
8
16
32
64
128
256
512
1024
2048
4096
8192
16384
32768
65536
0
50
100
150
200
250
300
Memory (GB) Mappers* Reducers* CPU (ECU Units) Local Storage (GB)
Tipos de nós e tamanhos do Amazon EMR
Use família m1 e c1 para testes funcionais
Use m3 e c3 xlarge, e nós maiores para workloads de
produção
Use cc2/c3 para trabalhos intensivos de memória e CPU
Instâncias hs1, hi1, i2 para workloads HDFS
Prefira um cluster menor de nós maiores
Família de instâncias M1/C1
Amplamente usada por clientes do Amazon
EMR
Entretanto, utilização de HDFS é
tipicamente baixa
M3/C3 oferecem melhor $/benefício
M1 vs. M3
Instância Custo / Task Mappper Custo / Task Reducer
m1.large $0.08 $0.15
m1.xlarge $0.06 $0.15
m3.xlarge $0.04 $0.07
m3.2xlarge $0.04 $0.07
C1 vs. C3
Instância Custo / Task Mapper Custo / Task Reducer
c1.medium $0.13 $0.13
c1.xlarge $0.35 $0.70
c3.xlarge $0.05 $0.11
c3.2xlarge $0.05 $0.11
Quantos nós eu preciso?
Calculando o tamanho do cluster
1. Estime o número de Tasks que o seu Job precisa.
2. Escolha uma instância e anote o número de Tasks que
ela pode rodar em paralelo.
3. Escolha algumas amostras de dados para efetuar o
teste de carga. O número de arquivos deve ser o
mesmo número obtido no passo 2.
4. Rode um cluster Amazon EMR com um nó de um único
núcleo e processe os arquivos do passo 3.
Anote o tempo total que o cluster levou para processar
os seus arquivos.
Calculando tamanho do cluster
Total de Tasks * Tempo total para processar os arquivos
Capacidade de Tasks da instância * Tempo desejado de processamento
Número estimado de nós:
Exemplo: Calculando tamanho do
Cluster
1. Estime o número de Tasks que seu Trabalho precisa
150
2. Escolha uma Instância e anote o número de Tasks que
ela pode executar em paralelo
m1.xlarge com capacidade de 8 Tasks por
instância
Exemplo: Calculando tamanho do
Cluster
3. Precisamos escolher alguns arquivos de
amostra para executar nossos testes. O número
de arquivos deve ser o mesmo obtido no passo
2.
8 arquivos selecionados para o teste
Exemplo: Calculando tamanho do
Cluster
4. Execute um cluster Amazon EMR com um Nó
com um único núcleo, e processe os arquivos
escolhidos no passo 3. Anote o tempo total de
processamento dos arquivos.
3 minutos para processar 8 arquivos
Exemplo: Calculando tamanho do
Cluster
Total de Tasks * Tempo total para processar os arquivos
Capacidade de Tasks da instância * Tempo desejado de processamento
Número estimado de nós:
150 * 3 min
8 * 5 min
= 11 m1.xlarge
Clusters Transientes
Redimensionamento do Cluster
Amazon EMR te dá a habilidade de redimensionar
o cluster sob demanda
Simplesmente troque número de instâncias no
grupo Core ou Task, e o Amazon EMR
provisionará a nova capacidade
Processamento continua durante o redimensionamento
Amazon EMR: Nós do tipo Core
Master Instance Group
Amazon EMR cluster
HDFS HDFS
Executam
TaskTrackers
(Compute)
Executam DataNode
(HDFS)
Core Instance Group
Amazon EMR: Nós do tipo Core
Pode adicionar Nós
do tipo Core
Mais espaço HDFS
More CPU/Memória
Master Instance Group
Amazon EMR cluster
HDFS HDFS HDFS
Core Instance Group
Amazon EMR: Nós do tipo Core
Não é possível
remover Nós do tipo
Core devido ao
HDFS
Master Instance Group
HDFS HDFS HDFS
Amazon EMR cluster
Core Instance Group
Amazon EMR: Nós do tipo Task
Executa TaskTrackers
Sem HDFS
Lê do HDFS dos Nós do
tipo Core
Master Instance Group
HDFS HDFS
Amazon EMR cluster
Task Instance GroupCore Instance Group
Amazon EMR: Nós do tipo Task
Pode adicionar
Nós do tipo Task
Master Instance Group
HDFS HDFS
Amazon EMR cluster
Task Instance GroupCore Instance Group
Amazon EMR: Nós do tipo Task
Mais CPU
Mais Memória
Master Instance Group
HDFS HDFS
Amazon EMR cluster
Task Instance GroupCore Instance Group
Amazon EMR: Nós do tipo Task
É possível
remover Nós do
tipo Task quando
o processamento
terminar
Master Instance Group
HDFS HDFS
Amazon EMR cluster
Task Instance GroupCore Instance Group
Casos de uso para redimensionamento do
cluster
Cluster sempre ligado que é expandido durante o horário
comercial
Adicionar Nós do tipo Task quando a carga de trabalho variar
em volume, para atender o tempo de processamento
fixo/desejado
Reduzir Nós do tipo Core com instâncias on-demand
adicionando Nós do tipo Task com instâncias spot
Quando devo redimensionar?
Monitorando o Amazon EMR
Amazon EMR é integrado com o Amazon
CloudWatch
Granularidade de 5 minutos
Detalhes sobre:
Estado do Cluster
Desempenho Map/reduce
Estado do nó
Taxas de I/O
HBase
Amazon
CloudWatch
Monitorando o Amazon EMR
Monitoramento chave para desempenho
Tasks de Map executando/pendentes
Tasks de Reduce executando/pendentes
Bytes lidos/escritos no Amazon S3
Utilização HDFS %
Como monitoramento influencia o dimensionamento
Adicione Nós quando número de Tasks de Map/Reduce pendentes > 0
Para otimização de custos, quando o tempo de execução < 60 minutos,
pare de escalar
Monitorando o Amazon EMR
Sumário
Utilize o Amazon S3 como sua fonte de dados final para durabilidade
Pratique arquitetura em nuvem com Clusters transientes
Use o redimensionamento de Cluster Resize + Instâncias Spot para aumento
de desempenho e redução de custos
Migre para as novas famílias/tipos de instância para melhor desempenho/$
Use o CloudWatch para monitorar e saber como e quando utilizar o
redimensionamento
Obrigado!

Mais conteúdo relacionado

Mais procurados

Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2Amazon Web Services LATAM
 
Blue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo SessionBlue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo SessionAmazon Web Services LATAM
 
Raising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftRaising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftAmazon Web Services LATAM
 
Como construir sua primeira aplicação de Big Data na AWS
Como construir sua primeira aplicação de Big Data na AWSComo construir sua primeira aplicação de Big Data na AWS
Como construir sua primeira aplicação de Big Data na AWSAmazon Web Services LATAM
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon Web Services LATAM
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Amazon Web Services LATAM
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessAmazon Web Services LATAM
 
Otimizando e reduzindo custos na Nuvem da AWS
Otimizando e reduzindo custos na Nuvem da AWSOtimizando e reduzindo custos na Nuvem da AWS
Otimizando e reduzindo custos na Nuvem da AWSAmazon Web Services LATAM
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRAmazon Web Services LATAM
 
Bancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralBancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralPET Computação
 
Expandindo seu data center com uma infraestrutura hibrida
Expandindo seu data center com uma infraestrutura hibridaExpandindo seu data center com uma infraestrutura hibrida
Expandindo seu data center com uma infraestrutura hibridaAmazon Web Services LATAM
 

Mais procurados (20)

Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Seu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big DataSeu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big Data
 
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
 
Deep dive de Amazon Redshift
Deep dive de Amazon RedshiftDeep dive de Amazon Redshift
Deep dive de Amazon Redshift
 
Blue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo SessionBlue Green Deployments com Elastic Beanstalk - Demo Session
Blue Green Deployments com Elastic Beanstalk - Demo Session
 
Deep dive de Amazon DynamoDB
Deep dive de Amazon DynamoDBDeep dive de Amazon DynamoDB
Deep dive de Amazon DynamoDB
 
Infraestrutura como código
Infraestrutura como códigoInfraestrutura como código
Infraestrutura como código
 
Raising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftRaising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads Microsoft
 
Banco de Dados Oracle na AWS: RDS ou EC2
Banco de Dados Oracle na AWS: RDS ou EC2Banco de Dados Oracle na AWS: RDS ou EC2
Banco de Dados Oracle na AWS: RDS ou EC2
 
Como construir sua primeira aplicação de Big Data na AWS
Como construir sua primeira aplicação de Big Data na AWSComo construir sua primeira aplicação de Big Data na AWS
Como construir sua primeira aplicação de Big Data na AWS
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenho
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverless
 
Introducao a aws storage backup e archiving
Introducao a aws storage backup e archivingIntroducao a aws storage backup e archiving
Introducao a aws storage backup e archiving
 
3 amazon ebs avancado - 2015 - bfreis - v1
3   amazon ebs avancado - 2015 - bfreis - v13   amazon ebs avancado - 2015 - bfreis - v1
3 amazon ebs avancado - 2015 - bfreis - v1
 
Otimizando e reduzindo custos na Nuvem da AWS
Otimizando e reduzindo custos na Nuvem da AWSOtimizando e reduzindo custos na Nuvem da AWS
Otimizando e reduzindo custos na Nuvem da AWS
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
Bancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralBancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geral
 
Padrões de Arquitetura na Nuvem da AWS
Padrões de Arquitetura na Nuvem da AWSPadrões de Arquitetura na Nuvem da AWS
Padrões de Arquitetura na Nuvem da AWS
 
Expandindo seu data center com uma infraestrutura hibrida
Expandindo seu data center com uma infraestrutura hibridaExpandindo seu data center com uma infraestrutura hibrida
Expandindo seu data center com uma infraestrutura hibrida
 

Destaque

Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Thiago Viola
 
Mitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingMitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingThiago Viola
 
Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Thiago Viola
 
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Jose Papo, MSc
 
Apresentação comercial
Apresentação comercialApresentação comercial
Apresentação comercialArinsBruno
 
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSPalestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSThiago Viola
 
O futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudO futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudThiago Viola
 
O que é Cloud Computing
O que é Cloud ComputingO que é Cloud Computing
O que é Cloud ComputingThiago Viola
 
Infográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilInfográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilThiago Viola
 
Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Thiago Viola
 
Webinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesWebinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesAmazon Web Services LATAM
 
Cloud30 E-Commerce
Cloud30 E-CommerceCloud30 E-Commerce
Cloud30 E-CommerceThiago Viola
 
Cloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesCloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesRafael Biriba
 
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesDetonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesJose Papo, MSc
 
Cloud IBM IaaS - SoftLayer e PaaS - BlueMix
Cloud IBM IaaS - SoftLayer e PaaS - BlueMixCloud IBM IaaS - SoftLayer e PaaS - BlueMix
Cloud IBM IaaS - SoftLayer e PaaS - BlueMixThiago Viola
 
Amazon EC2 - Introdução, Benefícios e dicas
Amazon EC2 - Introdução, Benefícios e dicasAmazon EC2 - Introdução, Benefícios e dicas
Amazon EC2 - Introdução, Benefícios e dicasJose Papo, MSc
 
O que há de novo no Microsoft Azure IaaS
O que há de novo no Microsoft Azure IaaSO que há de novo no Microsoft Azure IaaS
O que há de novo no Microsoft Azure IaaSLucas A. Romão
 

Destaque (20)

Introducao à Nuvem da Amazon Web Services
Introducao à Nuvem da Amazon Web ServicesIntroducao à Nuvem da Amazon Web Services
Introducao à Nuvem da Amazon Web Services
 
Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud Bem vindo a era da Inovação da TI com Cloud
Bem vindo a era da Inovação da TI com Cloud
 
Mitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud ComputingMitos e Verdades sobre Cloud Computing
Mitos e Verdades sobre Cloud Computing
 
Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.Cloud Publica Com alta performance, flexível e gerenciável.
Cloud Publica Com alta performance, flexível e gerenciável.
 
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
Como a Amazon Web Services pode ajudar sua startup ou empresa a crescer e pro...
 
Apresentação comercial
Apresentação comercialApresentação comercial
Apresentação comercial
 
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCSPalestra de Cloud para Universidade de São Caetano do Sul - USCS
Palestra de Cloud para Universidade de São Caetano do Sul - USCS
 
O futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na CloudO futuro do DataCenter mora na Cloud
O futuro do DataCenter mora na Cloud
 
O que é Cloud Computing
O que é Cloud ComputingO que é Cloud Computing
O que é Cloud Computing
 
Infográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no BrasilInfográfico Data Center Cloud IBM SoftLayer no Brasil
Infográfico Data Center Cloud IBM SoftLayer no Brasil
 
Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)Cloud e suas tendências futuras (IoT, Analytics e Watson)
Cloud e suas tendências futuras (IoT, Analytics e Watson)
 
Webinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web ServicesWebinar: Primeiros Passos na Amazon Web Services
Webinar: Primeiros Passos na Amazon Web Services
 
Cloud30 E-Commerce
Cloud30 E-CommerceCloud30 E-Commerce
Cloud30 E-Commerce
 
Cloud computing e Amazon Web Services
Cloud computing e Amazon Web ServicesCloud computing e Amazon Web Services
Cloud computing e Amazon Web Services
 
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web ServicesDetonando mitos sobre a Computação em Nuvem e a Amazon Web Services
Detonando mitos sobre a Computação em Nuvem e a Amazon Web Services
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
Webinar: Amazon Machine Learning
Webinar: Amazon Machine LearningWebinar: Amazon Machine Learning
Webinar: Amazon Machine Learning
 
Cloud IBM IaaS - SoftLayer e PaaS - BlueMix
Cloud IBM IaaS - SoftLayer e PaaS - BlueMixCloud IBM IaaS - SoftLayer e PaaS - BlueMix
Cloud IBM IaaS - SoftLayer e PaaS - BlueMix
 
Amazon EC2 - Introdução, Benefícios e dicas
Amazon EC2 - Introdução, Benefícios e dicasAmazon EC2 - Introdução, Benefícios e dicas
Amazon EC2 - Introdução, Benefícios e dicas
 
O que há de novo no Microsoft Azure IaaS
O que há de novo no Microsoft Azure IaaSO que há de novo no Microsoft Azure IaaS
O que há de novo no Microsoft Azure IaaS
 

Semelhante a Amazon EMR Melhores Práticas

Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataAmazon Web Services LATAM
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebAlessandro Binhara
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Exemplos de uso de apache spark usando aws elastic map reduce
Exemplos de uso de apache spark usando aws elastic map reduceExemplos de uso de apache spark usando aws elastic map reduce
Exemplos de uso de apache spark usando aws elastic map reduceFelipe
 
Bancos de Dados Relacionais e NoSQL na Nuvem da AWS
Bancos de Dados Relacionais e NoSQL na Nuvem da AWSBancos de Dados Relacionais e NoSQL na Nuvem da AWS
Bancos de Dados Relacionais e NoSQL na Nuvem da AWSAmazon Web Services LATAM
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Copa do mundo no brasil interagindo com os torcedores em tempo real
Copa do mundo no brasil   interagindo com os torcedores em tempo realCopa do mundo no brasil   interagindo com os torcedores em tempo real
Copa do mundo no brasil interagindo com os torcedores em tempo realAmazon Web Services LATAM
 

Semelhante a Amazon EMR Melhores Práticas (20)

Construindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWSConstruindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWS
 
AWS Database Day - Português
AWS Database Day - PortuguêsAWS Database Day - Português
AWS Database Day - Português
 
Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação Web
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Exemplos de uso de apache spark usando aws elastic map reduce
Exemplos de uso de apache spark usando aws elastic map reduceExemplos de uso de apache spark usando aws elastic map reduce
Exemplos de uso de apache spark usando aws elastic map reduce
 
Deep dive com Amazon Aurora
Deep dive com Amazon AuroraDeep dive com Amazon Aurora
Deep dive com Amazon Aurora
 
Bancos de Dados Relacionais e NoSQL na Nuvem da AWS
Bancos de Dados Relacionais e NoSQL na Nuvem da AWSBancos de Dados Relacionais e NoSQL na Nuvem da AWS
Bancos de Dados Relacionais e NoSQL na Nuvem da AWS
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
Copa do mundo no brasil interagindo com os torcedores em tempo real
Copa do mundo no brasil   interagindo com os torcedores em tempo realCopa do mundo no brasil   interagindo com os torcedores em tempo real
Copa do mundo no brasil interagindo com os torcedores em tempo real
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWS
 

Amazon EMR Melhores Práticas

  • 2. Amazon Elastic MapReduce melhores práticas Felipe Garcia, Amazon Web Services 28 de Maio, 2015 | São Paulo, SP
  • 3. Computação Armazenamento Infraestrutura Global AWS Banco de Dados Serviços de Aplicativos Implantação e Administração Rede Análise Amazon Elastic MapReduce Gerenciado, cluster elástico de Hadoop (1.x & 2.x) Integra com Amazon S3, Amazon DynamoDB, Amazon Kinesis e Amazon Redshift Instale Storm, Spark, Presto, Hive, Pig, Impala, & ferramentas de usuário final automaticamente Suporte nativo para instâncias Spot Banco de dados HBase NoSQL integrado Amazon EMR Amazon EMR
  • 4.
  • 5. Amazon EMR é como qualquer outro Hadoop Baseado na versão open source do Apache Hadoop, ou 3 versões de MapR Acesse todas as configurações do Hadoop Acesso root as instâncias Instale qualquer software no cluster Versão comum de ferramentas (Hive, Pig, Impala)
  • 7. Configurando Hadoop --bootstrap-actions Path=s3://elasticmapreduce/bootstrap- actions/configure-hadoop --keyword-config-file – mescla valores com novo arquivo de config. --keyword-key-value – sobrescreve pares chave-valor específicos Nome do Arquivo de Configuração Palavra Chave do Arquivo de Configuração (keyword) Atalho Para o Nome do Arquivo Atalho Para Par Chave- Valor core-site.xml core C c hdfs-site.xml hdfs H h mapred-site.xml mapred M m yarn-site.xml yarn Y y
  • 8. Configurando Hadoop Configurando o número de mappers por task tracker --bootstrap-actions Name=Configurar Mappers,Path=s3://elasticmapreduce/bootstrap- actions/configure-hadoop,Args=[- M,s3://myawsbucket/config.xml,- m,mapred.tasktracker.map.tasks.maximum=2] Útil para Tasks de Mapper com baixo consumo de memória Mais trabalho pode ser feito pela instância
  • 9. Configurando Hadoop Configurando o tamanho do bloco HDFS para 1MB --bootstrap-actions Path=s3://elasticmapreduce/bootstrap- actions/configure-hadoop,Args=[- m,dfs.block.size=1048576] Útil quando pequenos arquivos são utilizados no HDFS
  • 10. Configurando Hadoop 1 Reutilizar os mappers --bootstrap-actions Path=s3://elasticmapreduce/bootstrap- actions/configure-hadoop,Args=[- m,mapred.job.reuse.jvm.num.tasks=N] -1 = Sempre Tempo de início de um Mapper é de ~ 2-20 seconds Útil para Tasks com um grande número de Mappers Mappers devem ser “limpos” depois da execução (relevante para Java)
  • 11. Configurando a JVM Configura o heap size, Java opts, e sobrescrever o hadoop-user-env.sh Hadoop 1 namenode, datanode, jobtracker, tasktracker, ou client Hadoop 2 namenode, datanode, resourcemanager, nodemanager, ou client --bootstrap-actions Path=s3://elasticmapreduce/bootstrap- actions/configure-daemons,Args=[–{namenode}-heap-size=2048, --{namenode}-opts=-XX:GCTimeRatio=19]
  • 12. Amazon EMR – recursos exclusivos
  • 13. Amazon EMR – recursos exclusivos Amazon S3 / Amazon EMR Visão Consistente Bootstrapping Resize do Cluster Cluster transientes e Spot Utilizar diferentes tipos de instância
  • 14. Amazon EMR Visão Consistente Fornece uma ‘visão consistente’ do dado armazendo no S3, de dentro do cluster Certifica que todos arquivos criados por um Step estão disponíveis para os Steps seguintes Usa diretamente EMRFS para importar e sincronizar dados com o S3 Re-tentativas configurável e metastore Novo arquivo de configuração emrfs- site.xml fs.s3.consistent* System properties EMRfs HDFS Amazon EMR Amazon S3 Amazon DynamoDB Registro de arquivos processados Arquivos
  • 15. Amazon EMR Visão Consistente Gerencie dados no EMRFS usando o cliente emrfs: emrfs – describe-metadata, set-metadata-capacity, delete- metadata, create-metadata, list-metadata-stores – Trabalhar com os metadados armazenados – diff – Exibe o que está no bucket e não está no índice – delete – Remove entradas do índice – sync – Certifica que o índice está sincronizado com um bucket – import – Importa itens do bucket no índice
  • 16. Tamanho de arquivo & Compressão
  • 17. Melhores práticas para tamanho de arquivos Evite arquivos pequenos sob qualquer custo Qualquer coisa menor que 100MB Uma Task de Mapper é gerada para cada quebra de arquivo Cada Mapper/Reducer lança uma nova JVM (Hadoop 1) Tempo de CPU é requerido para lançar uma nova JVM
  • 18. Impacto do tamanho do arquivo no Map/Reduce Tasks de Mapper demoram 2 seg para iniciar e estarem prontas para processar 10TB de 100MB = 100.000 mappers * 2 seg = 55 horas CPU gastas configurando Tasks de Mappers
  • 19. Impacto do tamanho do arquivo no Map/Reduce Tasks de Mapper demoram 2 seg para iniciar e estarem prontas para processar 10TB of 1GB Files = 10.000 Mappers * 2 sec = 5 horas CPU gastas configurando Tasks de Mappers
  • 20. Boa prática: Tamanho do arquivo no S3 Qual é o melhor tamanho de arquivo no S3 para o Hadoop? Em torno de 1 a 2GB Porque?
  • 21. Boa prática: Tamanho do arquivo no S3 Tempo de vida de uma Task não deve ser menor do que 60 segundos Uma Task atinge até de 10 a 15MB/s de velocidade ao S3 ≈60 seg * 15MB 1GB
  • 22. E se eu tiver arquivos pequenos?
  • 23. Lidando com arquivos pequenos Use S3DistCP para juntar arquivos pequenos S3DistCP usa uma expressão regular para combinar arquivos pequenos em maiores aws emr add-steps --cluster-id <cluster> --steps Name=GroupSmallFiles, Type=CUSTOM_JAR, Args=files,home/hadoop/lib/emr- s3distcp-1.0.jar, src,s3://meubucketaws/logs, dest,hdfs:///local, groupBy,.*(i-w.log).*, targetSize,128…
  • 24. Compressão Sempre comprima arquivos no S3 Comprima o resultado de uma Task Reduz a banda utilizada entre o Amazon S3 e o Amazon EMR Reduz custos de armazenamento Reduz I/O de disco Aumenta a velocidade do seu Job
  • 25. Compressão Tipos compressão: Alguns são rápidos, MAS oferecem menos redução de espaço Alguns são eficientes no espaço, MAS lentos Alguns podem ser divididos, outros não Algorítmo % Compressão Velocidade Compressão Velocidade Descompressão GZIP 87% 21MB/s 118MB/s LZO 80% 135MB/s 410MB/s Snappy 78% 172MB/s 409MB/s
  • 26. Compressão Se for sensível a latência, compressão mais rápida é uma melhor escolha Se tiver uma grande quantidade de dados, utilize algum com maior compressão Se não tiver nenhum requisito específico, escolha o LZO Utilize o S3DistCP para altrar o tipo de compressão dos seus arquivos -outputCodec,lzo
  • 27. Amazon S3 & HDFS
  • 28. Boa prática: Amazon S3 como fonte de dados primária Use Amazon S3 como sua fonte de dados permanente HDFS para armazenamento temporário entre jobs Nenhum passo adicional para copiar dados para HDFS Amazon EMR Cluster Task Instance GroupCore Instance Group HDF S HDF S Amazon S3
  • 29. Benefícios: Amazon S3 como fonte de dados primária Capacidade de desligar seu cluster Benefício FANTÁSTICO!! Durabilidade 99.999999999%
  • 30. Benefícios: Amazon S3 como fonte de dados primária Sem necessidade de escalar HDFS Capacidade Replicação para durabilidade Amazon S3 escala para os seus dados Tanto para IOPs como para armazenamento
  • 31. Benefícios: Amazon S3 como fonte de dados primária Capacidade de compartilhar dados entre múltiplos clusters Difícil de fazer com HDFS EMR EMR Amazon S3
  • 32. Benefícios: Amazon S3 como fonte de dados primária Tire vantagem das funcionalidades do Amazon S3 Criptografia server-side Políticas de ciclo de vida Versionamento para proteger contra corrupção de dados Crie clusters elásticos Adicione nós, para ler mais dados do Amazon S3 Com os dados salvos no Amazon S3, remova nós
  • 33. E sobre a localidade dos dados? Rode os clusters na mesma região que o seu bucket do Amazon S3 Os nós do Amazon EMR tem uma conexão de alta velocidade com o Amazon S3 Se o seu job é dependente de CPU/Memória, localidade dos dados não fará muita diferença
  • 34. Boa prática: HDFS para baixa latência Use HDFS para workloads que necessitem de acesso repetido ao dados Use Amazon S3 sua fonte de dados permanente Amazon EMR Cluster Task Instance GroupCore Instance Group HDF S HDF S Amazon S3
  • 35. Boa prática: HDFS para baixa latência 1. Dado armazenado no Amazon S3
  • 36. Boa prática: HDFS para baixa latência 2. Crie o cluster Amazon EMR e copie o dado para o HDFS com S3DistCP S3DistCP
  • 37. Boa prática: HDFS para baixa latência 3. Processe o dado em HDFS
  • 38. Boa prática: HDFS para baixa latência 4. Armazene os resultados no Amazon S3 S3DistCP
  • 39. Boa prática: HDFS para baixa latência Boa prática para workloads com I/O intensivo Benefícios do Amazon S3 discutidos anteriormente, ainda se aplicam Durabilidade Escalabilidade Custo Acréscimo na complexidade operacional
  • 40. Fluxo com Amazon S3 & HDFS
  • 42. Ações de bootstrap e ferramentas do Amazon EMR EMR HDFS Pig
  • 43. Ferramentas de macro do Amazon EMR Hive 0.13.1 • Suporte a ORC • Funções Window • Tipos decimais • Comando TRUNCATE • Melhor otimizador (menos necessidade de hinting) Pig 0.12.0 • Transmite UDF’s não escritos em Java • Suporte nativo a Avro • Suporte nativo a Parquet • Tipos de dados melhorados Impala 1.2.4 • SQL engine em memória • Suporte a tabelas HBASE • Suporte a Parquet – formato de arquivo orientado a coluna • Consultas e console interativo HBase 0.94.18 • Banco de dados • Snapshots • Cache de leitura melhorado e otimização de busca • Transações melhoradas
  • 44. Leia dados diretamente do Kinesis no Hive, Pig, Streaming e Cascading Sem persistência intermediária de dados requerida Maneira simples de introduzir fontes de dados em tempo real, em Sistemas de Processamento em Batch Suporte a múltiplas aplicações & Checkpoint automático Integração do Amazon EMR com Amazon Kinesis
  • 45. drop table call_data_records; CREATE TABLE call_data_records ( start_time bigint, end_time bigint, phone_number STRING, carrier STRING, recorded_duration bigint, calculated_duration bigint, lat double, long double ) ROW FORMAT DELIMITED FIELDS TERMINATED BY "," STORED BY 'com.amazon.emr.kinesis.hive.KinesisStorageHandler' TBLPROPERTIES("kinesis.stream.name"="TestAggregatorStream"); Integrando Amazon EMR com Amazon Kinesis
  • 46. Apache Hue • Interface de usuário para o Hadoop • Buscador de arquivos para Amazon S3 & HDFS • Editor de consulta para Hive/Pig/Impala • Visualização de alocação de Containers/Tasks para para os nós, arquivos de log, monitoramento de processo • Suporte para autenticação LDAP • Suporte a Metastore Remoto
  • 47.
  • 48. Criando novas ações de bootstrap Bash shell script Executa como root Armazenado no Amazon S3 Executado na criação ou redimensionamento do cluster
  • 49.
  • 51. Alocação de recursos da instância Hadoop 1 – Número estático de Mappers/Reducers configurado nos nós do cluster Hadoop 2 – Número variável de aplicações Hadoop baseadas em quebras de arquivo e memória disponível Útil para entender dimensionamento antigo vs novo Número de Tasks* = MapReduce RAM / Container Max RAM
  • 52. Escolhendo o tipo de instância EMR Instância EC2 Map Tasks Reduce Tasks m1.small 2 1 m1.large 3 1 m1.xlarge 8 3 m2.xlarge 3 1 m2.2xlarge 6 2 m2.4xlarge 14 4 m3.xlarge 6 1 m3.2xlarge 12 3 cg1.4xlarge 12 3 cc2.8xlarge 24 6 c3.4xlarge 24 6 hi1.4xlarge 24 6 hs1.8xlarge 24 6 cr1.8xlarge & c3.8xlarge 48 12 1 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 32768 65536 0 50 100 150 200 250 300 Memory (GB) Mappers* Reducers* CPU (ECU Units) Local Storage (GB)
  • 53. Tipos de nós e tamanhos do Amazon EMR Use família m1 e c1 para testes funcionais Use m3 e c3 xlarge, e nós maiores para workloads de produção Use cc2/c3 para trabalhos intensivos de memória e CPU Instâncias hs1, hi1, i2 para workloads HDFS Prefira um cluster menor de nós maiores
  • 54. Família de instâncias M1/C1 Amplamente usada por clientes do Amazon EMR Entretanto, utilização de HDFS é tipicamente baixa M3/C3 oferecem melhor $/benefício
  • 55. M1 vs. M3 Instância Custo / Task Mappper Custo / Task Reducer m1.large $0.08 $0.15 m1.xlarge $0.06 $0.15 m3.xlarge $0.04 $0.07 m3.2xlarge $0.04 $0.07
  • 56. C1 vs. C3 Instância Custo / Task Mapper Custo / Task Reducer c1.medium $0.13 $0.13 c1.xlarge $0.35 $0.70 c3.xlarge $0.05 $0.11 c3.2xlarge $0.05 $0.11
  • 57. Quantos nós eu preciso?
  • 58. Calculando o tamanho do cluster 1. Estime o número de Tasks que o seu Job precisa. 2. Escolha uma instância e anote o número de Tasks que ela pode rodar em paralelo. 3. Escolha algumas amostras de dados para efetuar o teste de carga. O número de arquivos deve ser o mesmo número obtido no passo 2. 4. Rode um cluster Amazon EMR com um nó de um único núcleo e processe os arquivos do passo 3. Anote o tempo total que o cluster levou para processar os seus arquivos.
  • 59. Calculando tamanho do cluster Total de Tasks * Tempo total para processar os arquivos Capacidade de Tasks da instância * Tempo desejado de processamento Número estimado de nós:
  • 60. Exemplo: Calculando tamanho do Cluster 1. Estime o número de Tasks que seu Trabalho precisa 150 2. Escolha uma Instância e anote o número de Tasks que ela pode executar em paralelo m1.xlarge com capacidade de 8 Tasks por instância
  • 61. Exemplo: Calculando tamanho do Cluster 3. Precisamos escolher alguns arquivos de amostra para executar nossos testes. O número de arquivos deve ser o mesmo obtido no passo 2. 8 arquivos selecionados para o teste
  • 62. Exemplo: Calculando tamanho do Cluster 4. Execute um cluster Amazon EMR com um Nó com um único núcleo, e processe os arquivos escolhidos no passo 3. Anote o tempo total de processamento dos arquivos. 3 minutos para processar 8 arquivos
  • 63. Exemplo: Calculando tamanho do Cluster Total de Tasks * Tempo total para processar os arquivos Capacidade de Tasks da instância * Tempo desejado de processamento Número estimado de nós: 150 * 3 min 8 * 5 min = 11 m1.xlarge
  • 65. Redimensionamento do Cluster Amazon EMR te dá a habilidade de redimensionar o cluster sob demanda Simplesmente troque número de instâncias no grupo Core ou Task, e o Amazon EMR provisionará a nova capacidade Processamento continua durante o redimensionamento
  • 66. Amazon EMR: Nós do tipo Core Master Instance Group Amazon EMR cluster HDFS HDFS Executam TaskTrackers (Compute) Executam DataNode (HDFS) Core Instance Group
  • 67. Amazon EMR: Nós do tipo Core Pode adicionar Nós do tipo Core Mais espaço HDFS More CPU/Memória Master Instance Group Amazon EMR cluster HDFS HDFS HDFS Core Instance Group
  • 68. Amazon EMR: Nós do tipo Core Não é possível remover Nós do tipo Core devido ao HDFS Master Instance Group HDFS HDFS HDFS Amazon EMR cluster Core Instance Group
  • 69. Amazon EMR: Nós do tipo Task Executa TaskTrackers Sem HDFS Lê do HDFS dos Nós do tipo Core Master Instance Group HDFS HDFS Amazon EMR cluster Task Instance GroupCore Instance Group
  • 70. Amazon EMR: Nós do tipo Task Pode adicionar Nós do tipo Task Master Instance Group HDFS HDFS Amazon EMR cluster Task Instance GroupCore Instance Group
  • 71. Amazon EMR: Nós do tipo Task Mais CPU Mais Memória Master Instance Group HDFS HDFS Amazon EMR cluster Task Instance GroupCore Instance Group
  • 72. Amazon EMR: Nós do tipo Task É possível remover Nós do tipo Task quando o processamento terminar Master Instance Group HDFS HDFS Amazon EMR cluster Task Instance GroupCore Instance Group
  • 73. Casos de uso para redimensionamento do cluster Cluster sempre ligado que é expandido durante o horário comercial Adicionar Nós do tipo Task quando a carga de trabalho variar em volume, para atender o tempo de processamento fixo/desejado Reduzir Nós do tipo Core com instâncias on-demand adicionando Nós do tipo Task com instâncias spot
  • 75. Monitorando o Amazon EMR Amazon EMR é integrado com o Amazon CloudWatch Granularidade de 5 minutos Detalhes sobre: Estado do Cluster Desempenho Map/reduce Estado do nó Taxas de I/O HBase Amazon CloudWatch
  • 76. Monitorando o Amazon EMR Monitoramento chave para desempenho Tasks de Map executando/pendentes Tasks de Reduce executando/pendentes Bytes lidos/escritos no Amazon S3 Utilização HDFS % Como monitoramento influencia o dimensionamento Adicione Nós quando número de Tasks de Map/Reduce pendentes > 0 Para otimização de custos, quando o tempo de execução < 60 minutos, pare de escalar
  • 77.
  • 79. Sumário Utilize o Amazon S3 como sua fonte de dados final para durabilidade Pratique arquitetura em nuvem com Clusters transientes Use o redimensionamento de Cluster Resize + Instâncias Spot para aumento de desempenho e redução de custos Migre para as novas famílias/tipos de instância para melhor desempenho/$ Use o CloudWatch para monitorar e saber como e quando utilizar o redimensionamento