Criação do seu primeiro aplicativo de big data na AWS usando Kinesis, EMR, Redshift e mais

© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Hugo Rozestraten, Arquiteto de Soluções
14 de Setembro de 2016
Criação do seu primeiro
aplicativo de big data na AWS

Amazon S3
Amazon Kinesis
Amazon DynamoDB
Amazon RDS (Aurora)
AWS Lambda
KCL Apps
Amazon
EMR
Amazon
Redshift
Amazon Machine
Learning
Coletar Processar Analisar
Armazenar
Coleta de dados
e armazenamento
Processamento
de dados
Processamento
de eventos
Análise
de dados
Dados Respostas
Ecossistema de big data na AWS

Seu primeiro aplicativo de big data na AWS
?

Ecossistema de big data na AWS - Coletar
Coletar Processar Analisar
Armazenar
Dados Respostas

Ecossistema de big data na AWS - Processar
Coletar Processa
r
Analisar
Armazenar
Dados Respostas

Ecossistema de big data na AWS - Analisar
Coletar Processa
r
Analisar
Armazenar
Dados Respostas
SQL

Recursos
1. Interface da linha de comando da AWS (aws-cli) configurada
2. Fluxo do Amazon Kinesis com um único fragmento
3. Bucket do Amazon S3 para manter os arquivos
4. Cluster do Amazon EMR (dois nós) com Spark e Hive
5. Cluster de data warehouse do Amazon Redshift (nó único)

Amazon Kinesis
Criar um fluxo do Amazon Kinesis para manter os dados de
entrada:
aws kinesis create-stream
--stream-name AccessLogStream
--shard-count 1

Amazon EMR
Iniciar um cluster de três instâncias com Spark e Hive
instalados:
m3.xlarge
SUA REGIÃO DA AWS
SUA CHAVE SSH DA AWS

Amazon Redshift

ESCOLHA UMA SENHA DO REDSHIFT

1. COLETAR: Fluxo de dados para
o Kinesis com Log4J
2. PROCESSAR: Processar dados
com EMR usando Spark e Hive
3. ANALISAR: Analisar dados no
Redshift usando SQL
ARMAZENAR
SQL

Amazon Kinesis Log4J Appender
Arquivo de credenciais AwsCredentials.properties
com estas credenciais o usuário do IAM que tenha
permissão para acesso ao Amazon Kinesis:
accessKey=YOUR-IAM-ACCESS-KEY
secretKey=YOUR-SECRET-KEY
Então inicie o Amazon Kinesis Log4J Appender:

Formato do arquivo de registro

Spark
•Mecanismo rápido e básico para
processamento de dados em grande
escala
•Grave aplicativos rapidamente em
Java, Scala ou Python
•Combine SQL, streaming e análises
complexas.

Uso do Spark no EMR
SUA CHAVE SSH DA AWS NOME DO HOST DO EMR
Inicie o shell do Spark:
--jars /usr/lib/spark/extras/lib/spark-
streaming-kinesis-asl.jar,amazon-kinesis-client-
1.5.1.jar

Amazon Kinesis e streaming do Spark
Produtor Amazon
Kinesis
Amazon
S3
DynamoD
B
KCL
O streaming do Spark
usa KCL para o Kinesis
Amazon
EMR
O aplicativo de streaming do Spark para ler do Kinesis e gravar no S3

Streaming do Spark - Leitura do Kinesis
/* Setup the KinesisClient */
/* Determine the number of shards from the stream */

Streaming do Spark - Gravação no S3
/* Merge the worker Dstreams and translate the byteArray to string */
/* Write each RDD to Amazon S3*/

Visualizar os arquivos de saída no
Amazon S3
SEU BUCKET DO S3
SEU BUCKET DO S3
aaaa mm dd HH

Hive do Amazon EMR
Adapta a consulta como SQL (HiveQL) para execução no
Hadoop
Esquema na leitura: mapeie a tabela para os dados de
entrada
Acessar dados em Amazon S3, Amazon DymamoDB e
Amazon Kinesis
Consultar formatos de entrada complexos usando SerDe
Transformar dados com funções definidas pelo usuário (UDF)

Uso do Hive no Amazon EMR
Iniciar Hive:
hive

Criar uma tabela que aponte para o bucket do
Amazon S3
CREATE EXTERNAL TABLE access_log_raw(
host STRING, identity STRING,
user STRING, request_time STRING,
request STRING, status STRING,
size STRING, referrer STRING,
agent STRING
)
PARTITIONED BY (year INT, month INT, day INT, hour INT, min INT)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|[[^]]*]) ([^
"]*|"[^"]*") (-|[0-9]*) (-|[0-9]*)(?: ([^ "]*|"[^"]*") ([^
"]*|"[^"]*"))?"
)
LOCATION 's3://SEU BUCKET DO S3/access-log-raw';
msck repair table access_log_raw;

Processar dados usando o Hive
Transformaremos os dados que são retornados pela consulta antes de
gravá-los na tabela Hive externa armazenada no Amazon S3
Funções definidas pelo usuário (UDF) do Hive em uso para as
transformações de texto: from_unixtime, unix_timestamp e hour
O valor de "hour" é importante: ele é usado para dividir e organizar os
arquivos de saída antes de gravar no Amazon S3. Com essas
divisões, podemos carregar os dados com mais eficiência no Amazon
Redshift depois no laboratório com o comando "COPY" paralelo

Criar uma tabela Hive externa no Amazon S3
SEU BUCKET DO S3

Configurar partição e compactação
-- configurar "particionamento dinâmico" do Hive
-- isso dividirá os arquivos de saída ao gravar no Amazon S3
-- compactar arquivos de saída no Amazon S3 usando Gzip

Consultar Hive e gravar saída no Amazon S3
-- converter carimbo de data/hora do registro do Apache em um carimbo de
data/hora do UNIX
-- dividir arquivos no Amazon S3 pela hora nas linhas do registro
INSERT OVERWRITE TABLE access_log_processed PARTITION (hour)
SELECT
from_unixtime(unix_timestamp(request_time,
'[dd/MMM/yyyy:HH:mm:ss Z]')),
host,
request,
status,
referrer,
agent,
hour(from_unixtime(unix_timestamp(request_time,
'[dd/MMM/yyyy:HH:mm:ss Z]'))) como hora
FROM access_log_raw;

Visualização do status da tarefa
http://127.0.0.1/9026

Visualizar os arquivos de saída no Amazon S3
SEU BUCKET DO S3
SEU BUCKET DO S3

Spark SQL
Módulo do Spark para trabalhar com dados estruturados
usando SQL
Execute consultas Hive não modificadas nos dados
existentes.

Uso do Spark-SQL no Amazon EMR
Iniciar Hive:
spark-sql

Consultar os dados com o Spark
-- retornar a primeira linha no fluxo
-- retornar todos os itens contados no fluxo
-- encontrar os 10 hosts principais

Conectar ao Amazon Redshift
# using the PostgreSQL CLI
ENDPOINT DO REDSHIFT
Ou use qualquer cliente JDBC ou ODBC SQL com os drivers
PostgreSQL 8.x ou suporte nativo do Redshift
• Aginity Workbench para Amazon Redshift
• SQL Workbench/J

Criar uma tabela do Amazon Redshift para manter os
dados

Carregamento de dados no Amazon Redshift
O comando "COPY" carrega arquivos paralelamente
COPY accesslogs
FROM 's3://SEU BUCKET DO S3/access-log-processed'
CREDENTIALS
'aws_access_key_id=SUA CHAVE DE ACESSO DO IAM;
aws_secret_access_key=SUA CHAVE SECRETA DO IAM'
DELIMITER 't' IGNOREHEADER 0
MAXERROR 0
GZIP;

Consultas de teste do Amazon Redshift
-- encontrar distribuição de códigos de status ao longo dos
dias
-- encontrar os códigos de status 404
-- mostrar todas as solicitações de status como PÁGINA NÃO
ENCONTRADA

Um favicon corrigiria 398 dos 977 erros de PÁGINA NÃO
ENCONTRADA (404) no total

... pelo mesmo preço de uma xícara de café
Experimente na nuvem AWS...
Serviço Custo
estimado*
Amazon Kinesis $1.00
Amazon S3 (nível gratuito) $0
Amazon EMR $0.44
Amazon Redshift $1.00
Total estimado $2.44
*O custo estimado presume: uso do nível gratuito onde disponível, instâncias de custo mais baixo, conjunto de dados com no máximo
10 MB e instâncias em execução por menos de 4 horas. Os custos podem variar dependendo das opções selecionadas, do tamanho
do conjunto de dados e do uso.
$3.50

Obrigado
Blog de Big Data da AWS
blogs.aws.amazon.com/bigdata

Criação do seu primeiro aplicativo de big data na AWS usando Kinesis, EMR, Redshift e mais

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Criação do seu primeiro aplicativo de big data na AWS usando Kinesis, EMR, Redshift e mais

Ähnlich wie Criação do seu primeiro aplicativo de big data na AWS usando Kinesis, EMR, Redshift e mais (20)

Mehr von Amazon Web Services LATAM

Mehr von Amazon Web Services LATAM (20)

Criação do seu primeiro aplicativo de big data na AWS usando Kinesis, EMR, Redshift e mais

Hinweis der Redaktion