Este documento apresenta boas práticas de arquitetura e operação para ambientes na AWS. Apresenta o framework Well Architected e o Cloud Operations Review, que fornecem diretrizes para avaliar a arquitetura e os processos operacionais. Também discute princípios como segurança, confiabilidade, desempenho e otimização de custos.
2. Agenda
O que vamos falar aqui?
Sim. Tudo falha, o tempo todo!
Conhecendo o Well Architected
Como o Well Architected pode me ajudar?
Conhecendo o Cloud Operations Review
Próximos Passos
3. O que vamos falar aqui?
Well-Architected
Program
BUILD
Cloud Operations
ReviewRUN
Trusted AdvisorCHECK
Cloud Adoption Framework (CAF)PLAN
Desenvolvimento Operações
5. Sim. Tudo falha, o tempo todo!
“Tudo falha o tempo
todo.”
- Werner Vogels
6. “Eu não falhei,
encontrei 10 mil
soluções que não
davam certo.”
- Thomas Edison
Fonte: https://en.wikipedia.org/wiki/Thomas_Edison
7. Erros mais comuns
Take it for granted
Falta de testes, ou nenhum teste
Anti-pattern
Falta de processos, planejamento e alinhamento
com o negócio
9. O que é o framework Well Architected?
• Um conjunto de questões que você pode utilizar para
avaliar o quanto sua arquitetura está alinhada com os
padrões de boas práticas da AWS.
Fonte: http://d0.awsstatic.com/whitepapers/architecture/AWS_Well-Architected_Framework.pdf
10. Pilares do Well Architected
Segurança Confiabilidade
Reliability
Desempenho
Eficiente
Performance
Efficiency
Otimização
De Custos
COost
Optimization
Excelência
Operacional
Operational
Excellence
11. Princípios de Design
Take it for granted
Testar, testar, testar, e em grande escala!
Apoio na Automação
Boas práticas de arquitetura
Apoio no alinhamento com o negócio
Data-Driven Architecture
12. Segurança
Foca em proteger os sistemas
e informações entregando
valor ao negócio utilizando
estratégias de avaliação e
mitigação de riscos.
Fonte: https://d0.awsstatic.com/whitepapers/architecture/AWS-Security-Pillar.pdf
Segurança
13. Exemplos de Perguntas
SEC 1. How are you protecting access to and use of
the AWS root account credentials?
SEC 2. How are you defining roles and
responsibilities of system users to control human
access to the AWS Management Console and API?
SEC 3. How are you limiting automated access to AWS
resources? (e.g., applications, scripts, and/or
third-party tools or services)
14. Principais Lições
Habilite o CloudTrail
Nunca utilize a conta root
Utilize usuários, roles e grupos IAM
Se possível, habilite federação com IAM
Utilize o princípio do menor privilégio
Utilize criptografia sempre que possível
Execute periodicamente o Trusted Advisor
15. Confiabilidade
Foca na habilidade de se
recuperar de falhas de
infraestrutura e de serviços,
adquirindo dinamicamente
recursos computacionais para
atender a demanda, e mitigar
disrupturas.
Fonte: https://d0.awsstatic.com/whitepapers/architecture/AWS-Reliability-Pillar.pdf
Confiabilidade
Reliability
16. Exemplos de Perguntas
REL 1. How do you manage AWS service limits for your
accounts?
REL 2. How are you planning your network topology on AWS?
REL 3. How does your system adapt to changes in demand?
REL 4. How are you monitoring AWS resources?
REL 5. How are you executing change?
17. Principais Lições
Revise periodicamente os limites de sua conta e
workloads
Esteja preparado para falhar
Utilize Multi-AZ
Faça Change Management
Faça backup de seus dados
Já disse para executar periodicamente o Trusted
Advisor ?
18. Desempenho Eficiente
A habilidade de usar recursos
computacionais de maneira
eficiente para atender os
requisitos do sistema, e
manter essa eficiência de
acordo com a demanda e
evolução tecnológica.
Fonte: https://d0.awsstatic.com/whitepapers/architecture/AWS-Performance-Efficiency-Pillar.pdf
Desempenho
Eficiente
Performance
Efficiency
19. Exemplos de Perguntas
PERF 1. How do you select the best performing
architecture?
PERF 2. How do you select your compute solution?
PERF 6. How do you ensure that you continue to have the
most appropriate resource type as new resource types and
features are introduced?
20. Principais Lições
Revise sua arquitetura periodicamente
Automatize tudo!
Martelo de Maslow, Persistência Poliglota e Baixo
acoplamento
Esteja preparado para falhar
Esteja preparado para escalar horizontalmente
Já disse para executar periodicamente o Trusted
Advisor ?
21. Otimização de Custos
A habilidade de evitar ou
eliminar custos
desnecessários ou recursos
mal utilizados
Fonte: https://d0.awsstatic.com/whitepapers/architecture/AWS-Cost-Optimization-Pillar.pdf
Otimização
De Custos
COost
Optimization
22. Exemplos de Perguntas
COST 1. Are you considering cost when you select AWS
services for your solution?
COST 2. Have you sized your resources to meet your cost
targets?
COST 3. Have you selected the appropriate pricing model to
meet your cost targets?
COST 4. How do you make sure your capacity matches but
does not substantially exceed what you need?
23. Principais Lições
Revise periodicamente a fatura de sua conta
Calcule os custos de seu desenho de arquitetura
Já disse para executar periodicamente o Trusted
Advisor ?
24. Excelência Operacional
A habilidade de executar e
monitorar sistemas para
entregar valor ao negócio e de
maneira contínua e
incremental melhorar os
processos e procedimentos de
suporte
Fonte: em breve!
Excelência
Operacional
Operational
Excellence
25. Exemplos de Perguntas
OPS 1. What best practices for cloud operations are you
using?
OPS 2. How are you doing configuration management for your
workload?
OPS 3. How are you evolving your workload while minimizing
the impact of change?
OPS 4. How do you monitor your workload to ensure it is
operating as expected?
26. Principais Lições
Conheça os sintomas de seu ambiente
Automatize tudo! Seja +proativo e -reativo
Pense grande, execute pequeno, seja consistente
Teste para casos inesperados
Investigue, estude os erros, e aprenda com as causas
27. Quais são os benefícios?
Entender melhor o
ambiente
Descobrir oportunidades
Minimizar ou mitigar riscos
28. Quais são os benefícios?
Método consistente de
revisão de arquitetura
Mais pró-ativo, menos
reativo
Construa seu backlog
29. Quais são os benefícios?
Influenciar novas
arquiteturas
Aprender boas práticas
30. O que é o Cloud Operations Review?
Uma revisão dos processos
operacionais e da aderência às
práticas que visam elevar a Excelência
Operacional do seu ambiente na AWS
31. Enterprise Support
Maior nível de suporte oferecido pela AWS
• Características:
• Acesso 24 horas por dia, 7 dias por
semana, a Engenheiros sêniores do Cloud
Support por e-mail, atendimento on-line e
telefone
• TAM – Gerente técnico de conta
• Support Concierge
• Gerenciamento de eventos de infraestrutura
• API do AWS Support
• Cloud Operations Review
https://aws.amazon.com/pt/premiumsupport/enterprise-support/
32. ”Você não pode gerenciar
o que não pode medir!”
-- Peter Drucker
34. Preparação
• Qual a estratégia de gestão e governança das suas
contas na AWS?
• Como é o on-boarding de novos serviços da AWS e
projetos em produção?
• Como novos processos são definidos e continuamente
apriporados?
35. Exemplos de Perguntas
1. How are workforce cloud operations duties and
responsibilities defined?
2. How are cloud operations processes and procedures
documented and updated?
3. How is operational readiness assessed before
workloads are transitioned from development to pre-
production to production?
36. Boas práticas de Preparação
• Usar AWS Organizations, Consolidated Billing
• Definir seus Tags para consolidação de Custos
• Usar políticas IAM seguindo a regra de mínimos privilégios
• Definir um checklist operacional para projetos e deploys
• Escrever Playbooks e Runbooks para os processos
operacionais
• Revisar a documentação (peer review) continuamente
• Executar Dry-Runs, Drills e Gamedays
• Induzir falhas controladas (ex: Netflix Simian Army)
37. Monitoração
• Como os limites dos recursos são monitorados
• Limites da AWS (ex: instâncias)
• Tráfego de Rede (ex: VPN, Direct Connect)
• Monitoração da segurança do Ambiente
• Processos de alerta e escalação dos times
• Gestão de logs
• Análise de performance
38. Exemplos de Perguntas
1. How logs from multiples sources are aggregated
and used for monitoring?
2. How is network traffic for AWS resource
monitored?
3. How is security monitored for AWS resources and
workloads?
39. Boas práticas de Monitoração
• Usar o AWS Limits Monitor (http://amzn.to/2tmzDbw)
• Definir KPI alinhados ao negócio
• CloudWatch Alarms e CloudWatch Logs
• Habilitar Cloudtrail em todas as contas
• Habilitar Server Access Logs da S3
• Consolidar logs de aplicação na S3
• Indexar logs críticos para Troubleshooting
40. Operação
• Gestão de Ativos
• Gestão de Mudanças e Deployments
• Gestão de Eventos
• Gerenciamento de Incidentes
• Gerenciamento de Processos de Segurança
41. Exemplos de Perguntas
1. How is change management performed development
and production environments?
2. What process are in place to mitigate and recover
from failed services changes?
3. What process are in place to manage and mitigate
against security breaches and intrusion attempts?
42. Boas práticas de Operação
• Segurança em primeiro lugar
• Cattle vs Pet
• Configurations Management Tool (Puppet / Chef)
• Menos SSH é Mais
• Infra-estrutura imutável
43. Otimização
• Revisões de Post-mortem, análise de causa raiz.
• Otimização da operação via automação
• Gestão de recursos e capacidade
• Otimização de performance
44. Exemplos de Perguntas
1. How are opportunities for automating activities
in AWS cloud operations identified?
2. How are AWS cloud operations tooling needs
identified, implemented, and reviewed for gaps?
3. How are AWS capacity requirements assessed,
updated, and maintained to meet business continuity
objectives (RPO/RTO)?
Every day experts at AWS assist customers in architecting systems to take advantage of best practices in the cloud. We work with you on making architectural trade-offs as your designs evolve. As you deploy these systems into live environments, we learn how well these systems perform, and the consequences of those trade-offs. Amazon Web Services – AWS Well-Architected Framework Page 2 Based on what we have learned we have created the AWS Well-Architected Framework, which is a set of questions you can use to evaluate how well an architecture is aligned to AWS best practices.
Aumente seu conhecimento de boas práticas de arquitetura
Te lembra de endereçar coisas básicas que geralmente são negligenciadas
Método consistente para avaliar arquiteturas
Composto de:
Pilares
Princípios de Design
Perguntas
Gerenciamento de acessos e identidades
Controles detectivos
Proteção da infra-estrutura
Proteção dos dados
Resposta a incidentes
Fundações
Gerenciamento de Mudança
Gerenciamento de Falhas
Seleção
Revisão
Monitoramento
Trade-off
PERF 3. How do you select your storage solution?
PERF 4. How do you select your database solution?
Recursos com bom custo-benefício
Demanda e fornecimento alinhados
Gasto consciente
Otimização constante e incremental
COST 5. Did you consider data-transfer charges when designing your architecture?
COST 6. How are you monitoring usage and spending?
COST 7. Do you decommission resources that you no longer need or stop resources that are temporarily not needed?
COST 8. What access controls and procedures do you have in place to govern AWS usage?
COST 9. How do you manage and/or consider the adoption of new services?
Preparação
Operação
Resposta
OPS 5. How do you respond to unplanned operational events?
OPS 6. How is escalation managed when responding to unplanned operational events?
Operational Excellence:
Operational Excellence (OE) is making sure that your software is running properly, your customers are taken care of, and your team measures the latency, availability, and performance of your software, and completes and resolves defects in a timely manner. It is continuously working to improve your systems for the best customer experience.
Purpose is the reason for existence – why did we create it?
The purpose of the Cloud Operations Review Program is to provide a framework that will guide AWS customers towards Operational Excellence.As TAMs are often the closest to daily customer operations, they are well suited to delivering this guidance for our customers.
** Cor não substitui ITIL, COBIT ou outros processos internos já estabelecidos pelos clientes.
- Momento para compartilhar a dinâmica operacional com time de enterprise suporte da AWS.
Você terá uma conta para produção, outra para QA, outra para Dev (Dev e QA devem ficar juntos?), uma conta por departamento, as contas estarão linkadas?
Você terá uma conta para produção, outra para QA, outra para Dev (Dev e QA devem ficar juntos?), uma conta por departamento, as contas estarão linkadas?