SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
AWSKRUG 컨테이너 소모임
Amazon EKS 모니터링
- EKS의 주요 지표를 확인하고, 모니터링 방안을 소개합니다.
발표자 소개
- 이현진, Sales Engineer at Datadog
- CDN Engineer 2년 / Solutions Architect 7년
- AWS에서 운영 중인 사이드 프로젝트
- MAU 1,500: Aggregator 웹서비스(서버리스 아키텍처)
- MAU 6,000: WebView Android(Fargate on ECS)
- MBTI: ISTP같은 ESTP
모니터링과 알람 그리고 SLO
EKS Architecture
Control Plane Node
- API Server
- Controller manager
- Scheduler
- etcd
Work Node
- kubelet
- CoreDNS
- Kube Proxy
EKS 모니터링의 핵심
2) 사용자 중심의 서비스 단위 모니터링
• 요청 수
• 지연 시간
• 요청 실패율
• 서비스 인프라 사용률
• 분산 트레이싱(APM)
1) 모든 컴포넌트, 리소스, 플랫폼 메트릭
• 컨트롤플레인 메트릭(etcd, workqueue, scheduler, API)
• 클러스터, 노드, 파드 등 리소스(+coredns)
• NGINX, Kafka, Redis 등 플랫폼 메트릭
3) 모든 로그 저장 후 노이즈 로그 제거
• 쿠버네티스 로그
• 애플리케이션 로그
Label
- env: Prd
- app: DatadogWeb
- service: Frontend
- version: 1.0.1
- team: FrontA
CPU, 메모리가 과포화 상태일 때?
네트워크 특이사항?
디스크 I/O?
K8s 혹은 다양한 플랫폼 메트릭?
응답 시간이 3초 이상 일 때?
에러율이 높을 때?
프로세스가 죽었을 때?
EKS 환경에서 언제 알람을 받아야 할까?
고객님의 심기가 불편해지기 전
-> 느리거나, 안 될 때…
각 서비스의 모니터링 기준 필요
-> 메인 페이지 2초 이내
-> 주요 API 1초 이내 등
EKS 환경에서 언제 알람을 받아야 할까?
서비스 수준 지표(SLI) - 서비스의 측면(일반적으로 메트릭)을
표현하는 정량적 측정입니다. SLI는 정량적이어야 하며 합리적인
수준의 정확도로 측정 가능해야 합니다. SLI는 SLO의 기초입니다.
서비스 수준 목표(SLO) - 지정된 기간 동안 서비스에 대한 SLI의
대상 값입니다. SLO는 유지하거나 노력해야 하는 합당한
값이어야 하며 궁극적으로 시간이 지남에 따라 서비스 실패의
성공을 측정하는 방법입니다.
서비스 수준 계약(SLA) - 기본 SLO는 SLA 규정에서 측정될 수
있지만 실제 SLO 목표는 더 엄격하게 구성합니다.
SLA, SLI 그리고 SLO
SLI 주요 지표 및 측정 방법
● 가용성(availability) : 리소스 업타임
● 에러율 (Error rate%) : 전체 요청에서 실패한 요청의 비율
● 응답 시간 (Request latency) : Application 응답 시간
● 처리량(Throughput) : TPS 또는 QPS
Google SRE: Golden Signals
SLO 예시
K8s 모니터링 도구
Observability 도구(Monitoring, Tracing, Logging)
참고: https://landscape.cncf.io
리소스 모니터링: Metrics-Server, Kube-state-metrics
리소스 모니터링: Prometheus, Grafana, Alertmanager
리소스 모니터링: Prometheus, Grafana, Alertmanager
kube-prometheus의 미리 제공되는 룰과 대시보드
EKS의 주요 메트릭
의도한대로 K8s가 동작하지 않을 때
● Pod status: Not Ready 상태
● Node status: Not Ready 상태
● Deployment: Desired와 Current 불일치
● PersistentVolume: 상태 이상
● Container Image: ImagePullBackOff, CrashloopBackOff
● 그 외…
기타 메트릭
● CoreDNS: 지연시간 등
● Kubelet: 인증서 만료
● API Server: 지연 시간
● StatefulSet: 리소스 메트릭
서비스 단위 모니터링: Kiali and JAGER with istio
ServieMesh istio 구조
서비스 단위 모니터링: Kiali and JAGER with istio
서비스 단위 모니터링: AWS X-Ray
● 응답 시간 (Request latency) : SLI 기준 응답 시간 지연(P95?)
● 에러율 (Error rate%) : SLI 기준 에러율 증가(P95?)
● 처리량(Throughput) : Pod 개수 대비 TPS 증가
알람이 필요한 서비스 단위 메트릭
데이터독의 모니터링 level과 알람 체계
자동화 API 테스트(블랙박스 모니터링)
핵심 API(실패) / 인증서 체크(15일
이내)
리소스/사용자 관점
Statefulsets 리소스 중요 메트릭
Gateway(Ingress controller 등)
리소스/사용자 관점
팀별 중요 API(지연, 실패률 / P50~P95 )
K8s 컨트롤플레인 특이사항
SLO 버닝 레이트 초과
외부 API 모니터링(결제 등)
리소스 관점(런북 필수)
리소스 관련(CPU, 메모리 등)
실제 서비스 이슈 X
개인 및 R&D 팀 용도
서비스 실무팀
오퍼레이터팀
1) 모니터링 값에 대한
설명
2) 이슈
영향도
3) 이슈 관련 런북 / 플레이북
4) 1차 팀 채널
7) 직관적인 이슈 대응
가이드
9) 현재 이슈 관련된
대시보드
5) 언제까지? (업무 시간까지)
완료하지 못하면 2차 팀에
노티
6) 2차 팀 채널
8) 작업 완료 후 결과 보고
채널
현재 문제가 발생되지 않는 리소스 이슈의 경우
작업자에 정확한 런북 메시지와 함께 알람 등록
여러 메트릭을 혼합해 알람을 만든 경우
알람을 만든 이유와 관련된 Doc link를 첨부
데이터독의 포스트모템과 알람 메시지
1. 알람을 최소화 하자.
2. 처음부터 완벽한 모니터링을 구축할 수 없다.
3. 장애 후에는 다양한 메트릭을 활용해서 장애 징후를 파악하자.
4. 알람에는 대시보드, 런북 그리고 플레이북을 추가하자. (포스트모템)
5. 새로운 플랫폼 도입 시 모니터링 방안은 데이터독 블로그 참고.
마지막 😙 모니터링 훈수 몇 마디

Weitere ähnliche Inhalte

Was ist angesagt?

AWS solution Architect Associate study material
AWS solution Architect Associate study materialAWS solution Architect Associate study material
AWS solution Architect Associate study materialNagesh Ramamoorthy
 
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기YongSung Yoon
 
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Amazon Web Services Korea
 
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...Amazon Web Services Korea
 
AWS App Runner를 활용한 컨테이너 서버리스 활용기
AWS App Runner를 활용한 컨테이너 서버리스 활용기AWS App Runner를 활용한 컨테이너 서버리스 활용기
AWS App Runner를 활용한 컨테이너 서버리스 활용기JinyoungKim52579
 
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신AgileKoreaConference Alliance
 
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인Amazon Web Services Korea
 
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...Amazon Web Services Korea
 
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021AWSKRUG - AWS한국사용자모임
 
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021Amazon Web Services Korea
 
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 Observability
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 ObservabilityAWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 Observability
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 ObservabilityAmazon Web Services Korea
 
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018Amazon Web Services Korea
 
MSA ( Microservices Architecture ) 발표 자료 다운로드
MSA ( Microservices Architecture ) 발표 자료 다운로드MSA ( Microservices Architecture ) 발표 자료 다운로드
MSA ( Microservices Architecture ) 발표 자료 다운로드Opennaru, inc.
 
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017Amazon Web Services Korea
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報Amazon Web Services Japan
 
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...Amazon Web Services Korea
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPNAmazon Web Services Japan
 
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...Amazon Web Services Korea
 

Was ist angesagt? (20)

AWS solution Architect Associate study material
AWS solution Architect Associate study materialAWS solution Architect Associate study material
AWS solution Architect Associate study material
 
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기
[Spring Camp 2018] 11번가 Spring Cloud 기반 MSA로의 전환 : 지난 1년간의 이야기
 
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
 
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
 
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
 
AWS App Runner를 활용한 컨테이너 서버리스 활용기
AWS App Runner를 활용한 컨테이너 서버리스 활용기AWS App Runner를 활용한 컨테이너 서버리스 활용기
AWS App Runner를 활용한 컨테이너 서버리스 활용기
 
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신
Amazon & AWS의 MSA와 DevOps, 그리고 지속적 혁신
 
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
 
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...
AWS Fault Injection Simulator를 통한 실전 카오스 엔지니어링 - 윤석찬 AWS 수석 테크에반젤리스트 / 김신 SW엔...
 
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
Amazon EKS로 간단한 웹 애플리케이션 구축하기 - 김주영 (AWS) :: AWS Community Day Online 2021
 
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021
내 서비스에는 어떤 데이터베이스가 맞는걸까? - 이혁 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul 2021
 
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 Observability
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 ObservabilityAWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 Observability
AWS Summit Seoul 2023 |Datadog을 활용한 AWS 서버리스 Observability
 
AWS Fargate on EKS 실전 사용하기
AWS Fargate on EKS 실전 사용하기AWS Fargate on EKS 실전 사용하기
AWS Fargate on EKS 실전 사용하기
 
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
딥러닝 서비스에 쓰이는 GPU 인스턴스 비용 효율을 위한 스팟(Spot) 활용기 - 손은주, 매스프레소 :: AWS DevDay 2018
 
MSA ( Microservices Architecture ) 발표 자료 다운로드
MSA ( Microservices Architecture ) 발표 자료 다운로드MSA ( Microservices Architecture ) 발표 자료 다운로드
MSA ( Microservices Architecture ) 발표 자료 다운로드
 
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017
인프라 자동 배포를 위한 AWS CloudFormation 고급 활용법 - AWS Summit Seoul 2017
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
 
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...
Amazon Personalize Event Tracker 실시간 고객 반응을 고려한 추천::김태수, 솔루션즈 아키텍트, AWS::AWS ...
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
 
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...
금융 X 하이브리드 클라우드 플랫폼 - 한화생명 디지털 트랜스포메이션 전략 - 김나영 AWS 금융부문 사업개발 담당 / 박인규 AWS 금융...
 

Ähnlich wie (KRUG Session) 쿠버네티스 모니터링.pdf

CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingCloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingAmazon Web Services Korea
 
도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdfssusera65af0
 
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWSKRUG - AWS한국사용자모임
 
[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How ToJi-Woong Choi
 
Online service 계층별 성능 모니터링 방안
Online service 계층별 성능 모니터링 방안Online service 계층별 성능 모니터링 방안
Online service 계층별 성능 모니터링 방안중선 곽
 
Oracle Application Performance Monitoring Cloud Service 소개
Oracle Application Performance Monitoring Cloud Service 소개Oracle Application Performance Monitoring Cloud Service 소개
Oracle Application Performance Monitoring Cloud Service 소개Mee Nam Lee
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기Yeonhee Kim
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance TuningJi-Woong Choi
 
Opensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceOpensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceGunHee Lee
 
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018 클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018 Amazon Web Services Korea
 
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링OpenStack Korea Community
 
[213]monitoringwithscouter 이건희
[213]monitoringwithscouter 이건희[213]monitoringwithscouter 이건희
[213]monitoringwithscouter 이건희NAVER D2
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...문기 박
 
Observability customer presentation samuel-2021-03-30
Observability customer presentation samuel-2021-03-30Observability customer presentation samuel-2021-03-30
Observability customer presentation samuel-2021-03-30SAMUEL SJ Cheon
 
Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028Cana Ko
 
NETSCOUT nGeniusONE for Service Assurance
NETSCOUT nGeniusONE for Service AssuranceNETSCOUT nGeniusONE for Service Assurance
NETSCOUT nGeniusONE for Service AssuranceJay Hong
 
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중Amazon Web Services Korea
 
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Opennaru, inc.
 
Use Helm to deploy Prometheus Operator in EKS.pptx
Use Helm to deploy Prometheus Operator in EKS.pptxUse Helm to deploy Prometheus Operator in EKS.pptx
Use Helm to deploy Prometheus Operator in EKS.pptxByungho Lee
 
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon Web Services Korea
 

Ähnlich wie (KRUG Session) 쿠버네티스 모니터링.pdf (20)

CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingCloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
 
도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf
 
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
 
[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To
 
Online service 계층별 성능 모니터링 방안
Online service 계층별 성능 모니터링 방안Online service 계층별 성능 모니터링 방안
Online service 계층별 성능 모니터링 방안
 
Oracle Application Performance Monitoring Cloud Service 소개
Oracle Application Performance Monitoring Cloud Service 소개Oracle Application Performance Monitoring Cloud Service 소개
Oracle Application Performance Monitoring Cloud Service 소개
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning
 
Opensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceOpensource APM SCOUTER in practice
Opensource APM SCOUTER in practice
 
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018 클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018
클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018
 
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
 
[213]monitoringwithscouter 이건희
[213]monitoringwithscouter 이건희[213]monitoringwithscouter 이건희
[213]monitoringwithscouter 이건희
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
 
Observability customer presentation samuel-2021-03-30
Observability customer presentation samuel-2021-03-30Observability customer presentation samuel-2021-03-30
Observability customer presentation samuel-2021-03-30
 
Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028
 
NETSCOUT nGeniusONE for Service Assurance
NETSCOUT nGeniusONE for Service AssuranceNETSCOUT nGeniusONE for Service Assurance
NETSCOUT nGeniusONE for Service Assurance
 
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
 
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
 
Use Helm to deploy Prometheus Operator in EKS.pptx
Use Helm to deploy Prometheus Operator in EKS.pptxUse Helm to deploy Prometheus Operator in EKS.pptx
Use Helm to deploy Prometheus Operator in EKS.pptx
 
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
 

(KRUG Session) 쿠버네티스 모니터링.pdf

  • 1. AWSKRUG 컨테이너 소모임 Amazon EKS 모니터링 - EKS의 주요 지표를 확인하고, 모니터링 방안을 소개합니다.
  • 2. 발표자 소개 - 이현진, Sales Engineer at Datadog - CDN Engineer 2년 / Solutions Architect 7년 - AWS에서 운영 중인 사이드 프로젝트 - MAU 1,500: Aggregator 웹서비스(서버리스 아키텍처) - MAU 6,000: WebView Android(Fargate on ECS) - MBTI: ISTP같은 ESTP
  • 4. EKS Architecture Control Plane Node - API Server - Controller manager - Scheduler - etcd Work Node - kubelet - CoreDNS - Kube Proxy
  • 5. EKS 모니터링의 핵심 2) 사용자 중심의 서비스 단위 모니터링 • 요청 수 • 지연 시간 • 요청 실패율 • 서비스 인프라 사용률 • 분산 트레이싱(APM) 1) 모든 컴포넌트, 리소스, 플랫폼 메트릭 • 컨트롤플레인 메트릭(etcd, workqueue, scheduler, API) • 클러스터, 노드, 파드 등 리소스(+coredns) • NGINX, Kafka, Redis 등 플랫폼 메트릭 3) 모든 로그 저장 후 노이즈 로그 제거 • 쿠버네티스 로그 • 애플리케이션 로그 Label - env: Prd - app: DatadogWeb - service: Frontend - version: 1.0.1 - team: FrontA
  • 6. CPU, 메모리가 과포화 상태일 때? 네트워크 특이사항? 디스크 I/O? K8s 혹은 다양한 플랫폼 메트릭? 응답 시간이 3초 이상 일 때? 에러율이 높을 때? 프로세스가 죽었을 때? EKS 환경에서 언제 알람을 받아야 할까?
  • 7. 고객님의 심기가 불편해지기 전 -> 느리거나, 안 될 때… 각 서비스의 모니터링 기준 필요 -> 메인 페이지 2초 이내 -> 주요 API 1초 이내 등 EKS 환경에서 언제 알람을 받아야 할까?
  • 8. 서비스 수준 지표(SLI) - 서비스의 측면(일반적으로 메트릭)을 표현하는 정량적 측정입니다. SLI는 정량적이어야 하며 합리적인 수준의 정확도로 측정 가능해야 합니다. SLI는 SLO의 기초입니다. 서비스 수준 목표(SLO) - 지정된 기간 동안 서비스에 대한 SLI의 대상 값입니다. SLO는 유지하거나 노력해야 하는 합당한 값이어야 하며 궁극적으로 시간이 지남에 따라 서비스 실패의 성공을 측정하는 방법입니다. 서비스 수준 계약(SLA) - 기본 SLO는 SLA 규정에서 측정될 수 있지만 실제 SLO 목표는 더 엄격하게 구성합니다. SLA, SLI 그리고 SLO
  • 9. SLI 주요 지표 및 측정 방법 ● 가용성(availability) : 리소스 업타임 ● 에러율 (Error rate%) : 전체 요청에서 실패한 요청의 비율 ● 응답 시간 (Request latency) : Application 응답 시간 ● 처리량(Throughput) : TPS 또는 QPS Google SRE: Golden Signals
  • 12. Observability 도구(Monitoring, Tracing, Logging) 참고: https://landscape.cncf.io
  • 14. 리소스 모니터링: Prometheus, Grafana, Alertmanager
  • 15. 리소스 모니터링: Prometheus, Grafana, Alertmanager
  • 17. EKS의 주요 메트릭 의도한대로 K8s가 동작하지 않을 때 ● Pod status: Not Ready 상태 ● Node status: Not Ready 상태 ● Deployment: Desired와 Current 불일치 ● PersistentVolume: 상태 이상 ● Container Image: ImagePullBackOff, CrashloopBackOff ● 그 외… 기타 메트릭 ● CoreDNS: 지연시간 등 ● Kubelet: 인증서 만료 ● API Server: 지연 시간 ● StatefulSet: 리소스 메트릭
  • 18. 서비스 단위 모니터링: Kiali and JAGER with istio ServieMesh istio 구조
  • 19. 서비스 단위 모니터링: Kiali and JAGER with istio
  • 21. ● 응답 시간 (Request latency) : SLI 기준 응답 시간 지연(P95?) ● 에러율 (Error rate%) : SLI 기준 에러율 증가(P95?) ● 처리량(Throughput) : Pod 개수 대비 TPS 증가 알람이 필요한 서비스 단위 메트릭
  • 22. 데이터독의 모니터링 level과 알람 체계 자동화 API 테스트(블랙박스 모니터링) 핵심 API(실패) / 인증서 체크(15일 이내) 리소스/사용자 관점 Statefulsets 리소스 중요 메트릭 Gateway(Ingress controller 등) 리소스/사용자 관점 팀별 중요 API(지연, 실패률 / P50~P95 ) K8s 컨트롤플레인 특이사항 SLO 버닝 레이트 초과 외부 API 모니터링(결제 등) 리소스 관점(런북 필수) 리소스 관련(CPU, 메모리 등) 실제 서비스 이슈 X 개인 및 R&D 팀 용도 서비스 실무팀 오퍼레이터팀
  • 23. 1) 모니터링 값에 대한 설명 2) 이슈 영향도 3) 이슈 관련 런북 / 플레이북 4) 1차 팀 채널 7) 직관적인 이슈 대응 가이드 9) 현재 이슈 관련된 대시보드 5) 언제까지? (업무 시간까지) 완료하지 못하면 2차 팀에 노티 6) 2차 팀 채널 8) 작업 완료 후 결과 보고 채널 현재 문제가 발생되지 않는 리소스 이슈의 경우 작업자에 정확한 런북 메시지와 함께 알람 등록 여러 메트릭을 혼합해 알람을 만든 경우 알람을 만든 이유와 관련된 Doc link를 첨부 데이터독의 포스트모템과 알람 메시지
  • 24. 1. 알람을 최소화 하자. 2. 처음부터 완벽한 모니터링을 구축할 수 없다. 3. 장애 후에는 다양한 메트릭을 활용해서 장애 징후를 파악하자. 4. 알람에는 대시보드, 런북 그리고 플레이북을 추가하자. (포스트모템) 5. 새로운 플랫폼 도입 시 모니터링 방안은 데이터독 블로그 참고. 마지막 😙 모니터링 훈수 몇 마디