Weitere ähnliche Inhalte
Ähnlich wie サービスのインシデントを解決するには.pdf (20)
Mehr von Drecom Co., Ltd. (20)
Kürzlich hochgeladen (12)
サービスのインシデントを解決するには.pdf
- 2. Copyright Drecom Co., Ltd. All Rights Reserved.
名前
• 平石陽介 a.k.a. hiracy(ひらしー)
所属
• SREインフラグループ
技術スタック
• AWS/GCP/ansible/terraform/ruby/python/golang
• IaS(Infrastructure as Code)大好きで自作したりも
趣味
• コーヒー焙煎、クラフトコーラ作成
• (そのうちそば打ちやりそう)
- 4. Copyright Drecom Co., Ltd. All Rights Reserved.
話すこと
• インシデントとは
• 監視のバッドパターン
• 何を監視すれば良いのか?
• どう通知すれば良いのか?
• どう改善すれば良いのか?
• まとめ
- 5. Copyright Drecom Co., Ltd. All Rights Reserved.
インシデントとは
ITIL Wiki#Incident Management より
インシデントは、ITサービスの計画外の中断または品質の低下
(サービス中断)として定義されます。
• ITILはITマネジメントの成功事例をまとめたガイドライン
• ISOのような厳密な規格に参考にされている
• インシデントは広義の障害・サービス品質劣化
• これを検知するために監視が必要
- 8. Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 多すぎるモニタリング・アラート
見ないモニタリング・アラートは見るべきものを見ない理
由となってしまう
- 10. Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
• ビジネスKPI
• SLI/SLO
• ユーザー提供価値
障害・サービス劣化することによりどのような影響が発
生するのかチームで相談
- 11. Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
まずは利用者の目線で監視できる外形監視用
のエンドポイントを作る。
$ curl -s http://api.anyservice.com/any_process/ping | jq .
{
"message": "healthy",
"status": 200,
"response_time_milli_seconds": 10
}
- 12. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• ツール・SaaSに任せましょう
• 監視・モニタリング
• Mackerel
• Datadog
• NewRelic
• インシデント管理
• PagerDuty
• VictorOps
• splunk
- 15. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• PagerDutyのようなアラートを集約してくれるSaaSを利用
• 同じインシデントでアラートをまとめてくれる機能があると便利
- 16. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
- 17. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• エスカレーションする単位をチャットグループでまとめると便利
• メールは極力利用しない(見ないとノイズの温床になるので)
• 過去のインシデントはSaaSで管理する
- 18. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
3. サービス担当者がインシデントを確認、対応状況を追記していく、
対応が完了したらインシデントをクローズ
- 19. Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• インシデントの状態と解決を通知し履歴を追えるようにする
(PagerDutyのようなSaaSはここが強い)
• 状態を追えるようにしていればインシデントの編集や解決は誰
でも良い
- 20. Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
• インシデントレビューしましょう
• 緊急対応とは別に毎朝昨日のアラートをチーム全員で
見る
• 不要なアラートの削除
• 予防策・自動化が必要なものの洗い出し
• 通知先(エスカレーション)の精査
• システム・サービスの理解
- 21. Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
ポストモーテムとインシデントレビュー
• ポストモーテムは実際にサービスに影響があったイン
シデントに対し再発防止に集中して対策する
• インシデントレビューは監視システムの最適化
- 22. Copyright Drecom Co., Ltd. All Rights Reserved.
まとめ
• 監視のバッドパターンを意識して監視設定しましょう
• 通知・インシデント管理にSaaSを使いましょう
• インシデントレビューして監視自体を改善しましょう