SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
Copyright Drecom Co., Ltd. All Rights Reserved.
サービスのインシデントを解決するには
Copyright Drecom Co., Ltd. All Rights Reserved.
名前
• 平石陽介 a.k.a. hiracy(ひらしー)
所属
• SREインフラグループ
技術スタック
• AWS/GCP/ansible/terraform/ruby/python/golang
• IaS(Infrastructure as Code)大好きで自作したりも
趣味
• コーヒー焙煎、クラフトコーラ作成
• (そのうちそば打ちやりそう)
Copyright Drecom Co., Ltd. All Rights Reserved.
Copyright Drecom Co., Ltd. All Rights Reserved.
話すこと
• インシデントとは
• 監視のバッドパターン
• 何を監視すれば良いのか?
• どう通知すれば良いのか?
• どう改善すれば良いのか?
• まとめ
Copyright Drecom Co., Ltd. All Rights Reserved.
インシデントとは
ITIL Wiki#Incident Management より
インシデントは、ITサービスの計画外の中断または品質の低下
(サービス中断)として定義されます。
• ITILはITマネジメントの成功事例をまとめたガイドライン
• ISOのような厳密な規格に参考にされている
• インシデントは広義の障害・サービス品質劣化
• これを検知するために監視が必要
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 監視漏れ
• 多すぎるモニタリング・アラート
• 適切でないエスカレーション
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 監視漏れ
そもそも監視してないパターン。
いわゆる泥縄
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 多すぎるモニタリング・アラート
見ないモニタリング・アラートは見るべきものを見ない理
由となってしまう
Copyright Drecom Co., Ltd. All Rights Reserved.
監視のバッドパターン
• 適切でないエスカレーション
アラートに対処すべき人に届いていない
Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
• ビジネスKPI
• SLI/SLO
• ユーザー提供価値
障害・サービス劣化することによりどのような影響が発
生するのかチームで相談
Copyright Drecom Co., Ltd. All Rights Reserved.
何を監視すれば良いのか
まずは利用者の目線で監視できる外形監視用
のエンドポイントを作る。
$ curl -s http://api.anyservice.com/any_process/ping | jq .
{
"message": "healthy",
"status": 200,
"response_time_milli_seconds": 10
}
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• ツール・SaaSに任せましょう
• 監視・モニタリング
• Mackerel
• Datadog
• NewRelic
• インシデント管理
• PagerDuty
• VictorOps
• splunk
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• 弊社事例(「ドリコム PagerDuty アラート管理」で検索)
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• PagerDutyのようなアラートを集約してくれるSaaSを利用
• 同じインシデントでアラートをまとめてくれる機能があると便利
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• エスカレーションする単位をチャットグループでまとめると便利
• メールは極力利用しない(見ないとノイズの温床になるので)
• 過去のインシデントはSaaSで管理する
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
1. 監視ツールからアラートを発報
2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの
チャットグループに通知
3. サービス担当者がインシデントを確認、対応状況を追記していく、
対応が完了したらインシデントをクローズ
Copyright Drecom Co., Ltd. All Rights Reserved.
どう通知すれば良いのか?
• インシデントの状態と解決を通知し履歴を追えるようにする
(PagerDutyのようなSaaSはここが強い)
• 状態を追えるようにしていればインシデントの編集や解決は誰
でも良い
Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
• インシデントレビューしましょう
• 緊急対応とは別に毎朝昨日のアラートをチーム全員で
見る
• 不要なアラートの削除
• 予防策・自動化が必要なものの洗い出し
• 通知先(エスカレーション)の精査
• システム・サービスの理解
Copyright Drecom Co., Ltd. All Rights Reserved.
どう改善すれば良いのか?
ポストモーテムとインシデントレビュー
• ポストモーテムは実際にサービスに影響があったイン
シデントに対し再発防止に集中して対策する
• インシデントレビューは監視システムの最適化
Copyright Drecom Co., Ltd. All Rights Reserved.
まとめ
• 監視のバッドパターンを意識して監視設定しましょう
• 通知・インシデント管理にSaaSを使いましょう
• インシデントレビューして監視自体を改善しましょう
Copyright Drecom Co., Ltd. All Rights Reserved.
ご清聴ありがとうございました!

Weitere ähnliche Inhalte

Ähnlich wie サービスのインシデントを解決するには.pdf

Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!
Boss4434
 

Ähnlich wie サービスのインシデントを解決するには.pdf (20)

DeNAでのVertica運用
DeNAでのVertica運用DeNAでのVertica運用
DeNAでのVertica運用
 
Webアプリケーションは難しい
Webアプリケーションは難しいWebアプリケーションは難しい
Webアプリケーションは難しい
 
Riotでサーバレスにした話
Riotでサーバレスにした話Riotでサーバレスにした話
Riotでサーバレスにした話
 
Oracle設計
Oracle設計Oracle設計
Oracle設計
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料
 
CircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップCircleCIで悩んだことピックアップ
CircleCIで悩んだことピックアップ
 
ネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったことネットワークエンジニアがWeb開発をやってみて思ったこと
ネットワークエンジニアがWeb開発をやってみて思ったこと
 
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOMAPI meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
API meet up #12資料:APIでコントロール可能なIoT通信プラットフォームSORACOM
 
アドテク案件入門講座
アドテク案件入門講座アドテク案件入門講座
アドテク案件入門講座
 
AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他
 
とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例とあるメーカーのRedmine活用事例
とあるメーカーのRedmine活用事例
 
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャシステム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
システム高速化フォーラム向け プッシュ通知基盤のアーキテクチャ
 
NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野NHNグループ合同勉強会 ライブドア片野
NHNグループ合同勉強会 ライブドア片野
 
Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!Aws summits2014 nttデータaws上のシステムはこう作る!
Aws summits2014 nttデータaws上のシステムはこう作る!
 
Migartion to AWS
Migartion to AWSMigartion to AWS
Migartion to AWS
 
技術選択とアーキテクトの役割
技術選択とアーキテクトの役割技術選択とアーキテクトの役割
技術選択とアーキテクトの役割
 
Engine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaSEngine Yard - 商用マルチクラウドPaaS
Engine Yard - 商用マルチクラウドPaaS
 
GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理GitLab で実現する Ansible コードの管理
GitLab で実現する Ansible コードの管理
 
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
DX時代に目指すべき品質向上とテスト - @IT ソフトウェア品質向上セミナー 2019夏
 
YJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組みYJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組み
 

Mehr von Drecom Co., Ltd.

Mehr von Drecom Co., Ltd. (20)

コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活コンテナで始める柔軟な AWS Lambda 生活
コンテナで始める柔軟な AWS Lambda 生活
 
ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治ドリコムサマージョブ報告 by 佐々木 誠治
ドリコムサマージョブ報告 by 佐々木 誠治
 
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
DRECOM Summer Internship 2019 成果発表 by 鹿内 裕介
 
HTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発についてHTML5 ゲームフレームワーク開発について
HTML5 ゲームフレームワーク開発について
 
「AROW」お披露目(導入編)
「AROW」お披露目(導入編)「AROW」お披露目(導入編)
「AROW」お披露目(導入編)
 
「AROW」お披露目(実用編)
「AROW」お披露目(実用編)「AROW」お披露目(実用編)
「AROW」お披露目(実用編)
 
AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜AROW の紹介 〜概要編〜
AROW の紹介 〜概要編〜
 
AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜AROW の紹介 〜実践編〜
AROW の紹介 〜実践編〜
 
rails-developers-meetup-day4
rails-developers-meetup-day4rails-developers-meetup-day4
rails-developers-meetup-day4
 
html5conf2018-sponsor-session
html5conf2018-sponsor-sessionhtml5conf2018-sponsor-session
html5conf2018-sponsor-session
 
DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!DApps のユーザ認証に web3.eth.personal.sign を使おう!
DApps のユーザ認証に web3.eth.personal.sign を使おう!
 
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
3Dリアルマップを用いたモバイルゲーム開発における課題とその解決方法
 
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチLoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
LoveChainのスマートコントラクトを見てみよう & 非中央集権なトークンのカタチ
 
今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!今月のレッツゴー陰陽師!
今月のレッツゴー陰陽師!
 
位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよ位置情報を常に取得するのはつらいよ
位置情報を常に取得するのはつらいよ
 
カンバンと朝会とわたくし
カンバンと朝会とわたくしカンバンと朝会とわたくし
カンバンと朝会とわたくし
 
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
CEDEC 2016 Metal と Vulkan を用いた水彩画レンダリング技法の紹介
 
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
CEDEC 2015 Cocos2d-x と社内基盤の付き合い方 〜アップストリームファーストを目指して〜
 
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
CEDEC 2015 IoT向け汎用protocol MQTTのリアルタイムゲーム通信利用と実装、そして未来へ…
 
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
[CEDEC2014]モバイルゲームにおける社内基盤開発と“実録”
 

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

サービスのインシデントを解決するには.pdf

  • 1. Copyright Drecom Co., Ltd. All Rights Reserved. サービスのインシデントを解決するには
  • 2. Copyright Drecom Co., Ltd. All Rights Reserved. 名前 • 平石陽介 a.k.a. hiracy(ひらしー) 所属 • SREインフラグループ 技術スタック • AWS/GCP/ansible/terraform/ruby/python/golang • IaS(Infrastructure as Code)大好きで自作したりも 趣味 • コーヒー焙煎、クラフトコーラ作成 • (そのうちそば打ちやりそう)
  • 3. Copyright Drecom Co., Ltd. All Rights Reserved.
  • 4. Copyright Drecom Co., Ltd. All Rights Reserved. 話すこと • インシデントとは • 監視のバッドパターン • 何を監視すれば良いのか? • どう通知すれば良いのか? • どう改善すれば良いのか? • まとめ
  • 5. Copyright Drecom Co., Ltd. All Rights Reserved. インシデントとは ITIL Wiki#Incident Management より インシデントは、ITサービスの計画外の中断または品質の低下 (サービス中断)として定義されます。 • ITILはITマネジメントの成功事例をまとめたガイドライン • ISOのような厳密な規格に参考にされている • インシデントは広義の障害・サービス品質劣化 • これを検知するために監視が必要
  • 6. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 監視漏れ • 多すぎるモニタリング・アラート • 適切でないエスカレーション
  • 7. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 監視漏れ そもそも監視してないパターン。 いわゆる泥縄
  • 8. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 多すぎるモニタリング・アラート 見ないモニタリング・アラートは見るべきものを見ない理 由となってしまう
  • 9. Copyright Drecom Co., Ltd. All Rights Reserved. 監視のバッドパターン • 適切でないエスカレーション アラートに対処すべき人に届いていない
  • 10. Copyright Drecom Co., Ltd. All Rights Reserved. 何を監視すれば良いのか • ビジネスKPI • SLI/SLO • ユーザー提供価値 障害・サービス劣化することによりどのような影響が発 生するのかチームで相談
  • 11. Copyright Drecom Co., Ltd. All Rights Reserved. 何を監視すれば良いのか まずは利用者の目線で監視できる外形監視用 のエンドポイントを作る。 $ curl -s http://api.anyservice.com/any_process/ping | jq . { "message": "healthy", "status": 200, "response_time_milli_seconds": 10 }
  • 12. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • ツール・SaaSに任せましょう • 監視・モニタリング • Mackerel • Datadog • NewRelic • インシデント管理 • PagerDuty • VictorOps • splunk
  • 13. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • 弊社事例(「ドリコム PagerDuty アラート管理」で検索)
  • 14. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報
  • 15. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • PagerDutyのようなアラートを集約してくれるSaaSを利用 • 同じインシデントでアラートをまとめてくれる機能があると便利
  • 16. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報 2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの チャットグループに通知
  • 17. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • エスカレーションする単位をチャットグループでまとめると便利 • メールは極力利用しない(見ないとノイズの温床になるので) • 過去のインシデントはSaaSで管理する
  • 18. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? 1. 監視ツールからアラートを発報 2. PagerDutyにインシデントが作られ、対象アラートに関連するエンジニアチームの チャットグループに通知 3. サービス担当者がインシデントを確認、対応状況を追記していく、 対応が完了したらインシデントをクローズ
  • 19. Copyright Drecom Co., Ltd. All Rights Reserved. どう通知すれば良いのか? • インシデントの状態と解決を通知し履歴を追えるようにする (PagerDutyのようなSaaSはここが強い) • 状態を追えるようにしていればインシデントの編集や解決は誰 でも良い
  • 20. Copyright Drecom Co., Ltd. All Rights Reserved. どう改善すれば良いのか? • インシデントレビューしましょう • 緊急対応とは別に毎朝昨日のアラートをチーム全員で 見る • 不要なアラートの削除 • 予防策・自動化が必要なものの洗い出し • 通知先(エスカレーション)の精査 • システム・サービスの理解
  • 21. Copyright Drecom Co., Ltd. All Rights Reserved. どう改善すれば良いのか? ポストモーテムとインシデントレビュー • ポストモーテムは実際にサービスに影響があったイン シデントに対し再発防止に集中して対策する • インシデントレビューは監視システムの最適化
  • 22. Copyright Drecom Co., Ltd. All Rights Reserved. まとめ • 監視のバッドパターンを意識して監視設定しましょう • 通知・インシデント管理にSaaSを使いましょう • インシデントレビューして監視自体を改善しましょう
  • 23. Copyright Drecom Co., Ltd. All Rights Reserved. ご清聴ありがとうございました!