Suche senden
Hochladen
SLOのすすめ
•
10 gefällt mir
•
8,071 views
T
Takeo Sawada
Folgen
SRE Meetup Tokyo にて発表 https://connpass.com/event/66219/
Weniger lesen
Mehr lesen
Ingenieurwesen
Melden
Teilen
Melden
Teilen
1 von 19
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Google Cloud で実践する SRE
Google Cloud で実践する SRE
Google Cloud Platform - Japan
エラー・バジェットによるリスク管理 Managing risk with error budgets
エラー・バジェットによるリスク管理 Managing risk with error budgets
Google Cloud Platform - Japan
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
NTT DATA Technology & Innovation
Dapr on Kubernetes
Dapr on Kubernetes
Shiho ASA
3分でわかるAzureでのService Principal
3分でわかるAzureでのService Principal
Toru Makabe
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
NTT DATA Technology & Innovation
Azure Api Management 俺的マニュアル 2020年3月版
Azure Api Management 俺的マニュアル 2020年3月版
貴志 上坂
Argo CD Deep Dive
Argo CD Deep Dive
shunki fujiwara
Empfohlen
Google Cloud で実践する SRE
Google Cloud で実践する SRE
Google Cloud Platform - Japan
エラー・バジェットによるリスク管理 Managing risk with error budgets
エラー・バジェットによるリスク管理 Managing risk with error budgets
Google Cloud Platform - Japan
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
NTT DATA Technology & Innovation
Dapr on Kubernetes
Dapr on Kubernetes
Shiho ASA
3分でわかるAzureでのService Principal
3分でわかるAzureでのService Principal
Toru Makabe
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
NTT DATA Technology & Innovation
Azure Api Management 俺的マニュアル 2020年3月版
Azure Api Management 俺的マニュアル 2020年3月版
貴志 上坂
Argo CD Deep Dive
Argo CD Deep Dive
shunki fujiwara
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
Itsuki Kuroda
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
Composer bin plugin / ツールの依存管理から解放される
Composer bin plugin / ツールの依存管理から解放される
Kentarou Takeda
REST API のコツ
REST API のコツ
pospome
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Preferred Networks
Concourseで快適な自動化の旅
Concourseで快適な自動化の旅
Kazuto Kusama
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
NTT DATA Technology & Innovation
Amazon EKS によるスマホゲームのバックエンド運用事例
Amazon EKS によるスマホゲームのバックエンド運用事例
gree_tech
ドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したこと
BIGLOBE Inc.
View customize pluginを使いこなす
View customize pluginを使いこなす
onozaty
インフラCICDの勘所
インフラCICDの勘所
Toru Makabe
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
Redmine issue assign notice plugin の紹介
Redmine issue assign notice plugin の紹介
onozaty
組織にテストを書く文化を根付かせる戦略と戦術
組織にテストを書く文化を根付かせる戦略と戦術
Takuto Wada
Keycloak拡張入門
Keycloak拡張入門
Hiroyuki Wada
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
Yahoo!デベロッパーネットワーク
ソフトウェア開発のやり方の改善
ソフトウェア開発のやり方の改善
増田 亨
Azure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステスト
Kuniteru Asami
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと
増田 亨
世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture
Atsushi Nakamura
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Amazon Web Services
AWS X-Rayによるアプリケーションの分析とデバッグ
AWS X-Rayによるアプリケーションの分析とデバッグ
Amazon Web Services Japan
Weitere ähnliche Inhalte
Was ist angesagt?
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
Itsuki Kuroda
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
Composer bin plugin / ツールの依存管理から解放される
Composer bin plugin / ツールの依存管理から解放される
Kentarou Takeda
REST API のコツ
REST API のコツ
pospome
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Preferred Networks
Concourseで快適な自動化の旅
Concourseで快適な自動化の旅
Kazuto Kusama
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
NTT DATA Technology & Innovation
Amazon EKS によるスマホゲームのバックエンド運用事例
Amazon EKS によるスマホゲームのバックエンド運用事例
gree_tech
ドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したこと
BIGLOBE Inc.
View customize pluginを使いこなす
View customize pluginを使いこなす
onozaty
インフラCICDの勘所
インフラCICDの勘所
Toru Makabe
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
Redmine issue assign notice plugin の紹介
Redmine issue assign notice plugin の紹介
onozaty
組織にテストを書く文化を根付かせる戦略と戦術
組織にテストを書く文化を根付かせる戦略と戦術
Takuto Wada
Keycloak拡張入門
Keycloak拡張入門
Hiroyuki Wada
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
Yahoo!デベロッパーネットワーク
ソフトウェア開発のやり方の改善
ソフトウェア開発のやり方の改善
増田 亨
Azure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステスト
Kuniteru Asami
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと
増田 亨
世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture
Atsushi Nakamura
Was ist angesagt?
(20)
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
Composer bin plugin / ツールの依存管理から解放される
Composer bin plugin / ツールの依存管理から解放される
REST API のコツ
REST API のコツ
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Concourseで快適な自動化の旅
Concourseで快適な自動化の旅
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Amazon EKS によるスマホゲームのバックエンド運用事例
Amazon EKS によるスマホゲームのバックエンド運用事例
ドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したこと
View customize pluginを使いこなす
View customize pluginを使いこなす
インフラCICDの勘所
インフラCICDの勘所
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Redmine issue assign notice plugin の紹介
Redmine issue assign notice plugin の紹介
組織にテストを書く文化を根付かせる戦略と戦術
組織にテストを書く文化を根付かせる戦略と戦術
Keycloak拡張入門
Keycloak拡張入門
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
Apache OpenWhiskで実現するプライベートFaaS環境 #tjdev
ソフトウェア開発のやり方の改善
ソフトウェア開発のやり方の改善
Azure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステスト
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと
世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture
Andere mochten auch
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Amazon Web Services
AWS X-Rayによるアプリケーションの分析とデバッグ
AWS X-Rayによるアプリケーションの分析とデバッグ
Amazon Web Services Japan
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
Kentoku
An introduction and future of Ruby coverage library
An introduction and future of Ruby coverage library
mametter
Blockchain on Go
Blockchain on Go
Seiji Takahashi
ScalaからGoへ
ScalaからGoへ
James Neve
AndApp開発における全て #denatechcon
AndApp開発における全て #denatechcon
DeNA
golang.tokyo #6 (in Japanese)
golang.tokyo #6 (in Japanese)
Yuichi Murata
神に近づくx/net/context (Finding God with x/net/context)
神に近づくx/net/context (Finding God with x/net/context)
guregu
What’s New in Amazon Aurora
What’s New in Amazon Aurora
Amazon Web Services
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
Spark Summit
MongoDBの可能性の話
MongoDBの可能性の話
Akihiro Kuwano
Operations: Production Readiness Review – How to stop bad things from Happening
Operations: Production Readiness Review – How to stop bad things from Happening
Amazon Web Services
Microservices at Mercari
Microservices at Mercari
Google Cloud Platform - Japan
Swaggerでのapi開発よもやま話
Swaggerでのapi開発よもやま話
KEISUKE KONISHI
Fast and Reliable Swift APIs with gRPC
Fast and Reliable Swift APIs with gRPC
Tim Burks
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
Takuya Ueda
Solving anything in VCL
Solving anything in VCL
Fastly
So You Wanna Go Fast?
So You Wanna Go Fast?
Tyler Treat
Google Home and Google Assistant Workshop: Build your own serverless Action o...
Google Home and Google Assistant Workshop: Build your own serverless Action o...
Bret McGowen - NYC Google Developer Advocate
Andere mochten auch
(20)
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
AWS X-Rayによるアプリケーションの分析とデバッグ
AWS X-Rayによるアプリケーションの分析とデバッグ
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
Spiderストレージエンジンの使い方と利用事例 他ストレージエンジンの紹介
An introduction and future of Ruby coverage library
An introduction and future of Ruby coverage library
Blockchain on Go
Blockchain on Go
ScalaからGoへ
ScalaからGoへ
AndApp開発における全て #denatechcon
AndApp開発における全て #denatechcon
golang.tokyo #6 (in Japanese)
golang.tokyo #6 (in Japanese)
神に近づくx/net/context (Finding God with x/net/context)
神に近づくx/net/context (Finding God with x/net/context)
What’s New in Amazon Aurora
What’s New in Amazon Aurora
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
Apache Spark Streaming + Kafka 0.10 with Joan Viladrosariera
MongoDBの可能性の話
MongoDBの可能性の話
Operations: Production Readiness Review – How to stop bad things from Happening
Operations: Production Readiness Review – How to stop bad things from Happening
Microservices at Mercari
Microservices at Mercari
Swaggerでのapi開発よもやま話
Swaggerでのapi開発よもやま話
Fast and Reliable Swift APIs with gRPC
Fast and Reliable Swift APIs with gRPC
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
メルカリアッテの実務で使えた、GAE/Goの開発を効率的にする方法
Solving anything in VCL
Solving anything in VCL
So You Wanna Go Fast?
So You Wanna Go Fast?
Google Home and Google Assistant Workshop: Build your own serverless Action o...
Google Home and Google Assistant Workshop: Build your own serverless Action o...
Ähnlich wie SLOのすすめ
サーバーレスの今とこれから
サーバーレスの今とこれから
真吾 吉田
ドメイン駆動設計という仕事の流儀
ドメイン駆動設計という仕事の流儀
増田 亨
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
DIVE INTO CODE Corp.
SRE 1st steps
SRE 1st steps
Yuta Shimada
ここが良かったDatadog
ここが良かったDatadog
tyamane
ゼロからのプログラミングRails講座 Codeanywhere版
ゼロからのプログラミングRails講座 Codeanywhere版
DIVE INTO CODE Corp.
Ignite 2021秋 recap - 開発者向け新機能紹介
Ignite 2021秋 recap - 開発者向け新機能紹介
Kazushi Kamegawa
夏サミ2013 基調講演 「DevOpsは開発現場とビジネスの間に何を生むか?」(新野淳一氏)
夏サミ2013 基調講演 「DevOpsは開発現場とビジネスの間に何を生むか?」(新野淳一氏)
Developers Summit
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Atsushi Kambara
Programming AWS with Perl at YAPC::Asia 2013
Programming AWS with Perl at YAPC::Asia 2013
Yasuhiro Horiuchi
小規模チームでも実現!スケーラブルな広告システム開発
小規模チームでも実現!スケーラブルな広告システム開発
Tomohiro Kikuyama
Microsoft ではじめる AI DLラボ パートナープログラムご紹介
Microsoft ではじめる AI DLラボ パートナープログラムご紹介
Hirono Jumpei
【入門】3時間でアプリ公開!ゼロからのプログラミングRails講座
【入門】3時間でアプリ公開!ゼロからのプログラミングRails講座
DIVE INTO CODE Corp.
160724 jtf2016sre
160724 jtf2016sre
OSSラボ株式会社
FiNC DDD第一回勉強会
FiNC DDD第一回勉強会
裕紀 重村
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
ApplicationTemplateのススメ
ApplicationTemplateのススメ
Takafumi ONAKA
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
20141003 webマーケティングエンジニアリング
20141003 webマーケティングエンジニアリング
Innova Inc.
テスト駆動開発の進化
テスト駆動開発の進化
Yukei Wachi
Ähnlich wie SLOのすすめ
(20)
サーバーレスの今とこれから
サーバーレスの今とこれから
ドメイン駆動設計という仕事の流儀
ドメイン駆動設計という仕事の流儀
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
SRE 1st steps
SRE 1st steps
ここが良かったDatadog
ここが良かったDatadog
ゼロからのプログラミングRails講座 Codeanywhere版
ゼロからのプログラミングRails講座 Codeanywhere版
Ignite 2021秋 recap - 開発者向け新機能紹介
Ignite 2021秋 recap - 開発者向け新機能紹介
夏サミ2013 基調講演 「DevOpsは開発現場とビジネスの間に何を生むか?」(新野淳一氏)
夏サミ2013 基調講演 「DevOpsは開発現場とビジネスの間に何を生むか?」(新野淳一氏)
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Programming AWS with Perl at YAPC::Asia 2013
Programming AWS with Perl at YAPC::Asia 2013
小規模チームでも実現!スケーラブルな広告システム開発
小規模チームでも実現!スケーラブルな広告システム開発
Microsoft ではじめる AI DLラボ パートナープログラムご紹介
Microsoft ではじめる AI DLラボ パートナープログラムご紹介
【入門】3時間でアプリ公開!ゼロからのプログラミングRails講座
【入門】3時間でアプリ公開!ゼロからのプログラミングRails講座
160724 jtf2016sre
160724 jtf2016sre
FiNC DDD第一回勉強会
FiNC DDD第一回勉強会
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
ApplicationTemplateのススメ
ApplicationTemplateのススメ
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
20141003 webマーケティングエンジニアリング
20141003 webマーケティングエンジニアリング
テスト駆動開発の進化
テスト駆動開発の進化
SLOのすすめ
1.
SLO のすすめ Takeo Sawada Dropbox,
Inc. September 25, 2017
2.
自己紹介 名前 澤田 武男 Twitter
@SawadaTakeo 2013 - 2014 Ads Backend SRE @Google HQ Display Ads Backend など 2014 - 2017 Source SRE @ Google NY Piper (Google のプロプライエタリなソースコン トロールシステム) Git (Android, Chrome, code.google.com, Cloud Source Repositories) ローンチ調整エンジニア (LCE, SRE 本 27 章) SLO の策定、モニタリング、障害対応、 PRR(SRE 本 32 章) など 2017 - Build SRE @ Dropbox Changes (内製の CI ツール) Bazel クラスタ
3.
4.
今日の話題 SRE 本第 II
部 原則 から 4 章: 「サービスレベル目標」 外部に直接面していないような サービスでもサービスレベル目 標を有効に使ってほしい 5 章: 「トイルの撲滅」
5.
サービスレベル目標
6.
サービスレベル目標とは何か 用語: SLI vs
SLO vs SLA SLI - Service Level Indicator: 指標 例: リクエストの成功率 SLO - Service Level Objective: 目標 例: 各四半期中の全リクエストの成功率は 99.9%以上です。 SLA - Service Level Agreement: 合意 例: SLO が満たされなかった場合、利用料の 50%を返金します。 サービスレベル目標: あるサービスの信頼性についての数値目標
7.
SLO を定義するメリット どのくらいの信頼性を目指すのかをはっきりさせる コストや開発速度とのトレードオフをしっかりと議論する機 会になる SLO によってサービスのアーキテクチャ、チーム体制、モニ タリングの感度、障害対応などが変わってくる 「高い信頼性」という曖昧な目標から、チームメンバーが共 有する
1 つの数値目標へ エラーバジェットでトレードオフのバランスを取る (SRE 本 3 章) 過剰な要求からチームを守る あらかじめステークホルダーに SLO を共有し合意しておく 達成困難な信頼性目標を要求された時に参照できる 過剰に依存されるのを避ける ユーザに対してあらかじめ「期待できる信頼性」を示しておく 自サービスより高い信頼性が求められるサービスに不適切に 組み込まれるのを避ける
8.
SLO の定義のしかた 1. SLI
にするメトリクスを決める 2. 目標を決める 3. Profit!!! サービス、ユーザ、チームなどによるので「正しいやり方」は無い
9.
SLI の選びかた ユーザ体験の満足度への近さ モニタリングの容易さ 安定して収集し分析できるメトリクス シンプルさ SLI はできるだけ少なくする さまざまなカテゴリ 可用性
(Availability) レイテンシー (Latency) 耐久性 (Durability) スループット (Throughput) まずは可用性から始めてみよう
10.
SLI をモニターする ユーザートラフィックを直接計測する エラーの分類:リクエストが失敗した原因がユーザにあるか サービス側にあるかを正しく分類する 全てのリクエストを SLO
でカバーすべきか考える (リクエス トの種類、サイズなど) トラフィックパターンに影響を受けやすい プローブ用のトラフィックを生成し計測する (ブラックボッ クスモニタリング) ユーザ環境に近い地点で計測できる 全てのコードパス、リクエストパスを検査するのは大変 ref. SRE 本 6 章 「分散システムのモニタリング」
11.
SLO の定義の色々 例えば “99.9%の
Uptime” と言っても... ある期間中の全てのリクエストとエラーを集計したエラー率 が 0.1%以下 ある期間を数分のウィンドウ単位に分割し、99.9%以上の ウィンドウでエラー率が x% 以下 ある期間を数分のウィンドウ単位に分割し、各ウィンドウの エラー率を平均したものが 0.1% 以下 Amazon S3, Google Cloud Storage などがこの形式 サービスの特性、ユーザの期待などに合わせて適切な定義を選ぶ
12.
SLO が達成できなかったら? リリースをフリーズ 障害の多くは変更に付随して発生する 信頼性に関する改善の優先順位を上げる 目標そのものを見直す ref. SRE
本 3 章 3.4 エラーバジェットの活用
13.
Public SLA へ 外部に公開する
SLA はプロダクトデザインレベルの選択に なる SRE が技術的な判断や情報を提供しつつ、開発者、PM と議 論する
14.
トイルの撲滅 ref. SRE本5章
15.
トイルとは何か プロダクションサービスを動作させることに関係する作 業で、 手作業で繰り返し行われ、 自動化することが可能であり、 戦術的な価値を持たず、 作業量がサービスの成長に比例する
16.
トイルの例 リリース作業 手作業でのテスト バックアップ作業 データベースのクリーンアップなど VM のセットアップ、追加、削除など アラート、障害対応 0 にするのは難しいものもある
17.
トイルが多すぎると SRE のポジションのキャリア上の魅力が減る 採用が難しくなる SWE への転出 生産性の低下 手作業によるミスの発生 Google
では 50%を目標にしている。 ref. SRE 本 5 章 5.4 トイルは常に悪なのか?
18.
トイルの削減: オンコール対応の例 行っている作業を見直し、地道に自動化、改善していくしかない 週に数十以上のページ (アラート)
が発生して多大なオンコー ル対応負荷が生じていた (SRE 本 11 章 11.3 バランスの取れ たオンコール) 対応 毎週プロダクションミーティングを開催 (SRE 本 31 章 31.1) その週におきた全てのアラートとその対応をレビュー 重大な障害にはポストモーテムを書き、その後ポストモーテ ムレビューを実施 (SRE 本 15 章) 場当たり的な修正に変えて 根本的な原因の修正。時間のかかるものはプロジェクト化 他チームのバグの積極的な修正依頼 プレイブック (手順書) の強化 不要なアラートの見直し 数ヶ月の取り組みでページ頻度が 1/5 程度に
19.
ありがとうございました。 ご質問、ご感想は Twitter @SawadaTakeo までお気軽に!
Jetzt herunterladen