Suche senden
Hochladen
SRE CH13 - Emergency Response
•
2 gefällt mir
•
2,286 views
Rick Hwang
Folgen
SRE Study Notes.
Weniger lesen
Mehr lesen
Ingenieurwesen
Diashow-Anzeige
Melden
Teilen
Diashow-Anzeige
Melden
Teilen
1 von 49
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
從緊急事件 談 SRE 應變能力的培養 - DevOpsDays Taipei 2018
從緊急事件 談 SRE 應變能力的培養 - DevOpsDays Taipei 2018
Rick Hwang
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Toru Tamaki
テストマネージャ試験対策勉強会
テストマネージャ試験対策勉強会
Kosuke Fujisawa
假說思考法 Bcg顧問這樣想
假說思考法 Bcg顧問這樣想
基欽 劉
專案管理概念介紹與實務應用 20190515 v4_final
專案管理概念介紹與實務應用 20190515 v4_final
Chris Cheng-Hsun Lin
魔球Moneyball
魔球Moneyball
Johnson Gmail
從理想、到現實的距離,開啟品味軟體測試之路 - 台灣軟體工程協會 (20220813)
從理想、到現實的距離,開啟品味軟體測試之路 - 台灣軟體工程協會 (20220813)
Rick Hwang
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
Empfohlen
從緊急事件 談 SRE 應變能力的培養 - DevOpsDays Taipei 2018
從緊急事件 談 SRE 應變能力的培養 - DevOpsDays Taipei 2018
Rick Hwang
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Toru Tamaki
テストマネージャ試験対策勉強会
テストマネージャ試験対策勉強会
Kosuke Fujisawa
假說思考法 Bcg顧問這樣想
假說思考法 Bcg顧問這樣想
基欽 劉
專案管理概念介紹與實務應用 20190515 v4_final
專案管理概念介紹與實務應用 20190515 v4_final
Chris Cheng-Hsun Lin
魔球Moneyball
魔球Moneyball
Johnson Gmail
從理想、到現實的距離,開啟品味軟體測試之路 - 台灣軟體工程協會 (20220813)
從理想、到現實的距離,開啟品味軟體測試之路 - 台灣軟體工程協會 (20220813)
Rick Hwang
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
TRIZの講義3時間目 9Windows(9画面法)+α
TRIZの講義3時間目 9Windows(9画面法)+α
Rikie Ishii
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
Sphinxでまとめる多言語環境APIドキュメント
Sphinxでまとめる多言語環境APIドキュメント
Iosif Takakura
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
pcl-lab
xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日
Takaaki Umada
リーン開発の本質 公開用
リーン開発の本質 公開用
ESM SEC
系統安全稽核即刻上手 [2019/08/24] @Monospace
系統安全稽核即刻上手 [2019/08/24] @Monospace
Jason Cheng
Leanstartupをリーンにヤル #リーンスタートアップ
Leanstartupをリーンにヤル #リーンスタートアップ
Itsuki Kuroda
HAZOP, FMEA and FTA for risk assessment.
HAZOP, FMEA and FTA for risk assessment.
Kiyoshi Ogawa
01 fmea
01 fmea
營松 林
Jira/Confluence Atlassian Cloudへの移行ポイント
Jira/Confluence Atlassian Cloudへの移行ポイント
Graat(グラーツ)
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
Kondo Hitoshi
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
株式会社MonotaRO Tech Team
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
Tetsuya Nihonmatsu
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
Tsunehiko Nagayama
僕らのおれおれメトリクス / We Metrics Our Own Way!
僕らのおれおれメトリクス / We Metrics Our Own Way!
Yasui Tsutomu
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
Narichika Kajihara
バグ0の資産を積み上げるための証明駆動開発入門
バグ0の資産を積み上げるための証明駆動開発入門
Riku Sakamoto
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification
Deep Learning JP
How to Replace Your Legacy Antivirus Solution with CrowdStrike
How to Replace Your Legacy Antivirus Solution with CrowdStrike
CrowdStrike
在生命轉彎的地方 - 從軟體開發職涯,探索人生
在生命轉彎的地方 - 從軟體開發職涯,探索人生
Rick Hwang
20230829 - 探索職涯,複利人生
20230829 - 探索職涯,複利人生
Rick Hwang
Weitere ähnliche Inhalte
Was ist angesagt?
TRIZの講義3時間目 9Windows(9画面法)+α
TRIZの講義3時間目 9Windows(9画面法)+α
Rikie Ishii
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
Sphinxでまとめる多言語環境APIドキュメント
Sphinxでまとめる多言語環境APIドキュメント
Iosif Takakura
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
pcl-lab
xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日
Takaaki Umada
リーン開発の本質 公開用
リーン開発の本質 公開用
ESM SEC
系統安全稽核即刻上手 [2019/08/24] @Monospace
系統安全稽核即刻上手 [2019/08/24] @Monospace
Jason Cheng
Leanstartupをリーンにヤル #リーンスタートアップ
Leanstartupをリーンにヤル #リーンスタートアップ
Itsuki Kuroda
HAZOP, FMEA and FTA for risk assessment.
HAZOP, FMEA and FTA for risk assessment.
Kiyoshi Ogawa
01 fmea
01 fmea
營松 林
Jira/Confluence Atlassian Cloudへの移行ポイント
Jira/Confluence Atlassian Cloudへの移行ポイント
Graat(グラーツ)
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
Kondo Hitoshi
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
株式会社MonotaRO Tech Team
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
Tetsuya Nihonmatsu
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
Tsunehiko Nagayama
僕らのおれおれメトリクス / We Metrics Our Own Way!
僕らのおれおれメトリクス / We Metrics Our Own Way!
Yasui Tsutomu
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
Narichika Kajihara
バグ0の資産を積み上げるための証明駆動開発入門
バグ0の資産を積み上げるための証明駆動開発入門
Riku Sakamoto
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification
Deep Learning JP
How to Replace Your Legacy Antivirus Solution with CrowdStrike
How to Replace Your Legacy Antivirus Solution with CrowdStrike
CrowdStrike
Was ist angesagt?
(20)
TRIZの講義3時間目 9Windows(9画面法)+α
TRIZの講義3時間目 9Windows(9画面法)+α
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Sphinxでまとめる多言語環境APIドキュメント
Sphinxでまとめる多言語環境APIドキュメント
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~
xOps: エンジニアがスタートアップの成長の原動力となる日
xOps: エンジニアがスタートアップの成長の原動力となる日
リーン開発の本質 公開用
リーン開発の本質 公開用
系統安全稽核即刻上手 [2019/08/24] @Monospace
系統安全稽核即刻上手 [2019/08/24] @Monospace
Leanstartupをリーンにヤル #リーンスタートアップ
Leanstartupをリーンにヤル #リーンスタートアップ
HAZOP, FMEA and FTA for risk assessment.
HAZOP, FMEA and FTA for risk assessment.
01 fmea
01 fmea
Jira/Confluence Atlassian Cloudへの移行ポイント
Jira/Confluence Atlassian Cloudへの移行ポイント
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
キャッチアップJavaScriptビルド -ビルドから見るJSの今/2016春
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
僕らのおれおれメトリクス / We Metrics Our Own Way!
僕らのおれおれメトリクス / We Metrics Our Own Way!
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
バグ0の資産を積み上げるための証明駆動開発入門
バグ0の資産を積み上げるための証明駆動開発入門
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification
How to Replace Your Legacy Antivirus Solution with CrowdStrike
How to Replace Your Legacy Antivirus Solution with CrowdStrike
Mehr von Rick Hwang
在生命轉彎的地方 - 從軟體開發職涯,探索人生
在生命轉彎的地方 - 從軟體開發職涯,探索人生
Rick Hwang
20230829 - 探索職涯,複利人生
20230829 - 探索職涯,複利人生
Rick Hwang
2023 08 - SRE 實踐與開發平台指南 - 書友見面會
2023 08 - SRE 實踐與開發平台指南 - 書友見面會
Rick Hwang
20230215 - 凝聚團隊共識的溝通方法 (Effective Team Communication)
20230215 - 凝聚團隊共識的溝通方法 (Effective Team Communication)
Rick Hwang
軟體測試實務新書發表會 - 從品質與測試,讓軟體再次偉大
軟體測試實務新書發表會 - 從品質與測試,讓軟體再次偉大
Rick Hwang
CH02 API Governance
CH02 API Governance
Rick Hwang
Chapter 8. Partial updates and retrievals.pdf
Chapter 8. Partial updates and retrievals.pdf
Rick Hwang
Ch09 Custom Methods
Ch09 Custom Methods
Rick Hwang
AWS Career Exploration Day
AWS Career Exploration Day
Rick Hwang
SRE Conf 2022 - 91APP 在 AWS 上的 SRE 實踐之路
SRE Conf 2022 - 91APP 在 AWS 上的 SRE 實踐之路
Rick Hwang
導讀持續交付 2.0 - CH02 價值探索環
導讀持續交付 2.0 - CH02 價值探索環
Rick Hwang
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
Rick Hwang
災難演練 @ AWS 實戰分享 (Using AWS for Disaster Recovery)
災難演練 @ AWS 實戰分享 (Using AWS for Disaster Recovery)
Rick Hwang
Software Development Process v1.5 - 20121214
Software Development Process v1.5 - 20121214
Rick Hwang
第三章 建立良好的人際關係網路
第三章 建立良好的人際關係網路
Rick Hwang
Wiki in Teamroom - Connected Mind
Wiki in Teamroom - Connected Mind
Rick Hwang
導讀持續交付 2.0 - 談當代軟體交付之虛實融合
導讀持續交付 2.0 - 談當代軟體交付之虛實融合
Rick Hwang
Study Notes - Event-Driven Data Management for Microservices
Study Notes - Event-Driven Data Management for Microservices
Rick Hwang
Study Notes - Using an API Gateway
Study Notes - Using an API Gateway
Rick Hwang
AWS Well-Architected Framework (nov 2017)
AWS Well-Architected Framework (nov 2017)
Rick Hwang
Mehr von Rick Hwang
(20)
在生命轉彎的地方 - 從軟體開發職涯,探索人生
在生命轉彎的地方 - 從軟體開發職涯,探索人生
20230829 - 探索職涯,複利人生
20230829 - 探索職涯,複利人生
2023 08 - SRE 實踐與開發平台指南 - 書友見面會
2023 08 - SRE 實踐與開發平台指南 - 書友見面會
20230215 - 凝聚團隊共識的溝通方法 (Effective Team Communication)
20230215 - 凝聚團隊共識的溝通方法 (Effective Team Communication)
軟體測試實務新書發表會 - 從品質與測試,讓軟體再次偉大
軟體測試實務新書發表會 - 從品質與測試,讓軟體再次偉大
CH02 API Governance
CH02 API Governance
Chapter 8. Partial updates and retrievals.pdf
Chapter 8. Partial updates and retrievals.pdf
Ch09 Custom Methods
Ch09 Custom Methods
AWS Career Exploration Day
AWS Career Exploration Day
SRE Conf 2022 - 91APP 在 AWS 上的 SRE 實踐之路
SRE Conf 2022 - 91APP 在 AWS 上的 SRE 實踐之路
導讀持續交付 2.0 - CH02 價值探索環
導讀持續交付 2.0 - CH02 價值探索環
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
災難演練 @ AWS 實戰分享 (Using AWS for Disaster Recovery)
災難演練 @ AWS 實戰分享 (Using AWS for Disaster Recovery)
Software Development Process v1.5 - 20121214
Software Development Process v1.5 - 20121214
第三章 建立良好的人際關係網路
第三章 建立良好的人際關係網路
Wiki in Teamroom - Connected Mind
Wiki in Teamroom - Connected Mind
導讀持續交付 2.0 - 談當代軟體交付之虛實融合
導讀持續交付 2.0 - 談當代軟體交付之虛實融合
Study Notes - Event-Driven Data Management for Microservices
Study Notes - Event-Driven Data Management for Microservices
Study Notes - Using an API Gateway
Study Notes - Using an API Gateway
AWS Well-Architected Framework (nov 2017)
AWS Well-Architected Framework (nov 2017)
SRE CH13 - Emergency Response
1.
1
2.
Chapter 13 Emergency Response 緊急事件回應 2 作者:Corey
Adam Baye
3.
Things break; that’s
life. 東西早晚要壞的,這就是生活。 3
4.
當系統出現問題時怎麼辦? ● 大部分不是處理真實的物理危險 ● 問題發生時,不會是一個人單獨面對 ●
如果災難性的問題,公司應該已經有災難應急管理流程 (Ch14) 4
5.
緊急事故 一、測試導致的緊急事故 二、變更部署帶來的緊急事故 三、流程導致的嚴重事故 5
6.
一、測試導致的緊急事故 (Test-Induced Emergency) 6
7.
● SRE 故意破壞系統、模擬事故 ●
針對失敗模式,進行預防,提高可靠性。 測試導致的緊急事故 7
8.
意外發現一系列的系統依賴 ● 細節:在大型分散式 MySQL
中,限制一個測試資料庫的存取 ● 響應: ○ 幾分鐘後,大批回報 內外都無法存取某個關鍵服務 ○ SRE 立即中止測試,但卻 Rollback 失敗 ○ SRE 找到已經測試過的方法,成功恢復服務 ○ SRE 找負責開發的開發者,修復問題,一小時 內恢復 ○ 結果促使開發者進行徹底修復,同時制定週期性測試保證不再發生 測試導致的緊急事故 8
9.
測試導致的緊急事故 - 事後總結 ●
好的: ○ 事故在公司內部進行溝通,有足夠信息確認是可控的,測試導致的,立即停止測試。 ○ 一小時內恢復服務 ○ 受影響的團隊,重新配置服務,將測試資料庫移除 ○ 制定週期性測試,保證類似問題不再發生 ● 不好的 ○ 事前有充分審核與準備,但事實證明,對於系統的了解還不 夠 ○ 沒有正確遵守警急處理流程,流程才剛剛建立 9
10.
補充:SOP 導入的問題 ● 只有定義的人最清楚 ●
其他人如何清楚 SOP ○ 參與 SOP 定義 ○ 從演練中熟悉 ○ 從異常中學習 SOP 10
11.
11
12.
二、變更部署帶來的緊急事故 (Change-Induced Emergency) 12
13.
變更部署帶來的緊急事故 ● Google 系統的配置
(Configuration) 很複雜 ● 每次都需要大量針對配置做測試 13
14.
變更部署帶來的緊急事故 - 細節 ●
某個星期五,一個防濫用的基礎服務 (anti-base) 新版配置推送到所有機器 ● 這服務和對外服務有聯繫 ● 新版配置觸發一個 Bug,導致外部服務進入崩潰循環 (crash-loop) ● 內部很多基礎服務也依賴這個服務 14
15.
變更部署帶來的緊急事故 - 事故響應 ●
幾秒內,監控系統開始報警 ● On-call 人員發現公司內部網路出問題 ● 災難安全屋 (panic room) - 很多人都來了 ● 五分鐘後,部署配置的工程師發現問題,Rollback ,各項服務逐漸恢復 ● 問題發生 10 分鐘後,on-call 人員依照流程,宣告進入警急狀態 ● 部署配置工程師告知 on-call 人員,但是最初的事故導致另外的 Bug,一小時後 才恢復 15
16.
變更部署帶來的緊急事故 - 事後總結 做得好的 ●
監控、檢測即時回報狀況 → 但是一直吵,on-call 難以應對,過程中充滿 noise ● 問題確認後,相關人得到清晰和即時的狀態 ● 系統可以很快 rollback 從中學習到的 ● 部署前有完整的 Canary 部署驗證,卻沒有觸發 Bug ● 測試配置文件,用了一個很特別、很少用的關鍵詞 16
17.
http://www.ithome.com.tw/news/116559 17 2017/08/30
18.
18
19.
Highlight ● 連鎖反應 ● Rollback ●
警急應變的層級 19
20.
連鎖反應 B C D A v1.0 v2.0 Q Z S W Tips: 每個圈代表
Service or Bug 20
21.
如果每個圈代表 Service ● 你知道
Service 的相依性嗎? ● 你要如何知道? 如果每個圈代表 Bug ● 要如何發現這些 Bug? ● 要如何知道他們的相依性? 連鎖反應 - 問題 21
22.
所以 Unit Test
要不要做? 測試重不重要? 22
23.
Architecting for the
Cloud (AWS Whitepaper) https://d0.awsstatic.com/whitepapers/AWS_Cloud_Best_Practices.pdf 23
24.
Highlight ● 連鎖反應 ● Rollback ●
警急應變的層級 24
25.
Rollback to Previous
Version 25
26.
Regular Deployment Procedure 26
27.
LATESTCURRENTPREVIOUS v1.0 v1.1 Runtime Current Deploy LATEST
Build Swap link Reload 27
28.
LATESTCURRENTPREVIOUS v1.0 v1.1 Runtime v1.2 Current Deploy LATEST
Build Swap link Reload 28
29.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Current Deploy LATEST Build Swap
link Reload 29
30.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Current Deploy LATEST Build Swap
link Reload 30
31.
Rollback to Previous
Version 31
32.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Rollback (Swap link) Reload 32
33.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Rollback (Swap link) Reload 33
34.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Rollback (Swap link) Reload 34
35.
LATESTCURRENTPREVIOUS v1.1 Runtime v1.2 Rollback (Swap link) Reload 35
36.
36
37.
三、流程導致的嚴重事故 (Process-Induced Emergency) 37
38.
流程導致的嚴重事故 - 細節 ●
常規自動化測試中,將即將退役的機器群,發送兩次下線請求 ● 第二次的請求中,一個非常隱蔽的 Bug 將全球所有 DC 的機器,加入 diskerase (磁碟銷毀) 清單中 38
39.
流程導致的嚴重事故 - 災難響應 ●
On-Call 工程師收到一個報警通知,第一個小型資料庫機器都離線了,即將退役 ● 調查後發現,這一群機器已經被移轉到 diskerase 程序中 ● 依照流程,將流量導流到其他地區 (drain) ● 不久後,全球 DC 都發出報警 ● On-Call 停止整個團隊的自動化工具,避免進一步的問題發生 ● 導流後,Latency 拉高,但是服務恢復了 ● 最難的問題:如何復原? ○ 數據中心網路壅塞,網路工程師調整網路節點,提高吞吐量 ○ 三個小時後,其中一個數據中心恢復服務 ○ 美國團隊將任務交給歐洲團隊,三天 內恢復大部分服務 39
40.
流程導致的嚴重事故 - 事後總結 做得好的 ●
反向代理快速將流量從小型資料中心轉到到其他大型資料中心 ● 網路壅塞問題迅速地被排除 ● 小型資料中心離線請求處理得非常高效率和完美 ● 退役自動化迅速將對應的監控系統也刪除了,On-Call 人員很快地將這些改動恢 復,因此有了評估嚴重性的依據 40
41.
從中學習到的 ● 自動化系統發出的指令,缺乏合理性的檢查 ● 第二次指令取得空白回應,自動化系統沒有拋棄 ○
空白有時候等於全部 流程導致的嚴重事故 - 事後總結 41
42.
http://www.ithome.com.tw/news/112375 42
43.
https://aws.amazon.com/message/41926/ 43
44.
https://www.bnext.com.tw/article/42985/gitlab-suffers-major-backup-failure-after-data-deletion-incident 44
45.
45
46.
Recap:緊急事故 一、測試導致的緊急事故 二、變更部署帶來的緊急事故 三、流程導致的嚴重事故 46
47.
● 時間和經驗告訴我們:系統一定會出問題 ○ Things
break; that’s life. ● Google 學到的關鍵課程:所有問題都有對應的解決方案 ● 找不到方法,就在更大的範圍尋求幫助,找更多團隊成員 ● 最高的優先權是要解決問題的困境 ● 觸發問題的人,對事故了解得最清楚 ● 事件過後,要整理報告 所有的問題都有解決方案 47
48.
● 為事故保留紀錄 ● 提出那些大的,甚至是不可能的問題 ○
如果有人入侵系統了,怎麼發現? ○ 網路設備泡水了怎麼辦? ○ 大樓停電了怎麼辦? ● 鼓勵主動測試 ○ 理論和實踐是不同領域 ○ 系統故障的那一刻,你才真的開始了解他 ○ 不要假設故障的時候,最聰明的同事會在你身邊 跟過去學習,而不是重複他 48
49.
49
Jetzt herunterladen