SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド上のシステム監視 入門編
~システムを作ったその先に~
20181024_Nifcloud_Meetup_LTSRE部 吉村
富士通クラウドテクノロジーズ株式会社
インフラSRE部
吉村 晃
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
トピック
クラウド環境での監視(初心者向け)
• IaaSでそもそも監視いる?
• VM立ててみたけど、どうやって監視しよう
• なにを監視したらいい
ニフクラ運用上でやった監視紹介(参考までに)
• ニフクラで作ったVMを監視してみた
• IaaS運用上で必要な監視
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
自己紹介
プロフィール
• 吉村 晃
• 富士通クラウドテクノロジーズ (ニフティ2014年入社)
• インフラSRE部(IaaSのインフラ寄り運用部隊)
• ストレージ寄り(≠物理)の運用・監視などを主に担当
業務でよくお世話になるもの
業務でみているVM数は大体300~
• DRサービス用システム
• 監視システム
• ログ基盤
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド環境での監視
Confidential | 4
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
IaaSでそもそも監視いる?
いります
なぜ監視するのか
• IaaSの責任分界点(OSから上は見ない/見えない)
• システムが見通せない ≒ 正しい構成が取れない
• (サービス自体のメトリクスは利用者が見る必要がある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ノー監視で起きるだろうこと
問題解決(or サポート)が遅くなる/できなくなる
• (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも
答えにたどり着けない
ボトルネックを特定できない
• スケールアップ/アウト or アプリに手を入れる かどっちにする?
サービスで重要なことが洗い出せない
• ビジネス上の指針をどこに持つのか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
VM立ててみたけど、どうやって監視しよう
監視SaaSを使う
• 対象が少ない・ある程度予算を積める・インフラ担当
監視ソフト(OSS)を立てる
• 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)
 有償ソフトを使う(自分は詳しくないので分からず)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
予算感(公式の価格から適当に推測)
監視SaaS(5ホストくらいはフリープランで見れたり)
• Mackerel : 1800円/ホスト x 月
• DATADOG : 1700円/ホスト x 月
OSS運用
• 運用人件費 : <好きな数字を思い浮かべる>
• VM+ストレージ(最低構成)
• 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS )
• 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク )
ざっくり100-150ホストを超えてくるとトントン?
• ※ 正直運用持つくらいならSaaSにしたほうが良さそう
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ちなみに、ニフクラ基本監視というのもあります
コンパネから無料で簡易メトリックが取得できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
個人的に監視で重視すること
 監視内容より、普段の状況を知っていることのほうが重要
• 「何かが起きている」ことが分かれば最初の壁は超えている
 システムは変わるし、利用状況も変わる。監視も変わる
• 足りない監視・アラートは都度足していく
• 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない
 注力するのはドメイン知識の獲得であって、仕組みではない
• 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する
• (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
なにを監視する
最初は基本的な要素で十分
• CPU / Mem / Disk / Network( 使用率・枯渇・周期 )
• 問題時に知りたいのは何時が起点なのか、何をしていたのか
• これらの情報を確認できるだけで大分助かるはず
Application performance management(APM)
• アプリケーションやDBなど関して、より特化した情報が見える
• レスポンスタイム・エラー率・重いクエリなど
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ニフクラ運用・利用上で
やっている監視紹介
(時間があれば)
Confidential | 12
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 ログ基盤の監視
ニフクラIaaSに関連するログを集める基盤の監視
• 大体 数十~数百ホスト(VM)で構成されるシステム
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 で困ったことと対策
VM数が多く、全体として機能しているか不明な時がある
• 一見動いているように見えるが、よく見ると一部のログが来てない
• 各所で冗長化しているので、一部が壊れても動いている
対策 : 基本的な監視を徹底 & キーポイントを別途監視
• 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix)
• 流れているログ量も監視し、サービスとしての正常性を担保
• ElasticSearchに届いているログ量に著しい変化がないか
• システムの中心にあるKafkaでメッセージ処理遅延がないか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 監視導入のBefore & After
Before
• トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?)
• VM数が多く、全体として機能しているか不明な時がある
After :
• 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる
• アラート上がってない限りは基本大丈夫
• ログ流量から、概ねの動作確認がすぐできる
• 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 複数拠点にある物理ストレージ機器の監視
ニフクラの各リージョンに存在するストレージ機器の監視
• 秒単位の監視・継続できる監視・リージョン間のNW
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 で困ったことと対策
秒単位の監視を継続的にできるようにしたい
• ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化)
• 不安定なNWや、監視システム自体の異常に対応する必要がある
対策 : 複数機種を一元的に管理する監視スクリプトを書いた
• 監視内容・間隔は自由に設定できる
• スクリプト実行するノードを工夫することでNW問題を回避
• 監視システムが正常に動作しているかのチェック・修正を自動化
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 監視導入のBefore & After
Before
• 5分間隔の監視データしかなく、オペレーションに自信が持てない
• いちいち機種毎に別のツールで調べる手間があった
After :
• 秒単位のデータを元に調査、回答などができるようになった
• より顧客の利用状況に近いデータで議論できるようになった
• 一元化したダッシュボードで、様々なストレージを横断的に確認可
• 自分たちが運用上重要だとみなす項目をより理解し改善できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
まとめ
 最低限の監視からでも始めましょう
 監視SaaSなどを有効活用する
 大きい・特殊な環境だと監視システムを作ることも視野に
 監視も成長するので、サービスの一部として捉える
 最終的には「その」システムに対する知見が要る
 監視が安定するまでは時間がかかることを意識する
クラウド上のシステム監視 入門編~システムを作ったその先に~

Weitere ähnliche Inhalte

Was ist angesagt?

コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)NTT DATA Technology & Innovation
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)Trainocate Japan, Ltd.
 
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)NTT DATA Technology & Innovation
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)NTT DATA Technology & Innovation
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Kohei Tokunaga
 
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)Masaya Tahara
 
20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS BatchAmazon Web Services Japan
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)NTT DATA Technology & Innovation
 
Windows Server 2019 で Container を使ってみる
Windows Server 2019 で Container を使ってみるWindows Server 2019 で Container を使ってみる
Windows Server 2019 で Container を使ってみるKazuki Takai
 
いまさら聞けないselectあれこれ
いまさら聞けないselectあれこれいまさら聞けないselectあれこれ
いまさら聞けないselectあれこれlestrrat
 
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてAzure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてShinya Yamaguchi
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)NTT DATA Technology & Innovation
 
Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造Etsuji Nakai
 
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)Keisuke Takahashi
 

Was ist angesagt? (20)

コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
 
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
 
KeycloakでAPI認可に入門する
KeycloakでAPI認可に入門するKeycloakでAPI認可に入門する
KeycloakでAPI認可に入門する
 
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
 
20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch20190911 AWS Black Belt Online Seminar AWS Batch
20190911 AWS Black Belt Online Seminar AWS Batch
 
Serverless時代のJavaについて
Serverless時代のJavaについてServerless時代のJavaについて
Serverless時代のJavaについて
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
Windows Server 2019 で Container を使ってみる
Windows Server 2019 で Container を使ってみるWindows Server 2019 で Container を使ってみる
Windows Server 2019 で Container を使ってみる
 
Argo CD Deep Dive
Argo CD Deep DiveArgo CD Deep Dive
Argo CD Deep Dive
 
いまさら聞けないselectあれこれ
いまさら聞けないselectあれこれいまさら聞けないselectあれこれ
いまさら聞けないselectあれこれ
 
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてAzure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
IAM Roles Anywhereのない世界とある世界(2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料)
 
Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造
 
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
 

Ähnlich wie クラウド上のシステム監視 入門編~システムを作ったその先に~

OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様ManageEngine, Zoho Corporation
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxssuser5c7ee4
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例Shintaro Hasunuma
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Takashi Matsunaga
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介Shohei Yamamoto
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backendGame Tools & Middleware Forum
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれYasuaki Matsuda
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回Keiji Kamebuchi
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~recotech
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosHinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 

Ähnlich wie クラウド上のシステム監視 入門編~システムを作ったその先に~ (20)

クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編
 
ニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組みニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組み
 
devsummit_nifcloud_vmware
devsummit_nifcloud_vmwaredevsummit_nifcloud_vmware
devsummit_nifcloud_vmware
 
インフラチームのリモートワーク
インフラチームのリモートワークインフラチームのリモートワーク
インフラチームのリモートワーク
 
nifcloud_meetup
nifcloud_meetupnifcloud_meetup
nifcloud_meetup
 
NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)
 
OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptx
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例
 
これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれ
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 

Mehr von 富士通クラウドテクノロジーズ株式会社

Mehr von 富士通クラウドテクノロジーズ株式会社 (20)

IPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違いIPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違い
 
弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf
 
今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf
 
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
 
自宅k8s/vSphere入門
自宅k8s/vSphere入門自宅k8s/vSphere入門
自宅k8s/vSphere入門
 
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
 
今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎
 
DevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOpsDevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOps
 
自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた
 
自宅インフラの育て方 第2回
自宅インフラの育て方 第2回自宅インフラの育て方 第2回
自宅インフラの育て方 第2回
 
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
 
「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」
 
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみようマネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
 
GitLabで始めるDevOps入門
GitLabで始めるDevOps入門GitLabで始めるDevOps入門
GitLabで始めるDevOps入門
 
GitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみたGitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみた
 
vSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについてvSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについて
 
VM 基盤運用チームの DevOps
VM 基盤運用チームの DevOpsVM 基盤運用チームの DevOps
VM 基盤運用チームの DevOps
 
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
 
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
入社2年目社員から見たVDI(DaaS)の運用とセキュリティ入社2年目社員から見たVDI(DaaS)の運用とセキュリティ
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
 
いつでも在宅勤務
いつでも在宅勤務いつでも在宅勤務
いつでも在宅勤務
 

クラウド上のシステム監視 入門編~システムを作ったその先に~

  • 1. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド上のシステム監視 入門編 ~システムを作ったその先に~ 20181024_Nifcloud_Meetup_LTSRE部 吉村 富士通クラウドテクノロジーズ株式会社 インフラSRE部 吉村 晃
  • 2. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED トピック クラウド環境での監視(初心者向け) • IaaSでそもそも監視いる? • VM立ててみたけど、どうやって監視しよう • なにを監視したらいい ニフクラ運用上でやった監視紹介(参考までに) • ニフクラで作ったVMを監視してみた • IaaS運用上で必要な監視
  • 3. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 自己紹介 プロフィール • 吉村 晃 • 富士通クラウドテクノロジーズ (ニフティ2014年入社) • インフラSRE部(IaaSのインフラ寄り運用部隊) • ストレージ寄り(≠物理)の運用・監視などを主に担当 業務でよくお世話になるもの 業務でみているVM数は大体300~ • DRサービス用システム • 監視システム • ログ基盤
  • 4. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド環境での監視 Confidential | 4
  • 5. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED IaaSでそもそも監視いる? いります なぜ監視するのか • IaaSの責任分界点(OSから上は見ない/見えない) • システムが見通せない ≒ 正しい構成が取れない • (サービス自体のメトリクスは利用者が見る必要がある)
  • 6. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ノー監視で起きるだろうこと 問題解決(or サポート)が遅くなる/できなくなる • (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも 答えにたどり着けない ボトルネックを特定できない • スケールアップ/アウト or アプリに手を入れる かどっちにする? サービスで重要なことが洗い出せない • ビジネス上の指針をどこに持つのか
  • 7. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED VM立ててみたけど、どうやって監視しよう 監視SaaSを使う • 対象が少ない・ある程度予算を積める・インフラ担当 監視ソフト(OSS)を立てる • 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)  有償ソフトを使う(自分は詳しくないので分からず)
  • 8. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 予算感(公式の価格から適当に推測) 監視SaaS(5ホストくらいはフリープランで見れたり) • Mackerel : 1800円/ホスト x 月 • DATADOG : 1700円/ホスト x 月 OSS運用 • 運用人件費 : <好きな数字を思い浮かべる> • VM+ストレージ(最低構成) • 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS ) • 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク ) ざっくり100-150ホストを超えてくるとトントン? • ※ 正直運用持つくらいならSaaSにしたほうが良さそう
  • 9. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ちなみに、ニフクラ基本監視というのもあります コンパネから無料で簡易メトリックが取得できる
  • 10. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 個人的に監視で重視すること  監視内容より、普段の状況を知っていることのほうが重要 • 「何かが起きている」ことが分かれば最初の壁は超えている  システムは変わるし、利用状況も変わる。監視も変わる • 足りない監視・アラートは都度足していく • 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない  注力するのはドメイン知識の獲得であって、仕組みではない • 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する • (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
  • 11. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED なにを監視する 最初は基本的な要素で十分 • CPU / Mem / Disk / Network( 使用率・枯渇・周期 ) • 問題時に知りたいのは何時が起点なのか、何をしていたのか • これらの情報を確認できるだけで大分助かるはず Application performance management(APM) • アプリケーションやDBなど関して、より特化した情報が見える • レスポンスタイム・エラー率・重いクエリなど
  • 12. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラ運用・利用上で やっている監視紹介 (時間があれば) Confidential | 12
  • 13. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 ログ基盤の監視 ニフクラIaaSに関連するログを集める基盤の監視 • 大体 数十~数百ホスト(VM)で構成されるシステム
  • 14. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 で困ったことと対策 VM数が多く、全体として機能しているか不明な時がある • 一見動いているように見えるが、よく見ると一部のログが来てない • 各所で冗長化しているので、一部が壊れても動いている 対策 : 基本的な監視を徹底 & キーポイントを別途監視 • 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix) • 流れているログ量も監視し、サービスとしての正常性を担保 • ElasticSearchに届いているログ量に著しい変化がないか • システムの中心にあるKafkaでメッセージ処理遅延がないか
  • 15. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 監視導入のBefore & After Before • トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?) • VM数が多く、全体として機能しているか不明な時がある After : • 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる • アラート上がってない限りは基本大丈夫 • ログ流量から、概ねの動作確認がすぐできる • 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
  • 16. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 複数拠点にある物理ストレージ機器の監視 ニフクラの各リージョンに存在するストレージ機器の監視 • 秒単位の監視・継続できる監視・リージョン間のNW
  • 17. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 で困ったことと対策 秒単位の監視を継続的にできるようにしたい • ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化) • 不安定なNWや、監視システム自体の異常に対応する必要がある 対策 : 複数機種を一元的に管理する監視スクリプトを書いた • 監視内容・間隔は自由に設定できる • スクリプト実行するノードを工夫することでNW問題を回避 • 監視システムが正常に動作しているかのチェック・修正を自動化
  • 18. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 監視導入のBefore & After Before • 5分間隔の監視データしかなく、オペレーションに自信が持てない • いちいち機種毎に別のツールで調べる手間があった After : • 秒単位のデータを元に調査、回答などができるようになった • より顧客の利用状況に近いデータで議論できるようになった • 一元化したダッシュボードで、様々なストレージを横断的に確認可 • 自分たちが運用上重要だとみなす項目をより理解し改善できる
  • 19. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED まとめ  最低限の監視からでも始めましょう  監視SaaSなどを有効活用する  大きい・特殊な環境だと監視システムを作ることも視野に  監視も成長するので、サービスの一部として捉える  最終的には「その」システムに対する知見が要る  監視が安定するまでは時間がかかることを意識する