SlideShare ist ein Scribd-Unternehmen logo
1 von 41
1© Cloudera, Inc. All rights reserved.
データの分析者と運用者
互いの業務と必要性の「理解」の
壁を打ち破るデータ基盤とは!?
Masayuki Hyugaji - SE Manager, Cloudera
2© Cloudera, Inc. All rights reserved.
はじめに
3© Cloudera, Inc. All rights reserved.
自己紹介
• 名前:日向寺 正之 (♂ナイスミドルでありたい年頃)
• Clouderaでの役割:Sales Engineering Manager (マネージャっぽく
ない)
• 過去の経歴
• 国内システムインテグレータにて
RDBMSやNoSQLの技術/事業開発
• 外資系テクノロジーベンダーにて
IT基盤高度化の推進/分析基盤の
利用推進
• 趣味:潜水、登山、野営。
# 週末は平地には居ない
4© Cloudera, Inc. All rights reserved.
会社概要 - Cloudera(クラウデラ)
設立 2008年、以下4社出身の社員により設立
本社 アメリカ パロアルト
マーケット ビッグデータプラットフォームソフトウェア&サービス
ビジネスモデル ソフトウェア・トレーニング・プロフェッショナルサービス
従業員数 世界全体で 1,400人以上
事業展開 世界28カ国
パートナー数 2,600 社以上
Hadoopのディストリビューションの
一つである、CDHの開発、保守、
各種プロフェッショナルサービスを提供
https://www.cloudera.com/more/about.html
5© Cloudera, Inc. All rights reserved.
アジェンダ
• データ分析の事例
• ビッグデータに関わる人々、理想と現実
• BIユーザー:サクサク使いたいBIツール
• データサイエンス担当:言語やライブラリに縛られない自由な環境
• 開発者、柔軟なテスト環境 vs コスト
• まとめ
6© Cloudera, Inc. All rights reserved.
CDHを基盤とした
データ分析の事例
7© Cloudera, Inc. All rights reserved.
様々な業界でのデータ活用事例及びテーマ
Finance Government Telecom Manufacturing Energy Healthcare
不正検知 科学研究
ブロードキャスト
モニタリング
サプライチェーンの
最適化
天然資源の最適化 製薬の開発
アンチ-
マネーロンダリング
タックス
コンプライアンス
解約防止 故障予測 地震データの処理 ゲノム解析
リスクマネジメント
トラフィックの
最適化
宣伝広告の最適化
RFIDデータの
収集
スマートメーターの
分析
臨床品質
コスト分析
共通するテーマ
感情分析
Webアプリケーションの最適化
ソーシャルCRM / ネットワーク分析
ロイヤリティ / プロモーション分析
ERP
価格の最適化
マーケティング施策の最適化
内部リスクのアセスメント
収益保証
ブランド管理
物流の最適化
ITインフラの分析
法的ディスカバリー
企業内での検索
機器の監視
8© Cloudera, Inc. All rights reserved.
課題
ソリューション
全てのデータが複数のDBに分散されていた
• 1日分10億件のレコードに対し、
ETLのプロセスが24時間以上かかっていた
• IoTやNW分析を実施する能力が不足
1900にのぼる運用中のデータベースとシステム
を統合・再構築し、全社横断的なViewを実現
• 以前の5倍のデータを1/3の時間で処理
• Better broadband performance through
ネットワーク分析 と 通信障害の予測により、
より良い帯域性能を提供
• IoTとセンサーデータを活用し、地方都市の
再開発計画に活用
• 200-250%のROIを実現し新しいプロジェ
クトをより速やかに実行できる基盤を持て
た
Customer
360
IT
Optimization
9© Cloudera, Inc. All rights reserved.
予兆保守を活用することで、効率性を向上し、
貨物の輸送障害を削減
チャレンジ:
• 貨物の輸送障害を削減するために、
180,000を超えるトラックの運行状況を
リアルタイムにモニタリングする必要があっ
た
ソリューション:
• トラック全体の通信情報および位置情報デー
タをオンデマンドに接続して収集
• エンジンの情報を収集して問題を特定し、
貨物輸送車の稼働時間を向上
• メンテナンスコストを1マイルあたり$.12-
$.15から$.03に削減
Connected Car
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRANSPORTATION
» PREDICTIVE MAINTENANCE
» TELEMETRY
» IMPROVED SERVICE
Product
& Service
10© Cloudera, Inc. All rights reserved.
センサーとIoTを活用し、
旅客の安全と空港の効率化を向上
チャレンジ:
• 設備機器(エスカレーター等)のダウン
タイムを低減することで、旅客の満足度
と安全性を向上させる必要があった
ソリューション:
• Azure上にCloudera Hadoop環境を構築
し、エスカレーター、エレベーター、
貨物輸送装置のセンサーデータを
収集し安全な運用を確保
• 計画外のダウンタイムを防止するために
必要な修正を提供
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRAVEL & TRANSPORTATION
» INTERNET OF THINGS
» PREDICTIVE MAINTENANCE
» ADVANCED ANALYTICS
Product
& Service
スマートビルディング– 予兆管理
11© Cloudera, Inc. All rights reserved.
データ分析基盤と関わる人々
理想と現実
12© Cloudera, Inc. All rights reserved.
Object Store HDFS
データサイエンス・探索
共通のガバナンス
共通のセキュリティ
共通の運用・ガバナンス・セキュリティ・スキーマ・カタログ
データ・アプリケーションBI・レポーティング
配置場所に関わらず分析基盤を提供する状況へ
ワークロード管理
KuduHBase
Cloud OnPrem
基盤利用3V, Volume(量、ユーザの量), Velocity (速度、要求される処理速度や対応の速さ), Variability (多様性、使われ方の多様性)
13© Cloudera, Inc. All rights reserved.
データ基盤イメージ
セキュリティ
コンプライアンス
データストリーム
データサイエンス
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ソース
データ・ストレージ &
データ処理
提供、分析 & 機械学習データ入力
接続された装置/
データ・ソース
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウド オンプレミス
データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者
14© Cloudera, Inc. All rights reserved.
データ基盤イメージ
セキュリティ
コンプライアンス
データストリーム
データサイエンス
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ソース
データ・ストレージ &
データ処理
提供、分析 & 機械学習データ入力
接続された装置/
データ・ソース
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウド オンプレミス
データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者
分析・利用広い意味での運用者
15© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
16© Cloudera, Inc. All rights reserved.
BIツール利用者
17© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
18© Cloudera, Inc. All rights reserved.
BIツールの利用環境を取り巻く課題
ユーザの課題
データ量の制約のない分析ができない、重い、データ待ち
インフラ管理者の課題
重い原因がわからない、コストが予測できない、高い
データ管理者の課題
データの意味がわからない、使われているかどうかもわからない
19© Cloudera, Inc. All rights reserved.
BIツール利用者からのありがちな声
使いたいデータが手元にない
• 欲しいデータを毎回ダウンロードしなければいけない
BIツールの動作が重い
• ちょっとデータ量増えるだけで、画面遷移のたびに待たされる
データが準備できるまで時間がかかる
• 今すぐほしいのに、夜間バッチ待ちで使えるのは翌営業日から
過去のデータもまとめて一度に分析できない
• 過去3年分のデータを分析したいのに直近3ヶ月分しか手元にない
• 3年分のデータをロードしたら重すぎて動かない
20© Cloudera, Inc. All rights reserved.
インフラ管理者の課題
• どんなクエリを実行されるかわからない
• 何が原因で重いのかわからない
• あるユーザがとんでもないクエリを実行したおかげで他のユーザがBIを
動かせなくなる
結局…
• 管理されていない個別の環境が増殖していく
• 自分の独自環境にデータをダウンロードしてBIを利用してしまう
…という方向に動いてしまう可能性が!
21© Cloudera, Inc. All rights reserved.
データ管理者の課題
そもそも専任のデータ管理者がいない
• インフラ管理者、古参のBIユーザ、データサイエンティストなどが仕
事の片手間に行っている
データの意味がわからない
• sales, sales_new, sales_new_2
# このテーブル名だけで「売上のマスターテーブルは sales_new」と解釈できる人は誰もいない
データを削除・変更していいかどうかわからない
• もう誰も使ってないと思ったテーブルを消したらオフィスの片隅で悲
鳴が聞こえた
22© Cloudera, Inc. All rights reserved.
適切なテクノロジーの選択
BIツール利用時にはImpalaとKuduの組み合わせが正解。
設計の段階からBI利用者を意識し、ImpalaとKuduの利用を想定。
それぞれの技術の得意・不得意を把握した上で準備。
適切な分析エンジンの選択 適切なストレージの選択
BIやSQL
ベースでのア
ドホック分析
バッチ処理
手続き処理の
中でのSQLの
一部利用
更新頻度:高
大規模分析
構造化データ
更新頻度:高
高速ランダムIO
多構造データ
更新頻度:低
大規模スキャン
非構造データ
HDFS
データ量の制約のない分析ができない、重い、データ待ち
23© Cloudera, Inc. All rights reserved.
適切な監視とデータガバナンス・カタログを
Cloudera Manager:クラスタ管理ツール Cloudera Navigator:メタデータ管理ツール
• BIから発行されたSQLの履歴・実行状態・パフォーマン
ス・プロファイル
• SQLチューニングに関するメトリックスの集計とヒント
• 利用ユーザー毎のリソース制御、リソース利用別レポート
環境構築、サービス管理、監視、トラブルシューティング
までカバーする運用ツール
データのアクセス監査、データの意味(タギング等)、デー
タの出処等の情報を管理するメタデータ管理ツール
• データリネージ機能:データの変換・抽出過程を可視化
(テーブルの元データ追跡、テーブル変更の影響度の把握)
• オブジェクトに対するメタデータ付与:テーブル、列、
ファイル、クエリ等
• 誰がいつどのオブジェクトに何をしたを追跡・不正アクセ
スや無許可オペレーションの有無などの確認でも利用可
重い原因がわからない、コストが予測できない、データの意味がわからない、利用の有無がわからない
24© Cloudera, Inc. All rights reserved.
データサイエンティスト
25© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
26© Cloudera, Inc. All rights reserved.
チーム データサイエンティストとアナリスト
ゴール データの理解、モデルの開発と改善、知見の共有
データ 新規のデータ、かつ頻繁に変更される。大抵の場
合サンプリングしたデータが用いられる
環境 ローカルマシンかサンドボックスクラスタ
ツール R、Python、SAS/SPSS、SQL、ノートブック、
データラングリング・ディスカバリツール
最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、
PowerPoint
データサイエンス業務における2つのステージ
探索
(新しい機会の捜索と定量化)
運用
(本番システムへのデプロイ)
チーム データエンジニア、開発者、SRE
ゴール アプリケーションのビルドとメンテナンス、改善
データ 既知のデータ、全データ
環境 本番クラスタ
ツール Java/Scala、C++、IDE、CI、ソース管理など
最終アウトプット オンライン・本番アプリケーション
27© Cloudera, Inc. All rights reserved.
データサイエンスに対する期待
より多くの
データサイエンティストに
データ基盤をもっと自由に
使ってほしい
Hadoopのデータと計算能力に直接
アクセスして、使い慣れたツール
をパワフルに活用する
データサイエンティスト
データエンジニア
簡単かつセキュアに
新しいユーザやユースケースを
追加してほしい
セキュアなセルフサービスの分析
ツールを提供し、普及していて手
頃な価格の基盤上でより素早く本
番投入する
エンタープライズアーキテクト
Hadoop管理者
28© Cloudera, Inc. All rights reserved.
データサイエンス環境を取り巻く課題
データサイエンティスト
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
限定されたモデル
クラウド上の自由な環境のメンテナンス負荷
個別に高価でハイスペックな環境を購入しないといけない
出処不明のデータ
開発/本番環境での実行環境のバージョンの差異
高価でセキュアでない、サイロ化されたシステム
29© Cloudera, Inc. All rights reserved.
データサイエンス環境を取り巻く課題
データサイエンティスト
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
・データサイエンティストはインフラに左右されない自由を得ることが出来るように。
・インフラエンジニアはガバナンスを確保できるように。
30© Cloudera, Inc. All rights reserved.
データサイエンティストに自由を与える仕組み
• 1つのプラットフォームで複数言語
が利用可能
• マルチテナント目的に利用可能なリ
ソース分離されたセッション
• セキュアなクラスタとの連携が簡単
に
• コードや成果物を共有・再利用可能
• データサイエンスのワークフローの
自動化とジョブスケジューリング
エンタープライズのためのセルフサービスデータサイエンス基盤
Cloudera Data Science Workbench
31© Cloudera, Inc. All rights reserved.
Cloudera Data Science Workbench
データサイエンティストが享受する環境
インフラ担当者が安心して提供できる環境
エンタープライズのためのセルフサービスデータサイエンス基盤
• R/Python/Scalaをブラウザから環境構築なしにすぐに使える
• 好みのライブラリやフレームワークをプロジェクトごとに独立した環境にインストール可能
• SparkとImpalaを使いセキュアなクラスタのデータを直接触れる
• 知見をチームに再利用・共同開発可能な形で共有できる
• データパイプラインの自動化と監視を組み込みのジョブスケジューラで可能
• データサイエンティスト自身が好きな分析環境を作れる自由を与えられる
• 複雑な設定なしにKerberosと連携ができ、セキュリティの確保も容易
• オンプレミスでもクラウドでもどこでもデータのある場所で提供が可能に
32© Cloudera, Inc. All rights reserved.
アプリケーション開発者
33© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
34© Cloudera, Inc. All rights reserved.
開発側の想い
データ基盤に載せるアプリケーション開発
テスト環境としてのHadoop環境の準備
→ 最適な実験台としての環境がほしい
過不足があまりなく、必要に応じて使った分だけ
のコスト
データとサービスがどこからでも利用可能に
開発効率の向上
開発関連コストの削減
インフラ・運用側の想い
ビジネスの柔軟性とデータのポータビリティを保
持したまま、環境依存・ロックインを避ける
管理対象の環境に求められる、統合的な管理性、
可用性、セキュリティ、データガバナンス等の各
種要件を保持したままリスクを低減
運用効率の向上
リスク軽減
適宜Cloudの利用を検討すべき。
35© Cloudera, Inc. All rights reserved.
クラウドで大規模データを扱う際の課題
● クラスターの立ち上げが遅いと
それだけ実作業に割ける時間が
短くなる
● ユーザーがフォーカスしたいの
はクラスタ管理ではなく彼らの
やるべき仕事
● ログを失うとクラスター起動の
失敗や実行時のパフォーマンス
問題への対処が不可能
● サイロなサービスではビジネス
価値を生み出すことが難しい
● Proprietary なファイル構造が
インフラのロックインを引き起
こす
運用の負荷 アプリのトラブルシューティング サイロなアプリケーション
36© Cloudera, Inc. All rights reserved.
一時的
長時間稼働か一時的な環境か
Object Store
長時間稼働
• 高可用性とディザスタリカバリ
• 運用管理(パッチ・ローリングアップグレード)
• リソース管理
• セキュリティ
• オブジェクトストレージの統合
• 迅速なクラスタープロビジョニング
要件に応じて、必要な環境を利用可能にする必要がある。
37© Cloudera, Inc. All rights reserved.
Cloudera Director
Cloudera DirectorとCloudera Altus
Cloudera Altus
• Cloudera EDH をクラウド環境でデプロイ&管理するための
ツール
• ベストプラクティスを再利用可能な構成ファイルで提供
• クラスターのライフサイクル(grow & shrink)を管理
• Cloudera Manager との管理の同期
• 運用も含めて自前になるが、(クラウドプロバイダの選択肢を
含めて)自由度は非常に高い
• Clouderaからのビッグデータ分析用 PaaS
サービスを構築するためのフレームワークの基礎要素
• サービスの第一弾が Altus for data engineering
• 運用はPaaS側で巻き取る代わりに運用の自由度は低め。
• インフラ担当からの目線で、開発環境の細かな運用はPaaSに
まかせてしまいたい場合はおすすめ。
Analytic
DBMS
Operational
DBMS
Data
Engineering
Altus Platform Services
Altus PaaS Foundation
38© Cloudera, Inc. All rights reserved.
まとめ
39© Cloudera, Inc. All rights reserved.
まとめ:データ基盤、分析者と運用者の理解
• データ基盤は利用されて初めて真価を発揮する。
• 継続的に最適化され、用途も変化する。
• 利用者との意思疎通を積極的に
• BIツールの利用者
• データサイエンティスト
• 開発者
• その他
• 運用側でもクラウドとオンプレミスの混在環境と成り得るが、データ
を利用してもらうためのデータカタログや適切に利用してもらうため
のデータガバナンス・セキュリティの提供も重要なインフラ設計・運
用のポイントとなる。
40© Cloudera, Inc. All rights reserved.
さいごに:効率的なアイディエーションと意思
疎通がカギ
• 仕組みはいくつもあるが、広範囲の担当者
が関わり会い、システムの重要度も上がる。
• 何らかのフレームワークに則ったアイディ
エーションや意思疎通プロセスを敷くこと
で、リスクの共有やプライオリティ付けの
明確化を促進させる。
• リーンキャンバス等を用いた議論も優位に
なるのでは。
開発者
BIユーザ
データサイエンス
ビジネスオーナー
データの活用方法が高度化し、データ
基盤の重要性が高まる傾向があるので
関係各所との連携を継続的に!
41© Cloudera, Inc. All rights reserved.
ありがとうございました。

Weitere ähnliche Inhalte

Ähnlich wie ITインフラsummit 2017発表資料

Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
Autonomous選手権システムエグゼ社発表資料
Autonomous選手権システムエグゼ社発表資料Autonomous選手権システムエグゼ社発表資料
Autonomous選手権システムエグゼ社発表資料Mai Nagahisa
 
SIerとクラウドの付き合い方
SIerとクラウドの付き合い方SIerとクラウドの付き合い方
SIerとクラウドの付き合い方Yusuke Suzuki
 
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan Yusuke Suzuki
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?- Core Concept Technologies
 
Developer Summit_20140214
Developer Summit_20140214Developer Summit_20140214
Developer Summit_20140214samemoon
 
MySQL製品概要
MySQL製品概要MySQL製品概要
MySQL製品概要yoyamasaki
 
Cloud native strategy ver1.1
Cloud native strategy ver1.1Cloud native strategy ver1.1
Cloud native strategy ver1.1TomohiroDoi
 
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)Ryusuke Ashiya
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
 
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方Takahiro Imanaka
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOpsYukako Shimizu
 
次世代の企業ITインフラを支えるエンジニアとは
次世代の企業ITインフラを支えるエンジニアとは次世代の企業ITインフラを支えるエンジニアとは
次世代の企業ITインフラを支えるエンジニアとはTrainocate Japan, Ltd.
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されましたCore Concept Technologies
 
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)Developers Summit
 
Automation with SoftLayer and Zabbix
Automation with SoftLayer and ZabbixAutomation with SoftLayer and Zabbix
Automation with SoftLayer and Zabbixsoftlayerjp
 

Ähnlich wie ITインフラsummit 2017発表資料 (20)

Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
Autonomous選手権システムエグゼ社発表資料
Autonomous選手権システムエグゼ社発表資料Autonomous選手権システムエグゼ社発表資料
Autonomous選手権システムエグゼ社発表資料
 
SIerとクラウドの付き合い方
SIerとクラウドの付き合い方SIerとクラウドの付き合い方
SIerとクラウドの付き合い方
 
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan
アーキテクチャとアジャイルプロジェクトをまともに進めるための両輪について-DevLOVE関西 #DevKan
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
 
Developer Summit_20140214
Developer Summit_20140214Developer Summit_20140214
Developer Summit_20140214
 
MySQL製品概要
MySQL製品概要MySQL製品概要
MySQL製品概要
 
Cloud native strategy ver1.1
Cloud native strategy ver1.1Cloud native strategy ver1.1
Cloud native strategy ver1.1
 
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
DevOps時代到来!Engine YardのPaaSで変わるシステムの開発と運用のあり方
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
 
次世代の企業ITインフラを支えるエンジニアとは
次世代の企業ITインフラを支えるエンジニアとは次世代の企業ITインフラを支えるエンジニアとは
次世代の企業ITインフラを支えるエンジニアとは
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました
 
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
 
Automation with SoftLayer and Zabbix
Automation with SoftLayer and ZabbixAutomation with SoftLayer and Zabbix
Automation with SoftLayer and Zabbix
 

Kürzlich hochgeladen

シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ 株式会社
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdfssuser80a51f
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)KayaSuetake1
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipYasuyoshi Minehisa
 
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfmasakisaito12
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチユニパー株式会社
 

Kürzlich hochgeladen (6)

シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadership
 
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
 

ITインフラsummit 2017発表資料

  • 1. 1© Cloudera, Inc. All rights reserved. データの分析者と運用者 互いの業務と必要性の「理解」の 壁を打ち破るデータ基盤とは!? Masayuki Hyugaji - SE Manager, Cloudera
  • 2. 2© Cloudera, Inc. All rights reserved. はじめに
  • 3. 3© Cloudera, Inc. All rights reserved. 自己紹介 • 名前:日向寺 正之 (♂ナイスミドルでありたい年頃) • Clouderaでの役割:Sales Engineering Manager (マネージャっぽく ない) • 過去の経歴 • 国内システムインテグレータにて RDBMSやNoSQLの技術/事業開発 • 外資系テクノロジーベンダーにて IT基盤高度化の推進/分析基盤の 利用推進 • 趣味:潜水、登山、野営。 # 週末は平地には居ない
  • 4. 4© Cloudera, Inc. All rights reserved. 会社概要 - Cloudera(クラウデラ) 設立 2008年、以下4社出身の社員により設立 本社 アメリカ パロアルト マーケット ビッグデータプラットフォームソフトウェア&サービス ビジネスモデル ソフトウェア・トレーニング・プロフェッショナルサービス 従業員数 世界全体で 1,400人以上 事業展開 世界28カ国 パートナー数 2,600 社以上 Hadoopのディストリビューションの 一つである、CDHの開発、保守、 各種プロフェッショナルサービスを提供 https://www.cloudera.com/more/about.html
  • 5. 5© Cloudera, Inc. All rights reserved. アジェンダ • データ分析の事例 • ビッグデータに関わる人々、理想と現実 • BIユーザー:サクサク使いたいBIツール • データサイエンス担当:言語やライブラリに縛られない自由な環境 • 開発者、柔軟なテスト環境 vs コスト • まとめ
  • 6. 6© Cloudera, Inc. All rights reserved. CDHを基盤とした データ分析の事例
  • 7. 7© Cloudera, Inc. All rights reserved. 様々な業界でのデータ活用事例及びテーマ Finance Government Telecom Manufacturing Energy Healthcare 不正検知 科学研究 ブロードキャスト モニタリング サプライチェーンの 最適化 天然資源の最適化 製薬の開発 アンチ- マネーロンダリング タックス コンプライアンス 解約防止 故障予測 地震データの処理 ゲノム解析 リスクマネジメント トラフィックの 最適化 宣伝広告の最適化 RFIDデータの 収集 スマートメーターの 分析 臨床品質 コスト分析 共通するテーマ 感情分析 Webアプリケーションの最適化 ソーシャルCRM / ネットワーク分析 ロイヤリティ / プロモーション分析 ERP 価格の最適化 マーケティング施策の最適化 内部リスクのアセスメント 収益保証 ブランド管理 物流の最適化 ITインフラの分析 法的ディスカバリー 企業内での検索 機器の監視
  • 8. 8© Cloudera, Inc. All rights reserved. 課題 ソリューション 全てのデータが複数のDBに分散されていた • 1日分10億件のレコードに対し、 ETLのプロセスが24時間以上かかっていた • IoTやNW分析を実施する能力が不足 1900にのぼる運用中のデータベースとシステム を統合・再構築し、全社横断的なViewを実現 • 以前の5倍のデータを1/3の時間で処理 • Better broadband performance through ネットワーク分析 と 通信障害の予測により、 より良い帯域性能を提供 • IoTとセンサーデータを活用し、地方都市の 再開発計画に活用 • 200-250%のROIを実現し新しいプロジェ クトをより速やかに実行できる基盤を持て た Customer 360 IT Optimization
  • 9. 9© Cloudera, Inc. All rights reserved. 予兆保守を活用することで、効率性を向上し、 貨物の輸送障害を削減 チャレンジ: • 貨物の輸送障害を削減するために、 180,000を超えるトラックの運行状況を リアルタイムにモニタリングする必要があっ た ソリューション: • トラック全体の通信情報および位置情報デー タをオンデマンドに接続して収集 • エンジンの情報を収集して問題を特定し、 貨物輸送車の稼働時間を向上 • メンテナンスコストを1マイルあたり$.12- $.15から$.03に削減 Connected Car DATA- DRIVEN PROCESS DATA- DRIVEN PRODUCTS TRANSPORTATION » PREDICTIVE MAINTENANCE » TELEMETRY » IMPROVED SERVICE Product & Service
  • 10. 10© Cloudera, Inc. All rights reserved. センサーとIoTを活用し、 旅客の安全と空港の効率化を向上 チャレンジ: • 設備機器(エスカレーター等)のダウン タイムを低減することで、旅客の満足度 と安全性を向上させる必要があった ソリューション: • Azure上にCloudera Hadoop環境を構築 し、エスカレーター、エレベーター、 貨物輸送装置のセンサーデータを 収集し安全な運用を確保 • 計画外のダウンタイムを防止するために 必要な修正を提供 DATA- DRIVEN PROCESS DATA- DRIVEN PRODUCTS TRAVEL & TRANSPORTATION » INTERNET OF THINGS » PREDICTIVE MAINTENANCE » ADVANCED ANALYTICS Product & Service スマートビルディング– 予兆管理
  • 11. 11© Cloudera, Inc. All rights reserved. データ分析基盤と関わる人々 理想と現実
  • 12. 12© Cloudera, Inc. All rights reserved. Object Store HDFS データサイエンス・探索 共通のガバナンス 共通のセキュリティ 共通の運用・ガバナンス・セキュリティ・スキーマ・カタログ データ・アプリケーションBI・レポーティング 配置場所に関わらず分析基盤を提供する状況へ ワークロード管理 KuduHBase Cloud OnPrem 基盤利用3V, Volume(量、ユーザの量), Velocity (速度、要求される処理速度や対応の速さ), Variability (多様性、使われ方の多様性)
  • 13. 13© Cloudera, Inc. All rights reserved. データ基盤イメージ セキュリティ コンプライアンス データストリーム データサイエンス 担当者 BIツール 利用者 外部データや複数のデータとの連携 バッチ リアルタイム データ・ソース データ・ストレージ & データ処理 提供、分析 & 機械学習データ入力 接続された装置/ データ・ソース Enterprise Data Hub 機械学習等からの分析フィードバック アプリケーション 開発者 外部アプリ連携 クラウド オンプレミス データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者 セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者 事業・ビジネスオーナー データ統合・ガバナンス担当者
  • 14. 14© Cloudera, Inc. All rights reserved. データ基盤イメージ セキュリティ コンプライアンス データストリーム データサイエンス 担当者 BIツール 利用者 外部データや複数のデータとの連携 バッチ リアルタイム データ・ソース データ・ストレージ & データ処理 提供、分析 & 機械学習データ入力 接続された装置/ データ・ソース Enterprise Data Hub 機械学習等からの分析フィードバック アプリケーション 開発者 外部アプリ連携 クラウド オンプレミス データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者 セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者 事業・ビジネスオーナー データ統合・ガバナンス担当者 分析・利用広い意味での運用者
  • 15. 15© Cloudera, Inc. All rights reserved. インフラ担当 理想と現実 開発エンジニアデータサイエンティストBIユーザー 必要な開発環境 が必要なときに 利用できるとい いな… 基盤の環境に左右さ れることなく、必要 なデータとライブラ リが使えれば… 分析ツールがサ クサク動く環境 だと仕事の効率 が上がる! データ基盤として利用 者みんなが幸せになる ような環境を提供した い 処理が遅い、制限がある、環境が作れない 使いづらい、セキュリティは…
  • 16. 16© Cloudera, Inc. All rights reserved. BIツール利用者
  • 17. 17© Cloudera, Inc. All rights reserved. インフラ担当 理想と現実 開発エンジニアデータサイエンティストBIユーザー 必要な開発環境 が必要なときに 利用できるとい いな… 基盤の環境に左右さ れることなく、必要 なデータとライブラ リが使えれば… 分析ツールがサ クサク動く環境 だと仕事の効率 が上がる! データ基盤として利用 者みんなが幸せになる ような環境を提供した い 処理が遅い、制限がある、環境が作れない 使いづらい、セキュリティは…
  • 18. 18© Cloudera, Inc. All rights reserved. BIツールの利用環境を取り巻く課題 ユーザの課題 データ量の制約のない分析ができない、重い、データ待ち インフラ管理者の課題 重い原因がわからない、コストが予測できない、高い データ管理者の課題 データの意味がわからない、使われているかどうかもわからない
  • 19. 19© Cloudera, Inc. All rights reserved. BIツール利用者からのありがちな声 使いたいデータが手元にない • 欲しいデータを毎回ダウンロードしなければいけない BIツールの動作が重い • ちょっとデータ量増えるだけで、画面遷移のたびに待たされる データが準備できるまで時間がかかる • 今すぐほしいのに、夜間バッチ待ちで使えるのは翌営業日から 過去のデータもまとめて一度に分析できない • 過去3年分のデータを分析したいのに直近3ヶ月分しか手元にない • 3年分のデータをロードしたら重すぎて動かない
  • 20. 20© Cloudera, Inc. All rights reserved. インフラ管理者の課題 • どんなクエリを実行されるかわからない • 何が原因で重いのかわからない • あるユーザがとんでもないクエリを実行したおかげで他のユーザがBIを 動かせなくなる 結局… • 管理されていない個別の環境が増殖していく • 自分の独自環境にデータをダウンロードしてBIを利用してしまう …という方向に動いてしまう可能性が!
  • 21. 21© Cloudera, Inc. All rights reserved. データ管理者の課題 そもそも専任のデータ管理者がいない • インフラ管理者、古参のBIユーザ、データサイエンティストなどが仕 事の片手間に行っている データの意味がわからない • sales, sales_new, sales_new_2 # このテーブル名だけで「売上のマスターテーブルは sales_new」と解釈できる人は誰もいない データを削除・変更していいかどうかわからない • もう誰も使ってないと思ったテーブルを消したらオフィスの片隅で悲 鳴が聞こえた
  • 22. 22© Cloudera, Inc. All rights reserved. 適切なテクノロジーの選択 BIツール利用時にはImpalaとKuduの組み合わせが正解。 設計の段階からBI利用者を意識し、ImpalaとKuduの利用を想定。 それぞれの技術の得意・不得意を把握した上で準備。 適切な分析エンジンの選択 適切なストレージの選択 BIやSQL ベースでのア ドホック分析 バッチ処理 手続き処理の 中でのSQLの 一部利用 更新頻度:高 大規模分析 構造化データ 更新頻度:高 高速ランダムIO 多構造データ 更新頻度:低 大規模スキャン 非構造データ HDFS データ量の制約のない分析ができない、重い、データ待ち
  • 23. 23© Cloudera, Inc. All rights reserved. 適切な監視とデータガバナンス・カタログを Cloudera Manager:クラスタ管理ツール Cloudera Navigator:メタデータ管理ツール • BIから発行されたSQLの履歴・実行状態・パフォーマン ス・プロファイル • SQLチューニングに関するメトリックスの集計とヒント • 利用ユーザー毎のリソース制御、リソース利用別レポート 環境構築、サービス管理、監視、トラブルシューティング までカバーする運用ツール データのアクセス監査、データの意味(タギング等)、デー タの出処等の情報を管理するメタデータ管理ツール • データリネージ機能:データの変換・抽出過程を可視化 (テーブルの元データ追跡、テーブル変更の影響度の把握) • オブジェクトに対するメタデータ付与:テーブル、列、 ファイル、クエリ等 • 誰がいつどのオブジェクトに何をしたを追跡・不正アクセ スや無許可オペレーションの有無などの確認でも利用可 重い原因がわからない、コストが予測できない、データの意味がわからない、利用の有無がわからない
  • 24. 24© Cloudera, Inc. All rights reserved. データサイエンティスト
  • 25. 25© Cloudera, Inc. All rights reserved. インフラ担当 理想と現実 開発エンジニアデータサイエンティストBIユーザー 必要な開発環境 が必要なときに 利用できるとい いな… 基盤の環境に左右さ れることなく、必要 なデータとライブラ リが使えれば… 分析ツールがサ クサク動く環境 だと仕事の効率 が上がる! データ基盤として利用 者みんなが幸せになる ような環境を提供した い 処理が遅い、制限がある、環境が作れない 使いづらい、セキュリティは…
  • 26. 26© Cloudera, Inc. All rights reserved. チーム データサイエンティストとアナリスト ゴール データの理解、モデルの開発と改善、知見の共有 データ 新規のデータ、かつ頻繁に変更される。大抵の場 合サンプリングしたデータが用いられる 環境 ローカルマシンかサンドボックスクラスタ ツール R、Python、SAS/SPSS、SQL、ノートブック、 データラングリング・ディスカバリツール 最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、 PowerPoint データサイエンス業務における2つのステージ 探索 (新しい機会の捜索と定量化) 運用 (本番システムへのデプロイ) チーム データエンジニア、開発者、SRE ゴール アプリケーションのビルドとメンテナンス、改善 データ 既知のデータ、全データ 環境 本番クラスタ ツール Java/Scala、C++、IDE、CI、ソース管理など 最終アウトプット オンライン・本番アプリケーション
  • 27. 27© Cloudera, Inc. All rights reserved. データサイエンスに対する期待 より多くの データサイエンティストに データ基盤をもっと自由に 使ってほしい Hadoopのデータと計算能力に直接 アクセスして、使い慣れたツール をパワフルに活用する データサイエンティスト データエンジニア 簡単かつセキュアに 新しいユーザやユースケースを 追加してほしい セキュアなセルフサービスの分析 ツールを提供し、普及していて手 頃な価格の基盤上でより素早く本 番投入する エンタープライズアーキテクト Hadoop管理者
  • 28. 28© Cloudera, Inc. All rights reserved. データサイエンス環境を取り巻く課題 データサイエンティスト 探索、実験、イテレーション インフラ担当者 事業の加速とコンプライアンスの両立 データ基盤上で好きなツールが 利用出来ない 基盤チームが標準提供するツールは使いたくない 結局自分のノートPC上に小さいデータをダウンロードし ないといけない データサイエンスチームの雑多な要望への 対応が困難に セキュリティを保つのが大変になる コンプライアンスを維持しながら本番適用するのが辛い 限定されたモデル クラウド上の自由な環境のメンテナンス負荷 個別に高価でハイスペックな環境を購入しないといけない 出処不明のデータ 開発/本番環境での実行環境のバージョンの差異 高価でセキュアでない、サイロ化されたシステム
  • 29. 29© Cloudera, Inc. All rights reserved. データサイエンス環境を取り巻く課題 データサイエンティスト 探索、実験、イテレーション インフラ担当者 事業の加速とコンプライアンスの両立 データ基盤上で好きなツールが 利用出来ない 基盤チームが標準提供するツールは使いたくない 結局自分のノートPC上に小さいデータをダウンロードし ないといけない データサイエンスチームの雑多な要望への 対応が困難に セキュリティを保つのが大変になる コンプライアンスを維持しながら本番適用するのが辛い ・データサイエンティストはインフラに左右されない自由を得ることが出来るように。 ・インフラエンジニアはガバナンスを確保できるように。
  • 30. 30© Cloudera, Inc. All rights reserved. データサイエンティストに自由を与える仕組み • 1つのプラットフォームで複数言語 が利用可能 • マルチテナント目的に利用可能なリ ソース分離されたセッション • セキュアなクラスタとの連携が簡単 に • コードや成果物を共有・再利用可能 • データサイエンスのワークフローの 自動化とジョブスケジューリング エンタープライズのためのセルフサービスデータサイエンス基盤 Cloudera Data Science Workbench
  • 31. 31© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench データサイエンティストが享受する環境 インフラ担当者が安心して提供できる環境 エンタープライズのためのセルフサービスデータサイエンス基盤 • R/Python/Scalaをブラウザから環境構築なしにすぐに使える • 好みのライブラリやフレームワークをプロジェクトごとに独立した環境にインストール可能 • SparkとImpalaを使いセキュアなクラスタのデータを直接触れる • 知見をチームに再利用・共同開発可能な形で共有できる • データパイプラインの自動化と監視を組み込みのジョブスケジューラで可能 • データサイエンティスト自身が好きな分析環境を作れる自由を与えられる • 複雑な設定なしにKerberosと連携ができ、セキュリティの確保も容易 • オンプレミスでもクラウドでもどこでもデータのある場所で提供が可能に
  • 32. 32© Cloudera, Inc. All rights reserved. アプリケーション開発者
  • 33. 33© Cloudera, Inc. All rights reserved. インフラ担当 理想と現実 開発エンジニアデータサイエンティストBIユーザー 必要な開発環境 が必要なときに 利用できるとい いな… 基盤の環境に左右さ れることなく、必要 なデータとライブラ リが使えれば… 分析ツールがサ クサク動く環境 だと仕事の効率 が上がる! データ基盤として利用 者みんなが幸せになる ような環境を提供した い 処理が遅い、制限がある、環境が作れない 使いづらい、セキュリティは…
  • 34. 34© Cloudera, Inc. All rights reserved. 開発側の想い データ基盤に載せるアプリケーション開発 テスト環境としてのHadoop環境の準備 → 最適な実験台としての環境がほしい 過不足があまりなく、必要に応じて使った分だけ のコスト データとサービスがどこからでも利用可能に 開発効率の向上 開発関連コストの削減 インフラ・運用側の想い ビジネスの柔軟性とデータのポータビリティを保 持したまま、環境依存・ロックインを避ける 管理対象の環境に求められる、統合的な管理性、 可用性、セキュリティ、データガバナンス等の各 種要件を保持したままリスクを低減 運用効率の向上 リスク軽減 適宜Cloudの利用を検討すべき。
  • 35. 35© Cloudera, Inc. All rights reserved. クラウドで大規模データを扱う際の課題 ● クラスターの立ち上げが遅いと それだけ実作業に割ける時間が 短くなる ● ユーザーがフォーカスしたいの はクラスタ管理ではなく彼らの やるべき仕事 ● ログを失うとクラスター起動の 失敗や実行時のパフォーマンス 問題への対処が不可能 ● サイロなサービスではビジネス 価値を生み出すことが難しい ● Proprietary なファイル構造が インフラのロックインを引き起 こす 運用の負荷 アプリのトラブルシューティング サイロなアプリケーション
  • 36. 36© Cloudera, Inc. All rights reserved. 一時的 長時間稼働か一時的な環境か Object Store 長時間稼働 • 高可用性とディザスタリカバリ • 運用管理(パッチ・ローリングアップグレード) • リソース管理 • セキュリティ • オブジェクトストレージの統合 • 迅速なクラスタープロビジョニング 要件に応じて、必要な環境を利用可能にする必要がある。
  • 37. 37© Cloudera, Inc. All rights reserved. Cloudera Director Cloudera DirectorとCloudera Altus Cloudera Altus • Cloudera EDH をクラウド環境でデプロイ&管理するための ツール • ベストプラクティスを再利用可能な構成ファイルで提供 • クラスターのライフサイクル(grow & shrink)を管理 • Cloudera Manager との管理の同期 • 運用も含めて自前になるが、(クラウドプロバイダの選択肢を 含めて)自由度は非常に高い • Clouderaからのビッグデータ分析用 PaaS サービスを構築するためのフレームワークの基礎要素 • サービスの第一弾が Altus for data engineering • 運用はPaaS側で巻き取る代わりに運用の自由度は低め。 • インフラ担当からの目線で、開発環境の細かな運用はPaaSに まかせてしまいたい場合はおすすめ。 Analytic DBMS Operational DBMS Data Engineering Altus Platform Services Altus PaaS Foundation
  • 38. 38© Cloudera, Inc. All rights reserved. まとめ
  • 39. 39© Cloudera, Inc. All rights reserved. まとめ:データ基盤、分析者と運用者の理解 • データ基盤は利用されて初めて真価を発揮する。 • 継続的に最適化され、用途も変化する。 • 利用者との意思疎通を積極的に • BIツールの利用者 • データサイエンティスト • 開発者 • その他 • 運用側でもクラウドとオンプレミスの混在環境と成り得るが、データ を利用してもらうためのデータカタログや適切に利用してもらうため のデータガバナンス・セキュリティの提供も重要なインフラ設計・運 用のポイントとなる。
  • 40. 40© Cloudera, Inc. All rights reserved. さいごに:効率的なアイディエーションと意思 疎通がカギ • 仕組みはいくつもあるが、広範囲の担当者 が関わり会い、システムの重要度も上がる。 • 何らかのフレームワークに則ったアイディ エーションや意思疎通プロセスを敷くこと で、リスクの共有やプライオリティ付けの 明確化を促進させる。 • リーンキャンバス等を用いた議論も優位に なるのでは。 開発者 BIユーザ データサイエンス ビジネスオーナー データの活用方法が高度化し、データ 基盤の重要性が高まる傾向があるので 関係各所との連携を継続的に!
  • 41. 41© Cloudera, Inc. All rights reserved. ありがとうございました。

Hinweis der Redaktion

  1. IoT and predictive analytics. Company Background: Navistar is a leading manufacturer of commercial trucks, buses, defense vehicles and engines. Navistar International Corporation (NYSE:NAV) is comprised of four segments: North America Truck, North America Parts, Global Operations, and Financial Services. The company’s portfolio includes International® brand commercial and military trucks, proprietary diesel engines, and IC Bus™ brand school and commercial buses. Use Case: Hadoop is being used to bring together data from multiple telematics sources to synthesize a fleet-wide view and enable predictive analytics. http://www.cio.com/article/3009011/analytics/navistar-cio-looks-to-big-data-analytics-to-fuel-turnaround.html
  2. IoT and predictive analytics. Company Background: Schiphol Airport – Amsterdam. Joint Success with Azure Use Case: One of the busiest airports in Europe is using Cloudera on Azure to capture, secure, and correlate sensor (IoT) data collected from industrial equipment like escalators, elevators, and baggage carousels with transactional data from passengers to proactively assess the health of its machines and prevent any unplanned downtime. Improve traveler satisfaction and safety Reduce downtime for critical operational machines
  3. ・データを貯めるからデータを使うへのシフト ・データを使わせるための基盤、 ・利用用途、提供場所・利用場所、利用スピードの変化 ・基盤利用に関する、3V, Volume(量、ユーザの量), Velocity(速度、要求される処理速度や対応の速さ), Variavility(多様性、使われ方の多様性)
  4. ・本日は、おおまかに赤線部分でデータの利用者と基盤の運用者という定義でいきたいとおもいます。
  5. ・Tableau、Zoomdata、Pentaho、Talendなど、BIツールとして利用されるレスポンスの問題 ・設計当初の想定利用シーンや、利用者数に変化、分析内容の変化に伴う環境の劣化 ・多様なデータを提供する上でのデータの出処や意味の整理が複雑になる。
  6. ・利用したいときに利用したいものが利用できない、という状況が徐々に見え隠れしだす。 ・ほしい分析結果が、ほしいときに出てこない。 ・データを要求して、結果を見て、考える、一連のスピードが遅くなる。 ・性能劣化が始まり、使い勝手がわるくなってくると、自分の必要なデータを基盤から個人の環境に移動することもあり得る。
  7. ・とは言え、データが
  8. オープンソースのインタラクティブSQLエンジン 最新版のHiveより通常5-70倍速い レスポンスは数分ではなく、数秒(場合によっては1秒以下) バッチ処理からランタイムを分離 Hive, Pig, MapReduce はバッチ処理に特化して設計されていた ImpalaはHadoop上の低レイテンシSQLクエリのために開発された ーーー 以下はストレージを選択する大まかな基準 HDFS 更新が頻繁でない(バッチ処理で構わない)分析用 大規模スキャン(基本は読み取り)がメインのもの Sparkなどを使った複雑なETL処理を行う場合 HBase 高速なランダムIO性能、リアルタイム性の非常に高い更新が必要なもの リレーショナルDBが担ってきたOLTPシステム リレーショナルDBとは異なる開発運用性で構わない場合(NoSQL) Kudu HBaseほどの高速なランダムIO性能は要求しないが、リアルタイム性の高いデータ更新と、大規模分析を行う用途 リレーショナルDBやデータウェアハウスが担ってきたOLAPシステム SQLを使ってリレーショナルDBに近い開発運用性が欲しい場合
  9. 個別に監視ツールをインストールして性能監視、死活監視などをおこなう状態になりがちだが、Clouderaから提供される Cloudera Managerをつかうことによって、単なるCPU率やDiskI/Oといった基礎的なメトリックス以外の重要なサービスレベルの監視・管理が可能となる。 テーブルで利用されているデータの出処がわからない、データの意味がわからないと言った状態を整理するために、Cloudera Navigatorを利用して、データの出処を可視化して、どのデータがどこで利用されるのかを把握。また、テーブルやカラムと言ったオブジェクトにメタデータを付与し、より人間が理解しやすい記述をついかして、データのカタログの整理整頓をおこなう目的としても利用できる。
  10. データサイエンティスト ・コンピュタサイエンスのスキル ・統計の知識 ・ビジネスへの理解
  11. With lift and shift model, you’re basically running the same on-prem workloads, but instead of using bare metal as hardware, you’re using cloud as infrastructure. These clusters use local HDFS. Everything you do on prem you would have to do in the cloud. You would need to do upgrades. We have enterprise class capes around management, security and disaster recovery Cloud-native is for when you want to take advantage of object store and elastic compute in a cloud native scenario. Use S3 which is infinitely scalable, five 9’s resilient and relatively inexpensive compared to other types of storage. Elastic compute is more common for transient workloads like batch processing. Lift and Shift: Public cloud infrastructure Local HDFS Operational stack management Multi-user, multi-service Cloud-native: Use object storage and elastic compute Provision/terminate clusters Single-user
  12. 開発者に対して、必要に応じて環境やデータを迅速に提供すると同時に、提供した環境が一定の基準を満たした設定になっていることや、開発したアプリケーションが本番環境で動くポータビリティを保持させることが重要。 Cloudera Directorでは、フルスタックのCDHを事前定義の設定テンプレートにもとづいて、各種IaaS上にデプロイするツール。IaaS上での展開となるため、管理者としてはOnPremiseと同等のデータ基盤管理情報を取得できる。 Cloudera Altusでは、Directorで提供している機能に加えてJobを実行する際のログ分析やワークロード解析機能もPaaSとして提供する。MpReduceやSparkを利用したバッ機械学習の学習フェーズやバッチジョブの開発、オフロード等で利用される。