SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
®
© 2014 MapR Technologies 1
®
© 2014 MapR Technologies
Jim Scott, Director, Enterprise Strategy & Architecture
Things Expo – 2014 年 11 月
®
© 2014 MapR Technologies 2
アジェンダ
•  時系列とは何か?
•  時系列はどこから来るか?
•  処理のために何が必要か?
–  理論的に
–  現実的に
•  どのように扱えばよいか?
–  時系列処理の基本
–  高度な時系列データベース
®
© 2014 MapR Technologies 3
時系列(Time Series)とは何か?
•  タイムスタンプ付きの何か
–  センサー計測値
–  システム統計値
–  ログファイル
–  設定ファイル
そう、その通り
•  それから、いくつかの分類
–  数値で表現される時系列(ほとんどの人が思い浮かべるもの)
–  イベント
–  非数値で表現される時系列(特殊なケース)
®
© 2014 MapR Technologies 4
時系列分かりました?	
  
®
© 2014 MapR Technologies 5
®
© 2014 MapR Technologies 6
®
© 2014 MapR Technologies 7
®
© 2014 MapR Technologies 8
®
© 2014 MapR Technologies 9
®
© 2014 MapR Technologies 10
®
© 2014 MapR Technologies 11
®
© 2014 MapR Technologies 12
®
© 2014 MapR Technologies 13
®
© 2014 MapR Technologies 14
時系列で何ができるか
•  取得
–  計測、送信、受信
•  蓄積
–  個別に、もしくは一定時間でグループ化
•  検索
–  アドホック、柔軟性、相互関係、集計
•  分析と可視化
–  検索を通じて実行
®
© 2014 MapR Technologies 15
取得
通常あまり問題にならない
•  センサー
•  データ収集 – エージェント、Raspberry Pi
•  送信 – LAN/WAN、モバイルネットワーク、衛星経由
•  システムでの受信 – デーモンまたはキューでの待ち受け、もしくは使
い方によってはデータベースへの直接書き込み
®
© 2014 MapR Technologies 16
ストレージの選択
•  フラットファイル
–  大量データの短時間での投入に適している
–  基本的にどんなデータタイプにも対応する
–  高頻度の更新が要求されるデータには適さない
–  特定範囲の検索は苦手
•  従来の RDBMS
–  10,000/秒までの投入/構造化された(数値)データが望ましい/高コスト
•  NoSQL(MapR-DB や HBase など)
–  10,000 行 / 秒 / ノードの処理は余裕 – リニアにスケール
–  様々な種類のデータに対応
–  高頻度の更新に適している
–  範囲検索が容易
®
© 2014 MapR Technologies 17
検索の要件
•  時系列、時刻範囲、タグにより検索
–  一度に数百万件のデータポイントが返る可能性も
–  可能であればその場でウインドウ集計を行う
•  シンプルなクエリ
–  開始時刻、終了時刻、メトリクス、タグ
–  連携のための REST API
–  テストのためのコマンドラインインターフェース
•  グラフ
®
© 2014 MapR Technologies 18
特定の事例
•  サーバファームを想定
•  数多くのシステムメトリクス
•  一般に、100〜300 統計値 / 30 秒
•  負荷、RPC の数、パケット数、リクエスト/秒
•  一般に、100〜10,000 台
®
© 2014 MapR Technologies 19
概算
10 サンプル / 秒 / 台
x 1,000 台
= 10,000 サンプル / 秒
•  Open TSDB で処理するのに適切な規模
•  インストールしてやってみましょう、
ただし大きな規模では試さないように
®
© 2014 MapR Technologies 20
スケールするか?
®
© 2014 MapR Technologies 21
スケールするか?
®
© 2014 MapR Technologies 22
特定の事例
•  石油掘削リグを想定
•  油井を掘削する際、数多くの可動部品が存在する
•  一般に、掘削リグは約 1 万サンプル/秒を生成
•  温度、圧力、磁力、機械振動レベル、
塩分濃度、電圧、電流、その他多数
•  一般に、プロジェクトあたり 100 リグ
®
© 2014 MapR Technologies 23
概算
1 万サンプル / 秒 / リグ
x 100 リグ
= 100 万サンプル / 秒
•  だが待て、まだある
–  システムを テストする 必要性を考慮
–  もしかするとそれは一年分のデータかも
–  するとそのデータを 1 年より遥かに短時間でロードすることが必要
•  リアルタイムの 100 倍 = 1 億サンプル / 秒
®
© 2014 MapR Technologies 24
どのように動かすか(Open TSDB on MapR)?
メッセージ
キュー
コレクタ
MapR
テーブル
サンプル
Web サービス ユーザ
®
© 2014 MapR Technologies 25
データストレージ
•  一般に、時間ウインドウは 1 時間
•  カラム名は時間ウインドウからのオフセット
•  別のテーブルで series-uid を検索する
Key 13 43 73 103 …
…
series-uid.time-window 4.5 5.2 6.1 4.9
…
®
© 2014 MapR Technologies 26
最終的な圧縮
•  blob としてデータを挿入すると、もともとのカラムは冗長になる
•  通常とは異なり、これが時系列 DB のあるべき姿
Key 13 43 73 103 blob
…
series-uid.time-window 4.5 5.2 6.1 4.9 {t:[13,43,73,103],
v=[4.5,5.2,6.1,4.9]}
…
®
© 2014 MapR Technologies 27
最終的な圧縮
•  古いデータは blob のみに変換してしまえば、ストレージ容量を抑え、
高速に検索することができる
Key blob
…
series-uid.time-window {t:[13,43,73,103],
v=[4.5,5.2,6.1,4.9]}
…
®
© 2014 MapR Technologies 28
1 回ごとのローディング
•  サンプル毎に 1 回の挿入が必要、圧縮で別にもう 1 回挿入が必要
•  クラスタ上の典型的なパフォーマンス
–  1 エッジノード + 4 クラスタノード
–  毎秒 2 万サンプルまでの測定
•  サーバ監視には適している
•  大規模な履歴の投入には適さない
•  1000 倍規模の産業用途には遅すぎる
®
© 2014 MapR Technologies 29
ちょっとした工夫 … メモリにデータをバッファ
メッセージ
キュー
サンプル
ユーザ
コレクタ
MapR
テーブル
Web サービス
ログ
コレクタで1時間分のデータ
をバッファすることで1000倍
以上の性能向上が得られる
最新の1時間分のデータをログにた
めることでコレクタのクリーンな再開
が可能(ラムダ + イプシロンアーキ
テクチャ)
Webサービスはデー
タベースとコレクタ両
方に問い合わせる
®
© 2014 MapR Technologies 30
一括ローディング
•  3600 サンプルで 1 回の挿入
–  圧縮は不要
•  クラスタ上の典型的なパフォーマンス
–  1 エッジノード + 4 クラスタノード
–  毎秒 3000 万サンプルまでの測定
–  700 倍以上高速な挿入
•  大規模な履歴の投入に適している
•  3000 万データポイントの取り出しは 20 秒以内(JSON 形式)
•  産業用途向け
®
© 2014 MapR Technologies 31
どういうケースには適さないか?
•  場合によって、系列 ID + 時間範囲による検索では不十分
•  ログファイル
–  テキストベースの条件をもとにした非常に柔軟なイベントの検索が必要な場
合
•  時系列データベースより検索エンジンが有利な場合も
–  Lucene ベースの検索エンジンは 100 万イベント / 秒以上スケールする
•  時空間(Geo-temporal)ストレージアクセスパターン
®
© 2014 MapR Technologies 32
Q&A
@kingmesal maprtech
jsccot@mapr.com
Engage with us!
MapR
maprtech
mapr-technologies

Weitere ähnliche Inhalte

Was ist angesagt?

Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションMapR Technologies Japan
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR Technologies Japan
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR Technologies Japan
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...MapR Technologies Japan
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Hadoop / Spark Conference Japan
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Technologies Japan
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンMapR Technologies Japan
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11MapR Technologies Japan
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12MapR Technologies Japan
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較 FlyData Inc.
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26MapR Technologies Japan
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)Toru Takizawa
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Cloudera Japan
 

Was ist angesagt? (20)

Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォーム
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 

Ähnlich wie 時系列の世界の時系列データ

マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014MapR Technologies Japan
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証Recruit Technologies
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Recruit Technologies
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一Insight Technology, Inc.
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Taro L. Saito
 
(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へHiroki Kashiwazaki
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4Takeshi Yamamuro
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングShin Matsumoto
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
200730material fujita
200730material fujita200730material fujita
200730material fujitaRCCSRENKEI
 
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912Hironori Washizaki
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkTakanori Suzuki
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120陽平 山口
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみたADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみたNarami Kiyokura
 
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)CLOUDIAN KK
 

Ähnlich wie 時系列の世界の時系列データ (20)

マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編
 
(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
200730material fujita
200730material fujita200730material fujita
200730material fujita
 
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみたADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
 
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)
 

Mehr von MapR Technologies Japan

Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析MapR Technologies Japan
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...MapR Technologies Japan
 
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...MapR Technologies Japan
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...MapR Technologies Japan
 

Mehr von MapR Technologies Japan (8)

Drill超簡単チューニング
Drill超簡単チューニングDrill超簡単チューニング
Drill超簡単チューニング
 
Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析
 
Hadoop によるゲノム解読
Hadoop によるゲノム解読Hadoop によるゲノム解読
Hadoop によるゲノム解読
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
 
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
 

時系列の世界の時系列データ

  • 1. ® © 2014 MapR Technologies 1 ® © 2014 MapR Technologies Jim Scott, Director, Enterprise Strategy & Architecture Things Expo – 2014 年 11 月
  • 2. ® © 2014 MapR Technologies 2 アジェンダ •  時系列とは何か? •  時系列はどこから来るか? •  処理のために何が必要か? –  理論的に –  現実的に •  どのように扱えばよいか? –  時系列処理の基本 –  高度な時系列データベース
  • 3. ® © 2014 MapR Technologies 3 時系列(Time Series)とは何か? •  タイムスタンプ付きの何か –  センサー計測値 –  システム統計値 –  ログファイル –  設定ファイル そう、その通り •  それから、いくつかの分類 –  数値で表現される時系列(ほとんどの人が思い浮かべるもの) –  イベント –  非数値で表現される時系列(特殊なケース)
  • 4. ® © 2014 MapR Technologies 4 時系列分かりました?  
  • 5. ® © 2014 MapR Technologies 5
  • 6. ® © 2014 MapR Technologies 6
  • 7. ® © 2014 MapR Technologies 7
  • 8. ® © 2014 MapR Technologies 8
  • 9. ® © 2014 MapR Technologies 9
  • 10. ® © 2014 MapR Technologies 10
  • 11. ® © 2014 MapR Technologies 11
  • 12. ® © 2014 MapR Technologies 12
  • 13. ® © 2014 MapR Technologies 13
  • 14. ® © 2014 MapR Technologies 14 時系列で何ができるか •  取得 –  計測、送信、受信 •  蓄積 –  個別に、もしくは一定時間でグループ化 •  検索 –  アドホック、柔軟性、相互関係、集計 •  分析と可視化 –  検索を通じて実行
  • 15. ® © 2014 MapR Technologies 15 取得 通常あまり問題にならない •  センサー •  データ収集 – エージェント、Raspberry Pi •  送信 – LAN/WAN、モバイルネットワーク、衛星経由 •  システムでの受信 – デーモンまたはキューでの待ち受け、もしくは使 い方によってはデータベースへの直接書き込み
  • 16. ® © 2014 MapR Technologies 16 ストレージの選択 •  フラットファイル –  大量データの短時間での投入に適している –  基本的にどんなデータタイプにも対応する –  高頻度の更新が要求されるデータには適さない –  特定範囲の検索は苦手 •  従来の RDBMS –  10,000/秒までの投入/構造化された(数値)データが望ましい/高コスト •  NoSQL(MapR-DB や HBase など) –  10,000 行 / 秒 / ノードの処理は余裕 – リニアにスケール –  様々な種類のデータに対応 –  高頻度の更新に適している –  範囲検索が容易
  • 17. ® © 2014 MapR Technologies 17 検索の要件 •  時系列、時刻範囲、タグにより検索 –  一度に数百万件のデータポイントが返る可能性も –  可能であればその場でウインドウ集計を行う •  シンプルなクエリ –  開始時刻、終了時刻、メトリクス、タグ –  連携のための REST API –  テストのためのコマンドラインインターフェース •  グラフ
  • 18. ® © 2014 MapR Technologies 18 特定の事例 •  サーバファームを想定 •  数多くのシステムメトリクス •  一般に、100〜300 統計値 / 30 秒 •  負荷、RPC の数、パケット数、リクエスト/秒 •  一般に、100〜10,000 台
  • 19. ® © 2014 MapR Technologies 19 概算 10 サンプル / 秒 / 台 x 1,000 台 = 10,000 サンプル / 秒 •  Open TSDB で処理するのに適切な規模 •  インストールしてやってみましょう、 ただし大きな規模では試さないように
  • 20. ® © 2014 MapR Technologies 20 スケールするか?
  • 21. ® © 2014 MapR Technologies 21 スケールするか?
  • 22. ® © 2014 MapR Technologies 22 特定の事例 •  石油掘削リグを想定 •  油井を掘削する際、数多くの可動部品が存在する •  一般に、掘削リグは約 1 万サンプル/秒を生成 •  温度、圧力、磁力、機械振動レベル、 塩分濃度、電圧、電流、その他多数 •  一般に、プロジェクトあたり 100 リグ
  • 23. ® © 2014 MapR Technologies 23 概算 1 万サンプル / 秒 / リグ x 100 リグ = 100 万サンプル / 秒 •  だが待て、まだある –  システムを テストする 必要性を考慮 –  もしかするとそれは一年分のデータかも –  するとそのデータを 1 年より遥かに短時間でロードすることが必要 •  リアルタイムの 100 倍 = 1 億サンプル / 秒
  • 24. ® © 2014 MapR Technologies 24 どのように動かすか(Open TSDB on MapR)? メッセージ キュー コレクタ MapR テーブル サンプル Web サービス ユーザ
  • 25. ® © 2014 MapR Technologies 25 データストレージ •  一般に、時間ウインドウは 1 時間 •  カラム名は時間ウインドウからのオフセット •  別のテーブルで series-uid を検索する Key 13 43 73 103 … … series-uid.time-window 4.5 5.2 6.1 4.9 …
  • 26. ® © 2014 MapR Technologies 26 最終的な圧縮 •  blob としてデータを挿入すると、もともとのカラムは冗長になる •  通常とは異なり、これが時系列 DB のあるべき姿 Key 13 43 73 103 blob … series-uid.time-window 4.5 5.2 6.1 4.9 {t:[13,43,73,103], v=[4.5,5.2,6.1,4.9]} …
  • 27. ® © 2014 MapR Technologies 27 最終的な圧縮 •  古いデータは blob のみに変換してしまえば、ストレージ容量を抑え、 高速に検索することができる Key blob … series-uid.time-window {t:[13,43,73,103], v=[4.5,5.2,6.1,4.9]} …
  • 28. ® © 2014 MapR Technologies 28 1 回ごとのローディング •  サンプル毎に 1 回の挿入が必要、圧縮で別にもう 1 回挿入が必要 •  クラスタ上の典型的なパフォーマンス –  1 エッジノード + 4 クラスタノード –  毎秒 2 万サンプルまでの測定 •  サーバ監視には適している •  大規模な履歴の投入には適さない •  1000 倍規模の産業用途には遅すぎる
  • 29. ® © 2014 MapR Technologies 29 ちょっとした工夫 … メモリにデータをバッファ メッセージ キュー サンプル ユーザ コレクタ MapR テーブル Web サービス ログ コレクタで1時間分のデータ をバッファすることで1000倍 以上の性能向上が得られる 最新の1時間分のデータをログにた めることでコレクタのクリーンな再開 が可能(ラムダ + イプシロンアーキ テクチャ) Webサービスはデー タベースとコレクタ両 方に問い合わせる
  • 30. ® © 2014 MapR Technologies 30 一括ローディング •  3600 サンプルで 1 回の挿入 –  圧縮は不要 •  クラスタ上の典型的なパフォーマンス –  1 エッジノード + 4 クラスタノード –  毎秒 3000 万サンプルまでの測定 –  700 倍以上高速な挿入 •  大規模な履歴の投入に適している •  3000 万データポイントの取り出しは 20 秒以内(JSON 形式) •  産業用途向け
  • 31. ® © 2014 MapR Technologies 31 どういうケースには適さないか? •  場合によって、系列 ID + 時間範囲による検索では不十分 •  ログファイル –  テキストベースの条件をもとにした非常に柔軟なイベントの検索が必要な場 合 •  時系列データベースより検索エンジンが有利な場合も –  Lucene ベースの検索エンジンは 100 万イベント / 秒以上スケールする •  時空間(Geo-temporal)ストレージアクセスパターン
  • 32. ® © 2014 MapR Technologies 32 Q&A @kingmesal maprtech jsccot@mapr.com Engage with us! MapR maprtech mapr-technologies