20130612 ibm big_dataseminar_streams

リアルタイムデータ分析を実現する
ストリーム・コンピューティング技術
〜「今」を分析するためには〜
Atsushi Tsuchiya (eAtsushi@jp.IBM.com)
Technical Lead, Worldwide Big data Tiger team.
Sales Div. Information Management Div.
IBM Software
Certified InfoSphere Streams Engineer & Subject Matter Expert

© 2013 IBM Corporation
〜ストリーム・コンピューティング〜
現在さまざまなデータや実世界のイベントがやり取
りされ、データ量が増加しています
【全世界のデータ量は増加傾向にある】
9000
8000
7000
6000
5000
4000
3000
0
2010 2015
センサー＆デバイス
ソーシャルメディア
VoIP（音声）
エンタープライズデータ
データ量（エクサバイト）
（確実性）
（速度）
（多様性）
（量）
“量”だけではなく、データが持つさまざまな特性をとらえることも重要です

IBMが考えるビッグデータ・プラットフォーム
Data in
Motion
Data at
Rest
Data in
Many Forms
Information
Ingestion
and
Operational
Information
Decision
Management
BI and Predictive
Analytics
Navigation
and
Discovery
Intelligence
Analysis
Landing Area,
Analytics Zone
and Archive
Raw Data
Structured Data
Text Analytics
Data Mining
Entity Analytics
Machine Learning
Real-time
Analytics
Video/Audio
Network/Sensor
Entity Analytics
Predictive
Exploration,
Integrated
Warehouse,
and Mart
Zones
Discovery
Deep Reflection
Operational
Predictive
Stream Processing
Data Collection via
MQTT,
MessagingSite
Data Integration
Master Data
Streaming
Data Life Cycle Management
いつ、誰が、何を、何のためにデータを使おうとしているのか？ワークロードとコス
ト最適化に対応できることが、このIBMのビッグデータアーキテクチャの概念です。
Landing…
Archiving with ad
hoc access Offline…
Active/Landing Data Movement
Archiving/Offline Data Movement

ストリーム・コンピューティングとは
様々な情報源からリアルタイムで流⼊する多種多様なデータを、
ディスク保存する前に分散並列処理・分析する
「センス&レスポンス⇒プリペア&アクション」⼿法。
過去の事実の発⾒
起きていることの把握
ストリーム・コンピューティング
【今の出来事】
Nowcast
従来のデータ処理⼿法
【過去の出来事】
■目的
静的な過去のデータを分析し、
過去の事実を発⾒する
■目的
流⼊するデータをリアルタイム分析し、
直近の事実を発⾒する
プリペア・ステージ
アクション

データを”永久”に保持しない
従来のデータ処理⼿法との違い：
全データに対する処理を目的とせず、流れるデータをインメモリで
加工処理しデータ出⼒をする⼀連の流れを最も簡単にモデル化した
データ処理モデルを「ストリーム・コンピューティング」と呼ぶ。
記録データ
データ
定期的
⼀括処理
処理結果
記録データ
処理要求処理結果
データ
中間
データ
処理
データ
バッチ処理 OLTP処理ストリーム処理
更新
トランザクション
従来の
データ処理
※⼀定時間・区間のデータを
メモリ上に保持します。
※全てのデータはHDDに永
続化されていることが前提。

情報処理における時間軸の変化
過去に何が起きたのか？
特⻑：テラバイト・レベルのデータ量; 課⾦履歴; 監査向けデータストレージ; ほと
んどのケースではアーカイブされているオフライン・データ; オンラインからの集
約、集計されたデータ
この(課⾦)ピリオドに何が起きたのか？
特⻑：数百GBのデータ; 直近ピリオドのデータ; 情報の照会データ; ほと
んどのケースでオンラインデータといくつかのロケーションやコンテキス
ト情報を含む
この週に何が起きたのか？
特⻑：数百GBのデータ; ロケーション情報やコンテキスト; 全てオン
ラインデータ, 幾つかはインメモリ・データ、また直近の購買などの
データや履歴情報; 先週の状況データや、サポートデスクへの問い合わ
せデータ、課⾦状況、品質状況（クレーム）、工事情報など
今日、何が起きたのか？
ギガバイトのデータ量;ロケーションやコンテキスト情報; 全てがオ
ンラインで、ほとんどのデータがインメモリ上に集約。ロケーショ
ン情報やロケーション変更情報
この5分間に何が起きたのか？
何が今起きたか？ギガバイト以下のデータ量; ロケーションやコンテ
キスト情報; 全てがオンライン、近々の集約されたデータはインメモ
リ処理、直近のヒストリもインメモリ処理（購買履歴）; ロケーショ
ン情報やロケーション変更
この5秒間に何が起きたのか？
今、現在進⾏形で何が起きているのか？メガバイトのデータ量; ロケーショ
ン、コンテキスト; 全てがインメモリ処理;ロケーション情報、ロケーション
変更、使⽤しているサービス、使⽤したサービス情報など
デ
ー
タ
の
鮮
度

⼀般的な情報処理の時間軸
情報ソース
（取込み）
アクションまでに所要する時間
WAREHOUSE
レポート
アドホック・クエリ
データマート
ビジネスプロセッシン
グ & イベント管理
オペレーショナル
レポート
ダッシュボード計画スコアリング・カード
分析モデル & 情報
データ・インテグレーション
オペレーショナル・データ・ストア(ODS)
意思決定
アクション

ストリーム処理の時間軸
- アクションまでの実⾏時間短縮
- より速く予測する
アクションまでの時間
情報ソース（取込み）
WAREHOUSE
レポート
動的なクエリ
データ・インテグレーション
オペレーショナル・データ・ストア(ODS)
データマート
ビジネスプロ
セッシング &
イベント管理
オペレーショナル
レポート
ダッシュボード計画スコアリング
分析モデル & 情報
分析モデル
& リアルタイムな情報
様々な
コンテンツ
意思決定
アクション

コスト最適化-CPUリソースの削減
蓄積データ全体量に対してのCPUリソースは必要なく、連続的に処理
を⾏い、サマリ表へ結果のみを書き出します。
• 1億件のCDR(通話記録)を2時間で処理（140万件毎秒）
• HS22 Bladeサーバ（2台）8コアx2, 2.5 GHz, 64 GB memory (総計16コア)
• 平均CPU使⽤率: 75% - 平均メモリ使⽤率~ 6GB
740%効率化
62% 削減
効果
5億500万
CDR/hr
6800万
CDR/hr
16コア (x86)42コア (P6)
適応後適応前
ストリーム技術は、従来の方式と比べ
圧倒的なROI/TCOを実現します。
出典：IOD 2011 las Vegas
※CDR = Call Detail Recordの略（通話記録）
※DBに対して⼀度しか実⾏しない
バッチ・SQL処理は、積極的に前
段のストリーム・プリプロセッ
サーにオフロードできる候補です。
データ分析基盤
Func1
Filtering
Filtering
Func2
Func3
Aggre
gator
Aggre
gator
Func4
Func5
Func6
Func8
Func9
Func7
《月次バッチ処理（ID毎の積算処理など）をDBに格納する前段で
プリプロセッサーで処理。計算結果をDBへ格納。月締めの
DBバッチ処理は、サマリ表へのバッチを⾏う》

あらゆるビジネス要求における即時性への対応
「必要な時に必要な情報を」
断続的に発生するデータを分散並列処理
ディスクに蓄積せずに、インメモリ処理
多種多様なデータを扱える柔軟性
IBM InfoSphere Streams
• “米国政府は 2003年から IBMリサーチと急進的な新しいアプローチについて協業してい
ます。それは多様なタイプの動いているデータストリームにハイスピード、スケーラブ
ルかつ複雑なデータ分析を⾏うものです。プロジェクトが非常に成功しているので、別
の政府機関でも将来の様々なプロジェクトでより⼤きな成功を収められるように、米国
政府はさらに追加でこれを導⼊する予定です。“
- アメリカ合衆国政府
IBMワトソン研究所が発明したストリーム・コンピューティング
2002 2003 200620052004
2007 20102008 2009 2011

11
データ
収集基盤
データ分析基盤
Func1
Filtering
Filtering
Func2
Func3
Aggre
gator
Aggre
gator
Func4
Func5
Func6
Func8
Func9
Func7
• ⼤量データ：データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる
• 複雑な分析：複数情報ソース、構造化・非構造化データ（信号、ビデオ、音声）の関連付け、処理
• 処理時間：リアルタイムなレスポンスが必要
• ⼤量データ：データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる
• 複雑な分析：複数情報ソース、構造化・非構造化データ（信号、ビデオ、音声）の関連付け、処理
• 処理時間：リアルタイムなレスポンスが必要
スケーラブルな超高速処理実⾏環境
ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理
（連続的に流⼊する）様々データに対して、リアルタイムで高速分析・処理をする。
ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理
（連続的に流⼊する）様々データに対して、リアルタイムで高速分析・処理をする。
多様な情報ソース対応
•業務処理の拡⼤に併せて、サーバー拡張可能
•並列処理・直列処理を複数の筐体に拡⼤・分散可能
ニュース、気象情報、テキスト（日本語、英語）、
画像（静⽌画・動画）、音声など、これまで扱えな
かった情報を相互に関連付けて解析可能

断続的に流れるデータの連続処理
センス & レスポンス
SOURCE
バンドル
DBアクセス
事前に定義された
オペレーター
ユーザ定義
(C++/Java)
トランスポート：
TCP/UDP/LLM/Infiniband
SINK
蓄積すること無く、
連続的にデータを取り込み
連続的に処理・分析、
そしてアクションへ
リアルタイムな
意思決定サポート
プリペア&アクション
SPSS/R
ファイルシステム：NFS/GPFS
分岐
IN-OUT:
TCP/UDP/MQ/MQTT/HTTP(s)/DB/File

リアルタイムモニタリング
ソリューション概要
• 情報のリアルタイム可視化
• Cognos BIとの組み合わせが可能
• アラートの⾃動化
• ドリルダウン、フィルタリングを
画面上から操作
-データベースに蓄積されている
データに限る
Make decisions in-flight with integrated real time information to monitor the pulse of the business
データ
ストア
Cognos 10 BI
Report
Real-time
Monitoring
dashboard
Objects
データ
収集
(MQTT)
DB2
MessagingSight
Database
Streams

• データセンターにおける
電⼒消費を集中モニタリング
• 障害回避、およびメンテナンス
技術構成要素:
• ストリーミング分析
InfoSphere Streams
• Hadoop 分散処理
InfoSphere BigInsights
• ビジネスインテリジェンス（BI）
目的:
ログ分析による
• 電⼒料⾦の予測、電⼒消費の最適化
• 変則的な利⽤の検知
• プレゼンス情報よる電⼒消費管理・監
視
CISCO turns to
IBM big data for
intelligent infrastructure
management
データセンタ（ログ監視、解析）における事例

1515
交通
インテリジェントな
交通管理・渋滞予測
⾃動料⾦システム
製造
故障監視、予測
M2Mセンサー
マイクロチップの
製造のプロセス管理
自然管理システム
PM2.5の飛散シミュレーション
⽔資源の管理
生態系監視
風⼒発電システムなど
通信サービス
通話記録処理、課⾦前処理
DPI・ネットワーク監視
ロケーション・ベースの
マーケティング
新生児⽤ICUのモニタリング
伝染病の早期警告システム
リモート医療モニタリング・
システム
⼼臓ペースメーカー
株式市場
アルゴリズム取引、指標計算、ルーティング計算
天気が株価に及ぼす影響を分析
待ち時間を最小化したうえで、市場データを分析
セキュリティ
不正⾏為のリアルタイム検出
顔認識による⾃動⼊館
ハッキングの検出
その他
シミュレーション（データ解析）
スマート・グリッド（メータ）
ソーシャルメディア分析
GPGPUによるHPC計算
DNAシーケンス解析
⾼度な数理計算
⾃動ビッドシステム（⼊札）
ETL
映像・音声・音波の分析・監視
サイバーセキュリティの検出
重要施設の監視
警察、防衛、および
サイバー・セキュリティー
あらゆる領域での可能性と実績
医療とライフサイエンス

• 言語
• SPL(Streams Processing Language)
• 開発環境
• StreamsStudio (Eclipse)
• WEB管理コンソール
ランタイム実⾏環境
(Linux ｘ64bit・Power7)
• TCP/UDP/LLM/ Infiniband
• 最⼤125サーバまでの拡張性
• 標準ツールキット
• 拡張ツールキット
• インターネット
• DWH・DB
• フィナンシャル
• データ・マイニング
• スコアリング（PMML)
②高い開発生産性
〜ドラッグ&ドロップ
分散処理を隠蔽〜
③多彩な連携機能と
ツールキット
３つの構成要素
RuntimeRuntimeRuntimeRuntime
①圧倒的な高速実⾏環境
※製品には含まれない。
SPSS
WebSphere
MQ/MQTT

InfoSphere StreamsInfoSphere Streams
InfoSphere Streamsの概要
アダプターアダプター
サービス品質
ダッシュボード
サービス品質
検知・アラート検知・アラート
意思決定サポート報告 / 分析報告 / 分析
地図・空間情報地図・空間情報
連携インターフェイス連携インターフェイス
フィルタリング
センシング
スコアリング
解析
ディープな分析への
ブリッジ
センサーやイベント情報、
アラート、各種状況データ
事前に定義されたオペレータ群
SOURCE
オペレータ
ユーザ定義
オペレータ
DBアクセス
SINK
オペレータ
オペレータ
③情報の
連携
SPL言語：Streams専⽤言語。
拡張性：データ処理に必要なロジックを
C++/Javaで拡張することができます
①様々なデータインプットを、ス
ケーラブルな分散Streams基盤
でリアルタイム処理することを可
能にします。
②ユーザ定義のロジックをJava
で実装することが可能なので、
既存資産を流用することができ
ます。
③DB、他のシステムへのイン
ターフェイスによって、深い洞察
へ連携させることができます。
ソリューション概要ソリューション概要ソリューション概要ソリューション概要
ストリーム処理した結果を
アプリケーション、
他のシステムへ
PMML
オペレータ
ファイルシステム： NFS / GPFS
マイニング
ツールキット
TCP/UDP
Infiniband/
LLM
②分散並列
データ処理
➀情報の
リアルタイム
処理
C O G N O SC O G N O S
統計解析
（モデル化）
SPSS
RHEL
SuSE
CentOS
X86 64bit/POWER7 （仮想環境：VMware/Hypervisor）

データマイニング・キット
Mining in Microseconds
（製品に含まれます）
イメージと動画
Image & Video (Open Source)
シンプルなテキスト分析
⾼度なテキスト分析
Simple & Advanced Text
（一部製品に含まれます）
(IBM Research/ Open Source UIMA)
Text
(listen, verb),
(radio, noun)
音声解析
Acoustic
(IBM Research/Open Source)
地理空間
GeoSpatial
(IBM Research)
予測分析Predictive
(IBM Research)
応⽤数理モデル
Advanced
Mathemetical Models
(IBM Research)
統計モジュール
Statistics
(製品の含まれます）∑population
tt asR ),(
• 基本的な処理ロジックに加えて、データマイニング・キット、そして応⽤数理解析まで幅広い
分析ロジックを提供することが可能です。
またIBMリサーチ部門による分析アシスト、協業なども可能です。
PMML分析モデル
SPSSなどの統計解析より、モデル化し
たモジュールをPMMLとしてインポート
することが可能
多様な分析ロジックを実装することができます

〜リアルタイムデータの観察〜
• 技術構成要素:
ストリーミング分析 (リアルタイム)
InfoSphere Streams
データストア（蓄積）、
統計解析ソフトウェア（モデル化）
• 目的：
– 生命を脅かす状況や、急変の兆
候を最⼤24時間早く検知
– 平均20名以上の異なるソースか
ら、毎秒約1,00０以上におよぶ
測定値を監視
実証開始時は、2名からスタート、
臨床実験での最⼤監視数は120名、
120万測定値/秒、これは約10億
レコード/日
• ポイント：
データストアに蓄積した膨⼤な量のデー
タに対して解析を⾏い、分析モデルを抽
出し、そのパターン分析モデルをスト
リームに環流させることによって、リア
ルタイム分析、および、⻑期的なデータ
蓄積からの分析モデルの抽出
オンタリオ工科⼤学
医療（センサー）における事例
アラート（警告）
SPSS

S
レポジトリレポジトリ
IBM SPSS
Collaboration & Deployment Services
モデル更新
R
変更
通知
ファイル
システム
P
IBM SPSS Modeler Solution Publisher
インメモリ処理
必要なコンポーネント：
- SPSS Modeler
- SPSS Solution Publisher
- SPSS Collaboration &
Deployment Services
蓄積デプロイ
流⼊するリア
ルタイムデー
タに対し、⾼
度な分析が可
能になります
蓄積された
データから解
析モデルを抽
出し、スト
リームへ適応
PDCA
SPSSとの連携が可能（PDCAを回す）
SPSS

• M2Mに代表されるセンシング
５０７キロにおよぶ⼤規模河
川-ハドソン川の観測。
毎秒６０６⽴⽅メートルの淡⽔が
ニューヨークに流れています。
• ⽔質の基本的なパラメタ、
空間的変動を観察するための
データをセンシングし
リアルタイムに送信：
– 数１０か所のセンサー
から数１０００のデー
タを毎秒リアルタイム
に分析（⽔温（移動平
均値）、⽔質（化学物
質検出）、生態系）。
M2Mセンサ監視における事例
人が河川に与える影響を監視する

アイルランドGalway湾の⽔質・危機管理
• ガルウェイ湾における、⽔質管理・生態系へ
の影響把握
⽔質監視、生態系監視モニター配備
• 津波予測をはじめとする、危機管理、商⽤情
報などを、多くの業界への情報提供に
利⽤
⾃然・⽔質（センサー）監視における事例
M2Mセンサ監視における事例

SmartBuoy(←⻩⾊いデバイス)から収集された
データは、リアルタイムにStreamsによって、
処理・分析され、⽔質監視モニター、生態系監視モニターのDash
ボードにリアルタイム表示。
変化するデータをリアルタイム解析、
可視化しアクションへ

音声・音波データの解析も可能
音声音波データ処理分析基盤
• リアルタイム音波解析
音波変換、ノイズ除去、照合
• 哺乳類の生態系調査
数、距離
• ハイドロフォン（聴音器）
⾼周波、中分解能（16bit）
変換
ノイズ
除去照合
記録

セキュリティドアが開いている…
顔パス認証・⾃動⼊退出システム
映像データ処理分析基盤
変換
ノイズ
除去照合
記録
映像動画データの解析も可能
動画分析における事例

駐⾞エリアの状況
894人のお客様が来店中
とある量販店での取り組みの例
顧客の導線
把握
パーキング
⾃動清算

TAP
Director
For filter
監視 Scoring
Rules
Scoring
Rules
Cognos RTMCognos RTM
Visualizer
システム
モニタリング
Director
For Balance
コアネットワーク
TDW
①データトラフィック収集
（TAPやルータレベル）
②Network/Internetフォレンジック
（専⽤NWツールキットとの組み合わせ）
③アクション制御
既存の定型的なDPIのみではなく、
パケット（エラー、集計結果、トラフィック
状況）のステータスに合わせて、ルータの
ポート閉塞など様ざまなアクション制御を実
施することが可能になります。
（※PureDataへの専⽤データローダーが付属しています）
※このケースは、US・アジアでのセキュリティ関連
で実施したストリームスの利⽤⽤途に基づく。
インターネット
• 監視対象：SNSに代表されるメッセンジャーやアプリ系などの監視
• アクション：障害発生時における通信トラフィックの制御など
InfoSphere
Streams
アクション実施
トラフィック制御
ポート開閉、ネットワーク閉塞など
サービスプロバイダー
ネットワークセキュリティでの活⽤
セキュリティ監視における事例

KPIs
KPIs
KPIs
Channel 1
Channel 2
KPIs
障害検知の
アラート
リアルタイム
統計
欧州ケーブルTV会社様の状態監視の例
STBSTB
Home Network
Home Gateway
STBSTB
STBSTB
STBSTB
STBSTB
EncoderEncoder
Broadcast TV
CSP
Network nodes
topology
STBSTB
STBSTB
STBSTB
Ip=233.136.0.127; MPEG error ratio=0.5; firmware
version=V2.1;model=XXX;MAC-
Address=000430123456;LinkChain=Node1-
Node12-Node123-
Node1234;Message=Statistic;PacketLoss=54
Ip=233.136.0.127; MPEG error ratio=0.5; firmware
version=V2.1;model=XXX;MAC-
Address=000430123456;LinkChain=Node1-
Node12-Node123-
Node1234;Message=Statistic;PacketLoss=54
DSLAM
Switchs,
routers,
…
ネットワーク管理ネットワーク管理
リアルタイム分析
ネットワーク
管理者－技
術本部
ヘルプデスク
CRM
マーケティング
InfoSphere Stream
10 000 msg/s
■プロジェクト概要
200万のSTBからのメッセージをリアルタイムに分析実施
－ビデオ品質の低下が以下のどこから起因しているのかを判断
- ネットワークノード (switch/router)
- セットトップボックスのファームウェア、ハードウェア
- チャンネル・エンコーディング・エラー
Data in Motion
Analysis

Internet Scale Messaging
Protocol Applicance
Internet Scale Messaging
Protocol Applicance
Help Desk
CRM
Marketing
Analyse en temps-
réel des données en
mouvement
BigInsights
Dashboard
とある欧州の⾃動⾞メーカーの例
Data Explorer
IBM MessageSight Streams
MQTT

断続的に流れるデータの連続処理
センス & レスポンス
SOURCE
バンドル
DBアクセス
オペレーター
ユーザ定義
(C++/Java)
トランスポート：
TCP/UDP/LLM/Infiniband
SINK
蓄積すること無く、
連続的にデータを取り込み
連続的に処理・分析、
そしてアクションへ
意思決定サポート
プリペア&アクション
SPSS/R
ファイルシステム：NFS/GPFS
分岐
IN-OUT:
TCP/UDP/MQ/MQTT/HTTP(s)/DB/File
Streams
フィルタリング
⼊⼒タプル
出⼒タプル
センサーなどから⼤量のデータを受け取るが、
ある閾値を超えたデータだけに興味がある
Streams
ウィンドウ処理⼊⼒タプル出⼒タプル
ストリームデータをある纏まりで⼀括処理を
⾏う場合。例えば、移動平均値などを算出
する場合に⽤いる。また、データをスト
リーム内部でインメモリ保持したい場合。
t(1) t(k)

SPL
（StreamProcessingLanguage）
という
専⽤スクリプトと併⽤
して、C++/Java言語
での実装が可能です。
ドラッグ&ドロップによる開発
SPL

パターンによるイベント・ストリーム内のイベントを検知
• 容易に使える正規表現スタイルのユーザー定義の述語パターンとのマッチング
Streams 内でのインテグレーションにより、⾼パフォーマンスかつリッチ
な分析を備えた CEP スタイルの処理
stream<MatchT> Matches = CEPMatch(Quotes) {
param
pattern : ". rise+ drop+ rise+ drop* deep";
partitionBy : symbol;
predicates : {
rise = price>First(price) && price>=Last(price),
drop = price>=First(price) && price<Last(price),
deep = price<First(price) && price<Last(price) };
output
Matches : symbol=symbol, seqNum=First(seqNum),
count=Count(), maxPrice=Max(price);
}
“M字型”（上がる、下がる、上がる、下がる）
パターン検知のサンプル。
CEP Toolkit

地理空間(Geospatial)データの⾼速分析および処理
位置ベース・サービスを可能に
• スマーター・トランスポーテーション、GeoFencing (特定区域で処
理をブロック、または処理をトリガー)
地理空間データ型
• 例）ポイント、ライン・ストリング、ポリゴン
地理空間関数群
• 例）地点間距離(distance)、地図ポイント→ライン・ストリング変
換(Map Point to Line String)、包含判定(isContained)、等
Geospatial Toolkit

パターンや異常を⾒つけ、将来の値をリアルタイムに予測
時系列データを取り扱うための機能
• 生成(Generation) : 合成または抽出 (例: 音声抽出、波形生成プログラム)
• 前処理 : 準備およびコンディショニング (例: リサンプリング、補間)
• 分析 : 統計、関連付け、コリレーション、分解、変換
• モデリング : 予測、回帰、トラッキング (例: ホルト・ウィンタース、
Holt-Winters, GAMLearner)
Time Series Toolkit －時系列処理/分析

回帰分析：
対象とする変数（従属変数）に影響を与える変数（独⽴変数）を特定、その関連性を
分析によりモデル化し、独⽴変数から従属変数を予測する
→予測したい値を他のデータから予測する
例：トランザクション流⼊量からCPU使⽤率を予測
（XXが増えたからYYが増えるor減る）
時系列分析：
時間軸に沿って常に変化する変数の振る舞いからトレンド等のデータ変動の特徴を捉
え、モデル化し、過去データから将来、その変数がとりうる値を予測する
→予測したい値を過去のそのデータ自体から予測する
例：気温の変動等、法則性があるデータ
（昨日|先月|去年がXXだから、明日|来月|来年はこうなる）
Time Series(時系列分析）と回帰分析の違い

たとえば？（回帰分析）
例：トランザクション流⼊量からCPU使⽤率を予測
CPU Usage(MA) =
0.01787 × Transactions + 6.8723
トランザクション流⼊数が1000の時、
CPU使⽤率はおよそ24%と予測

たとえば？（時系列分析）
観測されたデータからトレンド、季節性の変動などの成分を分析し、
将来取りうる値の信頼区間を予測する。
Point Forecast Lo 95 Hi 95
Jan 2012 9546.637 9399.259 9694.014
Feb 2012 9625.154 9451.122 9799.186
Mar 2012 9662.827 9479.344 9846.311
Apr 2012 9709.953 9522.873 9897.033
May 2012 9706.197 9517.717 9894.676
Jun 2012 9659.079 9470.050 9848.108
Jul 2012 9679.440 9490.195 9868.685
Aug 2012 9687.297 9497.967 9876.628

連続するデータをStreamsで時系列分析する理由
・Time Seriesの対象は「時間に沿って変化するデータ」
・Streams上で時系列分析を⾏う事により、予期された値からの
逸脱を即時検知する事が可能に。
・時系列変化をリアルタイムに把握する事に価値がある分析ケース
に有効。
例）
■株価データ・指数計算・ルーティング処理
■M2M（センサー）データの処理
■医療データ（患者の脈拍数、⼼拍数等）の傾向変化をアラート
■映像・音声・音波のリアルタイム解析（コールセンタ、監視カメラ、人数把握）
■交通情報の傾向変化を補足
■シミュレーションの結果をニアリアルタイムに把握（終了してからではなく）
■HPC領域の⾼度計算（例えば、GPGPUとの連結、MatLabのライブラリの実⾏）
■システムステータス（メモリ/CPU使⽤率）の予期せぬ兆候を補足
■パケット通信量、モニタリングなど

株価トレンド/VWAP売買⾼加重平均価格の計算
応答時間
表示グラフ
銘柄毎の
VWAP表示
Eclipse開発
環境と処理
フロー表示

Trade price: 取引価格
Daily VWAP:その日の1日VWAP数値
incremental VWAP:増減値
trend strength: 取引トレンドの強さ（上向き下向きベクトル）
トレンドの
ベクトル
取引価格
インクリメ
ンタル
VWAP
取引価格(USD)
取引時間

ビッグデータを継続的に効果的に活⽤するためには、
次の５つの重要な視点を基盤に盛り込む必要があります。
１.適応性：様々なビジネス要件の対応
２.最適化：ワークロードとコスト最適
３.統合性：複数システムの統合
４.拡張性：柔軟な拡張と運⽤容易性
５.堅牢性：⾼い可⽤性とセキュリティ
サイロ化ではなく、統合基盤
テキスト分析、統計解析、レポーティングなど
新しいことが試せる環境であること！
⼤量データも通常データも同時に処理できる
すべてのデータを蓄積しなくてもよい！
要件に応じた機能とサイジング
DWH/DB/Hadoop/Streams
柔軟なシステム資源の配分
異なる非機能要件、プラットフォーム
統合的な運⽤管理
様々な処理要求に対するサービスレベルの確保
統合的で簡素化された運⽤
データの圧縮、階層化等の効率的な保管
⾼い連続稼動性
信頼性の⾼いデータ転送・加工
データの漏洩、改ざんの防⽌
セキュアなデータ管理

Ibm.com/bds2
なぜ、来ていただきたいか？
-BigSQL
-BigSheets
-GPFS-FPO・HA機能
-AdaptiveMR/SymphonyMR
-PureData System for Hadoop
などの最新情報を日本で初公開！

• InfoSphere BigInsights
BigInsightsはHadoopを拡張する機能群とエンタープライズ向け連携機能群、そして活⽤を容易な
ツールを介して実装し、開発サイクルを短縮化できるソリューション・パッケージです。
《非商⽤環境で無償、容量無制限のQuickStartエディションも登場》
Hadoop拡張レイヤー
・・・
・・・
Masterノード
Slaveノード
Cognos
BI*(バンドルバンドルバンドルバンドル)
Hive(JDBC) /
REST(http)
DataStage*(連携)
DB2*(連携)
R*(連携)
Streams*
(バンドルバンドルバンドルバンドル)
Data Explorer*
(バンドルバンドルバンドルバンドル)
MachineDataAnalytics
*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)
SocialMediaAnalytics
*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)
Nutch*(連携)
Gnip
*(連携)
LZO圧縮
（分割可能）
PureData
*(連携)
DBデータ取り出し・
送り出し
データ探索の可視化
BigSheets
アプリ・リンク
ワークフロー
FLEXスケジューラースケジューラースケジューラースケジューラー
連携レイヤー
Guardium*(連携)
スケールアウトBigSQLによる
SQL互換の
インターフェイス
HA on HDFS/
GPFS-FPO
AdaptiveMR
SymphonyMR
(連携)
JAQL
JAQLによる
より高度なM/R
スクリプティング
Web管理コンソール

ありがとうございました。
IBM Streams

20130612 ibm big_dataseminar_streams

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (11)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie 20130612 ibm big_dataseminar_streams

Ähnlich wie 20130612 ibm big_dataseminar_streams (20)

20130612 ibm big_dataseminar_streams