SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Sliding Sketches: A Framework using Time
Zones for Data Stream Processing in Sliding
Windows
2022/12/9
Author: Xiangyang Gou, Long He, Yinda Zhang, Ke Wang,
Xilai Liu, Tong Yang, Yi Wang, Bin Cui
https://dl.acm.org/doi/10.1145/3394486.3403144
Ryutaro Yamakawa
1
2
• リアルタイムでのデータストリームの処理は,
2020年から多くのアプリケーションで重要なト
レンド
ー 例として侵入検知システムや金融システム
ー データストリームは大きなデータであり,それを送信
したり保管するのはコストになる
ー スケッチはデータストリームのサマリーとして使われ
ている確率的なデータ構造
ー データストリームをアプリケーションに即座に反映さ
せたい,それを解決するモデルがスライディングウィ
ンドウモデル
研究背景
3
• スライディングウィンドウ内の情報取得の近似
的な問い合わせは,多く存在する
ー スライディングウィンドウ内の項目eの頻度を取得す
るためのクエリで,使われているスケッチはECM
sketch, splitter windowed count-min sketchなどが存在
ー 今回はCount-Min sketchに限定
• https://en.wikipedia.org/wiki/Count%E2%80%93min_sketch
ー 今まではスライディングウィンドウに問い合わせを行
うと同期的なゆえに頻度の誤差が大きくなる
既存手法
4
• スライディングスケッチ(Sliding Sketch)を様々な
スケッチを用いているスライディングウィンド
ウに適用して,従来のスケッチよりも低い誤差,
速さになっていることを実験の結果より示す.
• スライディングスケッチ
ー スキャンを用いて非同期で異なる期間を保存する
ー スライディングウィンドウのバケットというデータ構
造があり,それをスキャンを行ってバケットにマッピ
ング
ー 小さなメモリ使用量で高い精度を持つ
ー 頻度の問い合わせの平均エラー率は,最新のスライデ
ィングウィンドウに比べて40~50倍低い
研究目的
5
• 配列の各要素はバケットBを持つ,配列はk個の
等しい大きさのセグメントに分割
• 更新するときは,下記の図のように項目eに対応
した各セグメントのバケット1つを更新
• 取り出すときは,Count-Minの場合は項目eにした
各セグメント1つの中で一番小さいものを取得
k-hash modelというSketch
6
• k-hash modelをスライディングウィンドウに適用
• バケットの中には2つの要素を持ち,それぞれ
𝐵𝑛𝑒𝑤,𝐵𝑜𝑙𝑑とする
• バケットに格納される情報はDayと呼ばれる情報
スライディングスケッチモデル
7
• 更新
ー 項目eを挿入するため,各セグメントにひとつずつkの
ハッシュ関数を持つバケットの𝐵𝑛𝑒𝑤に格納
• スキャン
ー 古い情報を削除する
ー 新しい要素が到着するたびにスキャンポインタをイン
クリメントして,配列の数と同じになったら削除する
ー 削除処理はスキャンポインタが到達したバケットは
𝐵𝑛𝑒𝑤の要素を𝐵𝑜𝑙𝑑に代入し, 𝐵𝑛𝑒𝑤に0(ゼロ)を代入
ー 配列の最後までポインタが到達したら最初に戻る
ー スキャンポイントは下記のように円状になる
スライディングスケッチモデル
8
• Count-Minでの頻度取り扱い
ー k個のすべてのセグメントから𝐵𝑖
𝑛𝑒𝑤
+ 𝐵𝑖
𝑜𝑙𝑑
(1 ≦ 𝑖 ≦ 𝑘)
の数値のうち最も小さいものを取り出し,頻度の近似
を算出
ー メリットとして頻度が真の値よりも小さくなる可能性
はない
スライディングスケッチモデル
9
• δは誤差に影響
• δはDayがどの程度経過したかを表す,δ=
1
3
は1日
が
1
3
経過したことと同義
• δにより,Query timeであるTの位置からスライデ
ィングウィンドウの範囲がわかる
• 下記の図は,δ=
1
3
のときのスライディングウィン
ドウの範囲である
スライディングスケッチの誤差
10
• δの位置はスキャンポインタの位置をq,バケッ
トの今いる場所をp,mをスライディングウィン
ドウの長さとしたときに以下の式で表す
スライディングスケッチの誤差
11
• p<qのとき,p=2,q=3,m=4のときδ=
1
4
となり
1
4
経過し
た.ピンクの部分が経過している.
• p≧qのとき,p=3,q=1,m=4のときδ=
1
2
となり
1
2
経過
した.ピンクの部分が経過している.
スライディングスケッチの誤差
12
• δの範囲でスライディングウィンドウの範囲が決
まるので,正確性が決まる
• Count-Minでは頻度の問い合わせで過大推定誤差
がある
ー 理由としては1~
𝑘+2
𝑘
のスライディングウィンドウの範
囲を結果を返すため
• スライディングウィンドウより大きいサイズを探索して知る
ので過大推定誤差がある
• ただし真の値は下回らない
スライディングスケッチの精度
13
• Average Relative Error(ARE:平均相対誤差)
ー 折れ線グラフのSI-CM(水色)のグラフ
ー 様々なデータセットに適用してAREをみる
• SI-CMはメモリを増やしても,AREがあまり変化がないのがわ
かる
• 元よりこのフレームワークを適用した場合は1MB程度でARE
が1より小さくなっている
Count-Min Sketchでの評価
14
• Insertion Speed(挿入速度)
ー 折れ線グラフのSI-CM(水色)のグラフ
ー AREと同様様々なデータセットに適用
ー 比較対象の他のスケッチよりも速い
ー Memoryを1MBから4MBへ増やすと速さが1Mbpsから
0.5Mbpsまで落ちている
ー この事象についての考察はない
Count-Min Sketchでの評価

Weitere ähnliche Inhalte

Ähnlich wie スライディングスケッチについて

20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座SORACOM,INC
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
データベース09 - データベース設計
データベース09 - データベース設計データベース09 - データベース設計
データベース09 - データベース設計Kenta Oku
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送Google Cloud Platform - Japan
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
ブロックチェーン技術の基本と応用の可能性
ブロックチェーン技術の基本と応用の可能性ブロックチェーン技術の基本と応用の可能性
ブロックチェーン技術の基本と応用の可能性Kenji Saito
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドMasaharu Munetomo
 
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所Eiji Sasahara, Ph.D., MBA 笹原英司
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田Kosuke Shinoda
 
オープンソースプロジェクト E2D3のご紹介
オープンソースプロジェクト E2D3のご紹介オープンソースプロジェクト E2D3のご紹介
オープンソースプロジェクト E2D3のご紹介Hideyuki Takeuchi
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Azure 相談センター
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Daisuke Masubuchi
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)Osamu Shimoda
 
Introducing IBM Cloud & Cognitive
Introducing IBM Cloud & CognitiveIntroducing IBM Cloud & Cognitive
Introducing IBM Cloud & CognitiveAtsumori Sasaki
 
Sdn japan2016 hpe_switch_story_v2
Sdn japan2016 hpe_switch_story_v2Sdn japan2016 hpe_switch_story_v2
Sdn japan2016 hpe_switch_story_v2Kyohei Moriyama
 
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究Takaaki Sawa
 
EXE #3:ブロックチェーンのデータ構造とアクセス制御
EXE #3:ブロックチェーンのデータ構造とアクセス制御EXE #3:ブロックチェーンのデータ構造とアクセス制御
EXE #3:ブロックチェーンのデータ構造とアクセス制御blockchainexe
 
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿Hironori Washizaki
 

Ähnlich wie スライディングスケッチについて (20)

20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
CCGrid2012 参加報告
CCGrid2012 参加報告CCGrid2012 参加報告
CCGrid2012 参加報告
 
データベース09 - データベース設計
データベース09 - データベース設計データベース09 - データベース設計
データベース09 - データベース設計
 
ビッグデータ
ビッグデータビッグデータ
ビッグデータ
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
ブロックチェーン技術の基本と応用の可能性
ブロックチェーン技術の基本と応用の可能性ブロックチェーン技術の基本と応用の可能性
ブロックチェーン技術の基本と応用の可能性
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
 
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所
ニューノーマルセキュリティ~進化するクラウド環境におけるデータセキュリティの勘所
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
オープンソースプロジェクト E2D3のご紹介
オープンソースプロジェクト E2D3のご紹介オープンソースプロジェクト E2D3のご紹介
オープンソースプロジェクト E2D3のご紹介
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)
 
Introducing IBM Cloud & Cognitive
Introducing IBM Cloud & CognitiveIntroducing IBM Cloud & Cognitive
Introducing IBM Cloud & Cognitive
 
Sdn japan2016 hpe_switch_story_v2
Sdn japan2016 hpe_switch_story_v2Sdn japan2016 hpe_switch_story_v2
Sdn japan2016 hpe_switch_story_v2
 
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
 
EXE #3:ブロックチェーンのデータ構造とアクセス制御
EXE #3:ブロックチェーンのデータ構造とアクセス制御EXE #3:ブロックチェーンのデータ構造とアクセス制御
EXE #3:ブロックチェーンのデータ構造とアクセス制御
 
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿
パターン(ランゲージ)によるKnow Why/What/How の言語化・文書化と発展, MLSE夏合宿
 

スライディングスケッチについて