ACM SIGMOD日本支部第56回支部大会でお話しした、ICDE 2014の参加報告についての資料です。以下のような6部構成になっています。全190ページです。
・ICDE 2014を俯瞰してみる(5p~)
・ビッグデータ時代の新発想:もうデータは蓄えない(32p~)
Keynote, Running with Scissors: Fast Queries on Just-in-Time Databases
・見えない相手と協調作業:センサネットワーク上のデータ集約(64p~)
10 Year Most Influential Paper, Approximate Aggregation Techniques for Sensor Databases
・メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…(96p~)
Best Paper, Exploiting Hardware Transactional Memory in Main-Memory Databases
・過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見(126p~)
Best Paper Runner-up, Answering Graph Pattern Queries Using Views
・アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい(155p~)
気になる論文, L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
3. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
3
4. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
4
5. 30th IEEE International Conference on Data Engineering
(ICDE 2014)
• データベース系のトップカンファレンスの一つと言われている
(データ工学なのでSIGMODやVLDBよりもちょっと幅広い?)
• 本会議:4月1~3日(ワークショップは3月31日)
• 開催地:イリノイ州シカゴ(アメリカのこのへん)
• 会場:Holiday Inn Chicago Mart Plaza
5
9. キーノート:2件
Running with Scissors: Fast Queries on
Just-in-Time Databases
Anastasia Ailamaki
Ecole Polytechnique Federale
de Lausanne (EPFL)
Transforming Big Data into Smart Data:
Deriving Value via Harnessing Volume,
Variety and Velocity Using Semantics
and Semantic Web
Amit Sheth
Kno.e.sis, Wright State University
9
こちらはあとで
詳しく紹介
10. チュートリアル:6件
Tutorial 1: Linked Data Query Processing
Tutorial 2: Data Stream Warehousing
Tutorial 3: Data Quality: The other Face of Big Data
Tutorial 4: Just-in-time Compilation for SQL Query Processing
Tutorial 5: Managing Uncertainty in Spatial and Spatio-temporal Data
Tutorial 6: Distributed Execution of Continuous Queries
10
チュートリアルはDBコア技術に偏っている
11. ワークショップ:7件
• 5th International Workshop on Graph Data Management: Techniques and
Applications (GDM 2014)
• 10th International Workshop on Information Integration on the Web (IIWeb 2014)
• BDCA 2014: Workshop on Big Data Customer Analytics
• Long Term Preservation for Big Scientific Data (LOPS)
• 6th International Workshop on Cloud Data Management (CloudDB 2014)
• 5th International Workshop on Data Engineering meets the Semantic Web
(DESWeb 2014)
• 9th International Workshop on Self-Managing Database System (SMDB 2014)
11
ワークショップはDBコア技術だけでなく,
Webやグラフなど,多様である
12. パネルディスカッション:2件
Panel 1 Main-Memory Database Systems
Panel Moderators: Alfons Kemper (Technische Universität München), Thomas Neumann
(Technische Universität München)
Panelists: Daniel Abadi (Yale University), Anastasia Ailamaki (EPFL), Paul Larson (Microsoft
Research), Guy Lohman (IBM Research Almaden), Stefan Manegold (Centrum Wiskunde &
Informatica), Eric Sedlar (Oracle Labs)
Panel 2: Automated Mobility: How Environment Awareness
Technologies will “Drive” the Intelligent Transportation of the Future
Panel Moderators: Xin Chen (HERE)
Panelists: Vlad Zhukov (HERE), Ouri Wolfson (Dept. of CS, UIC), Wende Zhang
(Sr. Researcher, GM), Hai Lin (Dept. of EE, Notre Dame University)
12
28. ビッグデータとは? by Prof. Dan Ariely
ビッグデータとは10代のセックスのようなものだ。
皆がそれについて話し、
誰も本当はそのやり方について知らず、
皆が他の人は全員それをやっているものだと思い、
だから皆が自分もそれをやっていると主張する。
28at CIKM 2013
31. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
31
32. Running with Scissors: Fast Queries on
Just-in-Time Databases
Anastasia Ailamaki
Ecole Polytechnique Federale de Lausanne (EPFL)
ICDE 2014 Keynote
I appreciate Professor Anastasia Ailamaki for giving me a deck of slides.
間に合わせの~
32
34. どのデータがアクセスされる?
[VLDB12][IISWC12]
アクセスされるデータは局所的
80%のCloudera customer jobsが1~8%のデータにアクセス
90%のFacebook jobsが10%未満のデータを読み込み
しかも新しいデータばかり
80%のデータの再利用が3時間以内
85%のアクセスは1日以内に新しく発生したデータが対象
34
[VLDB12] Chen et al., Interactive Query Processing in Big Data Systems: A Cross-Industry Study of
MapReduce Workloads, VLDB 2012.
[IISWC12] Abad et al., A Storage-Centric Analysis of MapReduce Workloads: File Popularity, Temporal
Locality and Arrival Patterns, IISWC 2012.
やっぱ全部蓄える必要なくね?
41. NoDB: In-situ queries on raw data
[CIDR11][SIGMOD12]
そう、もはやデータベースじゃない。
といっても一応はJust-in-timeな(=間に合わせの)データベースを作ることになる
クエリ処理しながらキャッシュしたりインデクシングしたりする → 徐々に高速化
41[CIDR11] Idreos et al., Here are my Data Files. Here are my Queries. Where are my Results?, CIDR 2011.
[SIGMOD12] Alagiannis et al., NoDB: Efficient Query Execution on Raw Data Files, SIGMOD 2012.
キーノート資料より
50. 他のJust-in-TimeなDBたち
DBToaster: custom embedded query engines [VLDB12]
HyPer: efficiency through data centric code generation [VLDB11]
Database cracking: data driven indexing [CIDR07]
MonetDB: data vaults [SSDBM12]
Hadapt: invisible loading [EDBT13]
50
[VLDB12] Ahmad et al., DBToaster: Higher-order Delta Processing for Dynamic, Frequently Fresh Views,
VLDB 2012.
[VLDB11] Neumann et al., Efficiently Compiling Efficient Query Plans for Modern Hardware, VLDB 2011.
[CIDR07] Idreos et al., Database Cracking, CIDR 2007.
[SSDBM12] Ivanova et al., Data Vaults: A Symbiosis between Database Technology and Scientific File
Repositories, SSDBM 2012.
[EDBT13] Abouzied et al., Invisible Loading: Access-Driven Data Transfer from Raw Files into Database
Systems, EDBT 2013.
61. Transforming Big Data into Smart Data:
Deriving Value via Harnessing Volume, Variety and
Velocity Using Semantics and Semantic Web
Amit Sheth
Kno.e.sis, Wright State University
ICDE 2014 Keynote
今回の報告では紹介しません
61
63. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
63
64. Approximate Aggregation Techniques
for Sensor Databases
Jeffrey Considine, Feifei Li,
George Kollios, John W. Byers
Computer Science Dept., Boston University
ICDE 2014 10 Year Most Influential Paper
(Originally presented at ICDE 2004)
64
65. 10 Year Most Influential Paper Awardsとは?
ICDEで10年以上前に発表された論文の中から,その後にデータ
工学の分野でものすごい影響を与えた論文に授与される賞である
ICDE 2005から始まった
ICDE Influential Paper Awardsのページ
http://tab.computer.org/tcde/icde_inf_paper.html
65
66. この論文が10 Year Most Influential
Paper Awardsに選ばれた理由
The paper describes novel methods to handle duplicate-sensitive aggregates over
distributed datasets.
It carefully extends the duplicate-insensitive Flajolet-Martin method, adapting it to
require little computation and communication efforts, and make it robust to link
losses.
This work has been highly impactful in the area of sensor networks, and has been
shown to be applicable to any setting with multiple data sources that may suffer
network failures, such as distributed data centers of today.
つまり…
センサネットワークだけでなく,複数データソースがあって互いのコミュニケーション
が難しいようなあらゆるケース(昨今の分散データセンタとか)に適用できるから
66
91. この研究を引用している論文の例
センサネットワーク上でのデータ集約に関する論文
“Considine et al. [6] independently proposed using duplicate-insensitive sketches for robust
aggregation in sensor networks and demonstrated the advantages of a broadcast-based multi-
path routing topology over previous tree-based approaches. However, they primarily focused on
energy-efficient computation of the Sum aggregate, and did not address the other contributions
listed above.” (Nath et al., Synopsis Diffusion for Robust Aggregation in Sensor Networks, SenSys 2004.)
→ 電力消費以外の問題(コネクティビティの変化への迅速な対応とか)を解決していない
Distributedな集約プロトコルに関する論文(こちらはセンサネットワークだけではない)
“(probabilistic counting) This protocol is based on ideas from [11] for counting distinct
elements of a database and in [12] was adapted to produce a protocol for averaging. The
outcome is random, with variance that becomes arbitrarily small as the number of nodes grows.
However, for moderate numbers of nodes, say tens of thousands, high variance makes the
protocol impractical.” (Moallemi et al., Consensus Propagation, IEEE TOIT, 2006.)
→ 確率的な手法として紹介,ノード数が少ないと誤差が大きくなり実用的でない
91
他の論文ではこき下ろされているようである
95. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
95
96. Exploiting Hardware Transactional
Memory in Main-Memory Databases
Viktor Leis, Alfons Kemper, Thomas Neumann
Technische Universität München
ICDE 2014 Best Paper
96
※ここから先の引用文献は
論文を参照してください
97. Main-memory Database (MMDB)
インメモリデータベースともいう
メモリ上で動くデータベース
HDDとかSSDとかと比べると爆速 だってメモリだもの
主なメインメモリデータベースシステム
H-Store/VoltDB [Stonebraker, IEEE Data Eng. Bull., 2013]
HyPer [Kemper, ICDE11]
SAP HANA [Färber, SIGMOD Record, 2011]
IBM solidDB [Lindström, IEEE Data Eng. Bull. 2013]
Microsoft Hekaton [Larson, IEEE Data Eng. Bull. 2013]
他にもたくさんある
97Wikipediaより
125. 目次
前半
• ICDE 2014を俯瞰してみる
• ビッグデータ時代の新発想:もうデータは蓄えない
[Keynote] Running with Scissors: Fast Queries on Just-in-Time Databases
• 見えない相手と協調作業:センサネットワーク上のデータ集約
[10 Year Most Influential Paper] Approximate Aggregation Techniques for Sensor Databases
後半
• メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…
[Best Paper] Exploiting Hardware Transactional Memory in Main-Memory Databases
• 過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見
[Best Paper Runner-up]Answering Graph Pattern Queries Using Views
• アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい
[気になる論文]L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
途中で会場の雰囲気などもお伝えします
125
126. Answering Graph Pattern Queries
Using Views
Wenfei Fan1,2, Xin Wang3, Yinghui Wu4
1 University of Edinburgh
2 RCBD and SKLSDE Lab, Beihang University
3 Southwest Jiaotong University
4 UC Santa Barbara
ICDE 2014 Best Paper Runner-up 126
128. Answering Queries Using Viewsな研究
Relational Data [Halevy, VLDBJ01][Lenzerini, PODS02]
XML Queries [Miklau, PODS02][Neven, ICDT03][Park, ICDE Workshop, 2005]
Semistructured data and RDF [Zhuge, ICDE98][Le, WWW11]
この研究はグラフパターンマッチング問題にViewを使った
最初の研究である
“This work is a first step toward understanding graph pattern matching using views, from
theory to practical methods.” (論文より)
128
165. 準備:記号の意味など
x (or y ) …ベクトル
|x | …ベクトルのサイズ(非零成分の数)
x ’ …ベクトルのprefix(前半部分)
x ’’ …ベクトルのsuffix(後半部分)
rwi or rwx …行列の i 行目の最大値 or ベクトル x の最大値
cwj …行列の j 列目の最大値
165