SlideShare a Scribd company logo
1 of 38
Download to read offline
【VLDB2011勉強会】


    Session 9: New Hardware Architecture


                           担当: 山室健(NTT)



1
概要
       このセクションの特徴
           性能向上のための最新Hardware(CPU/GPU/FPGA…)適用
            を目的とした研究に関する
           今回は4本ともCPU最適化(in-memory前提)のみ!


       紹介する論文リスト
           1. HYRISE - A Main Memory Hybrid Storage Engine
           2. Fast Set Intersection in Memory
           3. Efficiently Compiling Efficient Query Plans for Modern
            Hardware
           4. PALM: Parallel Architecture-Friendly Latch-Free
            Modifications to B+ Trees on Many-Core Processors
    2          Session 9: New Hardware Architecture 担当:山室健(NTT)
HYRISE - A Main Memory Hybrid Storage Engine
    Martin Grund (Hasso-Plattner-Institute), Jens Krüger (Hasso-Plattner-Institute),
    Hasso Plattner (Hasso-Plattner Institute), Alexander Zeier (Hasso-Plattner
    Institute), Philippe Cudre-Mauroux (MIT), Samuel Madden (MIT)




3          Session 9: New Hardware Architecture 担当:山室健(NTT)
1. HYRISE—A Main Memory Hybrid Storage Engine
       A overview
           r/wのlocalityが高くなるように,workload(OLAP/OLTP)に対
            して動的にvertical partitioningのcolumn数を調整するstorage
            の提案,従来のnaïveなrow-/columnar-storageと比較して
            20-400%の高速化を実現
       Contribution
           data-layout分析, multi-cores CPU環境で、L1/L2 cachesが
            性能に与える影響の詳細なprofilingの実施
           cost-modelの構築,workloadとdata-layoutからoperation
            (projection,selection,etc)性能を推定する評価式を定義
           design-toolの実装,schema,workload,cost-modelを入力に
            最適なdata-layoutを決定するtoolの実装

    4          Session 9: New Hardware Architecture 担当:山室健(NTT)
1. HYRISE—A Main Memory Hybrid Storage Engine
       A basic idea – data-layoutの選択
           workloadに対してlocalityが高くなるようにdataを配置
               OLAP-workloadであればcolumnar志向の狭いpartitioning
               OLTP-workloadであればrow志向の広いpartitioning




                                          論文内のFigure.2から引用

       各operation(selection/projection…)におけるcache-miss回
        数を推定する評価式を定義
           実APを調査したところcolumn数(up to 300)が非常に多く,探索空間が非常に
            大きい問題→Scalableな解探索の方法も提案

    5            Session 9: New Hardware Architecture 担当:山室健(NTT)
1. HYRISE—A Main Memory Hybrid Storage Engine
                  実際のAPから作成した独自のworkloadで評価
                      理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離
                      workloadの詳細はAppendix.C
   Row-
Column-
 Hybrid-



                                                           論文内のFigure.5から引用




               6         Session 9: New Hardware Architecture 担当:山室健(NTT)
1. HYRISE—A Main Memory Hybrid Storage Engine
                  実際のAPから生成した独自のworkloadで評価
                      理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離
                      workloadの詳細はAppendix.C
                                                                   ~400%の改善
   Row-
                           <




                                       <
Column-
 Hybrid-

                                                                            ~20%の改善
      クエリQによってR>C/R<Cに
                                                           論文内のFigure.5から引用
      なるようなHybridなworkload




               7         Session 9: New Hardware Architecture 担当:山室健(NTT)
1. HYRISE—A Main Memory Hybrid Storage Engine
                  実際のAPから生成した独自のworkloadで評価
                      理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離
                      workloadの詳細はAppendix.C
                                                                    ~400%の改善
   Row-
Column-
 Hybrid-
 最悪性能を基準に正規化した
                                                                            ~20%の改善
  CPU cyclesの棒グラフ
                                                      (L2)   論文内のFigure.5から引用

                                                             左の棒グラフから得られる結論
                                                             - 概ね全てのクエリQに対して提案
                                                               手法Hの性能が良い
                                                             - L2 Cache Missesの優劣が最終
                                                               的な性能(CPU Cycles)が決定




               8         Session 9: New Hardware Architecture 担当:山室健(NTT)
Fast Set Intersection in Memory
    Bolin Ding (UIUC), Arnd Christian König (Microsoft Research)




9   Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory
    A overview
        2個以上の集合から共通項(Intersection)を探索する処理を,得られる
         共通項が小さいことを前提に,オンメモリ上での処理を高速化する手
         法を提案し,従来手法と比較した計算量Oの改善とPracticalな環境で
         の高速化を実現
    Contribution
        計算量 O(n       w  kr) に改善
            n: 要素数,k: 前処理で分割する集合数,r: 共通項数,w: word長
            最善の従来手法の計算量[6]: O((n(log 2 w) 2 ) / w  kr)
                                         ※ 1/   w  (log 2 w) 2 / w ( w  216 )
        計算量を悪化させたSimple&Efficientなalgorithmの提案
          計算量は O(n w  kr) から O(n /  m  mn / w  kr w ) に
                              α : wから計算される値,m: 任意のパラメータ
            Practicalな環境では高速

    10        Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory
    A basic idea – 2つの着眼点(前提)
        1. word長(32-bit/64-bit)での共通項取得は高速
        2. 経験的に結果集合が小さい


    処理の概要(集合が2つの場合)
        集合L1/L2を小さいブロックL1k/L2kに分割
        作成した小ブロックをword長の領域にhash(・)を用いてmapping
        小ブロックh(L1k)/h(L2k)をAND演算を用いて高速に共通項を探索
         →前提2. により大半がAND演算の結果が0(共通項無し)という結
          果になりSkip可能




    11      Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory




                 論文内のFigure.1から引用

 12   Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory



                     hashを用いて
                   word長にmapping




                 論文内のFigure.1から引用

 13   Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory



                              前提1.よりword長間の共通項
                              取得処理(AND演算)は高速




                 論文内のFigure.1から引用

 14   Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory




                                 前提2.より大半は0
                                  (共通項無し)




                 論文内のFigure.1から引用

 15   Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory




0でない場合は逆変換をして値を復元し
 共通値か判断(※AND演算の結果が
 false-positiveの可能性があるため)




                   論文内のFigure.1から引用

  16    Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory
    評価方法
        同等サイズの2つのリストの共通項の抽出
        結果サイズは1%に固定
    従来手法と提案手法の比較
        従来手法: Merge/SkipList/Hash/BPP/Adaptive/Lookup
        提案手法: IntGroup(理論計算量重視)/RanGroupScan(Practical重視)




                                                 論文内のFigure.4から引用

    17      Session 9: New Hardware Architecture 担当:山室健(NTT)
2. Fast Set Intersection in Memory
    評価方法
        同等サイズの2つのリストの共通項の抽出
        結果サイズは1%に固定
    従来手法と提案手法の比較
        従来手法: Merge/SkipList/Hash/BPP/Adaptive/Lookup
        提案手法: IntGroup(理論計算量重視)/RanGroupScan(Practical重視)




                                                 論文内のFigure.4から引用

    18      Session 9: New Hardware Architecture 担当:山室健(NTT)
Efficiently Compiling Efficient Query Plans
     for Modern Hardware
     Thomas Neumann (Technische Universität München)




19     Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
Modern Hardware
    A overview
        従来DBのquery-compilerはCPUに対するbranch-penaltiesや
         localityを考慮しないため,手続き型言語で記述された同等の
         処理(Hand-Coded C++)と比較して遅い,そこでCPU最適化さ
         れたquery-compilerを提案し,OLAP向けクエリに対して
         cache-miss/branch-miss数を減らし,実行時間の改善
    Contribution
        data-centricな処理flow,極力CPUレジスタにdataを残す
        query処理の高locality(dataをPUSH),従来のiterator-model
         (Volcano-style)はdataをPULLするが,この処理方式は
         localityの観点で×[1][11][2][16]


    20     Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
Modern Hardware



                                    CPU最適化された従来の
                                    Memory-DB(MonetDB)



                                                OVERHEAD
       RT
                                                   C++-written codes

                                                 tuple size



                                     論文内のFigure.1から引用
 21    Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
Modern Hardware
    A basic idea – data-centricな実行planの生成
        メモリアクセスを最小化(registerの利用を最大化)可能な実行flowを選択

              一度registerにloadしたdataを極力unload
                 しないように実行flowを再構築
    next()を利用したiterator-modelからconsume()/produce()を用いた
     新しい実行モデルの提案




                                                   論文内のFigure.3から引用
    22     Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
Modern Hardware
    A basic idea – data-centricな実行planの生成
        メモリアクセスを最小化(registerの利用を最大化)可能な実行flowを選択

              一度registerにloadしたdataを極力unload
                 しないように実行flowを再構築
    next()を利用したiterator-modelからconsume()/produce()を用いた
     新しい実行モデルの提案



                                registerにloadしたdataを
                                一度に処理するグループ
                                  - pipleline boundary -


                                                   論文内のFigure.3から引用
    23     Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
 Modern Hardware
     評価はOLTP/OLAPのHybridなworkloadを利用[5]
         workloadの詳細はAppendix.D
  *valgrindでmicro-benchmarkを実施
         cache-miss/branch-miss/実行命令数(I refs)を測定
                                        *仮想マシンを用いたCPUプロファイラ



命令に関する


データに関する


                           論文内のTable.3から引用
     性能(throughputs/応答性能)も従来手法に対して優位
         論文内とTable.1とTable.2参照
     24     Session 9: New Hardware Architecture 担当:山室健(NTT)
3. Efficiently Compiling Efficient Query Plans for
 Modern Hardware
     評価はOLTP/OLAPのHybridなworkloadを利用[5]
         workloadの詳細はAppendix.D
  *valgrindでmicro-benchmarkを実施
         cache-miss/branch-miss/実行命令数(I refs)を測定
                                        *仮想マシンを用いたCPUプロファイラ



命令に関する                 大幅改善            大幅改善            大幅改善

データに関する


                           論文内のTable.3から引用
     性能(throughputs/応答性能)も従来手法に対して優位
         論文内とTable.1とTable.2参照
     25     Session 9: New Hardware Architecture 担当:山室健(NTT)
PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
Jason Sewall (Intel Corporation), Jatin Chhugani (Intel Corporation), Changkyu Kim (Intel
Corporation), Nadathur Satish (Intel Corporation), Pradeep Dubey (Intel Corporation)




26         Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
    A overview
        近年の並列性の増加傾向を背景に,latch処理の非scalable
         性が問題視されている,そこでin-memory環境を前提とした
         query(retrieve/update/detele)のbatch処理向けlatch-free
         B+Treeを提案し,従来手法と比較して2.3X-19Xの性能改善
    Contribution
        latch-free構造,同期制御はBSP(Bulk Synchronous Parallel)
         によるLocal Computation/Communication/Barrierで構成
        並列環境(multi-/many-cores)志向な構造,cache-awareな
         データ配置とSIMDによる並列処理
        最新の並列環境による評価,Many-Integrated Core (MIC)
         architectureであるIntel Knights Ferryに提案手法を適用

    27      Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
    A basic idea
        batchで入力されるk個の順序を持つO=o0, o1, o2, ..., ok-1(
         o∈{retrieve, update, delete})に対して,全てのretrieve処理を
         初めに完了させ,update/deleteでconflictしている結果を後で
         修正することでserializabilityを確保


         理由: 前半の処理をretrieve処理のみにすることで,同期のpenaltyを
         最小化し,従来手法のCPU最適化処理(cache-aware/SIMD)で性能
         を最大化するアプローチ
                                           ※conflictが少ないことが前提




    28      Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




                          論文内のFigure.1から引用

    29        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




                                       先にすべてのretrieve処理を完了

                          論文内のFigure.1から引用

    30        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




                                                    Serializablityの確保
                          論文内のFigure.1から引用

    31        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




BSPで変更
  を反映




                          論文内のFigure.1から引用

    32        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




BSPで変更
  を反映




                          論文内のFigure.1から引用

    33        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
  Modifications to B+ Trees on Many-Core Processors
R: Retrieve
I: Insert
D: Delete




BSPで変更
  を反映




                          論文内のFigure.1から引用

    34        Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
    batch処理を前提としているため,8192個のqueryを1単位として入力
    2つの環境を用いて評価を実施
        CPU: Intel Xeon 5680
         2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM
        MIC: Intel Knights Ferry
         x86-based 32-cores, and 512bit-SIMD




              論文内のFigure.2から引用                          論文内のFigure.5から引用
    35       Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
    batch処理を前提としているため,8192個のqueryを1単位として入力
    2つの環境を用いて評価を実施
   CPU: Intel Xeon 5680
     
   2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM
NOTICE1: sizeが128Mでbottleneck-shiftが発生
  MIC: Intel Knights Ferry
→コア数の多い環境ではlocalityを考慮しないと
   x86-based 32-cores, and 512bit-SIMD
 コア数増加に対して性能スケールしない




         論文内のFigure.2から引用                         論文内のFigure.5から引用
    36   Session 9: New Hardware Architecture 担当:山室健(NTT)
4. PALM: Parallel Architecture-Friendly Latch-Free
Modifications to B+ Trees on Many-Core Processors
    batch処理を前提としているため,8192個のqueryを1単位として入力
    2つの環境を用いて評価を実施
        CPU: Intel Xeon 5680
         2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM
        MIC: Intel Knights Ferry
         x86-based 32-cores, and 512bit-SIMD




                       NOTICE2: MIC > CPU
                       →更新比率によるがCPUに
                          対して1.4X-2X程度優位
              論文内のFigure.2から引用            論文内のFigure.5から引用
    37       Session 9: New Hardware Architecture 担当:山室健(NTT)
まとめと,所感
    この分野は研究/産業の両側面で非常に重要視
        研究的: DB界隈としては比較的に課題認識を共有できているので
         reviewerに背景を納得されやすい
        産業的: 2012で最も注目すべき10個の技術に”in-memory” tech.
            Gartner Inc.による報告
             http://www.techrepublic.com/blog/hiner/look-out-the-10-rising-tech-trends-of-
             2012/9470?tag=content;roto-fd-feature

    一方で・・・
        詳細なHardwareの知識が必要
            論文内には結構マニアックなチューニングの説明も・・・
        正確な評価が難しい
            測定したい値に対して、ツールも様々(oprofile/perf/VTUNE/valgrind…)
        micro-benchmark結果は良くても、全体としての性能が出にくい
            in-memoryの処理なので数倍高速化してもimpactが少ない

    38        Session 9: New Hardware Architecture 担当:山室健(NTT)

More Related Content

What's hot

電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2RCCSRENKEI
 
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用(高度な最適化)2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用(高度な最適化)
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)智啓 出川
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Takefumi MIYOSHI
 
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細(threadとwarp)2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細(threadとwarp)
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)智啓 出川
 
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)智啓 出川
 
200514material minami
200514material minami200514material minami
200514material minamiRCCSRENKEI
 
20141224 titech lecture_ishizaki_public
20141224 titech lecture_ishizaki_public20141224 titech lecture_ishizaki_public
20141224 titech lecture_ishizaki_publicKazuaki Ishizaki
 
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)智啓 出川
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)智啓 出川
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)智啓 出川
 
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算智啓 出川
 
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用) 智啓 出川
 
VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-Takeshi Yamamuro
 
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割智啓 出川
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術智啓 出川
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化RCCSRENKEI
 
不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何かRyousei Takano
 
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史智啓 出川
 
Awamoto master thesis
Awamoto master thesisAwamoto master thesis
Awamoto master thesispflab
 

What's hot (20)

電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2
 
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用(高度な最適化)2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用(高度な最適化)
2015年度先端GPGPUシミュレーション工学特論 第13回 数値流体力学への応用 (高度な最適化)
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
 
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細(threadとwarp)2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細(threadとwarp)
2015年度先端GPGPUシミュレーション工学特論 第3回 GPUプログラム構造の詳細 (threadとwarp)
 
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境(OpenCL)
2015年度GPGPU実践基礎工学 第15回 GPGPU開発環境 (OpenCL)
 
200514material minami
200514material minami200514material minami
200514material minami
 
20141224 titech lecture_ishizaki_public
20141224 titech lecture_ishizaki_public20141224 titech lecture_ishizaki_public
20141224 titech lecture_ishizaki_public
 
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
2015年度GPGPU実践プログラミング 第9回 行列計算(行列-行列積)
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
 
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
 
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
 
VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-
 
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
2015年度先端GPGPUシミュレーション工学特論 第1回 先端シミュレーションおよび産業界におけるGPUの役割
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か
 
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
2015年度GPGPU実践基礎工学 第1回 学際的分野における先端シミュレーション技術の歴史
 
Awamoto master thesis
Awamoto master thesisAwamoto master thesis
Awamoto master thesis
 

Viewers also liked

SIGMOD’12勉強会 -Session 7-
SIGMOD’12勉強会 -Session 7-SIGMOD’12勉強会 -Session 7-
SIGMOD’12勉強会 -Session 7-Takeshi Yamamuro
 
SIGMOD'10勉強会 -Session 8-
SIGMOD'10勉強会 -Session 8-SIGMOD'10勉強会 -Session 8-
SIGMOD'10勉強会 -Session 8-Takeshi Yamamuro
 
VLDB2013 R1 Emerging Hardware
VLDB2013 R1 Emerging HardwareVLDB2013 R1 Emerging Hardware
VLDB2013 R1 Emerging HardwareTakeshi Yamamuro
 
Introduction to Modern Analytical DB
Introduction to Modern Analytical DBIntroduction to Modern Analytical DB
Introduction to Modern Analytical DBTakeshi Yamamuro
 
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Takeshi Yamamuro
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法Takeshi Yamamuro
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)Takeshi Yamamuro
 

Viewers also liked (12)

20150516 icde2015 r19-4
20150516 icde2015 r19-420150516 icde2015 r19-4
20150516 icde2015 r19-4
 
SIGMOD’12勉強会 -Session 7-
SIGMOD’12勉強会 -Session 7-SIGMOD’12勉強会 -Session 7-
SIGMOD’12勉強会 -Session 7-
 
SIGMOD'10勉強会 -Session 8-
SIGMOD'10勉強会 -Session 8-SIGMOD'10勉強会 -Session 8-
SIGMOD'10勉強会 -Session 8-
 
20150513 legobease
20150513 legobease20150513 legobease
20150513 legobease
 
VLDB2013 R1 Emerging Hardware
VLDB2013 R1 Emerging HardwareVLDB2013 R1 Emerging Hardware
VLDB2013 R1 Emerging Hardware
 
Introduction to Modern Analytical DB
Introduction to Modern Analytical DBIntroduction to Modern Analytical DB
Introduction to Modern Analytical DB
 
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
 
20160908 hivemall meetup
20160908 hivemall meetup20160908 hivemall meetup
20160908 hivemall meetup
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法
 
LLVM最適化のこつ
LLVM最適化のこつLLVM最適化のこつ
LLVM最適化のこつ
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
 
llvm入門
llvm入門llvm入門
llvm入門
 

Similar to VLDB’11勉強会 -Session 9-

遊休リソースを用いた 相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた 相同性検索処理の並列化とその評価Satoshi Nagayasu
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14swkagami
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速するKohei KaiGai
 
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and HadoopVLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and HadoopHiroaki Shiokawa
 
VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-Takeshi Yamamuro
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightRescale Japan株式会社
 
CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析Ryosuke Tanno
 
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009Ryota Watabe
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdfKazuaki Ishizaki
 
Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点Shinichiro Arai
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装Ryosuke Okuta
 
第3回システム系輪講会:IPDPS'17 の機械学習系論文
第3回システム系輪講会:IPDPS'17 の機械学習系論文第3回システム系輪講会:IPDPS'17 の機械学習系論文
第3回システム系輪講会:IPDPS'17 の機械学習系論文Junya Arai
 
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)Ryuuta Tsunashima
 
Statically detecting vulnerability under memory pressure using exhaustive search
Statically detecting vulnerability under memory pressure usingexhaustive searchStatically detecting vulnerability under memory pressure usingexhaustive search
Statically detecting vulnerability under memory pressure using exhaustive searchRuo Ando
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) gsis gsis
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509RCCSRENKEI
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen直久 住川
 

Similar to VLDB’11勉強会 -Session 9- (20)

遊休リソースを用いた 相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた 相同性検索処理の並列化とその評価
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
 
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and HadoopVLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
 
VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-VLDB'10勉強会 -Session 2-
VLDB'10勉強会 -Session 2-
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
 
CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析
 
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
プロとしてのOracleアーキテクチャ入門 ~番外編~ @ Developers Summit 2009
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf
 
Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
第3回システム系輪講会:IPDPS'17 の機械学習系論文
第3回システム系輪講会:IPDPS'17 の機械学習系論文第3回システム系輪講会:IPDPS'17 の機械学習系論文
第3回システム系輪講会:IPDPS'17 の機械学習系論文
 
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
 
Statically detecting vulnerability under memory pressure using exhaustive search
Statically detecting vulnerability under memory pressure usingexhaustive searchStatically detecting vulnerability under memory pressure usingexhaustive search
Statically detecting vulnerability under memory pressure using exhaustive search
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509El text.tokuron a(2019).katagiri190509
El text.tokuron a(2019).katagiri190509
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen
 

More from Takeshi Yamamuro

LT: Spark 3.1 Feature Expectation
LT: Spark 3.1 Feature ExpectationLT: Spark 3.1 Feature Expectation
LT: Spark 3.1 Feature ExpectationTakeshi Yamamuro
 
Quick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αQuick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αTakeshi Yamamuro
 
MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理Takeshi Yamamuro
 
Taming Distributed/Parallel Query Execution Engine of Apache Spark
Taming Distributed/Parallel Query Execution Engine of Apache SparkTaming Distributed/Parallel Query Execution Engine of Apache Spark
Taming Distributed/Parallel Query Execution Engine of Apache SparkTakeshi Yamamuro
 
LLJVM: LLVM bitcode to JVM bytecode
LLJVM: LLVM bitcode to JVM bytecodeLLJVM: LLVM bitcode to JVM bytecode
LLJVM: LLVM bitcode to JVM bytecodeTakeshi Yamamuro
 
20180417 hivemall meetup#4
20180417 hivemall meetup#420180417 hivemall meetup#4
20180417 hivemall meetup#4Takeshi Yamamuro
 
An Experimental Study of Bitmap Compression vs. Inverted List Compression
An Experimental Study of Bitmap Compression vs. Inverted List CompressionAn Experimental Study of Bitmap Compression vs. Inverted List Compression
An Experimental Study of Bitmap Compression vs. Inverted List CompressionTakeshi Yamamuro
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4Takeshi Yamamuro
 
A x86-optimized rank&select dictionary for bit sequences
A x86-optimized rank&select dictionary for bit sequencesA x86-optimized rank&select dictionary for bit sequences
A x86-optimized rank&select dictionary for bit sequencesTakeshi Yamamuro
 

More from Takeshi Yamamuro (11)

LT: Spark 3.1 Feature Expectation
LT: Spark 3.1 Feature ExpectationLT: Spark 3.1 Feature Expectation
LT: Spark 3.1 Feature Expectation
 
Apache Spark + Arrow
Apache Spark + ArrowApache Spark + Arrow
Apache Spark + Arrow
 
Quick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αQuick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + α
 
MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理
 
Taming Distributed/Parallel Query Execution Engine of Apache Spark
Taming Distributed/Parallel Query Execution Engine of Apache SparkTaming Distributed/Parallel Query Execution Engine of Apache Spark
Taming Distributed/Parallel Query Execution Engine of Apache Spark
 
LLJVM: LLVM bitcode to JVM bytecode
LLJVM: LLVM bitcode to JVM bytecodeLLJVM: LLVM bitcode to JVM bytecode
LLJVM: LLVM bitcode to JVM bytecode
 
20180417 hivemall meetup#4
20180417 hivemall meetup#420180417 hivemall meetup#4
20180417 hivemall meetup#4
 
An Experimental Study of Bitmap Compression vs. Inverted List Compression
An Experimental Study of Bitmap Compression vs. Inverted List CompressionAn Experimental Study of Bitmap Compression vs. Inverted List Compression
An Experimental Study of Bitmap Compression vs. Inverted List Compression
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
 
A x86-optimized rank&select dictionary for bit sequences
A x86-optimized rank&select dictionary for bit sequencesA x86-optimized rank&select dictionary for bit sequences
A x86-optimized rank&select dictionary for bit sequences
 
VAST-Tree, EDBT'12
VAST-Tree, EDBT'12VAST-Tree, EDBT'12
VAST-Tree, EDBT'12
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Recently uploaded (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

VLDB’11勉強会 -Session 9-

  • 1. 【VLDB2011勉強会】 Session 9: New Hardware Architecture 担当: 山室健(NTT) 1
  • 2. 概要  このセクションの特徴  性能向上のための最新Hardware(CPU/GPU/FPGA…)適用 を目的とした研究に関する  今回は4本ともCPU最適化(in-memory前提)のみ!  紹介する論文リスト  1. HYRISE - A Main Memory Hybrid Storage Engine  2. Fast Set Intersection in Memory  3. Efficiently Compiling Efficient Query Plans for Modern Hardware  4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors 2 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 3. HYRISE - A Main Memory Hybrid Storage Engine Martin Grund (Hasso-Plattner-Institute), Jens Krüger (Hasso-Plattner-Institute), Hasso Plattner (Hasso-Plattner Institute), Alexander Zeier (Hasso-Plattner Institute), Philippe Cudre-Mauroux (MIT), Samuel Madden (MIT) 3 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 4. 1. HYRISE—A Main Memory Hybrid Storage Engine  A overview  r/wのlocalityが高くなるように,workload(OLAP/OLTP)に対 して動的にvertical partitioningのcolumn数を調整するstorage の提案,従来のnaïveなrow-/columnar-storageと比較して 20-400%の高速化を実現  Contribution  data-layout分析, multi-cores CPU環境で、L1/L2 cachesが 性能に与える影響の詳細なprofilingの実施  cost-modelの構築,workloadとdata-layoutからoperation (projection,selection,etc)性能を推定する評価式を定義  design-toolの実装,schema,workload,cost-modelを入力に 最適なdata-layoutを決定するtoolの実装 4 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 5. 1. HYRISE—A Main Memory Hybrid Storage Engine  A basic idea – data-layoutの選択  workloadに対してlocalityが高くなるようにdataを配置  OLAP-workloadであればcolumnar志向の狭いpartitioning  OLTP-workloadであればrow志向の広いpartitioning 論文内のFigure.2から引用  各operation(selection/projection…)におけるcache-miss回 数を推定する評価式を定義  実APを調査したところcolumn数(up to 300)が非常に多く,探索空間が非常に 大きい問題→Scalableな解探索の方法も提案 5 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 6. 1. HYRISE—A Main Memory Hybrid Storage Engine  実際のAPから作成した独自のworkloadで評価  理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離  workloadの詳細はAppendix.C Row- Column- Hybrid- 論文内のFigure.5から引用 6 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 7. 1. HYRISE—A Main Memory Hybrid Storage Engine  実際のAPから生成した独自のworkloadで評価  理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離  workloadの詳細はAppendix.C ~400%の改善 Row- < < Column- Hybrid- ~20%の改善 クエリQによってR>C/R<Cに 論文内のFigure.5から引用 なるようなHybridなworkload 7 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 8. 1. HYRISE—A Main Memory Hybrid Storage Engine  実際のAPから生成した独自のworkloadで評価  理由: TPC-X系のbenchmarksはcolumn数の観点で現実から乖離  workloadの詳細はAppendix.C ~400%の改善 Row- Column- Hybrid- 最悪性能を基準に正規化した ~20%の改善 CPU cyclesの棒グラフ (L2) 論文内のFigure.5から引用 左の棒グラフから得られる結論 - 概ね全てのクエリQに対して提案 手法Hの性能が良い - L2 Cache Missesの優劣が最終 的な性能(CPU Cycles)が決定 8 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 9. Fast Set Intersection in Memory Bolin Ding (UIUC), Arnd Christian König (Microsoft Research) 9 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 10. 2. Fast Set Intersection in Memory  A overview  2個以上の集合から共通項(Intersection)を探索する処理を,得られる 共通項が小さいことを前提に,オンメモリ上での処理を高速化する手 法を提案し,従来手法と比較した計算量Oの改善とPracticalな環境で の高速化を実現  Contribution  計算量 O(n w  kr) に改善  n: 要素数,k: 前処理で分割する集合数,r: 共通項数,w: word長  最善の従来手法の計算量[6]: O((n(log 2 w) 2 ) / w  kr) ※ 1/ w  (log 2 w) 2 / w ( w  216 )  計算量を悪化させたSimple&Efficientなalgorithmの提案  計算量は O(n w  kr) から O(n /  m  mn / w  kr w ) に α : wから計算される値,m: 任意のパラメータ  Practicalな環境では高速 10 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 11. 2. Fast Set Intersection in Memory  A basic idea – 2つの着眼点(前提)  1. word長(32-bit/64-bit)での共通項取得は高速  2. 経験的に結果集合が小さい  処理の概要(集合が2つの場合)  集合L1/L2を小さいブロックL1k/L2kに分割  作成した小ブロックをword長の領域にhash(・)を用いてmapping  小ブロックh(L1k)/h(L2k)をAND演算を用いて高速に共通項を探索 →前提2. により大半がAND演算の結果が0(共通項無し)という結 果になりSkip可能 11 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 12. 2. Fast Set Intersection in Memory 論文内のFigure.1から引用 12 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 13. 2. Fast Set Intersection in Memory hashを用いて word長にmapping 論文内のFigure.1から引用 13 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 14. 2. Fast Set Intersection in Memory 前提1.よりword長間の共通項 取得処理(AND演算)は高速 論文内のFigure.1から引用 14 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 15. 2. Fast Set Intersection in Memory 前提2.より大半は0 (共通項無し) 論文内のFigure.1から引用 15 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 16. 2. Fast Set Intersection in Memory 0でない場合は逆変換をして値を復元し 共通値か判断(※AND演算の結果が false-positiveの可能性があるため) 論文内のFigure.1から引用 16 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 17. 2. Fast Set Intersection in Memory  評価方法  同等サイズの2つのリストの共通項の抽出  結果サイズは1%に固定  従来手法と提案手法の比較  従来手法: Merge/SkipList/Hash/BPP/Adaptive/Lookup  提案手法: IntGroup(理論計算量重視)/RanGroupScan(Practical重視) 論文内のFigure.4から引用 17 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 18. 2. Fast Set Intersection in Memory  評価方法  同等サイズの2つのリストの共通項の抽出  結果サイズは1%に固定  従来手法と提案手法の比較  従来手法: Merge/SkipList/Hash/BPP/Adaptive/Lookup  提案手法: IntGroup(理論計算量重視)/RanGroupScan(Practical重視) 論文内のFigure.4から引用 18 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 19. Efficiently Compiling Efficient Query Plans for Modern Hardware Thomas Neumann (Technische Universität München) 19 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 20. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware  A overview  従来DBのquery-compilerはCPUに対するbranch-penaltiesや localityを考慮しないため,手続き型言語で記述された同等の 処理(Hand-Coded C++)と比較して遅い,そこでCPU最適化さ れたquery-compilerを提案し,OLAP向けクエリに対して cache-miss/branch-miss数を減らし,実行時間の改善  Contribution  data-centricな処理flow,極力CPUレジスタにdataを残す  query処理の高locality(dataをPUSH),従来のiterator-model (Volcano-style)はdataをPULLするが,この処理方式は localityの観点で×[1][11][2][16] 20 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 21. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware CPU最適化された従来の Memory-DB(MonetDB) OVERHEAD RT C++-written codes tuple size 論文内のFigure.1から引用 21 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 22. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware  A basic idea – data-centricな実行planの生成  メモリアクセスを最小化(registerの利用を最大化)可能な実行flowを選択 一度registerにloadしたdataを極力unload しないように実行flowを再構築  next()を利用したiterator-modelからconsume()/produce()を用いた 新しい実行モデルの提案 論文内のFigure.3から引用 22 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 23. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware  A basic idea – data-centricな実行planの生成  メモリアクセスを最小化(registerの利用を最大化)可能な実行flowを選択 一度registerにloadしたdataを極力unload しないように実行flowを再構築  next()を利用したiterator-modelからconsume()/produce()を用いた 新しい実行モデルの提案 registerにloadしたdataを 一度に処理するグループ - pipleline boundary - 論文内のFigure.3から引用 23 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 24. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware  評価はOLTP/OLAPのHybridなworkloadを利用[5]  workloadの詳細はAppendix.D  *valgrindでmicro-benchmarkを実施  cache-miss/branch-miss/実行命令数(I refs)を測定 *仮想マシンを用いたCPUプロファイラ 命令に関する データに関する 論文内のTable.3から引用  性能(throughputs/応答性能)も従来手法に対して優位  論文内とTable.1とTable.2参照 24 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 25. 3. Efficiently Compiling Efficient Query Plans for Modern Hardware  評価はOLTP/OLAPのHybridなworkloadを利用[5]  workloadの詳細はAppendix.D  *valgrindでmicro-benchmarkを実施  cache-miss/branch-miss/実行命令数(I refs)を測定 *仮想マシンを用いたCPUプロファイラ 命令に関する 大幅改善 大幅改善 大幅改善 データに関する 論文内のTable.3から引用  性能(throughputs/応答性能)も従来手法に対して優位  論文内とTable.1とTable.2参照 25 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 26. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors Jason Sewall (Intel Corporation), Jatin Chhugani (Intel Corporation), Changkyu Kim (Intel Corporation), Nadathur Satish (Intel Corporation), Pradeep Dubey (Intel Corporation) 26 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 27. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors  A overview  近年の並列性の増加傾向を背景に,latch処理の非scalable 性が問題視されている,そこでin-memory環境を前提とした query(retrieve/update/detele)のbatch処理向けlatch-free B+Treeを提案し,従来手法と比較して2.3X-19Xの性能改善  Contribution  latch-free構造,同期制御はBSP(Bulk Synchronous Parallel) によるLocal Computation/Communication/Barrierで構成  並列環境(multi-/many-cores)志向な構造,cache-awareな データ配置とSIMDによる並列処理  最新の並列環境による評価,Many-Integrated Core (MIC) architectureであるIntel Knights Ferryに提案手法を適用 27 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 28. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors  A basic idea  batchで入力されるk個の順序を持つO=o0, o1, o2, ..., ok-1( o∈{retrieve, update, delete})に対して,全てのretrieve処理を 初めに完了させ,update/deleteでconflictしている結果を後で 修正することでserializabilityを確保 理由: 前半の処理をretrieve処理のみにすることで,同期のpenaltyを 最小化し,従来手法のCPU最適化処理(cache-aware/SIMD)で性能 を最大化するアプローチ ※conflictが少ないことが前提 28 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 29. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete 論文内のFigure.1から引用 29 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 30. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete 先にすべてのretrieve処理を完了 論文内のFigure.1から引用 30 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 31. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete Serializablityの確保 論文内のFigure.1から引用 31 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 32. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete BSPで変更 を反映 論文内のFigure.1から引用 32 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 33. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete BSPで変更 を反映 論文内のFigure.1から引用 33 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 34. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors R: Retrieve I: Insert D: Delete BSPで変更 を反映 論文内のFigure.1から引用 34 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 35. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors  batch処理を前提としているため,8192個のqueryを1単位として入力  2つの環境を用いて評価を実施  CPU: Intel Xeon 5680 2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM  MIC: Intel Knights Ferry x86-based 32-cores, and 512bit-SIMD 論文内のFigure.2から引用 論文内のFigure.5から引用 35 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 36. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors  batch処理を前提としているため,8192個のqueryを1単位として入力  2つの環境を用いて評価を実施 CPU: Intel Xeon 5680  2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM NOTICE1: sizeが128Mでbottleneck-shiftが発生  MIC: Intel Knights Ferry →コア数の多い環境ではlocalityを考慮しないと x86-based 32-cores, and 512bit-SIMD コア数増加に対して性能スケールしない 論文内のFigure.2から引用 論文内のFigure.5から引用 36 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 37. 4. PALM: Parallel Architecture-Friendly Latch-Free Modifications to B+ Trees on Many-Core Processors  batch処理を前提としているため,8192個のqueryを1単位として入力  2つの環境を用いて評価を実施  CPU: Intel Xeon 5680 2 sockets, total 12-cores, 128bit-SIMD, and 96GiB RAM  MIC: Intel Knights Ferry x86-based 32-cores, and 512bit-SIMD NOTICE2: MIC > CPU →更新比率によるがCPUに 対して1.4X-2X程度優位 論文内のFigure.2から引用 論文内のFigure.5から引用 37 Session 9: New Hardware Architecture 担当:山室健(NTT)
  • 38. まとめと,所感  この分野は研究/産業の両側面で非常に重要視  研究的: DB界隈としては比較的に課題認識を共有できているので reviewerに背景を納得されやすい  産業的: 2012で最も注目すべき10個の技術に”in-memory” tech.  Gartner Inc.による報告 http://www.techrepublic.com/blog/hiner/look-out-the-10-rising-tech-trends-of- 2012/9470?tag=content;roto-fd-feature  一方で・・・  詳細なHardwareの知識が必要  論文内には結構マニアックなチューニングの説明も・・・  正確な評価が難しい  測定したい値に対して、ツールも様々(oprofile/perf/VTUNE/valgrind…)  micro-benchmark結果は良くても、全体としての性能が出にくい  in-memoryの処理なので数倍高速化してもimpactが少ない 38 Session 9: New Hardware Architecture 担当:山室健(NTT)