SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
Optimizing	
  Overlay-­‐based	
  Virtual	
  
    Networking	
  Through	
  Optimistic	
  
Interrupts	
  and	
  Cut-­‐through	
  Forwarding	
  
                           	
  
               Z.	
  Cui	
  et	
  al.,	
  SC2012

                      高野 了成
          産業技術総合研究所 情報技術研究研究部門

              2012年12月13日 福田研輪講@NII
SC2012
•  24th  ACM/IEEE  International  Conference  for  High  
   performance  computing,  Networking,  Storage  and  
   Analysis
•  11⽉月10⽇日〜~16⽇日  ⽶米国ユタ州ソルトレイクシティ
•  HPC関連のトップカンファレンス
   –  今年年の採択率率率21%  (100/472)
•  TOP500、各種Awards、
   Workshop、Tutorial、BoFなど
•  巨⼤大な展⽰示会場
   –  Intel,  NVIDIA,  Fusion-‐‑‒IO,  etc
   –  SDN、Big  data関連が⽬目⽴立立った


                                                            2
35  Technical  Sessions
•    Analysis  of  I/O  Storage                          •    Optimizing  Application  Performance
•    Autotuning  and  Search-‐‑‒Based  Optimization      •    Resilience
•    Breadth  First  Search                              •    Visualization  and  Analysis  of  Massive  Data  Sets
•    Direct  Numerical  Simulations                      •    Graph  Algorithms
•    Checkpointing                                       •    Locality  in  Programming  Models  and  Runtimes
•    GPU  Programming  Models  and  Patterns             •  Networks
•    Maximizing  Performance  on  Multi-‐‑‒Core  and     •    Runtime-‐‑‒Based  Analysis  and  Optimization
     Many-‐‑‒Core  Architectures
                                                         •    Cosmology  Applications
•  Cloud  Computing                                      •    Fault  Detection  and  Analysis
•    Auto-‐‑‒diagnosis  of  Correctness  and  
     Performance  Issues
                                                         •  Grid  Computing
                                                         •    Performance  Modeling
•    DRAM  Power  and  Resiliency  Management
                                                         •    Big  Data
•  Grids/Clouds  Networking                              •    Memory  Systems
•    Weather  and  Seismic  Simulations                  •    Numerical  Algorithms
•    Compiler-‐‑‒Based  Analysis  and  Optimization      •    Performance  Optimization
•    Fast  Algorithm
•    Massively  Parallel  Simulations
                                                         •  Communication  Optimization
                                                         •    Linear  Algebra  Algorithms
•    Optimizing  I/O  For  Analytics
•  Datacenter  Technologies                              •  New  Computer  Systems

                                                                                                                  3
概要
•  “HPC  cloud”と呼ばれるクラウド上で⾼高性能計算を
   実⾏行行するという分野の論論⽂文
  –  パラメータサーベイなどEmbarrassingly  Parallelなアプリを
     クラウド上で実⾏行行するのは現実的な解
  –  ガチンコなHPCアプリを実⾏行行するにはI/O性能が問題
  –  VMMをパススルーする研究はいくつか存在
•  Overlay-‐‑‒based  virtual  networksでも、ベアメタルに
   匹敵するレイテンシとスループットを実現する最適化
   ⼿手法を提案
  –  Optimistic  timer-‐‑‒free  virtual  interrupt  injection
  –  Zero-‐‑‒copy,  cut-‐‑‒through  data  forwarding
•  規模⼤大きくないが、HPC系ベンチマークでしっかり評価

                                                                4
なぜHPCで仮想化なのか?
        •  スパコンの90%はLinuxを使⽤用
        •  軽量量カーネル(LWK)と⽐比較すると⾼高いオーバヘッド
                 –  メモリ管理理
                 –  OSノイズ
        •  仮想化を⽤用いて、アプリが必要なときだけLWKを使⽤用                                                                                         Department of Computer Science



                 –  主張「仮想化はホストOSのオーバヘッドをバイパスできる」
                                  Our Approach
                                                                                                                   Linux
                                                                                                                Compute Node
                                                                                                                    OS


                                                                                                          No    Hardware
                   UNIX                                                               HPC Application
                                                                                                                                                Linux
                                                                                                                                             Compute Node
                                                                                                                                                 OS
                                                                                                          Yes    Lightweight   Application
                                                                                                 Needs LWK?                    Completes
                                                                                                                    Kernel
                                                                                                                                             Hardware
                                                 Linux                                                           VMM layer
                                                                                                                   Linux
                                                                                                                Compute Node
                                                                                                                    OS

                                                                                                                Hardware

                                                                                             出典:http://v3vee.org/talks/ross12.pdf
                                                                                                                                                            6


出典:http://en.wikipedia.org/wiki/File:Operating_systems_used_on_top_500_supercomputers.svg

                                                                                                                                                                5
Palacios  VMM
•  OS-‐‑‒independent,  embeddable  virtual  machine  
   monitor  (VMM)
     –  Host  OS:  Linux,  Kitten  LWK,  Minix
•    Minimalist  interface
•    Low  noise
•    Contiguous  memory  allocation                                   User  
                                                                      application
•    Passthrough  resources  and
                                                        User  
     resource  partitioning     User  space             application   Guest  OS


                                        Kernel  space

                                                        Host  OS      Palacios


http://www.v3vee.org/palacios/                                  Hardware
                                                                                    6
VNETモデル
•  ユーザVMのためのL2仮想オーバレイネットワーク
     –  VMにlocation  independenceを提供
     –  VMのトラフィックをconfigurable  overlay  networkに流流す
•  元々はVirtuosoと呼ばれるvirtual  machine  grid  
   computingを構築するためのミドルウェア向けに提案
                          Fast-path links amongst
Resilient Star Backbone
                          the VNETs hosting VMs
    Userʼ’s                                       Foreign host
     LAN                                             LAN 1


                                                   VM    Host 1
                                                   1       +
    Proxy           IP network                           VNET
      +
    VNET
                                                     Foreign host
                                                        LAN 2       A.  Sundararaj  et  al.,  “Increasing  Application  
                                                                    Performance  in  Virtual  Environments  
    VM 4                                            VM              Through  Run-‐‑‒time  Inference  and  
  Foreign host
               Host 4        VM          Host 3     2     Host 2
                                                                    Adaptation,”  HPDC05
                 +           3
                           Foreign   host +                 +
     LAN 4     VNET                      VNET             VNET
                              LAN 3

                                                                                                                           7
VNET/Pアーキテクチャ
          VNET/P Architecture

User Space                           Guest OS                           Guest OS
                                    Application                         Application

                VNET/P                 Device                                 Device
                Co t o
                Control                Driver                                 Driver


Linux Kernel                        Virtual NIC                          Virtual NIC

                                                  VNET/P Core
                VNET/P
                 Bridge
                                  Palacios VMM

               Host Driver

               Physical Network
                                             L.  Xia  et  al.,  “VNET/P:  Bridging  the  Cloud  and  High  
                                             Performance  Computing  Through  Fast  Overlay  
                                             Networking,”  HPDC  2012.
                                                                                               9
                                                                                                          8
Data Path
Data  Path  (Packet  Transmission)
                               (packet t
                               (   k t transmission)
                                             i i )

   Guest
 TCP/IP     Device                                                                         Device
 stack      Driver                                                                         Driver
                        VM Exit                                                 VM Entry

 Palacios                 vNIC
                                    VNET/P Core:          VNET/P Bridge         vNIC
                          Exit                                                  Exit
                          Handler   Routing/
                                    R ti /                Send
                                                          S d packetk t
                                                                                Handler
                                    encapsulation         to host network

                                          VNET/P
  Ether   IP TCP/UDP                      Ether IP UDP   Ether   IP TCP/UDP
   hdr    hdr  hdr     Data                hdr hdr hdr    hdr    hdr  hdr     Data



                                                                                          Time
                                                                                            10


                                              引⽤用:http://v3vee.org/talks/hpdc12-‐‑‒vnet.pdf
                                                                                                    9
Performance  Challenges
•  Delayed  virtual  interrupts
•  Excessive  virtual  interrupts
•  High-‐‑‒resolution  timer  noise




                                      10
Delayed  Virtual  Interrupts
  Delayed virtual interrupts




         パケット受信時のタイムライン
  Fig.2 Packet Processing Time Line   11
最適化1:  Optimistic  Interrupts
    Optimization#1:
An  optimistic,  timer-‐‑‒free  interrupt  injection  mechanism
    Optimistic Interrupts
   –  Early  Virtual  Interrupt  (EVI)  delivery
    ● Early Virtual Interrupt (EVI) delivery
   –  End  of  Coalescing  (EoC)  notification
    ● End of Coalescing (EoC) notification




                                                                  12
Early  Virtual  Interrupt  (EVI)  delivery

1.  割込み禁⽌止中
 –    VMMで廃棄
 –    後から来る割込みに暗黙的にcoalesceされる
2.  パケットが利利⽤用可能になる前にゲストハンドラが起動
                        Optimization#1:
 –    ゲストで無視
                        Optimistic Interrupts
 –    ゲストOSのCPUが無駄になる   ●   Early Virtual Interrupt (EVI) delivery
                            End of Coalescing (EoC) notification
3.  パケットが利利⽤用可能になった
                        ●




    後にゲストハンドラが起動
 –    ⼗十分早く処理理できなかった
 –    レイテンシが増加
 –    最適化前のVNET/Pと同じ


                        11/08/12

                                                                     13
End  of  Coalescing  (EoC)  notification

•  問題:
  –  EVI  deliveryが失敗するかもしれない
  –  ゲストのパケット処理理がオーバレイより速いかもしれない
•  解決策:
   ホストの受信キューが空になったら、割込みを通知
  –  ホストNICドライバがオーバレイシステムにEoCを送信
  –  仮想NICがvirtual  interruptをinjectする機会を提供
•  効果:
  –  ⾼高解像度度タイマなしでレイテンシを抑制できる
    •  NICのinterrupt  coalescing  timerを⾼高解像度度タイマを⽤用いて模擬
       するvirtual  interrupt  coalescingの既存研究は存在するが、OSノ
       イズの増加が問題だった



                                                           14
最適化2:  Zero-‐‑‒copy  cut-‐‑‒through  
     data  forwarding
•  ホストNICとゲスト仮想NIC間のDMA転送
•  割込みあたりの転送パケット数の増加
•  (特に⽬目新しい仕組みではない)




                                    15
実験
                       Testbed
•  6ノードクラスタ:8コアAMD  Opteron  +  32GB  RAM  
 ●  6-node cluster: 8-core AMD Opteron CPU + 32GB RAM +
   +  NetEffect  NE020  10GbE  NIC NIC
    NetEffect NE020 10Gbps Ethernet
•  VM:  4コアCPU  +  1GB  RAM  +  1  virtio  NIC
 ●  Configuration:




     11/08/12                                             14
                                                               16
VNET/P+:  Near-‐‑‒native  MPI  
         P2P  Bandwidth/Latency
 VNET/ P+: Near- native MPI P2 P Bandwidth




                           VNET/ P+: Near- native MPI P2 P Latency




11/08/12                          15




                      11/08/12                                 17
VNET/P+:  Near-‐‑‒native  MPI  
            Application  Performance NAS
             VNET/ P+: Near- native NAS VNET/ P+: Near- native
                                        Application Performance
VNET/ P+: Native HPCC MPI Application Performance




                         HPCC MPIFFT
11/08/12
                    HPC  Challenge  Benchmark:  FFT            17

                                 (top)

                                       NAS  Parallel  Benchmarks
                                                (right)


              11/08/12                                      11/08/12   18
まとめ
Virtual  overlay  networksはベアメタルに匹敵する
MPIアプリケーション性能を達成可能
•  チャレンジ
  –  Delayed  virtual  interrupts
  –  Excessive  virtual  interrupts
  –  High-‐‑‒resolution  timer  noise
•  最適化アプローチ
  –  Optimistic  interrupts
  –  Cut-‐‑‒through  forwarding
•  最適化の効果
  –  レイテンシ:  50%の削減
  –  スループット:  >  30%の増加
  –  性能のばらつきの抑制

                                        19
蛇⾜足
•  Intelは、次世代VTで割込み仮想化のオーバヘッドを
   削減(=VM  Exits回数の削減)するための拡張を予定
   しており、さらなるI/O性能の改善が⾒見見込まれる
  –  APIC-‐‑‒register  virtualization
  –  Virtual  interrupt  delivery  (receiver  side)
      •  EOI割込みでVM  Exitsが不不要
      •  Exit-‐‑‒less  Interrupt*のhardware  acceleration版というイメージ?
  –  Posted  interrupt  processing
•  HPC⽤用途では、VMMパススルーで⼗十分では?
•  Virtual  overlay  networks⾼高速化の需要は、むしろ
   エンタープライズ⽤用途にあるのでは?
  –  e.g.,  エッジ・オーバレイネットワーク
                                         *)  A.  Gordon  et  al.,  “ELI:  Bare-‐‑‒Metal  Performance  
                                         for  I/O  Virtualization,”  ASPLOS  2012.

                                                                                                    20
特に明記のない図表は次のスライドから引⽤用しました
  http://v3vee.org/talks/sc12.pdf




                                    21

Weitere ähnliche Inhalte

Ähnlich wie Optimizing Overlay-based Virtual Networking Through Optimistic Interrupts and Cut-through Forwarding

エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~Takumi Kurosawa
 
Wakame Project - 自作クラウド研究会
Wakame Project - 自作クラウド研究会Wakame Project - 自作クラウド研究会
Wakame Project - 自作クラウド研究会axsh co., LTD.
 
クラウド概略(ノート)
クラウド概略(ノート)クラウド概略(ノート)
クラウド概略(ノート)真乙 九龍
 
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-Takashi Sogabe
 
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)axsh co., LTD.
 
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsug
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsugJAWS目黒 EC2チューニングTips #jawsmeguro #jawsug
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsugYasuhiro Matsuo
 
Survey on OCP 2021
Survey on OCP 2021Survey on OCP 2021
Survey on OCP 2021ShogoAsaba
 
国産 PaaS 、NIFTY Cloud C4SA の中身
国産 PaaS 、NIFTY Cloud C4SA の中身国産 PaaS 、NIFTY Cloud C4SA の中身
国産 PaaS 、NIFTY Cloud C4SA の中身Takahiro Oohata
 
ディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指してディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指してKazuhiko Kato
 
Faster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPRyoga Saito
 
MEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてMEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてVirtualTech Japan Inc.
 
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~Naoto Gohko
 
高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)Naoto MATSUMOTO
 
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.js
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.jsルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.js
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.jsYOSHITAKA NAKAHARA
 
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]Aya Tokura
 
オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルエンジニア通信
 

Ähnlich wie Optimizing Overlay-based Virtual Networking Through Optimistic Interrupts and Cut-through Forwarding (20)

エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
 
Wakame Project - 自作クラウド研究会
Wakame Project - 自作クラウド研究会Wakame Project - 自作クラウド研究会
Wakame Project - 自作クラウド研究会
 
クラウド概略(ノート)
クラウド概略(ノート)クラウド概略(ノート)
クラウド概略(ノート)
 
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
オーバーレイネットワークで実現するプライベートクラウド -OpenStack/OpenContrailを用いたプライベートクラウドの構築及び評価計画のご紹介-
 
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)
Wakame-VDC / Open Source Conferense 2012 - Cloud (JP)
 
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsug
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsugJAWS目黒 EC2チューニングTips #jawsmeguro #jawsug
JAWS目黒 EC2チューニングTips #jawsmeguro #jawsug
 
Survey on OCP 2021
Survey on OCP 2021Survey on OCP 2021
Survey on OCP 2021
 
国産 PaaS 、NIFTY Cloud C4SA の中身
国産 PaaS 、NIFTY Cloud C4SA の中身国産 PaaS 、NIFTY Cloud C4SA の中身
国産 PaaS 、NIFTY Cloud C4SA の中身
 
Kernel vm-2014-05-25
Kernel vm-2014-05-25Kernel vm-2014-05-25
Kernel vm-2014-05-25
 
ディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指してディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指して
 
Faster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDP
 
MEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてMEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについて
 
GPU Container as a Service を実現するための最新OSS徹底比較
GPU Container as a Service を実現するための最新OSS徹底比較GPU Container as a Service を実現するための最新OSS徹底比較
GPU Container as a Service を実現するための最新OSS徹底比較
 
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~
2012 OpenStack + KVM = onamae.com VPS #2 ~ vnc and snapshot ~
 
高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)
 
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.js
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.jsルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.js
ルーメン・テクノロジーズ エッジプラットフォーム Varnish・Node.js
 
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
 
オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)
 
OpenStack概要
OpenStack概要OpenStack概要
OpenStack概要
 
Osc2009 Do Xen Hara
Osc2009 Do Xen HaraOsc2009 Do Xen Hara
Osc2009 Do Xen Hara
 

Mehr von Ryousei Takano

Error Permissive Computing
Error Permissive ComputingError Permissive Computing
Error Permissive ComputingRyousei Takano
 
Opportunities of ML-based data analytics in ABCI
Opportunities of ML-based data analytics in ABCIOpportunities of ML-based data analytics in ABCI
Opportunities of ML-based data analytics in ABCIRyousei Takano
 
ABCI: An Open Innovation Platform for Advancing AI Research and Deployment
ABCI: An Open Innovation Platform for Advancing AI Research and DeploymentABCI: An Open Innovation Platform for Advancing AI Research and Deployment
ABCI: An Open Innovation Platform for Advancing AI Research and DeploymentRyousei Takano
 
クラウド環境におけるキャッシュメモリQoS制御の評価
クラウド環境におけるキャッシュメモリQoS制御の評価クラウド環境におけるキャッシュメモリQoS制御の評価
クラウド環境におけるキャッシュメモリQoS制御の評価Ryousei Takano
 
USENIX NSDI 2016 (Session: Resource Sharing)
USENIX NSDI 2016 (Session: Resource Sharing)USENIX NSDI 2016 (Session: Resource Sharing)
USENIX NSDI 2016 (Session: Resource Sharing)Ryousei Takano
 
User-space Network Processing
User-space Network ProcessingUser-space Network Processing
User-space Network ProcessingRyousei Takano
 
Flow-centric Computing - A Datacenter Architecture in the Post Moore Era
Flow-centric Computing - A Datacenter Architecture in the Post Moore EraFlow-centric Computing - A Datacenter Architecture in the Post Moore Era
Flow-centric Computing - A Datacenter Architecture in the Post Moore EraRyousei Takano
 
A Look Inside Google’s Data Center Networks
A Look Inside Google’s Data Center NetworksA Look Inside Google’s Data Center Networks
A Look Inside Google’s Data Center NetworksRyousei Takano
 
クラウド時代の半導体メモリー技術
クラウド時代の半導体メモリー技術クラウド時代の半導体メモリー技術
クラウド時代の半導体メモリー技術Ryousei Takano
 
AIST Super Green Cloud: lessons learned from the operation and the performanc...
AIST Super Green Cloud: lessons learned from the operation and the performanc...AIST Super Green Cloud: lessons learned from the operation and the performanc...
AIST Super Green Cloud: lessons learned from the operation and the performanc...Ryousei Takano
 
IEEE CloudCom 2014参加報告
IEEE CloudCom 2014参加報告IEEE CloudCom 2014参加報告
IEEE CloudCom 2014参加報告Ryousei Takano
 
Expectations for optical network from the viewpoint of system software research
Expectations for optical network from the viewpoint of system software researchExpectations for optical network from the viewpoint of system software research
Expectations for optical network from the viewpoint of system software researchRyousei Takano
 
Exploring the Performance Impact of Virtualization on an HPC Cloud
Exploring the Performance Impact of Virtualization on an HPC CloudExploring the Performance Impact of Virtualization on an HPC Cloud
Exploring the Performance Impact of Virtualization on an HPC CloudRyousei Takano
 
不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何かRyousei Takano
 
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...Ryousei Takano
 
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~Ryousei Takano
 
From Rack scale computers to Warehouse scale computers
From Rack scale computers to Warehouse scale computersFrom Rack scale computers to Warehouse scale computers
From Rack scale computers to Warehouse scale computersRyousei Takano
 
高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud
高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud
高性能かつスケールアウト可能なHPCクラウド AIST Super Green CloudRyousei Takano
 
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data Center
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data CenterIris: Inter-cloud Resource Integration System for Elastic Cloud Data Center
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data CenterRyousei Takano
 

Mehr von Ryousei Takano (20)

Error Permissive Computing
Error Permissive ComputingError Permissive Computing
Error Permissive Computing
 
Opportunities of ML-based data analytics in ABCI
Opportunities of ML-based data analytics in ABCIOpportunities of ML-based data analytics in ABCI
Opportunities of ML-based data analytics in ABCI
 
ABCI: An Open Innovation Platform for Advancing AI Research and Deployment
ABCI: An Open Innovation Platform for Advancing AI Research and DeploymentABCI: An Open Innovation Platform for Advancing AI Research and Deployment
ABCI: An Open Innovation Platform for Advancing AI Research and Deployment
 
ABCI Data Center
ABCI Data CenterABCI Data Center
ABCI Data Center
 
クラウド環境におけるキャッシュメモリQoS制御の評価
クラウド環境におけるキャッシュメモリQoS制御の評価クラウド環境におけるキャッシュメモリQoS制御の評価
クラウド環境におけるキャッシュメモリQoS制御の評価
 
USENIX NSDI 2016 (Session: Resource Sharing)
USENIX NSDI 2016 (Session: Resource Sharing)USENIX NSDI 2016 (Session: Resource Sharing)
USENIX NSDI 2016 (Session: Resource Sharing)
 
User-space Network Processing
User-space Network ProcessingUser-space Network Processing
User-space Network Processing
 
Flow-centric Computing - A Datacenter Architecture in the Post Moore Era
Flow-centric Computing - A Datacenter Architecture in the Post Moore EraFlow-centric Computing - A Datacenter Architecture in the Post Moore Era
Flow-centric Computing - A Datacenter Architecture in the Post Moore Era
 
A Look Inside Google’s Data Center Networks
A Look Inside Google’s Data Center NetworksA Look Inside Google’s Data Center Networks
A Look Inside Google’s Data Center Networks
 
クラウド時代の半導体メモリー技術
クラウド時代の半導体メモリー技術クラウド時代の半導体メモリー技術
クラウド時代の半導体メモリー技術
 
AIST Super Green Cloud: lessons learned from the operation and the performanc...
AIST Super Green Cloud: lessons learned from the operation and the performanc...AIST Super Green Cloud: lessons learned from the operation and the performanc...
AIST Super Green Cloud: lessons learned from the operation and the performanc...
 
IEEE CloudCom 2014参加報告
IEEE CloudCom 2014参加報告IEEE CloudCom 2014参加報告
IEEE CloudCom 2014参加報告
 
Expectations for optical network from the viewpoint of system software research
Expectations for optical network from the viewpoint of system software researchExpectations for optical network from the viewpoint of system software research
Expectations for optical network from the viewpoint of system software research
 
Exploring the Performance Impact of Virtualization on an HPC Cloud
Exploring the Performance Impact of Virtualization on an HPC CloudExploring the Performance Impact of Virtualization on an HPC Cloud
Exploring the Performance Impact of Virtualization on an HPC Cloud
 
不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か不揮発メモリとOS研究にまつわる何か
不揮発メモリとOS研究にまつわる何か
 
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...
High-resolution Timer-based Packet Pacing Mechanism on the Linux Operating Sy...
 
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~
クラウドの垣根を超えた高性能計算に向けて~AIST Super Green Cloudでの試み~
 
From Rack scale computers to Warehouse scale computers
From Rack scale computers to Warehouse scale computersFrom Rack scale computers to Warehouse scale computers
From Rack scale computers to Warehouse scale computers
 
高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud
高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud
高性能かつスケールアウト可能なHPCクラウド AIST Super Green Cloud
 
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data Center
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data CenterIris: Inter-cloud Resource Integration System for Elastic Cloud Data Center
Iris: Inter-cloud Resource Integration System for Elastic Cloud Data Center
 

Optimizing Overlay-based Virtual Networking Through Optimistic Interrupts and Cut-through Forwarding

  • 1. Optimizing  Overlay-­‐based  Virtual   Networking  Through  Optimistic   Interrupts  and  Cut-­‐through  Forwarding     Z.  Cui  et  al.,  SC2012 高野 了成 産業技術総合研究所 情報技術研究研究部門 2012年12月13日 福田研輪講@NII
  • 2. SC2012 •  24th  ACM/IEEE  International  Conference  for  High   performance  computing,  Networking,  Storage  and   Analysis •  11⽉月10⽇日〜~16⽇日  ⽶米国ユタ州ソルトレイクシティ •  HPC関連のトップカンファレンス –  今年年の採択率率率21%  (100/472) •  TOP500、各種Awards、 Workshop、Tutorial、BoFなど •  巨⼤大な展⽰示会場 –  Intel,  NVIDIA,  Fusion-‐‑‒IO,  etc –  SDN、Big  data関連が⽬目⽴立立った 2
  • 3. 35  Technical  Sessions •  Analysis  of  I/O  Storage •  Optimizing  Application  Performance •  Autotuning  and  Search-‐‑‒Based  Optimization •  Resilience •  Breadth  First  Search •  Visualization  and  Analysis  of  Massive  Data  Sets •  Direct  Numerical  Simulations •  Graph  Algorithms •  Checkpointing •  Locality  in  Programming  Models  and  Runtimes •  GPU  Programming  Models  and  Patterns •  Networks •  Maximizing  Performance  on  Multi-‐‑‒Core  and   •  Runtime-‐‑‒Based  Analysis  and  Optimization Many-‐‑‒Core  Architectures •  Cosmology  Applications •  Cloud  Computing •  Fault  Detection  and  Analysis •  Auto-‐‑‒diagnosis  of  Correctness  and   Performance  Issues •  Grid  Computing •  Performance  Modeling •  DRAM  Power  and  Resiliency  Management •  Big  Data •  Grids/Clouds  Networking •  Memory  Systems •  Weather  and  Seismic  Simulations •  Numerical  Algorithms •  Compiler-‐‑‒Based  Analysis  and  Optimization •  Performance  Optimization •  Fast  Algorithm •  Massively  Parallel  Simulations •  Communication  Optimization •  Linear  Algebra  Algorithms •  Optimizing  I/O  For  Analytics •  Datacenter  Technologies •  New  Computer  Systems 3
  • 4. 概要 •  “HPC  cloud”と呼ばれるクラウド上で⾼高性能計算を 実⾏行行するという分野の論論⽂文 –  パラメータサーベイなどEmbarrassingly  Parallelなアプリを クラウド上で実⾏行行するのは現実的な解 –  ガチンコなHPCアプリを実⾏行行するにはI/O性能が問題 –  VMMをパススルーする研究はいくつか存在 •  Overlay-‐‑‒based  virtual  networksでも、ベアメタルに 匹敵するレイテンシとスループットを実現する最適化 ⼿手法を提案 –  Optimistic  timer-‐‑‒free  virtual  interrupt  injection –  Zero-‐‑‒copy,  cut-‐‑‒through  data  forwarding •  規模⼤大きくないが、HPC系ベンチマークでしっかり評価 4
  • 5. なぜHPCで仮想化なのか? •  スパコンの90%はLinuxを使⽤用 •  軽量量カーネル(LWK)と⽐比較すると⾼高いオーバヘッド –  メモリ管理理 –  OSノイズ •  仮想化を⽤用いて、アプリが必要なときだけLWKを使⽤用 Department of Computer Science –  主張「仮想化はホストOSのオーバヘッドをバイパスできる」 Our Approach Linux Compute Node OS No Hardware UNIX HPC Application Linux Compute Node OS Yes Lightweight Application Needs LWK? Completes Kernel Hardware Linux VMM layer Linux Compute Node OS Hardware 出典:http://v3vee.org/talks/ross12.pdf 6 出典:http://en.wikipedia.org/wiki/File:Operating_systems_used_on_top_500_supercomputers.svg 5
  • 6. Palacios  VMM •  OS-‐‑‒independent,  embeddable  virtual  machine   monitor  (VMM) –  Host  OS:  Linux,  Kitten  LWK,  Minix •  Minimalist  interface •  Low  noise •  Contiguous  memory  allocation User   application •  Passthrough  resources  and User   resource  partitioning User  space application Guest  OS Kernel  space Host  OS Palacios http://www.v3vee.org/palacios/ Hardware 6
  • 7. VNETモデル •  ユーザVMのためのL2仮想オーバレイネットワーク –  VMにlocation  independenceを提供 –  VMのトラフィックをconfigurable  overlay  networkに流流す •  元々はVirtuosoと呼ばれるvirtual  machine  grid   computingを構築するためのミドルウェア向けに提案 Fast-path links amongst Resilient Star Backbone the VNETs hosting VMs Userʼ’s Foreign host LAN LAN 1 VM Host 1 1 + Proxy IP network VNET + VNET Foreign host LAN 2 A.  Sundararaj  et  al.,  “Increasing  Application   Performance  in  Virtual  Environments   VM 4 VM Through  Run-‐‑‒time  Inference  and   Foreign host Host 4 VM Host 3 2 Host 2 Adaptation,”  HPDC05 + 3 Foreign host + + LAN 4 VNET VNET VNET LAN 3 7
  • 8. VNET/Pアーキテクチャ VNET/P Architecture User Space Guest OS Guest OS Application Application VNET/P Device Device Co t o Control Driver Driver Linux Kernel Virtual NIC Virtual NIC VNET/P Core VNET/P Bridge Palacios VMM Host Driver Physical Network L.  Xia  et  al.,  “VNET/P:  Bridging  the  Cloud  and  High   Performance  Computing  Through  Fast  Overlay   Networking,”  HPDC  2012. 9 8
  • 9. Data Path Data  Path  (Packet  Transmission) (packet t ( k t transmission) i i ) Guest TCP/IP Device Device stack Driver Driver VM Exit VM Entry Palacios vNIC VNET/P Core: VNET/P Bridge vNIC Exit Exit Handler Routing/ R ti / Send S d packetk t Handler encapsulation to host network VNET/P Ether IP TCP/UDP Ether IP UDP Ether IP TCP/UDP hdr hdr hdr Data hdr hdr hdr hdr hdr hdr Data Time 10 引⽤用:http://v3vee.org/talks/hpdc12-‐‑‒vnet.pdf 9
  • 10. Performance  Challenges •  Delayed  virtual  interrupts •  Excessive  virtual  interrupts •  High-‐‑‒resolution  timer  noise 10
  • 11. Delayed  Virtual  Interrupts Delayed virtual interrupts パケット受信時のタイムライン Fig.2 Packet Processing Time Line 11
  • 12. 最適化1:  Optimistic  Interrupts Optimization#1: An  optimistic,  timer-‐‑‒free  interrupt  injection  mechanism Optimistic Interrupts –  Early  Virtual  Interrupt  (EVI)  delivery ● Early Virtual Interrupt (EVI) delivery –  End  of  Coalescing  (EoC)  notification ● End of Coalescing (EoC) notification 12
  • 13. Early  Virtual  Interrupt  (EVI)  delivery 1.  割込み禁⽌止中 –  VMMで廃棄 –  後から来る割込みに暗黙的にcoalesceされる 2.  パケットが利利⽤用可能になる前にゲストハンドラが起動 Optimization#1: –  ゲストで無視 Optimistic Interrupts –  ゲストOSのCPUが無駄になる ● Early Virtual Interrupt (EVI) delivery End of Coalescing (EoC) notification 3.  パケットが利利⽤用可能になった ● 後にゲストハンドラが起動 –  ⼗十分早く処理理できなかった –  レイテンシが増加 –  最適化前のVNET/Pと同じ 11/08/12 13
  • 14. End  of  Coalescing  (EoC)  notification •  問題: –  EVI  deliveryが失敗するかもしれない –  ゲストのパケット処理理がオーバレイより速いかもしれない •  解決策: ホストの受信キューが空になったら、割込みを通知 –  ホストNICドライバがオーバレイシステムにEoCを送信 –  仮想NICがvirtual  interruptをinjectする機会を提供 •  効果: –  ⾼高解像度度タイマなしでレイテンシを抑制できる •  NICのinterrupt  coalescing  timerを⾼高解像度度タイマを⽤用いて模擬 するvirtual  interrupt  coalescingの既存研究は存在するが、OSノ イズの増加が問題だった 14
  • 15. 最適化2:  Zero-‐‑‒copy  cut-‐‑‒through   data  forwarding •  ホストNICとゲスト仮想NIC間のDMA転送 •  割込みあたりの転送パケット数の増加 •  (特に⽬目新しい仕組みではない) 15
  • 16. 実験 Testbed •  6ノードクラスタ:8コアAMD  Opteron  +  32GB  RAM   ● 6-node cluster: 8-core AMD Opteron CPU + 32GB RAM + +  NetEffect  NE020  10GbE  NIC NIC NetEffect NE020 10Gbps Ethernet •  VM:  4コアCPU  +  1GB  RAM  +  1  virtio  NIC ● Configuration: 11/08/12 14 16
  • 17. VNET/P+:  Near-‐‑‒native  MPI   P2P  Bandwidth/Latency VNET/ P+: Near- native MPI P2 P Bandwidth VNET/ P+: Near- native MPI P2 P Latency 11/08/12 15 11/08/12 17
  • 18. VNET/P+:  Near-‐‑‒native  MPI   Application  Performance NAS VNET/ P+: Near- native NAS VNET/ P+: Near- native Application Performance VNET/ P+: Native HPCC MPI Application Performance HPCC MPIFFT 11/08/12 HPC  Challenge  Benchmark:  FFT 17 (top) NAS  Parallel  Benchmarks (right) 11/08/12 11/08/12 18
  • 19. まとめ Virtual  overlay  networksはベアメタルに匹敵する MPIアプリケーション性能を達成可能 •  チャレンジ –  Delayed  virtual  interrupts –  Excessive  virtual  interrupts –  High-‐‑‒resolution  timer  noise •  最適化アプローチ –  Optimistic  interrupts –  Cut-‐‑‒through  forwarding •  最適化の効果 –  レイテンシ:  50%の削減 –  スループット:  >  30%の増加 –  性能のばらつきの抑制 19
  • 20. 蛇⾜足 •  Intelは、次世代VTで割込み仮想化のオーバヘッドを 削減(=VM  Exits回数の削減)するための拡張を予定 しており、さらなるI/O性能の改善が⾒見見込まれる –  APIC-‐‑‒register  virtualization –  Virtual  interrupt  delivery  (receiver  side) •  EOI割込みでVM  Exitsが不不要 •  Exit-‐‑‒less  Interrupt*のhardware  acceleration版というイメージ? –  Posted  interrupt  processing •  HPC⽤用途では、VMMパススルーで⼗十分では? •  Virtual  overlay  networks⾼高速化の需要は、むしろ エンタープライズ⽤用途にあるのでは? –  e.g.,  エッジ・オーバレイネットワーク *)  A.  Gordon  et  al.,  “ELI:  Bare-‐‑‒Metal  Performance   for  I/O  Virtualization,”  ASPLOS  2012. 20