Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる

http://www.impressbm.co.jp/event/dcc2013summer/
ビッグデータが注目を集めているが、以前から相当量のデータを扱う分野がある。それは天文学である。
科学的成果の発見のため、国立天文台は大量の天文データを高速に処理するためのさまざまな研究開発を行っている。そうした取り組みの1つに、急速に処理性能が向上しているPCサーバー、ストレージデバイス、ネットワークデバイスを徹底的に活用し、廉価に100Gbpsを超える通信を処理するシステムの研究開発がある。
この研究開発では、天文学の発展はもとより、その汎用性を生かして、高性能で廉価なプライベートクラウドの構築と運用への応用も進めている。
本講演では、本開発に携わる国立天文台・天文データセンターの大江将史氏を交え、こうした分野のトレンドや課題、解決のポイントなどを対談形式で議論する。

  • Als Erste(r) kommentieren

データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる

  1. 1. ネットワーク帯域を使いまくる:ボトルネックの解消高いコストパフォーマンスでアプリケーション性能をたたき出せ!おおえまさふみ天文データセンター国立天文台imp_DC2013_OE 1
  2. 2. 自己紹介•大江将史 (おおえ まさふみ)http://fumi.org/•所属:自然科学研究機構 国立天文台天文データセンター 助教•なにしてるのか?• 専門は、ネットワークセキュリティ、衛星通信、無線通信など• 天文と情報ネットワークの融合に関する研究等• 国立天文台のネットワーク運用や設計等「星を見るのにデータセンタ?ネットワーク?」その疑問はごもっともです.imp_DC2013_OE 2おおえまさふみ 検索
  3. 3. imp_DC2013_OE 3コンピュータによる観測データの計算機解析シミュレーション計算(天文学)大規模なデータをコンピュータとネットワーク駆使して解析天体望遠鏡からのデータは,ネットワークで伝送コンピュータとネットワークなしには天文学は成り立たない
  4. 4. ハワイ島マウナケア山頂すばる望遠鏡imp_DC2013_OE 4
  5. 5. すばる望遠鏡オペレーションルーム すべてコンピューターで制御imp_DC2013_OE 5
  6. 6. 天文学とデジタル化の事例imp_DC2013_OE 6高感度CCD -100℃に冷却合計約8億7000万画素天体のデジタルデータ巨大なデジタルカメラすばる望遠鏡のあたらしい目HSC: Hyper-Suprime-Cam すばる望遠鏡複数のデータセンターにてアーカイブコンピュータで解析インターネット上で公開 ICTは天文学の発展に貢献
  7. 7. 今日のテーマデータセンター内に展開される各種システム上でアプリケーション性能をたたき出し,かつ,コストパフォーマンスを高めるには,様々な技術を理解し,ボトルネックを排除する必要があります.性能をたたき出すための切り口•サーバPC•ネットワーク&人imp_DC2013_OE 8
  8. 8. サーバPCの今知っているようで,知らないのがPCimp_DC2013_OE 9
  9. 9. PCを徹底活用:ULTRA計画(2012~)の背景10• 天文学を支えるハイパフォーマンスなネットワークシステムへの要求– 天文学専用スパコンシステム(岩手・東京)• 500Tflops 演算ノード (岩手)• ストレージノード(東京)– VLBI観測システム(東京・岩手・沖縄・等)• 観測ノード(各所)• 解析ノード(東京)今,演算・ストレージ・IPネットワークを効率よく連携させる仕組みが自然科学の発展には必要不可欠+プライベートクラウド構築・運用における高性能・高コストパフォーマンスの実現と構築ノウハウの習得計算ノードストレージimp_DC2013_OE
  10. 10. コストの観点から見る開発・構築ゾーンコスト性能カスタムASIC(PC +) FPGA(PC +) FPGA on NICこの領域がULTRA計画の開発ゾーン11imp_DC2013_OEPC+NIC 40Gbps FPGAフルカスタムチップ20GbpsNIC + FPGAPC + NIC
  11. 11. FGPAなど高価なハードウェアならでわの領域安価なPCで踏み込める領域コストの観点から見る開発・構築ゾーン12低遅延性能広帯域imp_DC2013_OE
  12. 12. FGPAなど高価なハードウェアならでわの領域安価なPCで踏み込める領域コストの観点から見る開発・構築ゾーン13低遅延性能広帯域2012 第1世代 ULTRA40 大沢PCI-E2.0 10GbE NICIPフォワーディング 45Gbps100Gbpsコンテンツ送信性能2011 PCルータ20Gbpsimp_DC2013_OE・gnodal(>150nsec)• Cisco(>60/200nsec)・ARISTA(>500nsec)
  13. 13. 2012年 ULTRA計画初号機 「野川」&「大沢」PCで“100Gbps”を実証•高機能IPルーター 「野川」• 実効L3 バックプレーン容量 75Gbps• 80Gbps (QSFP+ 40GBASE-R x 1) + 10GbE x 2• 超高速ストレージモジュール搭載• 4GByte/sec 連続書き込み可能な超高速ストレージ• ネットワーク速度がディスク速度を超えている.• トラフィックロギング・ストレージアクセラレータ機能•高機能IPルーター 「大沢」• 18 x 10GBASE-R• 実効L3バッププレーン容量 100Gbps• サービス妨害攻撃機能14imp_DC2013_OE100Gbpsコンテンツ送信能力
  14. 14. FGPAなど高価なハードウェアならでわの領域安価なPCで踏み込める領域PC性能向上の方向性?コストの観点から見る開発・構築ゾーン15低遅延性能広帯域2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage2011 PCルータ20Gbps ?msecimp_DC2013_OE・gnodal(<150nsec)• Cisco(<60/200nsec)・ARISTA(<500nsec)2012年 ULTRA40 「野川」&「大沢」多機能IPルーター4GB/sec 読み書き可能な高速ストレージ100Gbps コンテンツ送信性能45Gbps IPフォワーディング性能18x 10Gbase-R or 2x 40Gbase-R I/F 搭載
  15. 15. FGPAなど高価なハードウェアならでわの領域安価なPCで踏み込める領域コストの観点から見る開発・構築ゾーン16低遅延性能広帯域2011 PCルータ20Gbps ?msecimp_DC2013_OE・gnodal(<150nsec)• Cisco(<60/200nsec)・ARISTA(<500nsec)2013年での挑戦すべき方向性非常識ですが風穴をあけてみたい2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage
  16. 16. PCサーバの性能「連雀」:高機能PCサーバ・ルータ基盤imp_DC2013_OE 17国立天文台が天文データ処理用のPCサーバ / ルーター プラットフォームとして開発Linux OSを基に低遅延・広帯域処理能力を目標に設計・開発PCI-E 2.0 2x 10GbE-SFP+ x 10 (最大12port)Interop2013 オープンルーターコンペティション(ORC)富士通賞受賞Intel SandyBridge-E overclock
  17. 17. 「連雀」の性能:低遅延&広帯域の両立imp_DC2013_OE 18遅延時間7μsec~ 18usecを安定して達成[μsec]フルメッシュIPフォワーディング性能を計測器で長時間検証広帯域&低遅延を両立
  18. 18. FGPAなど高価なハードウェアならでわの領域安価なPCで踏み込める領域PCサーバの性能向上が客観的によくわかる19低遅延性能広帯域2011 PCルータ20Gbps ?msecimp_DC2013_OE2013 ULTRA200 連雀200Gbps / <17μsec2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage
  19. 19. PCサーバの性能向上は今後も続く,2014年には,400Gbps処理能力を有するか?2011年 ?? Intel Core + PCI-E2.0 1x10GbE NIC• なんとか10Gbpsを絞り出せるレベル2012年「大沢」「野川」(第1世代)Intel Nehalem +PCI-E2.0 2x10GbE NIC + Offload• コンテンツ送信力は,100Gbps2013年「連雀」(第2世代)Intel SandyBridge-E + PCI-E2.0 2x10GbE NIC + Offload• その処理力は,200Gbpsへ向上2013年「(秘密)」(第3世代)Intel Haswell + PCI-E3.0 NIC Full 40GbE NIC + Offload• その処理力は,400Gbpsへ?imp_DC2013_OE 20• 機器は<50万円程度• 10Gbpsどころか,誰もが100Gbps~200Gbpsを扱える時代• 単一サーバで,高パフォーマンス・アプリケーションを実装可能
  20. 20. 性能向上の裏にPCサーバの高性能化と短寿命化•仮想化を担うPCの「仮想化」としての用途寿命が低下• PCの入れ替え作業が極めて低コスト• PC性能向上により仮想PCの収容数や仮想PCの性能がアップ•なぜ?• PCの性能向上に伴い仮想化収容率が向上• SandyBridge世代 = 30仮想PC / 物理筐体• 価格そのままに,性能向上• Neharem/Westmere(Intel 5520) SandyBridge (Intel C602)• 12M cache  20M cache• QPI 6.4GT/s  8.0GT/s• PCI-E2.0PCI-E3.0• 96GB-DDR3_1600192GB-DDR3_1600高額なサーバの長期使用はコストの割に合わないボリュームゾーンのサーバを用途別に短期更新メーカー製製品がどうかの検討が必要1軍(Sandy Bridige)• 仮想化主系サーバ2軍(Westmere/Neharem)• 仮想化副系サーバ• ストレージシステム3軍(Neharem)•予備・検証実験用サーバなどimp_DC2013_OE 21用途寿命が短い
  21. 21. 物理構成からみる「省力化」PCクラスターメンテナンスコストを引き上げるケースは不要・メーカPCは不要imp_DC2013_OE 22(C) CfCA, NAOJ(C) CfCA, NAOJ
  22. 22. PCのポイント•性能向上の余地がまだまだある•Haswell アーキテクチャへの進化• 来年には約2倍以上の性能向上が見込まれている(HPCの例)• DDR4メモリー• 高クロックメモリー•PCI-Eの高速化• M/Bやチップセットは,PCI-E3.0に対応• 2013年中盤からPCI-E3.0 x8 仕様のNICやRAIDカードなど多数登場•メンテナンスを考慮したシステム構成の究極例imp_DC2013_OE 27
  23. 23. ネットワークimp_DC2013_OE 28
  24. 24. データセンターのバックエンドネットワークを支える「インフィニバンド」と「イーサー」:両社進化の背景目指す方向性は「高性能」だが,その進化の背景は異なるインフィニバンド「単機能&高バンド&低遅延」• インターネットサービス上で提供するアプリケーションの性能を達成するべく進化• シンプルさを生かして,高性能を素早く実装,市場に展開イーサーネット「高機能+進化する高バンド&低遅延」• インターネットの速度感で,異速度差の混在や,高度なフォワーディング性能,セキュリティ機能,等を達成するべく進化• マスボリュームを生かして,高機能な実装を安価に提供サーバの集約・サーバの高性能化等を背景にイーサーが激しく追っかけるimp_DC2013_OE 29
  25. 25. インフィニとイーサーネットのシェアimp_DC2013_OE 30
  26. 26. インフィニバンドのポイント• 物理層は,IEEE802.3と同様(10GbEやFiber Channel)• 帯域は,1レーン 全二重10Gbps(QDR) / 14Gbps(FDR)等• レーンはアグリゲーションが可能(x4やx12)• ノード間の場合は,40Gbps(QDR) / 56Gbps(FDR) の帯域• 1μ秒の低遅延• RDMA(Remote Direct Memory Access)による低遅延・低負荷処理• CPUはアダプタにデータを渡せば完了=CPUの負荷軽減帯域・低遅延などアプリケーションの要求を達成するシンプルなシステムアダプタカードスイッチ ケーブルimp_DC2013_OE 31
  27. 27. インフィニバンドの活用事例•アプリケーション性能を達成するための構成要素• Oracle Exalogic : Weblogic server + Infiniband• HPCシステム全般• TOP500の45%はインフィニバンドをインターコネクトして活用イーサーネットとは全く違う立ち位置•高帯域・低遅延を生かして,アプリケーション性能を高めている.•コモディティ化してなくてもHPCやシステム向け出荷数は多い•機能がイーサーに比べシンプルなため,広帯域・低遅延を安価に提供• イーサネットより安い.imp_DC2013_OE 32
  28. 28. イーサネット(NIC):進化は止まらない•まだ1GbEを束ねるんですか?• 性能は出ませんし,ケーブルも煩雑です.•40ギガ・10ギガのネットワークカードの価格・性能• 2009年:10ギガx1 20万円• 2010年:10ギガx2 <10万円• ただしワイヤーレートではない.• 2011年:10ギガx2 <7万円• 各種CPUをオフロードする実装・ワイヤーレート• 2012年:10ギガ,40ギガ <7万円• 40GbE or 4x 40GbE on PCI-E2.0 x8 (=オーバーサブスクライブ)• サーバ内蔵• 2013年:PCI-E 3.0 & 40ギガフルレート <8万円?イーサーは高機能にも関わらず急速に高性能化と低価格化が進んでいる.• サーバもCPUのメモリーコントローラ内蔵や,PCI-E2.0などにより,10GbEを十分処理できる性能を有するimp_DC2013_OE 3310Gbase-R x 2 (PCI-E2.0x8)
  29. 29. イーサネット(NIC):進化は止まらない• 強力なオフロードや仮想化支援実装が常識例)Chelsio T4 ASIC アーキテクチャ• オフロード実装により,TCP/IP処理,メモリバンド,CPU負担を軽減• RDMA やTCP/IPスタックのカットスルーによる低遅延化• Directed I/O (VT-d)対応:ハードウェアによるI/O仮想化支援• メーカーによって,設計思想が異なる.• 低遅延指向,バンド幅指向などなどimp_DC2013_OE 35
  30. 30. NIC オフロードの効果:200Gbpsのトラフィック処理をおこなっていても15%のCPUリソース消費に抑えられているimp_DC2013_OE 36
  31. 31. イーサネット(スイッチングハブ):進化は止まらない•GoogleからのRFP 1ポート= 100US$•高性能なスイッチングハブ用汎用チップが支える• Fulcrum Microsystems(現Intel)• Broadcom• Dune Networks(現Broadcom)•安価で高性能化・廉価化が進む.• 10G多ポートでも100万円以下• 30Tbps級のバックプレーンや,10GbE x 1152の高密度収容も実現•金融からの低遅延,高機能化への要望• FPGA搭載NICや,SWの登場imp_DC2013_OE 3740GbE 多ポートスイッチ
  32. 32. ネットワークのまとめ• ネットワークが低遅延・広帯域であることは,アプリケーションの性能を高める上で必須です.• 逆説的ですが,インフィニの進化が証明• そして,それが低価格でできるようになったのが「今」• 安価で高性能な10Gbpsクラスのカードを利活用して,システムを作りこむことで,100Gbps級の処理も可能• イーサネットカードは,目指すアプリケーションの仕様にあわせて,メーカー・OSパラメータ(割り込み・RSS・CPU基本パラメータ等)調整する必要• 低遅延最優先(=ショートパケットは弱い)• ショートパケットに強いが低遅延はむつかしい• 野川・大沢・連雀などがその性能を実証• イーサーネットの場合,ネットワーク上の異速度の混在は,CPU/NIC/スイッチに負担をかける.• フル10GbEなど,1GbEを介在させない.• その最大性能は,バッファリングやフロー制御によって削られていく.imp_DC2013_OE 38
  33. 33. サーバPC編+ネットワーク編のまとめだれもが高性能なデータセンターを構築できる時代• CPUもメモリーもコストを意識して調達• メーカー製を選ばないのも選択肢最新世代のボリュームゾーンを活用• 割り込み・CPUの省電力などのパラメータ調整,オフロード実装により性能が向上アプリに応じた徹底チューニング• 安価で高性能,これからは,PCI-E3.0対応を追っかける.NIC・アダプタは最新世代を利用• NIC速度のハイローミックスをしない• 10GbEならば,10GbEで構成するとベストパフォーマンス• 速度差はネットワークに任せるのでなく,アプリケーションで工夫する.• LAG(bonding)で帯域を稼がない10GbE/40GbEの徹底活用imp_DC2013_OE 39
  34. 34. エンジニアの「速度感」に潜む課題インターネット/ネット担当とアプリ担当の分業化とボトルネックimp_DC2013_OE 40
  35. 35. 私がここ2年くらいで感じる課題「インターネットエンジニアとアプリエンジニアのネットワークの速度感が乖離した」ネットワーク構築でよく聞く話:「10ギガ多ポートスイッチなんて,帯域埋められませんね.」「うちは1Gで十分ですよ.足りなかったらアグリゲーションション」「40ギガ?要らんいらん,10ギガも使い切れてないのに?」その速度感に疑問を感じませんか?imp_DC2013_OE 41
  36. 36. 速度感が分かれた「2人のエンジニア」クラウド,WEB2.0,仮想化,どんどんサービスが高度化(両者の境界は曖昧だったが速度感はおなじ)インフィニ・PC・ストレージなどアプリを高速化するハードウェアの市場形成帯域幅時間速度感の違いimp_DC2013_OE 42
  37. 37. 「帯域」ギャップ:我々の意識はどちら?アプリケーションエンジニア視点• サーバエンジニアを含む• データセンターラック内を大容量トラフィックが駆け巡っている• 仮想化・ストレージ・データセンターネットワーク(仮想化スイッチ・VXLAN等)• 帯域はあってもあっても足りないインターネットエンジニアの視点• インターネットエンジニアがエンタープライズネットワークのエンジニアを担う• インターネットアクセス速度の感覚でエンタープライズネットワークを意識して設計• 10Gbpsアップリンク,1Gbpsアクセスで十分なイメージimp_DC2013_OE 43
  38. 38. アプリエンジニアがイーサを活用する•アプリの視点からは,目標達成に手段は選ばない.• 貪欲に技術を習得・最新技術をキャッチアップ:背負うものが大きい↓•クラウド・仮想化・高可用性システム設計・分散ストレージ・VDI等・・サーバ集約化により,帯域が足りない!が・・• サーバはマイクロアーキテクチャとPCI-Eバスの高速化• 10/40GbE PCI NICが安価に登場する背景イーサーにおいても,その帯域不足を埋める役者がそろう「アプリエンジニア」が「インターネットエンジニア」が愛する「イーサ」を最大限活用している.•インターネットエンジニアは,だいじょうぶ?• 知識が古くなって,アプリに迷惑かけてないですか?• アプリエンジニアとインターネットエンジニアが分業する時代は終焉だとおもいませんか?imp_DC2013_OE 44
  39. 39. これからの時代• アプリケーションの求めに応じたシステムパフォーマンスは素直にどんどん向上(させないといけない)• アプリ性能を劇的に進化するのは,以下の役者を生かしきった時• ネットワークの低遅延・広帯域化• 40GbE/100GbEなど高性能フルレートNIC• SSDなどの超高速デバイス• ネットワークの低遅延・広帯域に後れを取らない性能• デバイスを生かしきれる高性能サーバPC• SandyBridge/ Haswell• ネットワークスイッチングハブ向け汎用チップ化と帯域単価の下落すべては整いつつある.我々は備えなければならない.imp_DC2013_OE 45
  40. 40. ありがとうございましたimp_DC2013_OE 46おしらせ*国立天文台三鷹キャンパスでは,毎月2回公開天体望遠鏡を使った観望会を開催中!*2013年10月18-19日に国立天文台三鷹キャンパスを特別公開します!詳しくは国立天文台ホームページをご覧ください.口径30m次世代超大型望遠鏡(TMT) 始動http://tmt.mtk.nao.ac.jp/1000円から参加できるTMT 第二期寄付金募集中!TMT完成予想図(c)2010ThirtyMeterTelescope

×