23. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
iSCSIを使ってしまうと…
0
500
1000
1500
2000
2500
sequential read sequential write
MB/s
スループット
SAS3 (local) NVMe (local) NVMe over iSCSI
0
100000
200000
300000
400000
500000
600000
700000
random read random writeIOPS
IOPS
SAS3 (local) NVMe (local) NVMe over iSCSI
• 何も考えずにOS標準のiSCSI機能を用いると上の通りスループット、IOPSともに大幅に性能
が落ちてしまう。
• 通常はもう少し考慮してNICのオフロード機能やRDMA対応のプロトコル(iSER, SRPなど)を
使うことが想定されるが、それでもSCSIのプロトコルに変換することによるオーバーヘッ
ドからは逃れられない。
24. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
強い味方:NVMe over Fabrics
出典:https://www.openfabrics.org/images/eventpresos/workshops2015/DevWorkshop/Monday/monday_10.pdf
• RDMA(InfiniBand, RoCE, iWARP)の高速通信を使って、あたかもローカル
のNVMeにアクセスするようにNVMeをアクセス可能!
• 2016/6/5(私の誕生日)にSpecificationのRevision 1.0が公開!
25. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
NVMe over Fabricsの構成
出典:http://www.nvmexpress.org/wp-content/uploads/NVMe_FMS_2015_Presentations.zip
zipファイル内の FMS 15 - NVM Express over Fabrics - Performance and emerging NVM impact-....pdf
ホスト側 ターゲット側
26. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
iWARPを使ってみました
• Chelsio T580-LP-CR (40Gigabit Ethernet Adapter)
• Chelsio社のNICではRDMAでTCPを転送するiWARPが使用可能
• Chelsio社提供のNVMe over Fabricsテストコードを使用
• コミュニティ版のコードも以下で公開済みだが、まだ安定していないらしい…。
git://git.infradead.org/nvme-fabrics.git
• RHEL 7.2のカーネルを入れ替えて実行
27. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
ローカルと遜色なし!
0
500
1000
1500
2000
2500
sequential read sequential write
MB/s
スループット
SAS3 (local) NVMe (local)
NVMe via iSCSI NVMe over Fabrics
0
100000
200000
300000
400000
500000
600000
700000
random read random write
IOPS
IOPS
SAS3 (local) NVMe (local)
NVMe via iSCSI NVMe over Fabrics
28. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
レイテンシーも健闘
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
random read random write
ミリ秒 Response time (I/O size 4kB, thread=1)
SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics
29. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
レイテンシーも健闘
0
1
2
3
4
5
6
7
8
9
random read
thread 1
random read
thread 16
random read
thread 128
random read
thread 512
random write
thread 1
random write
thread 16
random write
thread 128
random write
thread 512
ミリ秒
threads
Response time (thread数を増やした場合の変化)
SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics
30. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
NVMe over FabricsでOracle!
NVMeNVMe
iSCSI NVMeOF
• InsightQube NVMeモデルをもう1台用意
し、その間をChelsio社の40Gbit Ethernetで
直結する。
• ターゲット側のNVMeを2枚ずつiSCSIと
NVMe over Fabricsでイニシエータ側に接続
し、それらのディスクをASMのディスクグ
ループとしてセットアップし、Oracleで使
用可能とする。
40GbE
結果は…
わかりますよね?
31. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
NVMe over FabricsでDWH!
0
200
400
600
800
1000
1200
1400
SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics
秒
TPC-H SF=100GB
Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11
Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21 Q22
32. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
10330.91
11873.84
10423.45
11091.85
0.00
2000.00
4000.00
6000.00
8000.00
10000.00
12000.00
14000.00
SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics
TPS (Transactions Per Second)
NVMe over FabricsでOLTP!
33. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
実は…
• NVMe over FabricsのコードがマージされたLinux kernel
がリリースされるのはもう少し先(おそらく4.7)。
• さらにRHELやUbuntuがこのコードをバックポートする
のはおそらくもっと先。
• ディスク障害時の動作など、実際の運用に必要な動作
についてはさらに検証・作り込みが必要
• SRPなどでも同じですが…
• ちなみにターゲット側でNVMeを抜いただけだとホスト側は無
反応でした。
• 次に起こるのはネットワークボトルネック。100Gbitで
も足りない!
• 今回の40Gbit Ethernetだと2本で上限
• InsightQubeだとNVMeが最大8本搭載できてしまう
34. * 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.
まとめ
• PCIeベースとすることでスループット・IOPSには絶大
な威力。DWH系処理では速度向上に直結。
• レイテンシー低下によりOLTPにも効果あり。ただし劇
的というほどではない。OLTP処理でもっと処理能力を
上げるには、別のソリューション(NVDIMMとか)が必要
かも。
• ノード間接続はNVMe over Fabricsが今後の標準。NVMe
の性能の優位性をそのまま確保できる。
• ただし実用的に使えるようになるにはまだ時間がかか
りそう。