大規模サービスを支えるネットワークインフラの全貌

Masayuki Kobayashi
LINE Corporation
masayuki.kobayashi at linecorp.com
NETWORK FOR :
⼤規模サービスを⽀えるネットワークインフラの全貌
LINE Developer Meetup #45 in Kyoto - 2018/09/27

Introduction
• ⼩林正幸 / Masayuki Kobayashi
• LINE株式会社
– IT Service Center – Network dept - Service Network Team
• Network Engineer
– LINEのプロダクションネットワーク全般の設計・構築
– Peering coordinator@AS38631

Agenda
• Data Center Network Architecture
– L2-Less, BGP Only Design
• Data Center Interconnect
– Segment Routing Backbone
• Next Challenge

LINEのネットワーク
Data CenterBackbone / DCIPeering EdgeInternetUser
⾃前で設計・構築・運⽤

ネットワークを設計する上で必要なこと
1. 膨⼤なトラフィックを処理できるか
– Tbps級のサーバ間通信トラフィック
– 地理的に分散した複数のDCを⼀つに⾒せる
2. 簡単かつ迅速にスケールアウトできるか
– シンプルで、繰り返し可能なアーキテクチャ
– Cloud Native時代の展開スピード
3. 安定した運⽤ができるか
– Failure domain ≒ L2 domainの最⼩化
– 機器が壊れることを前提としたN+1の設計

What’s Next?
2018~
JANOG39 LINEのインフラを運⽤して⾒えてきた課題(Japanese)
[Blog] https://engineering.linecorp.com/ja/blog/detail/135
[PDF] https://www.janog.gr.jp/meeting/janog39/application/files/9714/8609/7135/JANOG39_LINE.pdf
ネットワークの変遷
性能・拡張性・運⽤の限界
新しいアーキテクチャが必要

何が問題だったのか
1. 性能：⾼いオーバーサブスクリプションレート
– 現在のトラフィック量に対してネットワークがボトルネックに
– 同⼀PoD内にHadoopサーバーを配置する要件
2. 拡張性：スケールアップが必要な2N構成
– ⽚⽅の機器障害で、キャパシティが半減
– 簡単にスケールアウトできるネットワークが必要
3. 運⽤：L2ネットワークの運⽤はもう嫌だった
– L2はその仕様上、⼤きくなるほど運⽤負荷が⾼くなる
Ø BUM Traffic, VLAN管理
Ø Large L2 domain ≒ Large failure domain

S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
cluster cluster cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
10G
100G
100G
E1
Data Center Network Overview
cluster
BB PE
InternetGlobal
Network
FW NAT
100G
Data Center
基本構成

S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
10G
100G
100G
E1
Data Center Network Overview
cluster
BB PE
InternetGlobal
Network
FW NAT
100G
Data Center
Tbps級のサーバ間通信
East-West Traffic
数百Gbps
DCI Traffic
&
Internet Traffic
トラフィックパターン User

Tbpsを捌くLINEのネットワークアーキテクチャ
CLOS-style, Similar to RFC7938
S3
S2
S1
=ToR
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
S = Stratum
E1
cluster
E = External
Switches
Servers

PoD
S1: Top of Rack Switches
S3: Top of Spine Switches

S3
ServerS2 S1S2S1Server
5-stage CLOS network (Unfolded)
AB
rack
AB
rack
AB
rack
・・・・・
AB
rack
・・・・・
・・・・・
・・・・・
最も離れたラックのサーバ間通信も最大5ノード経由すれば到達できる

サーバ間通信にボトルネックが発⽣しない設計
S3
S2
S1
SV
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
E1
cluster
Top of Rack(ToR)：
サーバ48台を接続、1ラックにつき2台で冗⻑
Uplinkは100G x 4port, 2台で最⼤800G
ToRを収容, 上下帯域はノンブロッキング：
クラスタ内のノード数は4で固定(S1のUplink数)
クラスタ数はS1の数(ラック数)で決定
最も離れたラック間の通信を処理：
クラスタの数は4で固定
クラスタ内のノード数は、S2のクラスタ数で決定
外部との通信を処理：
インターネット、他のDC宛の通信など
PoD内で完結する通信はここに到達しない
便宜上”クラスタ”と呼んでいるが、
クラスタ(同じ階層)の機器同⼠は接続しない。
10G
100G
100G
100G
100G

すべての階層でスケールアウト可能なN+1構成
S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
E1 cluster
cluster cluster
A B
rack
A B
rack
ノード追加
クラスタ追加
ラック追加
リンク追加
単⼀故障時の縮退率が⼩さくなる

↑ スイッチ専⽤のラック列(すべて100G)
32port x 100Gのホワイトボックススイッチを採⽤
電源投⼊後はほぼ⾃動でネットワークに復帰(ZTP + Ansible)

S3
S2
S1
SV
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
E1
cluster
Goodbye, L2 Extension!
サーバからインターネットまでBGP⼀つ
ü すべての機器をEBGP接続
サービストラフィックを扱う機器すべて
10G
100G
100G
100G
100G
EBGP
Underlay
ü サーバに直接BGPを喋らせる
ToRの切替時にトラフィックロスがゼロ
ü DC内からL2ドメインを排除
LAG無し、L2オーバーレイ無し、L3のみ
ü 4-byte Private ASNを利⽤
Loopback IPから⼀意に算出、管理不要
ü P2Pリンクにアドレスを付けない
RFC5549 BGP Unnumbered

なぜBGPを採⽤したのか
1. ⼤規模環境で利⽤しやすい
– 標準化され使い慣れているプロトコル
– IGP(IS-IS, OSPF)はフラッディングメカニズムがスケールの障壁に
2. 経路制御がしやすい
– ECMPやAnycastに加えて、迂回や経路フィルタが簡単
– IBGPはその仕様上の制約が多いためEBGPを選択
3. BGPは任意の情報を広報できる
– 将来的なAFI(SAFI)/NLRI拡張技術への対応可能性
• 例: Advertising Segment Routing Policies in BGP

BGPによるトラフィック制御
S3
S2
S1
=ToR
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
E1cluster
BB PE
Internet
Global
Network
FW NAT
10G
100G
100G
100G
ECMP
Load-Balancing
NAT & FW: VRF-Redirect
特定の送信元/宛先IPの通信を
専⽤機器宛に捻じ曲げる
DC内トラフィックはすべてロードバランシング
BGPパス属性が等コスト(Multipath-Relax)

BGP Onlyにしたことによるメリット
S3
S2
S1
=ToR
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・・・・・・・・・・・
E1cluster
BB PE
Internet
Global
Network
FW NAT
10G
100G
100G
100G
4. BUM Trafficの範囲を極⼩化:
• Failure domainの最⼩化
• VLAN管理からの解放
1. メンテナンス性の向上:
• ベンダ依存のプロトコルの排除
• 特定の機器のIsolateが簡単(AS-PATH Prepend)
• BFDが不要(Interface down = BGP down)
3. モビリティの向上:
VMをどこにでも移動できる
2. 設定の⾃動化:
• 個別のパラメータが少ない
• BGPの設定を共通化

運⽤
⾃動化しやすいBGP設定フォーマットを採⽤
router bgp 4215270229
bgp bestpath as-path multipath-relax
bgp router-id 10.233.1.85
bgp max-med on-startup 60
neighbor 10.1.1.1 remote-as 4212364501
...
router bgp 4215270229
bgp bestpath as-path multipath-relax
bgp router-id 10.233.1.85
bgp max-med on-startup 60
neighbor swp1 remote-as external
...
⼀般的なBGP設定
機器ごとにユニークなパラメータ
Unique Unique
ü I/FでBGPを有効化 → NeighborのAS番号とIPの指定が不要
ü BGP OPEN MessageのAS番号チェックを緩和(RFC4271違反)
ü 個別のパラメータを最⼩限にすることで、設定をテンプレート化
ü サーバとネットワーク機器で共通のオペレーションが可能
LINEで採⽤しているBGP設定(FRR)
すべての機器で共通
ASNはrouter-idから⾃動算出

運⽤
S3から⾒たBGP Neighbor
• BGPでhostnameを渡す
• オペレーターに優しい
• LLDPと合わせてトポロジ作成
S1で⾒た経路情報(左:BGPデーモン, 右:Linux Kernel)
• /32はサーバのIP
• IPv4経路のNext-hopはIPv6 LLA(左)
• ダミーIP(169.254.0.1)を経由してカーネルにインストール(右)
• 対向のLLAからMACアドレスを割り出しネイバーエントリ作成
実際の経路情報

経路フィルタの⾃動制御
• Web UI上でサーバにIPをリクエストした時点で、割り当てと広報が開始
– 設定ミス等で意図しないトラフィックの誘引(ハイジャック)が起きる可能性
• ToRに経路フィルタを設定、許可されたIPのみ⾃動でフィルタ開放
– Controllerが隣接関係情報から対象のToRを特定し、定期的にAnsible実⾏
BareMetal Server
hostname: line
ToR
Switch A
BareMetal
Controller
Network
Controller
Topology
Controller
Ansible
RabbitMQ
Server User
1. Request IP
(Web UI)
2. Call filter API
2’. Assign IP:
203.0.113.100
3. Query peer info
{hostname:line}
4. Response switch info
{hostname:switch A}
5. Update filter data
{hostname:switch A, filter-in:203.0.113.100}
6. Add Ansible task
{hostname:switch A}
8. Update filter
7. Slack notify

国内拠点事例1
S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
A B
rack
cluster
A B
rack
・・・・・・・・・・・・・・・
E1 cluster
6,720台
280台
56台
20台
4台
100G x 2 links x 5 switches x 4 clusters
4,000 G (6%)
67,200 G (100%)
10G x 48 servers x 140 racks
Server Uplink
56,000 G (83.3%)
100G x 4 links x 140 racks
S1 Uplink
56,000 G (83.3%)
100G x 10 links x 4 switches x 14 clusters
S2 Uplink
140 Racks
14 clusters
4 clusters
DR-Site, 同⼀PoD内にHadoopサーバを配置する要件

国内拠点事例2
プロダクションネットワーク, ホワイトボックススイッチ948台

SEGMENT ROUTING MPLS
複数のDCを⼀つに⾒せるネットワーク
Data Center Site 2 Data Center Site 1Data Center Interconnect
EBGP EBGP
Underlay BGP Underlay BGPMP-BGP w/ SR
各DCの内部構成を隠蔽する低遅延な共有転送基盤
L3 Reachability
DC間を異経路冗⻑の回線で接続

セグメントルーティングの導⼊
障害のサービス影響を最⼩限にするトランスポート
Data Center Interconnect
Payload Payload PayloadPayloadPayload
VPN Label
SR Label
VPN Label
SR Label
VPN Label
サーバ間通信
ユーザ向け通信
Traffic Engineering
SR Label
障害発⽣
迂回経路⽤ Adj-SID Label
宛先ノード⽤ Prefix-SID Label
通信識別⽤ Label
迂回経路
TI-LFA
SID:16103
SID:16104
SID:16101
SID:16102
Data Center Site 2 Data Center Site 1
ユーザ向けと内部向けで通信を分離各拠点でAS番号を再利⽤可能重要な通信をクラシファイ

なぜセグメントルーティングを採⽤したのか
1. 使い慣れたMPLSをデータプレーンに利⽤できる
– 拠点間のVPN通信にMPLSのラベルスタックが必要
• シンプルなVPNサービストランスポートとしての役割
– Segment-ID(SID)をIGPで広報するだけで動く
2. シグナリングプロトコルを排除できる
– 今後の拡張を考えると、Hop-by-Hopのステート設定は排除したい
– Binding SIDの有効活⽤に期待
3. TI-LFA FRR & SR-Policyが利⽤できる
– ファイバカットなどの障害の影響を最⼩限にする
– Prefixごとの回線使⽤⽐率調整など(未導⼊)

まとめ
1. 膨⼤なトラフィックを処理できるか
ü サーバ間通信に対してノンブロッキングになるように設計
ü ⾼密度100Gスイッチの採⽤
ü 低遅延・広帯域の回線でDC同⼠を接続
2. 簡単かつ迅速にスケールアウトできるか
ü CLOSネットワーク化によりスケールアウトが容易に
ü ホワイトボックススイッチの⾃動化で展開スピードが向上
3. 安定した運⽤ができるか
ü L2を作らない
ü 機器が壊れても影響の少ないN+1冗⻑
ü シンプルな制御のバックボーンネットワーク

最後に
• もっと詳しい話は懇親会で!
• 技術的な意⾒交換会なども⼤歓迎です
• We are hiring
– Tokyo: https://linecorp.com/ja/career/position/229

APPENDIX:
DESIGN THE FUTURE NETWORK
OUR NEXT CHALLENGE

これからのLINEのネットワーク
サービス開始
• Single PoD
• Vender Lock-in
• Hardware LB
急拡⼤期
• Multi PoD
• Vender Lock-in
• Hardware LB
安定運⽤期
• Fabric network
• L2-less underlay
• Disaggregation
• Software LB
Next Level
• Programable
Data Plane
• NFV
• Service Chaining
⼀般的なネットワーク機器だけでは実現できない領域へ
コモディティ化した機器で構築していたネットワーク
標準化され枯れたプロトコル&頻出のユースケース
Phase 1 Phase 2 Phase 3 Phase 4
今ここ
LINEが求めるデータプレーンとコントロールプレーン実装
⼀般的なネットワーク機器と適材適所で組み合わせて運⽤

SRv6 Overlay
VPN & Service Chaining
Segment Routing IPv6 Data Center
Server = SRv6 Strategic Node
BGP CLOS Underlay = Packet Transit Node
BGP CLOS Edge = SRv6 Endpoint Node
Tenant #1 Production
Tenant #2 Development
Tenant #3 Load Balancer
LB
VRF
Target Network
検証中
END.DX4
VRF
VRF
ü 転送処理に徹底したDCアンダーレイ
ü ルーティングヘッダによるサービスオーバーレイ
ü Unified Data Plane
IPv6 Underlay
Stateless, Pure IP ECMP
FW
海外拠点で導⼊検討中のユースケース

大規模サービスを支えるネットワークインフラの全貌

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 大規模サービスを支えるネットワークインフラの全貌

Similar to 大規模サービスを支えるネットワークインフラの全貌 (20)

More from LINE Corporation

More from LINE Corporation (20)

Recently uploaded

Recently uploaded (9)

大規模サービスを支えるネットワークインフラの全貌