Presentation from SanEd training day for Oracle Solaris customers to explain new networking features in Solaris 11.
Presentation covers following themes:
- Infiniband
- administration of virtualized networks (dladm, dlstat, flowadm, flowstat, ipadm), network automagic (NWAM) (netadm, netcfg), ip multipathing (ipmpstat)
- network storage (CIFS/SMB filesystem - sharectl, idmap, smbadm), COMSTAR (stmfadm, sdbadm, itadm)
5. 5
infiniband
Vývoj sítě Infiniband
● vývoj od 1999 - system area network
– Future I/O (IBM, HP, Compaq (Tandem))
– Next Generation I/O (Sun, Intel, Microsoft)
● InfiniBand Trade Association (infinibandta.org)
● OpenFabrics Alliance (openfabrics.org)
– OpenFabrics Enterprise Distribution (OFED)
● TOP500 superpočítačů
Čer
2003
Lis
2003
Čer
2004
Lis
2004
Čer
2005
Lis
2005
Čer
2006
Lis
2006
Čer
2007
Lis
2007
Čer
2008
Lis
2008
Čer
2009
Lis
2009
Čer
2010
Lis
2010
Čer
2011
Lis
2011
0
100
200
300
400
500
gigabit
ethernet
infiniband ostatní
6. 6
Funkce nabízené sítí Infiniband
● koncept
– přímý přístup k síťovému rozhraní (kernel bypass)
– založeno na vzdáleném přístupu k paměti s daty
● Remote Direct Memory Access (RDMA)
– virtuální komunikační kanál/spojení
● spojený lokální a vzdálený pár odesílacích a
přijímacích front (Queue Pair)
● transportní služby
– Infiniband Reliable/Unreliable, Connected/Datagram
● RC, RD, UC, UD
– také přímo (raw) Ethernet a IPv6 (rfc4392)
● operace Infiniband transportních služeb
– zaslání a příjem zpráv (i multicast)
– čtení a zápis RDMA
– atomické operace (cmp&swap a fetch&add)
infiniband
funkce
7. 7
Správa sítě Infiniband
● bezpečnost
– klíče pro dělení sítě (partitions), klíče pro operace
– sekvenční čísla paketů (PSN)
● zjednodušená správa Infinibandu
– centrální řízení sítě (primární a případně záložní)
● konfigurátor sítě - Subnet Manager (SM)
● databáze informací - Subnet Administrator (SA),
dotazován je z Subnet Administrator Client (SAC)
– na všech uzlech
● agent pro konfiguraci sítě, Subnet Manager Agent
(SMA), ovládán je ze Subnet Manager (SM)
● General Services Agents (GSA), ovládáni jsou z
General Services Managers (GSM)
– sestavení spojení QP - Communication (CM)
– statistiky rozhraní - Performance (PM)
– monitor a správa hw - Baseboard (BM)
– správa rozhraní - Device (DM)
– Vendor-specific, Application-specific, SNMP
infiniband
funkce
8. 8
Fyzická topologie
● fyzické spojení
– více linek najednou
● 1x, 4x, 12x (byte striping)
– kódovací rychlost
● SDR (2,5GHz), DDR (5GHz), QDR (10GHz)
– kódování 8/10 (4xQDR=4GB/s)
● FDR (14GHz), EDR (26GHz) ...
– kódování 64/66 (4xFDR=6.8GB/s)
– nízké zpoždění v přepínačích (~100ns)
– řízení toku (FCP na každé VL, FECN/BECN)
– obvyklé topologie přepínané sítě
fat tree (CBB) 3D torus
infiniband
9. 9
ETH
Datagram (8B)
Reliable Datagram (4B)
RDMA (16B)
Atomic (28B)
ACK (4B)
Atomic ACK (8B)
Immediate Data (4B)
Invalidate (4B)
Datový rámec sítě Infiniband
infiniband
LHRGHRBTH iCRCvCRCdata
8B 40B 12B8B 0-4096B 4B 2B
VL vr SL NH dest LID
len src LID
adresace (Local IDentifier)
● 48k pro koncové zařízení
(s podporou více cest)
● 16k pro multicast
kvalita služby
●Virtual Lines (VL)
● až 16 QoS front
●Service level (SL)
vr tclass flow label
len NH hops
src GID(128bit)
dest GID(128bit)
invariant a variant CRC
opcode SMP vr p-key
dest QP (24bit)
A PSN
GHR≡IPv6
není vložena
při lokální
komunikaci !
A PSN
operace
send, RDMA write, RDMA read,
atomické cmp&swap a fetch&add,
pomocné ack, resync
11. 11
IB transport framework
Softwarová architektura v Solarisu
user MAD
diag SM/SA
user verbs user DAPL
MPI NET
DEV FS
cluster
SDP
IPoIBEoIB SDP SRP iSER rNFSRDS
MAD SMA GSA
hermon
mellanox connectX/X-2
tavor
mellanox tavor/arbel+withmem
arbel
mellanox arbel-nomem
FCoIB
sysusr
infiniband
verbs
iSCSIIP
solaris
CM,PM,DM,BM
ASM, VSM, SNMP
FC
všechny
protokoly
obsahují
GSM a SAC
GLD
12. 12
Síťové aplikace a Infiniband
infiniband
solaris
● Ethernet over IB (EoIB)
– přenos UD, Mellanox BridgeX most do ethernetu
– nabízí GLDv3 (vnic, vlan), IB partitions
● IP over IB (IPoIB)
– rfc4391, rfc4755, rfc4930
– podpora "linkmode" UD a CM (RC/UC)
– IB partitions
● Sockets Directs Protocol (SDP)
– přímá vazba z aplikací
● SOCK_STREAM + SF_INET_SDP/ PROTO_SDP
– možnost emulace standardního rozhraní pomocí
knihovny
● Reliable Datagram Sockets (RDS)
– Oracle protokol pro databázi
– přímá vazba z aplikací
● SOCK_DGRAM, PF_INET_OFFLOAD
14. 14
Zkratky
APM Automatic Path Migration
BECN Backward Explicit Congestion Notification
BTH Base Transport Header
CBB Constant Bisectional Bandwidth
CFM Configuration Manager
CQ Completion Queue
CQE Completion Queue Element
CRC Cyclic Redundancy Check
DAPL Direct Access Programming API
DDR Double Data Rate
DEV SCSI device (disk,tape..)
DIF Data Integrity Field
EDR Twentyeight Data Rate
EoIB Ethernet over Infiniband
FC Fibre Channel
FCP Flow Control Packet
FDR Fourteen Data Rate
FECN Forward Explicit Congestion Notification
FS Filesystem
GID Global IDentifier
GRH Global Routing Header
GUID Globally Unique IDentifier
HCA Host Channel Adapter
IB InfiniBand
IBTA InfiniBand Trade Association
ICRC Invariant CRC
IPoIB IP over InfiniBand
IPv6 Internet Protocol Version 6
iSER iSCSI Extensions for RDMA
LID Local IDentifier
LMC Link Mask Control
LRH Local Routing Header
LUN Logical Unit Number
MAD Management Datagram
MPI Message Passing Interface API application
MR Memory Region
NET Netowork API application
OSD Object based Storage Device
PD Protection Domain
PM Performance Manager Agent
QDR Quadruple Data Rate
QP Queue Pair
RDMA Remote DMA
RDS Reliable Datagram Service
rNFS RDMA for RPC under NFS
RPC Remote Procedure Call
SA Subnet Administrator
SAC Subnet Administrator Client
SDP Sockets Direct Protocol
SDR Single Data Rate
SL Service Level
SM Subnet Manager
SM Subnet Manager
SMC Subnet Manager Client
SRP SCSI RDMA Protocol
TCA Target Channel Adapter
ULP Upper Layer Protocol
VCRC Variant CRC
verbs verbs API
VL Virtual Lane
WQE Work Queue Element
WRR Weighted Round Robin
infiniband
16. 16
Nová administrace a vlastnosti sítí
● L2 (datalink layer) - dladm(1m),dlstat(1m)
– volitelná jména (rename-link)
– zobrazení, nastavení a smazání doplňujících
informací (show-ether,show-phys,delete-
phys,show-link,show-linkprop,set-
linkprop,reset-linkprop)
– automatické VNIC do zón (zonecfg/anet)
– Virtual Router Redundancy Protocol (VRRP)
– Link Layer Discovery Prot.(LLDP)-lldpadm(1m)
– řízení toků L3 - flowadm(1m),flowstat(1m)
● L3 (ip network layer) - ipadm(1m)
– autokonfigurace - netadm(1m),netcfg(1m)
● network automagic (NWAM)
– nový IP multipathing (IPMP)
– konfigurace v SMF(5) - dns, nss ...
● L4 - integrovaný "loadbalancer" - ilbadm(1m)
sítě
17. 17
Sítě L2
sítě
L2
GLDv3
aggr
nic
nic nicnicnicnic nic
etherstub
vnitřní L2 síť
nicnicnicnic
aggr
více spojení k jednomu
přepínači LACP, A/A⇒
podle L2,L3,L4
bridge
více spojení
k více
přepínačům
⇒ STP, A/P
L2 na cestu
nic
nicnic
nic
vnic
více vNIC z jedné
NIC každá vNIC⇒
má vlastní L2 addr
vlan
více vNIC z
jedné NIC
⇒ každá vNIC
má vlastní
VLAN id
19. 19
chytrá NIC hloupá NIC
etherstub
tcp/ip tcp/iptcp/ip
Virtualizace sítí
sítě ● komponenty pro virtualizaci
– virtuální síťové rozhraní (VNIC)
● část kapacity (maxbw) a priorita (priority)
– řízení toků podle port,transport,ip,ds (flow)
● hardwarová podpora VNIC a flow
– některé bge, e1000g, igb, ixgbe, nxge, nge
tcp/ip
vnic
ip flow
vnic
ringbufringbuf
hw flow
tcp/ip
vnic
ip flow
vnic
ringbufringbuf
sw flow
tcp/ip
vnic
ip flow
vnic
ringbufringbuf
sw flow
L2
QoS
20. 20
Řízení toků - flow control
● řízení toků L3/L4 (realizace v L2)
● klasifikace toku
– transport - tcp,udp,sctp,icmp,icmpv6
– lokální a vzdálené porty a ip adresy
– dsfield/dscp (RFC2474)
● charakter toku
– šířka pásma a priorita
● sběr dat
● konfigurace
– flowadm add-flow -l vnicname -a
transport=proto,remote_port=#port flow
– flowadm set-flowprop -p maxbw=#M flow
– flowadm show flowprop‐
– flowadm show flow‐
crossbowsítě
L2
QoS
21. 21
Autokonfigurace IP
● network automagic (NWAM) - nwamd/netcfgd
– automatická konfigurace ethernet a wifi
– konfigurace - netcfg(1M),netadm(1M)
● Network Configuration Profile (NCP)
– jaké a jak sítě aktivovat (LINK a IP)
– systémové: "Automatic", "DefaultFixed"
– Network Configuration Units (NCU)
● Location profile (LOC)
– podmíněná aktivace služeb (NSS,IPF,IPSec)
– systémové: "Automatic", "NoNet"
● External Network Modifiers (ENM)
– podmíněná aktivace ext. služeb (skripty,SMF)
● Known Wifi (WLAN)
– funkce
1) aktivace událostí (up/down, dhcp lease change)
2) podle zvoleného NCP postup konfigurace sítí
3) volba a aktivace právě jednoho LOC
4) volitelně volba a aktivace ENM
crossbowsítě
L3
vypnutí
NWAM
NWAM
22. 22
Konfigurace NWAM
● vytvoření profilů - netcfg(1M)
create ncp "muj_ncp"
create ncu phys "net0"
set activation-mode=prioritized
set priority-group=1
set priority-mode=shared
end
create ncu ip "net0"
set ip-version=ipv4,ipv6
set ipv4-addrsrc=dhcp
set ipv6-addrsrc=dhcp,autoconf
end
end
create loc "muj_loc"
set activation-mode=conditional-any
set conditions="ip-address is-in-range 192.168.56.0/24"
set nameservices=dns
set nameservices-config-file="/etc/nsswitch.dns"
set dns-nameservice-configsrc=dhcp
end
create enm "muj_enm"
set activation-mode=conditional-any
set conditions="loc muj_loc is active"
set start="/enm_start"
set stop="/enm_stop"
end
crossbowsítě
L3
NWAM
23. 23
Správa profilů NWAM
● správa profilů - netadm(1M)
– ruční výběr NCP (lze pouze jeden)
● netadm enable -p ncp "muj_ncp"
● netadm list -x
– ruční výběr NCU, LOC nebo ENM pro označené
● set activation-mode=manual
– vypnutí NWAM
● netadm enable -p ncp DefaultFixed
crossbowsítě
L3
NWAM
24. 24
Manuální konfigurace IP
● konfigurace IP vrstvy - ipadm(1m)
– IP konfigurace
● aktivace IP vrstvy
– dladm show-phys; dladm show-link
– ipadm create-ip vnicname
– ipadm show-if
● přidání IP adresy
– ipadm create-addr -T static|dhcp|addrconf ...
vnicname/addrname
– ipadm show-addr
– ipadm show-addrprop
● další nastavení IP adresy
– up-addr,down-addr,enable-addr,disable-
addr,refresh-addr,delete-addr
– show-addrprop,set-addrprop,reset-addrpro
– parametry sítě (*-prop, *-ifprop)
● konfigurace NSS
● svccfg -s dns/client setprop config/domain = "domain"
● svccfg -s dns/client setprop config/nameserver = ipaddr
● svccfg -s switch setprop config/host = '"files dns"'
● svcadm refresh dns/client switch
crossbowsítě
L3
bez NWAM
34. 34
Diskové pole s architekturou
COMSTAR
● Common Multiprotocol SCSI Target
– instalace pkg:/group/feature/storage-server
– vytvoření zařízení pro diskové operace
– stmfadm(1M),sbdadm(1M),itadm(1M)...
– SCSI Target Mode Framework (STMF)
kernel
libstmf nástroje
logical unit API
stmf
port provider API
ZFS volume
passthroughsoubor
tenký soubor
SRP
iSCSIFibreChannel
FCoE
úložiště
SAN
39. Dotazy
?pro prezentaci byly použity inspirace z volně dostupných materiálů
a prezentací, z dokumentace docs.oracle.com a dalších zdrojů mezi jinými
t10.org, blogs.oracle.com, openfabrics.org, infinibandta.org,
hpcadvisorycouncil.com, zfsbuild.com, nexentastor.org, opensolaris.org,
oss.oracle.com, mellanox.com, top500.org, wikipedia.org, ietf.org ...