2. Intro
Objectif de cette présentation :
•Proposer un regard nouveau, volontairement disruptif sur l’industrie du stockage,
en rupture avec le discours tenus par les conseillers commerciaux du secteur.
•Présenter quelques technologies actuelles ainsi que des recherches et
développements en cours.
•Présenter des produits et solutions de stockage peu « académiques » mais qui ont
fait leur preuves.
3. Plan
• Matériel
• Haute performance
• Haute densité
• Etudes sur les disques
• Architecture
• Système distribués
• Logiciel
4. Stockage haute performance : Disques
SSD
• Présentation de la technologie SSD
• Les nouvelles interfaces
• Les technologies connexes
• Le futur
5. Solid State Drive SSD
• SSD = Solid State Drive
• Pas de pièces mécaniques : Mémoire flash, comme une grosse clé USB
• Même interface que les disques mécaniques (SATA)
• Capacité jusqu’à 1To en 2,5’’
• Technologie décevante à ces débuts mais parfaitement mature aujourd’hui
6. Solid State Disk SSD
Défaut des premiers SSD :
•Pas de gestion de l’usure des cellules par le contrôleur
•Performances en baisse après quelques semaines d’utilisation
•Blocages réguliers du système pour quelques secondes (contrôleur Jmicron)
•Les opérations de maintenance en tâche de fond perturbaient le
fonctionnement
Ces erreurs de conception ont été corrigées depuis.
Samsung garanti ses derniers modèles « 850 PRO » 10 ans.
7. Solid State Disk SSD
Avantages
• Accès aléatoires très haute
performance x1000*
• Débit séquentiel x5*
• Totalement silencieux
• Pas de vibration
• Consomme peu > chauffe peu
• Ne craint pas les chocs
• Durée de vie (en usage standard)
Inconvénients
• Capacité réduite
• Coût élevé
• Pannes complètes sans possibilité de
récupérer les données.
* Par rapport à un disque mécanique
8. Solid State Disk SSD
Ce qui fait la qualité d’un SSD :
•La performance et les fonctionnalités de son contrôleur
•Nombre de cycles de réécriture des cellules
•La quantité de cellules en surprovision (destinées à remplacer les cellules défaillantes)
La durée de vie des SSD doit être mise en regard des performances et du travail effectué :
Un SSD haut de gamme de 500Go, utilisé au maximum de ses capacités 24h/24 (50% écriture,
50% lecture) a une durée de vie théorique de 300 jours.
Cela peut paraître peu, mais durant cette période il aura effectué 2,6x1012
opérations et traité
8PB de données, soit 7 siècles d’activité du meilleur disque mécanique.
9. Nouvelles interfaces disques dur
Les performances des SSD sont limitées par leur connexion SAS/SATA
inadaptée. 6Gb/s (=550Mo/s)
Alternatives
•M2
•NVMe
•Disques PCI-Express
10. M2
• Standard connectique et dimensions physiques
• Remplaçant du mSATA (miniSATA)
• Plus petit, plus performant
• Conçu pour:
• Netbook, medias center
• Usages détournés possibles
• Cache local sur nœud calcul haute densité
• Informatique embarquée
mSATA
M2
Nouvelles interfaces disques dur
11. NVMe Express
• Interface PCI-Express / SSD moderne
• Parallélisation des requêtes
• Protocole moins verbeux, requêtes plus efficaces
• Sur lien physique SATA ou PCI Express
• Matériel disponible et supporté par les OS récents
• Windows 7/2012 server
• Linux
• FreeBSD, QEMU, Solaris,UEFI
• Développé par un consortium de fabricants www.nvmexpress.org
Nouvelles interfaces disques dur
12. Performance :
Contrôleur RAID haute performance
Les contrôleurs RAID classiques ne sont pas au niveau
des performances des SSD
La carte contrôleur LSI 9300 16i supporte 16 liens
SATA3 12Gb/s sur un port PCI-Express 3 8x (8Go/s).
Prés de 2 millions d’opérations/seconde.
Sortie le 10 décembre 2014
13. Performance : SSD PCI Express
• Accès direct PCI Express <> Mémoire FLASH
• Très hautes performances
• Capacité limitée (modèles jusqu’à 2To)
• Nombre limité par les bus PCI-Express disponibles dans un serveur
15. Performance : RAM based SSD
• Un disque SSD contenant autant de RAM que de mémoire FLASH
• Les opérations lecture/écriture se font sur la RAM
• Une batterie permet de sauver les données vers la mémoire flash en cas de coupure
d’alimentation.
• Existe en SATA (lien) ou PCI-Express (lien)
• Excellentes performances
• Ne s’use pas, même utilisé à pleine capacité 24h/24
• Capacité limitée (32Go)
Permet d’accélérer considérablement des applications de type base de données.
16. Le futur du SSD
Suppression de la gestion sous forme de système de fichier. Une donnée n’est plus
pointée par un chemin, mais par son adresse physique, comme en RAM :
Fusion’s Virtual Storage Layer (VSL), Fusion MPT )
Barrettes de RAM couplées à des puces NAND l’application ne sauve plus les
données, son état est conservé de manière transparente après redémarrage.
SSD au format DIMM des barrettes de mémoire pour être plus proche du CPU et
profiter des performances du bus RAM (50Go/s théorique lien)
NEC a inventé un nouveau type de mémoire Flash aussi performante que de la ram
et travaille à sa production de masse. Ce serait une révolution.
17. RAM Disk
Disque virtuel dont les données sont stockées dans la mémoire RAM du serveur.
Avantages :
•Les meilleures performances possibles
•Ne s’use pas
•Il suffit d’installer un logiciel
Inconvénients :
•Capacité limitée par la quantité de RAM
•Les données disparaissent en cas de panne de courant
18. Stockage haute densité
Technologies des disques mécaniques
•Système anti-vibration
•Protection des données
•SMR
•Hélium
•HAMR
•Nanolithographie
Solutions haute densité
•Highpoint 750: Contrôleur 40 liens SATA
•Chassis Supermicro dense
•Backblaze storage POD
20. Système anti vibration
• La rotation des plateaux provoque des vibrations
• Technologies limitant la création de vibrations
• Détection des résonances inter-disques et changement de la vitesse de rotation
• Montage des disques sur amortisseur caoutchouc dans les racks
• Technologies permettant le fonctionnement malgré les vibrations
• Dual actuator technology:
La tête de lecture est montée sur un support déformable de faible amplitude mais très
réactif (piezzo-électrique) qui corrige en temps réel le micro décalage dû aux vibrations.
Permet de réduire la largeur des pistes.
Ces technologies sont fortement recommandées en utilisation RAID
Technologies de disques durs mécaniques
21. Protection des données
La tête de lecture ne doit pas entrer en contact avec la surface du disque.
• Parkage des têtes d’urgence
Un condensateur contient suffisamment d’énergie pour ranger la tête de lecture sur la zone
dédiée en cas de perte de courant ou détection de chute (portables).
• Rampe de parking.
Une petite pièce de plastique accueille les têtes de lecture quand le disque cesse de tourner. Cela
supprime tout contact avec le plateau et donc l’usure des têtes. De plus il devient inutile de
réserver une zone « d’atterrissage » sur le plateau, cet espace est utilisé
pour stocker plus de données.
Technologies de disques durs mécaniques
22. Haute densité : Disques SMR
SMR : Shingled Magnetic Recording
Constat:
•Les têtes d’écriture ne peuvent être réduites
•Les têtes de lectures sont plus fines que les têtes d’écriture
Chevauchement des pistes
lors de l’écriture.
Shingle = Bardeaux
Technologies de disques durs mécaniques
23. Haute densité : Disques SMR
• capacité +25%
• La modification d’une donnée nécessite de réécrire toute les données suivantes dans le bloc, et
donc de les avoir lues avant (comme pour le raid 5) Performances réduites. Disques
destinés à l’archivage.
• Conçu pour concurrencer les Bandes Magnétiques
• Quid de la fiabilité ?
Technologies de disques durs mécaniques
24. Haute densité : Hélium
Innovation HGST
Les têtes de lecture/écriture d’un disque dur sont maintenues en suspension au
dessus des plateaux par « l’effet de sol » dû au flux d’air qui s’engouffre en
dessous.
L’Hélium est 7 fois plus fluide que l’air
Technologies de disques durs mécaniques
25. Haute densité : Hélium
Têtes de lectures plus proches de la surface
•Moins d’espace entre les plateaux
•Plus de plateaux dans le même espace
•Capacité +40%
Moins de friction
•Moins d’énergie consommée
•Moins de chaleur dégagée
Disques hermétiques
•Peuvent être immergés dans un liquide de refroidissement
Technologies de disques durs mécaniques
26. Technologies futures: HAMR
Constat :
•La taille des têtes d’écriture dépend de la malléabilité magnétique du matériau
employé pour les plateaux.
•Une matière plus malléable perdrait les données.
Solution :
Utiliser un matériau dont les propriétés
magnétiques changent avec la température et ne
chauffer que la zone où l’on souhaite écrire avec un
laser.
Technologies de disques durs mécaniques
27. Technologies futures: HAMR
Avantages :
•Principe éprouvé (utilisé par exemple dans les anciens Minidisc Sony)
•Débits proche des disques actuels
•Capacité maximum théorique de 60To sur un disque 3,5’’
•Faible malléabilité magnétique à température normale fiabilité accrue pour
l’archivage longue durée
Recherche débutée en 2002.
Arrivée prochaine des premiers disques TDK 15To annoncé pour 2015-2016
Technologies de disques durs mécaniques
28. Technologies futures: Nanolithographie
La surface d’un plateau est composée de grains magnéto sensibles qui
conservent l’orientation magnétique donnée par la tête d’écriture.
Ces grains sont collés les uns aux autres et ont tendance à se démagnétiser
mutuellement. Ce phénomène impose une surface minimale pour chaque bit
d’information écrit.
Solution:
Séparer les grains par une barrière isolante. Cela se ferait par une impression des
grains à l’échelle nanométrique sur une surface isolante (~50 atomes par grain).
D’autres procédés sont à l’étude.
Ceci permettrait de doubler la capacité des disques.
Cette piste en est à ses balbutiements.
Îlots magnéto-sensibles imprimés
par nanolithographie
Technologies de disques durs mécaniques
30. Carte contôleur SATA HighPoint 750
Conçu pour le stockage de masse low cost
•Supporte 40 disques SATA 6Gb/s
•PCI Express 2.0 8x (haute performance)
•615 €
•Pas de RAID Hardware
•…il reste à trouver un boîtier pour 40 disques
Fiche constructeur - Fiche Amazon - Test performances
Solutions haute densité
31. Gamme châssis serveur fichier
Supermicro
847BE1C-R1K28LPB
•36 disques 3,5’’, 24 avant + 12 derrière
•Carte mère single ou dual proc
•Racks Hot Swap avec diode d’identification
•$1800 chassis + racks + alimentation (pas très low cost)
847E1C-R1K28JBOD
•45 disques 24 avant + 21 arrière
•Pas de place pour une carte mère, s’utilise en complément du
boitier ci-dessus montés l’un sur l’autre.
•$2000
Solutions haute densité
32. Backblaze storage POD
Backblaze offre un service de sauvegarde en ligne à prix réduit. Afin de réduire leurs coûts,
ils ont conçus leurs propres unités de stockage : Backblaze storage POD.
•45 disques dans un serveur
•Design open source accessible
•43 000€/Petabyte
Coût d’acquisition et d’opération réduits
de 85% par rapport aux solutions des
grand constructeurs (Dell/HP/Netapp…).
Solutions haute densité
33. Backblaze storage POD
• Un logiciel maison assure la gestion et
l’intégrité des données.
• 100 petabytes de données client
• 32000 disques durs
• 4ème
version du storage POD (lien)
Solutions haute densité
34. Backblaze storage POD
Les premières versions utilisaient des switch SATA,
une fonctionnalité méconnue et peu utilisée du
standard SATA qui permet de connecter plusieurs
disques sur un contrôleur SATA. Mais on ne peut
accéder qu’à un seul disque à la fois.
Performances limitées, le produit n’était pas pris
au sérieux.
La version 4 utilise des contrôleurs HighPoint Rocket
750 qui semblent avoir été développés sur mesure
pour Backblaze. Chaque disque dispose d’un lien
propre, les performances sont nettement meilleures.
Possibilité d’utiliser des cartes RAID hardware haut
de gamme pour des performances maximales.
V3: 3 contrôleurs SATA, 9 switch 5
ports
V4: HighPoint Rocket 750 HBA
Solutions haute densité
9 switch SATA 5 ports
45 liens SATA directs
35. Backblaze storage POD
Design open source:
•Réutilisé par des laboratoires, studios d’animation, des passionnés, etc…
•Possibilité de personnaliser les plans et faire fabriquer le boîtier
•Variantes disponibles vides ou prêt à recevoir les disques (protocase, www.45drives.com)
•Projet dérivé : openstoragepod.org
Solutions haute densité
36. Facebook Opencompute
Facebook créé ses propres serveurs et diffuse les plans sous licence
opensource.
•Plans d’unité de stockage froid
•Plans de disques SSD haute performance
3,2To FusionIO
http://www.opencompute.org/ Rack de 15 disques durs opencompute.
37. Etudes sur des populations de disques
durs
Plusieurs entreprises gérant de grandes population de disques publient
des articles concernant la fiabilité.
•Backblaze
•Google
•Microsoft / Université de Virginie
38. Etudes Backblaze
Environ 30000 disques durs grand public
Comparaisons des disques:
•Révèle de grosses disparités entre fabricants
•Et entre différents modèles d’un même fabricant
Température:
•Entre 20° et 30°C la durée de vie est maximale
Informations SMART
•Les informations SMART sont de bons indicateurs de l’état du
disque et de la probabilité de panne prochaine, mais ils faut les
interpréter différemment selon le fabricant.
Etudes sur des populations de disques durs
39. Etude Google
32000 disques gammes pro et grand public
Conclusions :
•MTBF non fiables : des disques sont testés bons en usine mais dysfonctionnent en situation réelle.
•Les disques Grand public sont aussi fiables que les disques des gammes « professionnelles » (SAS)
•Les pic de pannes se situent dans les premiers mois et après plusieurs années (4 ans)
•Les disques qui fonctionnent peu, ou à basse température (<20°) s’usent plus vite. (contesté)
http://static.googleusercontent.com/media/research.google.com/fr//archive/disk_failures.pdf
Etudes sur des populations de disques durs
40. Etude Microsoft / University of Virginia
•Les disques sont les pièces qui tombent le plus souvent en panne dans les
serveurs (71% des pannes).
•Corrélation avérée entre la température et le taux de panne.
•Pas de corrélation entre le taux d’utilisation et taux de panne.
http://www.cs.virginia.edu/~gurumurthi/papers/acmtos13.pdf
Etudes sur des populations de disques durs
41. Architecture et couche logicielle
• RAID Hardware ou software ?
• Couche logicielle et système de fichier
• Compression des données
• Systèmes de fichier virtuels
42. RAID Hardware ou software ?
RAID : Redundant Array of Inexpensive Disks
RAID 5 : Technologie permettant de sécuriser les données par le calcul et le stockage d’informations
complémentaires (parité). Ces informations permettent de reconstruire les données en cas de
défaillance d’un disque.
Les calculs de parité peuvent être effectués par le CPU (RAID software) ou par un processeur dédié
sur la carte contrôleur (RAID Hardware).
Bien souvent la carte contrôleur emploie un CPU courant (ARM ou Intel x86). Il s’agit alors d’un
logiciel (firmware) qui est exécuté sur ce processeur, les fonctions ne sont pas câblées dans un
composant spécifique (FPGA) comme le sous entend le terme « hardware ».
43. RAID Hardware ou software ?
Exemple 1 : serveur de base de donnée avec stockage intégré
Le processeur étant très sollicité pour les tâches SQL il est important d’alléger sa charge.
L’utilisation de contrôleur RAID est essentielle.
44. RAID Hardware ou software ?
Exemple 2 : serveur de fichier médias sur réseau local
Fichiers volumineux, requêtes peu fréquentes, la charge allouée aux tâches de gestion des droits
est minime. Le processeur peut prendre en charge le calcul de parité. C’est le cas de la plupart des
NAS.
Vu de l’extérieur, on peut considérer qu’il s’agit de RAID hardware, le CPU étant dédié à cette
tâche.
45. RAID Hardware ou software ?
Exemple 3 : serveur de fichier haute performance (nombreux petits accès, disques SSD)
Lorsqu’il s’agit de très nombreuses requêtes vers des petits fichiers à la cadence de disques SSD, les
tâches de gestion réseau et droit d’accès nécessitent des ressources CPU importantes.
Un circuit physiquement conçu pour le calcul de parité est indispensable (vrai hardware).
46. Couche logicielle
Gérer de gros espace de stockage nécessite des outils adaptés
•Gestion du matériel
• Monitoring, Alertes, Statistiques
• Gestion des stocks de disques / retours garantie
• Ajout/suppression de matériel
•Gestion des données
• Exposer les données (object storage, système de fichier)
• Répartition données chaudes / stockage / archivage
• Maintien du nombre minimal de copies des données dans le système (à différents endroits)
• Sauvegardes
C’est le logiciel qui garanti l’intégrité de données, pas le matériel.
47. Couche logicielle
Quelques système de fichiers distribués / plateformes object storage
•Lustre
•Gluster
•HDFS : Hadoop Distributed File System
•CEPH
…
48. Bases de données NO-SQL
• Les bases de données No SQL ou orientés Objet fonctionnent sur le principe clé/valeurs où la
valeur est un objet complexe.
• La frontière entre une base No-SQL et un système de stockage d’objet adossé à une base de
donnée jouant le rôle d’index est ténue. Elle se situe essentiellement dans la taille des objets.
• Selon le type de données à stocker une base clé/valeur peut s’avérer être un bon choix.
• Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vsHBase vs Couchbase vs OrientDB vs Aeros
pike vs Neo4j vsHypertable vs ElasticSearch vs Accumulo vs VoltDB vsScalaris comparison (lien)
49. Compression des données
• La compression à la volée est présente sur la plupart des produits d’archivage.
• Compression passe-partout et donc inefficiente (orienté texte).
• Un bon algorithme de compression traite les données brutes et nécessite une bonne
connaissance de celles-ci.
Un type de données un algorithme
(images JPEG, son MP3, etc…)
• La compression est souvent ignorée pour les données chaudes. Alors qu’elle diminue
énormément la charge serveur et augmente modérément la charge client.
• Un algorithme de compression binaire simple est plus léger en terme de charge CPU qu’une
conversion vers un format texte comme XML.
50. Compression des données
• Les données sont souvent stockées dans des formats textes inefficients (XML, JSON…) alors qu’il
serait beaucoup plus efficace de stocker et traiter les données binaires.
• La mise en œuvre d’une couche de compression semble impossible car les applications existantes
exigent des fichiers texte.
• Les systèmes de fichier virtuel comme FUSE permettent de remédier à ce problème.
51. FUSE
• FUSE = File system in User SpacE
• Présente les données sous forme d’arborescence de répertoires et fichiers.
• Les fichiers sont créés à la volée à partir des données brutes : fichiers binaires, objets stockés,
bases de données.
• Ils peuvent présenter les mêmes données sous plusieurs formes ou chemins :
• population/villes/Toulouse.xml
• pays/France/villes/Toulouse/population.json
• population/villes/Toulouse.bin
• Avantages :
• Gain d’espace disque
• Unification progressive des systèmes
52. Choix d’une infrastructure stockage
• Contrairement aux autres composants d’un serveur, il y a une forte continuité et compatibilité
ascendante des disques durs. SATA3 actuel est compatible avec les contrôleurs SATA qui ont 12
ans possibilité de recycler les vieux serveurs en changeant leurs disques.
• La capacité des disques augmente constamment Ne pas acheter plus d’une année d’avance
• Privilégier les technologies ouvertes permettant de faire jouer la concurrence à chaque évolution
• Il vaut mieux avoir beaucoup de petits serveurs que quelques gros (Commodity computing :
Amazon, OVH, Google, Facebook…)
• Il faut prendre en compte la nature des données à stocker
• Compression
• Disponibilité (données chaudes/ archivage)