2. Qui sommes-nous ?
Agence conseil en technologie digitale
Nos métiers : Marketing digital, CRM,
eCommerce, Cloud Computing,
Business Intelligence & Big Data
4. Retour vers le futur
2004
Ouverture de la 3G en France
2006
Ouverture de Facebook au
grand public
2007
Lancement de l’iPhone et de la
révolution des Smartdevices
5. Retour vers le futur
Le déploiement de la 3G en France et dans le monde
• 75% de la population française couverte en 3G en 2009
• 98% de la population française couverte en 3G en 2012
• 60% de la population française couverte en 4G en 2019
• 1,6 milliard de forfaits mobiles haut débit en 2012 dans le monde
2004
Ouverture de la 3G en France
6. Retour vers le futur
2006
Ouverture de Facebook au
grand public
7. Retour vers le futur
2007
Lancement de l’iPhone et de la
révolution des Smartdevices
8. Retour vers le futur … en moins de 10 ans !
Smart Device
Réseaux sociaux
Haut débit sans fil
9. L’impact de toute innovation technologique
est souvent surestimé à court terme et
sous-estimé à long terme
12. Initie une recherche en boutique, va en magasin, consulte ses amis et
concrétise sur sa tablette.
Digital Physique Digital
Exemple de digitalisation des interactions
14. Big Data
Pages vues, clics, produits
détenus, inscriptions, centre
d’intérêts,
Connaissance CLIENTS
Anatomie d’une plate-forme digitale
Interactions marque/utilisateurs
Pilotage & Mesure de la performance
La bonne pub
Le bon contenu
La bonne offre
Le bon message
À la bonne personne
sur le bon support
Métiers, Outils & Partenaires
15. Le Cloud au service du Digital
Big Data
Métiers, Outils & Partenaires
€
Interactions marque/utilisateurs
Pilotage & Mesure de la performance
Infrastructures
ApplicationsBig Data
23. • Leader Européen du tirage et du livre photo
• 25 millions de clients
• 17 pays et dernière ouverture il y a 6 mois en Australie
• Stockage de milliards de photos
24. Problématique
• Des traitements de rafraichissement du datawarehouse trop longs
– 8h en temps normal
– Jusqu’à 12h en période de Noel
• Une limitation en terme de stockage
– 5 To actuellement avec uniquement les données de vente du site
– Nécessité de remplacer le Hardware
• Acquisition d’un environnement de développement à un prix élevé
• Nécessite un contrat administration distante (DBA externe)
• Problème de modèle de licence pour connecter notre outils de reporting
25. En continuant comme ca…
• Remplacement du hardware
– 100 k€
• Achat de nouvelles licences
– 100 k€
– Implique l’augmentation du coût de support
• Toujours pas de flexibilité
• Augmentation des coûts en CAPEX et OPEX
• Pour une une performance équivalente…
26. • Croiser l’ensemble des sources de
données de l’entreprise afin
d’améliorer :
– La satisfaction client
– Le ciblage CRM
– Le reporting
– Analyser les données au niveau le
plus fin : la photo
Les besoins pour le futur
27. Le Big Data
• Face aux contraintes actuelles et besoins futurs nous nous sommes lancés
dans les technologies Big Data open source :
– Création d’un cluster Hadoop sur EC2 avec whirr et mesos
– Développement en Clojure / Cascalog pour le traitement des données
– Utilisation de Hive + Hbase
• Après 6 mois nous n’avions toujours pas de résultats probants et une
problématique de persistance des données complexe à résoudre
– Beaucoup de temps passé à paramétrer le cluster et peu de temps disponible pour
travailler sur les données.
– Temps d’apprentissage conséquent et ressources rares
28. Proof Of Concept Redshift
• Premier point fort : Le prix
• Deuxième point fort : La promesse d’une performance « Big Data » en SQL
• L’objectif était de tester les points suivants :
– Temps de chargement des données
– Evaluation du nombre de nœuds nécessaires
– Flexibilité : temps de passage de 1 à N nœuds
– Performance sur une simulation d’alimentation quotidienne
– Fonctions d’agrégation disponibles
29. Résultat du POC
• Chargement :
– 4 jours pour extraire les données côté Photobox
– Entre 50 minutes et 5 minutes pour charger les données dans Redshift
• Performances :
– Count(*) impossible à lancer sur la table photos sur le slave Mysql
– 3 secondes sur Redshift
• Fonctions :
– Quasiment équivalente (ex: manque le pivot/unpivot)
• Flexibilité :
– Passage de 1 à 8 nœuds en 6h
– Création d’un environnement de dev en quelques minutes
30. Déploiement de Redshift avec 1 ETP
• Annonce de Redshift le
28/11/2012
• Demande d’accès le
10/12/2012
• Premier accès fin décembre
• Fin de la Beta 15 février
• Passage en prod mi-mars
• Achat de 8 instances
réservées pour 3 ans en Mai
32. Intégration d’EMR dans le Workflow
• Elastic Map Reduce est utilisé comme un ETL via
• Le process est donc le suivant :
– Lancement d’EMR
– Installation de Sqoop
– Chargement des données de la base Mysql sur hdfs
– Copie des données de HDFS vers S3
– Chargement des données de S3 vers Redshift
• Paramètres :
– Nb d’instances
– Degré de parallélisme
– La clef de partitionnement
33. • L’alimentation quotidienne du datawarehouse se fait en 2 étapes
– Récupération des données sur une base slave du site
– Calcul des agrégats
Avant EMR / Redshift
Chargement : 1h30 Chargement : 1h (limitation DB slave)
Agrégation : 6h Agrégation : 40 min (9 x plus rapide)
Performance Avant / Après
34. Performance
• Temps de traitement observé en fonction du nombre de nœuds
• 5 To avant (données + index), 500 Go sur Redshift !
0
20
40
60
80
100
120
2
4
8
Perf
(min)
Perf
(min)
35. Coût avant / après
• Avant
– Opex : 70 k€
• Support Licence : 30 k€
• External DBA : 40 k€
– Capex : 20 k€ / an (amorti)
– Total : 90 k€
• Redshift
– Opex : Redshift + EMR = 17 k$ = 13 k€ => 7 x moins cher
– Pourquoi la région US East ?
• Initialement le service n’était pas disponible dans les autres régions
• Pas de contrainte de latence (90 ms US East vs 30 ms EU)
36. Sécurité
• VPN / VPC et ou Firewall
• SSH
• Cryptage
• Légal : Safe Harbor Act
– la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier
qu'elle respecte la législation de l'Espace économique européen (EEE) afin d'obtenir
l'autorisation de transférer des données personnelles de l'EEE vers les Etats-Unis.
37. Fail over
• Unload hebdomadaire de Redshift US => S3
• Réplication S3 inter region S3 US => S3 EU
38. Conclusion
• Plus de fiabilité
• Un budget divisé par 7
• Des performances à minima 10 fois meilleures
• Une capacité de stockage multipliée par 32
• Une scalabilité simplifiée