Que se soit suite à une attaque, une défaillance matérielle ou un bogue applicatif, et malgré toute les précautions prises en amont, aucune application en production n’est à l’abri d’une catastrophe.
L’important est d’avoir un plan de reprise sur incident efficace pour limiter le plus possible l’impact d’un tel incident sur la qualité de service.
Cela passe par une phase de préparation (mise en place de logs, sauvegardes régulière, etc) et par un plan d’action pour le jour J (Communication de crise, diagnostiques, priorisation des tâches, etc.)
2. Qui suis-je ?
» Jean-Marc Fontaine
» Consultant pour Alter Way Consulting
» Président de l'AFUP
» Formateur / Professeur vacataire à l'université de Saint Quentin
» Co-auteur du livre blanc « Industrialisation PHP »
» Auteur du blog Industrialisation-PHP.com
7. Avoir un plan
» Se préparer pour être efficace le jour J
» Equipe spécialisée
» Implication des fournisseurs
22/07/11 ALTER WAY - Reprise sur incident
8. Mesures de mitigation
» Machines virtuelles configurées
» Réplication de la base de données
» Désactivation de certaines fonctionnalités
» Version statique
22/07/11 ALTER WAY - Reprise sur incident
9. Sauvegardes
» Sauvegarder tout
» Sauvegarder régulièrement
» Garder un historique intelligent
22/07/11 ALTER WAY - Reprise sur incident
10. Journalisation (1/2)
» Système
» Application
» Déploiements
» Opérations de maintenance
22/07/11 ALTER WAY - Reprise sur incident
11. Journalisation (2/2)
» Privilégier les formats plats
– Manipulation aisée
– Signature
– Compressibles
– Gestion des droits aisées
– Rotation
22/07/11 ALTER WAY - Reprise sur incident
12. Communiquer en interne
» Certains pics de fréquentations sont anticipables :
– Période de l'année
– Publicité
– Promotion
– Communication dans les médias
22/07/11 ALTER WAY - Reprise sur incident
13. Déploiement automatisé
» Rapide
» Pas sujet à la pression
» Outils :
– Ant
– Capistrano
– Phing
22/07/11 ALTER WAY - Reprise sur incident
14. Tester les procédures
» Régulièrement
» Avec précaution
22/07/11 ALTER WAY - Reprise sur incident
16. Supervision
» Ressources
– Nagios
– Centreon
– Zabbix
» Journaux
» Application
» Disponibilité
– Pingdom
– NetVigie
22/07/11 ALTER WAY - Reprise sur incident
17. Facilitez le contact
» Personne / service à contacter identifiés
» Moyens de contact disponibles facilement
» Réactivité aux contacts entrants
22/07/11 ALTER WAY - Reprise sur incident
19. Communication
» Isoler l'équipe d'intervention
» Escalader en interne si nécessaire
» Communication externe :
– Régulière
– Aussi transparente que possible
– Page d'état
22/07/11 ALTER WAY - Reprise sur incident
25. Correction
» Activer les mesures de mitigation si nécessaire
» Appliquer les mesures correctives
» Déployer l'application si nécessaire
» En dernier recours tout couper
22/07/11 ALTER WAY - Reprise sur incident
27. Capitaliser
» Méthode des 5 pourquoi
» Intégrer le résultat aux procédures de test
22/07/11 ALTER WAY - Reprise sur incident
28. Récapitulatif
» Se préparer
» Communiquer
» Analyser
» Corriger
» Apprendre
22/07/11 ALTER WAY - Reprise sur incident
29. Merci !
» Email : jm@jmfontaine.net
» Twitter : jmfontaine
» Blog : www.jmfontaine.net
» Autre blog : www.industrialisation-php.net
22/07/11 ALTER WAY - Reprise sur incident
30. Crédits photos
» http://www.flickr.com/photos/r000pert/136999467/
» http://www.flickr.com/photos/illetirres/2214018398/
» http://www.flickr.com/photos/larimdame/2575986601/
» http://www.flickr.com/photos/techne/107093245/
» http://www.flickr.com/photos/p-doodle/466500483/
» http://www.flickr.com/photos/dennissylvesterhurd/141183312/
22/07/11 ALTER WAY - Reprise sur incident