Diagnostic performances

Diagnostic performance

Claude Falguière
Geneva JUG
le 12 Octobre 2011

1
jeudi 13 octobre 2011

Copyright notice

http://creativecommons.org/licenses/by/3.0/

Vous êtes libre de :
Reproduire, distribuer et communiquer cette création au public
Modifier cette création
Selon les conditions suivantes :
Paternité. Vous devez citer le nom de l'auteur original de la manière indiquée par
l'auteur de l'oeuvre ou le titulaire des droits qui vous confère cette autorisation (mais
pas d'une manière qui suggérerait qu'ils vous soutiennent ou approuvent votre
utilisation de l'oeuvre).
Rien dans ce contrat ne diminue ou ne restreint le droit moral de l'auteur ou des
auteurs.

2

Claude Falguière
@cfalguiere

Technique

3

Faux ami 1
La dream Team
X est performant
Y est performant
Z est performant
=>
Mon système est performant

5

Sprint ou
marathon ?

6

Bus RATP

Vitesse ou
charge ?

Modèle Fiat 500

Modèle Simlocker

7

Faux ami 2

C’est du bon sens !

8

User expe!ence

9

Subjectif
Complexité supposée
Ordre d'afﬁchage
Stabilité

10

Logique
mais souvent
Nombreux composants
Interactions complexes

Caches

Contre-intuitif Mécanismes correctifs

11

Faux ami 3

Avec le cloud ﬁni
les problèmes

12

Essentiellement du scale out

Dʼautres problèmes liés à la mutualisation (latence I/O)

Coût de la montée en charge

13

S(t)imuler

14

Quels vont faire
les utilisateurs
en production ?

16

Les volumétries ?
Les dimensionnements ?

17

Les risques à vériﬁer ?
Les critères à mesurer ?

18

Qui ? Quoi ?
Où ? Quand ? Combien ?
Comment ? Pourquoi ?

19

Qui ?

20

Qui ? Quoi ?
Consultations

Paie
Recherche
complexe
21

Qui ? Quoi ?

22

Combien ? Quand ?

Quelle heure ?

Quel jour ?

Pics

23

Pourquoi ?

Les enjeux Les coûts

24

STRATEGIE DE TEST

POURQUOI ?
Que veut on évaluer ?
Quels sont les enjeux ?

QUOI ? COMBIEN ?
Combien d 'utilisateurs ?
Combien de temps ?
Quel pro l de charge ?

COMMENT ?
Environnement requis ?
Jeux de données?
25

Pourquoi ?

Temps de réponse
et
Disponibilité, Stabilité GALERIEopWEG

Robustesse
Vieillissement
Résistance à l'effet Twitter
Consommation de ressources

26
jeudi 13 octobre 2011 G

Garbage in
Garbage out
27

Garbage In → Garbage Out

Biais

Martineric

Le résultat du test dépend totalement
des scénarios déﬁnis et de leur
implémentation

28

Trouvez des biais Trouvez des biais qui
qui rendront le rendront le résultat
résultat meilleur plus mauvais

29

Volumétries

30

Structure des données

31

Gestion des erreurs

Bref ... pas facile

32

Cumulus

33

DEV

OPS
34

Si vous avez un
marteau
tout ressemble à un

clou
36

Donʼt shoot in the dark

37

travailler
ensemble ?

38

Et chez vous ?

41

Partager

42

Explicitez vos hypothèses
et votre démarche

44

LaScène
de Crime

48

Investigations

54

Que fait ce système ?

55

Comment ça marche ?

57

Jusque là

tout
va bien
63

Dresser
le bilan

66

Gagnez
du
temps

74

Série Chronologique

Et sa distribution

75

Quelques
mauvais
temps isolés

Temps très
variables

Bimodale !? ...

76

Douter
77

Latences

78

Patterns

79

La rançon du
succès
81

- Se produit sous charge
- Affecte tous les use cases

Conﬁrmation Accroissement de l’usage sur
une longue période

Trouver les limites atteintes
- time outs
- ressources saturées

83

Les limites physiques
Memory bound :
ressource non partageable
→ erreur quand plus de ressources

CPU bound :
ressource en time sharing
→ partage excessif, lenteur

Network bound :
ressource en time sharing
→ idem + retry et écroulement

84

Les Quotas

ulimit, hyperviseurs, shaping réseau, les licences ...

Mutualisation de ressources,
Réserver des ressources au système,
Priorisation de service,
Facturation

85

Les Limites configurables
Conﬁguration mémoire de la JVM (-Xmx)
Tailles limites de pool
Tailles limites de caches
Nombre dʼinstances, de connexions ...

86

- Souvent écroulement après un
pic de charge

Résolution
Trouver la bonne conﬁguration
- utilisation optimale du CPU et pas plus
- vmstat (runnable)
89

Le régime restrictif

90


Conﬁrmation
Saturation de limites
conﬁgurées mais pas des
limites matérielles

Résolution Lever ces limites
91

dimensionnement

La limite logicielle est préférable à
l’écroulement

92

Comment dimensionner ?

Dimensionnement par tests de charge
- respecter le modèle de charge de l’utilisateur

Inﬂuence de la vitesse des utilisateurs
- attentes sur le serveur Web ou le container Web

Inﬂuence des jeux de données
- attentes de la base de données

93

dimensionnement

Tout ce qui rentre doit ressortir
… en moyenne

Les actifs sont déﬁnis par la
taille du pool
Les ﬁles d’attente régulent les
variations de débit

100

Cohérence

plutôt que

Rock StarS

101

L' emprunt
à durée
indéterminée
103

- Se produit avec le temps
même à faible charge
- Les indicateurs se dégradent
progressivement

Résolution Trouver la fuite ...
- Tester les use case isolément, la fuite est
souvent liée à un scénario particulier
- Certains outils d’introspection détectent
les fuites de connexion sur les pools
105

Mémoire
Connexion non rendue au pool
Thread bloqué

106

Les pseudo fuites
... aka les caches

Evaluer l'utilité :
thrashing, jamais relus

Utiliser un vrai cache :
durée de rétention,
recyclage

Weak reference,
soft reference

107

La voie
unique
108

- Très faible consommation de
ressources
- Temps très longs (time-outs)
- Affecte particulièrement certains
use cases et à faible charge

Conﬁrmation
Trouver le lock
Provoquer le lock
- test à 2 utilisateurs synchronisés
→ 1 des 2 est deux fois plus long

111

Java
→ Thread Dump + outil d'analyse
(MAT, JCA, HealthCenter,
Samourai)

Evaluer les portées des synchronized
Attention aux variables communes
(données et compteurs applicatifs)

BD
→ voir les outils de DBA
112

La

chaise
musicale
113

Utilisation par plusieurs
threads de variables de
classe non multi-thread safe
(formatters)

115

- Erreurs d'incohérence
- Affecte plus certains use cases
- A faible charge
- Instabilité

Conﬁrmation
Provoquer le problème
- test synchronisés
→ 1 des 2 est en erreur ... si vous
avez de la chance

116

Très difﬁcile à identiﬁer

Causes courantes :
- Optimisations sauvage des synchronized pour
régler des problèmes de performance
- Caches et compteurs applicatifs mal gérés
- Formatters

Solutions possibles :
→ Thread Local, synchronized, volatile

117

- localisé sur un use case
- variations dans un use case

Préciser le scénario
- donnée en cause
- volumes / répétition
- scénario alternatif

120

Que dis cette bimodale ?

121

Que dis cette bimodale ?

Comportement
différent selon les Plusieurs cas sous
instances le même use case
mesuré

Lock

Cache

122

Patience et
longueur de
temps ...
123

Le processus
Dresser le bilan
→ Comprendre où ça se passe à peu près

Mesurer ce qui permet
- de choisir un pattern
- de comprendre la cause

Eliminer des hypothèses
Ne pas choisir une vérité trop rapidement

Boucler
125

Lorsque vous avez éliminé
l'impossible, ce qui reste, si
improbable soit-il, est nécessairement
la vérité.
Arthur Conan Doyle
(Le signe des quatre)

126

Non contributifs
Les erreurs dans les logs
(en permanence)
Uniquement sur la nouvelle plate-forme Non applicatif

Peu d'utilisateurs et de requêtes Exclus la charge
Aucun signe de saturation avant le crash
Perte du monitoring
Réseau ?
L'OS est inaccessible

Tout marche après redémarrage de l'OS Donc pas coupure réseau

Perte du service systématique après 2j ouvrés Vieillissement ? mais
pas de symptômes ...

Et qui peut
bloquer
l’accès à l’OS
128

Fuite de
connexions LDAP

Limite du nombre de connexions réseau autorisées sous Windows
Plus d’accès réseau
Perte du monitoring
L'OS est inaccessible

Uniquement sur la nouvelle plate-forme Applicatif
L'ancienne plate-forme avait été modiﬁée

129

Conclusion .

130

Priorités

Fonctions
Robustesse
Stabilité
Rapidité

131

Diagnostic performances

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (8)

Mehr von GenevaJUG

Mehr von GenevaJUG (6)

Diagnostic performances