SLA « 100% »

Nouvel article dans la série : surveillance des réseaux et services

Dans les négociations commerciales, il y a toujours un décalage certain entre le discours des brochures

  • « Datacenter Tier-3 »
  • « architecture hautement redondante »
  • Etc.

Et le moment des engagements sur les chiffres de disponibilité, SLA et éventuellement pénalités.

Le problème est foncièrement difficile parce que :

  • Le client Entreprise n’a pas toujours de surveillance en propre
  • Les causes hardware sont rarement celles qui dominent comme le rappelle ce rapport du PTS , l’équivalent suédois de l’ARCEP autorité de régulation des télécoms (pour ceux qui lisent l’anglais mieux que le suédois, les causes sont par ordre décroissant 1. Software, 2. Overload, 3. Cable cut, 4. Hardware, 5. Power/electricity)
  • outre les gros incidents, francs et nets, il y a une myriade de micro-coupures d’origine diverses et souvent « logicielles », des reconfigurations.

140424_restart

Ce cas est illustré avec une cible de surveillance interne sur notre site web. Suite à une attaque de notre site, une règle un peu stricte d’autoprotection empêchait certaines fonctions (envoi de CV). Résultat : il a fallu redémarrer le proxy/WAF (apache/mod-security pour être précis), en pleine journée !

Evidemment le baromètre automatisé de suivi ne loupe rien… comme les utilisateurs.