SLA « 100% »

Nouvel article dans la série : surveillance des réseaux et services

Dans les négociations commerciales, il y a toujours un décalage certain entre le discours des brochures

  • « Datacenter Tier-3 »
  • « architecture hautement redondante »
  • Etc.

Et le moment des engagements sur les chiffres de disponibilité, SLA et éventuellement pénalités.

Le problème est foncièrement difficile parce que :

  • Le client Entreprise n’a pas toujours de surveillance en propre
  • Les causes hardware sont rarement celles qui dominent comme le rappelle ce rapport du PTS , l’équivalent suédois de l’ARCEP autorité de régulation des télécoms (pour ceux qui lisent l’anglais mieux que le suédois, les causes sont par ordre décroissant 1. Software, 2. Overload, 3. Cable cut, 4. Hardware, 5. Power/electricity)
  • outre les gros incidents, francs et nets, il y a une myriade de micro-coupures d’origine diverses et souvent « logicielles », des reconfigurations.

140424_restart

Ce cas est illustré avec une cible de surveillance interne sur notre site web. Suite à une attaque de notre site, une règle un peu stricte d’autoprotection empêchait certaines fonctions (envoi de CV). Résultat : il a fallu redémarrer le proxy/WAF (apache/mod-security pour être précis), en pleine journée !

Evidemment le baromètre automatisé de suivi ne loupe rien… comme les utilisateurs.

Et aussi

  • 15 mai 2014 Un service SaaS qui a du mal à ternir la charge Nouvel article dans la série : surveillance des réseaux et services Vous avez choisi de basculer vers une messagerie en mode SaaS. L’offre commerciale était alléchante et les performances bonnes lors de la phase de sourcing. Les mois passent avec les déploiements au siège puis sur site distants. Et les utilisateurs commencent à se plaindre. Le service est « lent », avec rapport de […]
  • 20 mai 2014 Performance d’une application dans un environnement mutualisé Les précédents articles de la catégorie ont permis de visualiser un certain nombre de cas figures liés aux réseaux (WAN + LAN). Mais les serveurs eux-mêmes sont la cause de différences de performances notables. D'où la nécessité de superviser ces performances, en particulier sur les environnements mutualisés comme les clusters de machines virtuelles. Voici quelques […]
  • 25 avril 2014 Quelle est la qualité des réseaux dans vos agences et sites distants ? Comme conseil spécialisé, nous sommes appelés à étudier & architecturer des réseaux IP, quotidiennement. Et certains constats se répètent. Lorsqu’on interroge les utilisateurs, particulièrement sur sites distants ou en agences, ils se plaignent de lenteurs. Lorsqu’on interviewe les administrateurs réseaux, ils montrent des graphes d’utilisations des liens. Parfois ils […]