Gérer les interruptions de service

outage Garantir une disponibilité de 100% quelque soit le nombre d’utilisateurs d’un service et sans pouvoir être sûr de l’ensemble des ressources disponibles est impossible. Il convient donc de mettre en place des stratégies de communications et d’actions pour gérer les périodes d’interruptions.

L’actualité récente nous prouve que personne n’est à l’abri des incidents. En quelques jours ce en sont pas moins de cinq services qui sont tombés  : Le nouveau service d’Apple : Mobile Me, mais aussi de Facebook (de nouveau tombé cette semaine), Google Docs, 37signals et enfin LiveSide.

Personne n’est donc à l’abri de problème technique, dépendant ou non de sa volonté d’ailleurs (un incident sur un datacenter est très pénalisant et il est difficile de s’en prémunir)

C’est pour cette raison qu’il faut mettre en place un plan d’action permettant de communiquer rapidement avec vos utilisateurs. Cela vous permettra de leur montrer que même pendant l’incident vous maitrisez en partie la situation.

Voici un modèle, à adapter en fonction de votre service, qui vous permettra de bâtir un plan d’action :

  1. Mettre en place un message informant vos utilisateurs du problème.
  2. Communiquer auprès de vos utilisateurs en leur signalant que vous êtes conscient de l’importance du service pour eux et que vous faite tout pour rétablir le service dans les meilleurs délais.
  3. Si le problème persiste, maintenir le contact avec les utilisateurs, en leur donnant, dans la mesure du possible des timing de résolution.
  4. Quand le service est de nouveau en ligne, analyser le problème et mettre en place des mécanismes permettant d’éviter ce type d’incident

Au niveau technique prévoyez de mettre en place une page par défaut ainsi qu’une procédure d’urgence permettant d’effectuer la bascule (car pendant l’incident vous n’aurez pas le temps d’utiliser les mécanismes de publication classiques).

Règle d’or : Soyez clair avec les utilisateurs. Il est évident que la transparence totale n’est pas toujours diffusable mais essayer d’être le plus transparent possible. Sinon vous pourriez avoir de très mauvaises surprises par la suite. De plus vous pourrez même essayer de tirer parti des problèmes en revenant plus tard vers vos visiteurs.

Dernier point, après l’analyse de l’incident mettez en place des correctifs. Communiquez en interne, en externe et faite régulièrement des tests vous permettant de valider le bon fonctionnement.

Voilà j’espère que vous n’aurez pas à vivre ce type de scénario régulièrement. Mais sachez qu’une bonne préparation vous permettra de traverser la crise plus facilement. Car une chose est sure, le 100% n’existe pas et il faut toujours se ternir prêt à gérer quelques heures de dysfonctionnements.

Comme d’habitude vos retours d’expériences sur ce thème sont les bienvenus.

Sur le même thème :

Leave a Reply