2013-07-02

Type de tâche: Maintenance

Catégorie: Infrastructure

Etat: Finie

Bonjour,

Depuis quelques jours, nous avons de problèmes

de stabilité sur les VPS 2013 qu'on livre aux

nouveaux clients. Les VPS 2013 livrés il y a

quelques semaines n'ont aucun problème. Le

problème a apparu il y a 10J environ et chaque

jour devient de plus en plus important. On gère

en urgence de bugs liés au vCloud 5.1 et 1000v,

qui sont apparus seulement avec plusieurs milliers

de VPS en fonctionnement et de clients réels

qui font plein d'actions dans tous les sens.

Nous avons donc décidé de suspendre les ventes

de nouveaux VPS le temps de fixer ce problème.

On pense que ceci va nous prendre 7J-8J, c'est

à dire que la semaine prochaine mardi ou mercredi

on va reouvrir la commande et fournir à nouveau

de la qualité. Ça va sans dire que les clients qui

ont subit les pannes ce dernier jours ont le mois

gratuit.

Ainsi durant ces 7-8J, nous allons diviser

l'infrastructure de VPS en plusieurs petits

infrastructures. Ça sera fait demain matin. Ceci

provoquera une coupure dans le service entre

60-180 secondes par VPS. Pour les nouvelles

commandes, nous allons utiliser cette nouvelle

taille maximale d'une infrastructure (les données

de constructeurs sont .. fausses). En suite,

nous allons recoder tous les robots et l'API pour

utiliser directement vSphere au lieu de vCloud.

On va prendre 2-3J pour faire ça à 9 personnes.

Puis on se donnera 2-3J de test du manager/api

et les opérations courantes (réinstalle, snap).

Et donc cela nous amène à mercredi prochain où

on n'entendra plus parler de problèmes de VPS.

Durant ces travaux, il est fort possible que

le manager/api aient quelques problèmes/erreurs

inhabituels. C'est normal: on le recode.

On n'a pas l'habitude de prendre de décision

aussi radicales que fermer la commande mais l'idée

est de mettre toutes les ressources sur ce

problème. Gérer en plus le flux (important)

de nouvelles commandes ne nous permettrait pas

d'aller vite en revoyant toute l'infra comme

nous allons faire.

Désolé pour ces pannes.

Et au boulot. On a 8J max. C'est parti.

Amicalement

Octave

Commentaires:

Date: Tue, 30 Apr 2013 03:07:02 +0200

Les robots VPS2013 sont à présent coupés. Toutes nouvelles opérations insérées dans nos bases de données seront traitées ultérieurement. La mise en place de la nouvelle infrastructure est en cours. Les robots pilotant les actions de bases tels que le start, le stop et le reboot sont déjà re-codés pour s'interfacer directement sur vsphere sans passer par la brique vCloud. Nous réalisons en ce moment même quelques tests afin de s'assurer du bon fonctionnement de l'ensemble et de la consistance des bases de donnée. Nous vous tiendrons informé ultérieurement sur la suite des événements via cette tache travaux.

Date: Tue, 30 Apr 2013 07:39:27 +0200

Nous démarrons les migrations.

Date: Tue, 30 Apr 2013 09:58:07 +0200

Les migrations vers la nouvelle infrastructure sont toujours en cours. Tout se déroule correctement.

Nous avons migré 10% de l'infrastructure.

Date: Tue, 30 Apr 2013 12:25:08 +0200

Les robots fonctionnent maintenant à pleins régime. Nous avons dépassé les 40% de l'infrastructure migrée.

Tout se déroule correctement, nous continuons la maintenance.

Date: Tue, 30 Apr 2013 13:34:13 +0200

Nous sommes arrivés à 60% de l'infrastructure migrée.

Tout se déroule comme prévu, nous continuons la maintenance

Date: Tue, 30 Apr 2013 16:04:26 +0200

il reste environ 250 VPS à migrer.

Date: Wed, 01 May 2013 00:53:02 +0200

Tous les VPS Cloud ont été migré. Nous finissons
le travail de redemarrage de certaines VM qui ne
ping pas.

Parmis les VPS qui ne ping pas, il y a les windows
qui ne ping pas naturellement. Ce n'est pas pour
autant qu'ils ne fonctionnent pas.

On s'occupe de VPS restant qui sont down. Dans
leur cas on fait un "vmotion" d'un host à un
autre et ça reping .. ça sert un bug.

Aussi il reste quelques VPS qui n'ont pas été
reconfigurés jusqu'au bout ou la reconfiguration
a planté (la mise en place ACL, MAC, VLAN, le
port sur 1000v, IP/MAC sur le routeur etc). On
relance le script avec les VPS qui sont pas
redémarré.

Date: Wed, 01 May 2013 05:44:06 +0200

toutes les VM sont up.

Date: Wed, 01 May 2013 05:44:58 +0200

si vous avez un problème, n’hésitez pas
nous envoyer un email (oles@ovh.net) ou
un twitter (@olesovhcom) en précisant
le problème et le nom du vps.

Date: Wed, 01 May 2013 13:25:38 +0200

En regardant en profondeur les problèmes de
VPS restant, on s'appercoit qu'il y a un
problème de output de la VM vers 1000v dans
le cas où le VPS est hébergé sur le host XL.

Nous lançons la migration à chaud de toutes
les VM sur les host XL vers les hosts L2+.

si vous avez un problème, n’hésitez pas
nous envoyer un email (oles@ovh.net) ou
un twitter (@olesovhcom) en précisant
le problème et le nom du vps.

Date: Sun, 05 May 2013 23:15:38 +0200

Bonsoir,
Voici quelques news sur l'évolution de VPS 2013.

Nous avons trouvé l'origine de problèmes de
stabilité que nous avons rencontré sur la nouvelle
plateforme VPS 2013. C'était dû à l'incompatibilité
entre les serveurs physiques utilisant l'interface
réseau en 10G et le switch virtuel Cisco 1000v.
Pour une raison qu'on ne connait pas encore,
les VPS s'arrêtaient parfois de pinger, parfois voir souvent
et de maniere aléatoire lors qu'ils tournaient sur
les hosts avec du 10G. Dés qu'on basculait automatiquement
le VPS d'un host à un autre, ça refonctionnait puis
ça s'arrêtait à nouveau au bout d'un certain temps si
le nouveau host était en 10G. Nous avons mis du
temps à faire le rapport entre les hosts 10G et 1000v.
Il a fallu déjà enlever le vCloud pour être sûr que ça
ne venait pas de là. Puis, on a vu plus clair l'infra
d'abord un doute puis confirmation du bug. Depuis
samedi 4H du matin, nous avons migré le
dernière VPS d'un host en 10G et depuis nous
n'avons enregistré aucune instabilité

Nous avons quand même changé le vCloud par
vSphere et on finit de le recoder pour mardi soir.
Ceci nous simplifiera le code car nous avons dû
coder plein de "workaround" de bugs de vCloud
chose qui marchent direct en vSphere. Beaucoup
de perte de temps pour vous et nous, notament
pour le windows, le reseau etc Au niveau du code
80% est déjà réécrit et fonctionne. Le reste de l'API
sera fixé en 48H.

On regarde dans la foulé pour rallonger tous les
VPS de 1 mois à nos frais. Nous avons eu trop
de panne depuis 1 mois et il nous est difficile
de justifier une facturation pour un tel mois.

Vu que maintenant on sera en vSphere, ça sera
plus simple de coder par exemple les disques "high IO"
pour ceux qui ont besoin de performances garanties
du stockage. Sous vCloud ça faisait déjà 2 semaines
on cherchait comment rendre l'opération "non automatique"
alors qu'en vSphere on décide de tout et on laisse aucune
decision à vCloud. Bref, on va enfin coder simplement
et directement.

Les infrastructures VPS 2013 sont protégés par
Arbor. Ceci permet de filtrer quelques attaques
simples et protéger mieux l'infra contre les
instabilités. On attend le reste de l'infrastructure
de mitigation pour ajouter de nouvelles fonctionnalités
en fonction du type d'attaque nous détectons.

Désolé encore pour toutes ces pannes qui sont
inhabituelle pour nous.

Amicalement
Octave

Show more