OVH en carafe

Message par **paraglandeur** » 30 juin 2017, 09:33

Info pour ceux qui ont un site hébergé chez OVH (dont je fais partie avec le forum "les copains d'abord" et un site galerie de photos).
Depuis hier, ils ont de très gros problèmes matériel.
Au moins, ils communiquent et on a des infos

Bonjour,
Pour héberger les 3 millions de sites web en hébergement mutualisé
nous utilisons 2 datacentres: le DC historique à Paris (P19) et
le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons
différentes technologies pour stocker les données pour les sites
web et les bases de données. Dans la majorité de cas nous
utilisons notre technologie NAS ou NAS-HA basée sur le ZFS.

Aussi sur P19, dans certains cas nous utilisons les baies
de stockage propriétaires d'EMC VNX 5400 avec les disques
SSD. Il s'agit d'une solution que nous avons mis en place
en 2012 pour palier aux problèmes de performances de stockage
que nous avons eu en 2012 sur les bases de données. Depuis
nous avons fixé la performance sur nos NAS-HA et sur GRA
nous n'utilisons plus que nos solutions interne.

Le jeudi 29 juin à 18h30, nous avons eu un incident sur
l'une de baies de stockage EMC VNX 5400 que nous utilisons
pour stocker une partie de bases de données de hébergement
mutualisé à P19. Il s'agit d'un ensemble composé de 96
disques SSD configurés en active/active sur plusieurs
baies physiques. L'ensemble ne veut plus redémarrer. Nous
avons contacté le constructeur et nous essayons de trouver
une solution pour récupérer les données hébergés sur cette
baie.

Cette baie de stockage est utilisée pour héberger les bases
de données d'hébergement mutualisé. Aussi toutes les bases de
données sont backupé tous les 24 heures sur d'autres systèmes
de stockage qui sont dans un autre DC à Roubaix: RBX1.

Nous avons 2 actions en cours:

1) nous sommes en contact avec EMC avec qui nous avons
essayé de redémarrer le système. une équipe de RBX a pris
une baie de stockage EMC VNX 5400 que nous avons eu en
spare à Roubaix pour la transporter à P19. La baie est
arrivée à P19 vers 3H du matin et nous essayons de
redémarrer les disques dans cette nouvelle baie de stockage.
Nous avons demandé l'intervention d'EMC sur le site pour
nous aider à la redémarrer au plus vite. Nous ne savons
pas encore combien de temps va prendre le redémarrage de
la baie et si nous arriverons à récupérer les données.
Nous n'avons pas d'ETA. Le technicien d'EMC devrait être
sur le site vers 10H00. Nous aurons plus d'information à
ce moment là.

2) c'est pourquoi nous avons lancé la restauration de bases de
données à partir de backup. Cette restauration a commencé
vers minuit du matin. Ce matin à 9h, environ 15% de bases de
données ont été remises en route en mode "lecture seule"
c'est à dire que les sites web peuvent lire les données
dans les bases de données mais ne peuvent pas encore les
modifier. Nous continuons la restauration qui va prendre
jusqu'à environ ce soir 20h. L'ensemble de process est
désormais automatisé et nous avons assez de stockage pour
deployer toutes ces bases de données sur P19.

Next step. Il y a 2 choix. Le plan A et le plan B.

A) si nous arrivons à récupérer les données de la baie
nous allons immédiatement redémarrer toutes les bases
de données. aucune perte de données.

b) si nous n'arrivons pas à redémarre la baie. Dans
ce cas là nous allons activer le mode "lecture et
écriture" sur les bases de données qui ont été
restaurées à partir du backup qui aura un retard de
minimum 1H et maximum 22H sur la version de bases
de données à l'heure de la panne.

Pour suivre les tasks de travaux sur la restauration
de bases de données:
http://travaux.ovh.net/?do=details&id=25697

Nous sommes sincèrement désolés pour cette panne. La
dernière panne de cette ampleur date de 2006 et à
l’époque nous avons remis en question toutes les
technologies de stockage que nous utilisons chez Ovh.
Cette panne est une leçon de plus et nous allons vous
communiquer les changements qui vont s’opérer dés la
fin de cet incident pour éviter de revivre la prochaine
panne de cette ampleur dans 10 ans encore.

Amicalement
Octave

Message par **biour** » 30 juin 2017, 09:38

Arf le matos proprio quand cha lâche ....

Merci de l'info (pas reçu, car juste des NDD chez eux)

Message par **Rolibulle** » 30 juin 2017, 09:41

Merci Nono

Tu feras coucou quand ce sera reparti ?
Il faut espérer que les données (photos surtout) ne seront pas perdues ...

Message par **paraglandeur** » 30 juin 2017, 10:20

Bizarrement, LCA est en rade, mais pas ma galerie photo. Sans doute pas hébergé sur les mêmes serveurs.
Au pire, j'ai un backup de la base de données de LCA en date du 15 juin dernier (avant mon départ en wacances)

Message par **poulpito** » 30 juin 2017, 11:03

au aurait du leur vendre notre service :p

on est jamais aussi bien hébergé que chez soit

au moins tu peux t'en prendre qu'à toi même quand ca merde

et oui l'avantage c'est qu'ovh communique pas mal

Message par **paraglandeur** » 30 juin 2017, 21:40

Ce jour, à 21h30, 95% des serveurs sont rétablis.

Comment by OVH - Friday, 30 June 2017, 21:26PM

95% des bases de données sont désormais restaurées.
Vous pouvez en consulter la liste via le lien suivant: http://travaux.ovh.net/?do=details&id=25697

Ils ont dû utiliser la technique Indienne du bénissage de serveur

Message par **poulpito** » 30 juin 2017, 21:51

95% des backups :p
leur VNX poubelle il a pas l'air d'être repartit
a 19h : Les restaurations des données depuis la baie EMC est en cours d'investigation avec la Recovery Team EMC.

ca va leur faire une de ces pub à emc

Message par **Le Pat** » 01 juil. 2017, 08:21

J'en ai eu deux
C'est de la mer de
Vaux mieux partir sur du 3par

Message par **poulpito** » 01 juil. 2017, 09:22

NetApp ici, 3par c'est le diabolique concurrent xD

Message par **Le Pat** » 01 juil. 2017, 20:49

TRANSALPAGE

OVH en carafe

OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe

Re: OVH en carafe