Rechercher sur le site

OVH - pas vu à la télévision

Aller au dernier message
Posté par : joe coe le 16 Jul 2010, 00:26

 

1 disque dur changé, 1 alimentation changée et OVH ne veut toujours pas réagir au problème de fond, le CPU chauffe.

Comme le CPU chauffe de trop, le serveur redémarre en boucle, ce qui doit être sans doutes la sources des ennuis rencontré récemment avec les serveurs OVH sur notre serveur dédié hybrid 2010.

 

Les faits relaté dans ce message sont issue du ticket d'incident suivant :

Vos tickets en cours


Domaine Commande Priorité Création Etat


488568 ns366084.ovh.net
Aucune 2010-07-15 16:20:12 Attente

 

Le serveur de chez OVH tombe régulièrement

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-07 18:13:02

Notre équipe de techniciens sur site (opérationnelle
24h/24, 7j/7),
a été informée de ce défaut et va intervenir sur votre
machine.

Sachez que d'autres interventions peuvent être en cours
actuellement
et qu'il faut compter en moyenne 30 minutes par
intervention et par
machine.
Par conséquent, nous ne pouvons pas vous donner plus de
précisions
quant à l'heure de début de l'intervention.

Vous pouvez avoir un aperçu global des machines
actuellement en defaut
et en intervention sur tout le réseau à cette adresse:

http://travaux.ovh.net/vms/

Votre serveur se trouve dans la baie 21B12

Vous recevrez un email dés qu'un technicien prendra en
charge votre
serveur. En attendant, vous avez la possibilité de le
rebooter à partir
de votre manager.

Logs:
----------------------
PING ns366084.ovh.net (94.23.8.182) from 213.186.33.13 :
56(84) bytes of data.
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable

--- 94.23.8.182 ping statistics ---
10 packets transmitted, 0 packets received, +6 errors, 100%
packet loss
---------------------

La réponse d'OVH

L'intervention sur ns366084.ovh.net est terminée.

Cette opération a été achevée le 2010-07-07 18:32:39

Voici les détails de cette opération :
Réparation de la configuration logicielle
Date 2010-07-07 18:26:05, jonathan C a fait Réparation de
la configuration logicielle:
serveur sur login mais sans ping
pas de firewall
pas de message d'erreur
reboot soft avec meme constat
reboot sur kernel bzImage avec erreur kernel panic
mise en rescue pour correction client
rescue ok
ping ok
ssh open


Si vous souhaitez plus de détails sur le rapport
d'intervention, veuillez contacter notre support
technique.

Traduction :

Ami client démerde toi, ton serveur est rebooté en mode rescue, le problème vient de chez toi.

Alors là il faut bien comprendre que ce que fait le technicien après son intervention, c'est qu'il redémarre le serveur en mode sans échec si on doit faire un comparatif douteux avec windows.

En gros, le serveur plante en mode normal, le technicien le constate, alors il redémarre tranquilement en rescue pro, et se barre.

Accéssoirement si c'est votre serveur de mail qui est planté, c'est mort, personne ne vous aura prévenu. Vous pouvez alors toujours essayer de vous connecter sur votre serveur dédié de chez OVH en ssh en vous exitant sur votre login et votre mot de passe puisque ça ne fonctionne plus... En mode rescue, le login et le mot de passe change, vous lme savez puisque c'est dans le mail que vous avez reçu... ha bah non, c'est vrai, je n'ai plus de serveur de mail.

Ha, suis bête, il faut pensé à aller dans le manager ovh pour voir si on vous a envoyé un mail... 2vident quand on le sait sinon c'est 3 heures de perdues et un enormissime coup de stress.

Le stress dans ce cas là n'est pas remboursé.

 

ticket d'incident cloturé

L'incident détecté le 2010-07-07 18:17:04 est à présent
résolu.

Nous cloturons donc ce ticket

Donc, à ce moment des choses, rien ne fonctionne, enfin si le serveur semble fonctionné mais quand on lance nos traitements, il tombe...

Pour OVH, c'est ok, ça ping, donc c'est ok !

Evidemment vu comme ça, on ne comprend pas encore pourquoi je suis agacé; mais en parallèle, j'explique à OVH, avec plusieurs appels téléphoniques (1,35 euros + 0,34cts / min) - déconnection récurente (après les 1,35 euros bien entendu).

Le service technique sais que ça ne fonctionne pas. Nous continuons les investigations chez nous parce que fustiger un prestataire avant d'avoir fait le ménage très minutieusement devant sa propre porte ce n'est pas le genre de la maison.

 

On relance

Je vous signale que suite à VOTRE intervention, le
serveur a redémarré en mode rescue.
nous avons galéré toute la soirée pour comprendre enfin
ce qui s'était passé.

Si vous pouviez faire le tour de la machine et nous dire
si tout est ok sur ce serveur qui est tombé deux fois en
trois jours.

Cordialement,

pas de réponse de la part d'OVH, on continue à parler à des machines... En attendant notre serveur dédié Hybrid 2010 ne fonctionne pas, enfin pas comme devrait fonctionner un serveur.

 

Le serveur de chez OVH plante de nouveau

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-08 11:03:03

Notre équipe de techniciens sur site (opérationnelle
24h/24, 7j/7),
a été informée de ce défaut et va intervenir sur votre
machine.
....

Réponse d'OVH

A la date 2010-07-08 11:03:03, nous avons constaté un
défaut
sur votre serveur et nous avons programmé une intervention
afin de
palier à ce defaut.

Toutefois, à la date 2010-07-08 11:16:02 notre système de
monitoring n'a plus
relevé de défaut sur votre serveur dédié ns366084.ovh.net

Nous ne sommes pas intervenus sur votre machine. Nous ne
connaissons
pas l'origine du défaut.

A ce stade des choses nous non plus nous ne connaissons pas l'origine du problème.

En attendant, ça plante toujours et encore, de façon aléatoire, le serveur éprouve les plus grandes difficultés à rebooter, ça reboote en boucle, ça ne reboote pas, bref on n'y comprend rien.

 

Et ça continue

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-08 11:49:04


et OVH continue

Vérification du serveur
Date 2010-07-08 11:58:40, kevin D a fait Vérification du
serveur:
Serveur en cours de fsck, puis netbooté en rescue par le
client :

Ping ok
Ssh open

Aucune intervention effectuée

démerde toi ami client, tes 10 appels à 1,35 euros, on s'en fout, tout va bien.

 

et re

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-08 15:02:03

Notre équipe de techniciens sur site (opérationnelle
24h/24, 7j/7),
a été informée de ce défaut et va intervenir sur votre
machine.

 

 

Un disque dur est mort

quelques appels plus tard, je ne sais plus, à ce stade des choses on ne compte déjà plus

Un disque de ns366084.ovh.net a été détecté comme
défectueux et doit etre remplacé par nos
équipes. Afin de ne pas perdre les données qu'il
contient, nous vous conseillons fortement d'en
réaliser une copie de sauvegarde et de répondre à
ce ticket une fois cela fait.

!! ATTENTION !! Toute nouvelle défaillance peut
engendrer la perte irrémédiable de vos données

Nous pouvons vous proposer le rachat et l'envoi
de ce disque par UPS. Pour cela merci de prendre
contact avec notre service commercial au numéro
+33.8 203 203 63

Sans réponse de votre part, l'intervention sera
réalisée sous 10 jours a compter de l'envoi de ce
mail.

Bon la machine est en raid 1 hard, ça veut dire que le fait qu'un disque dur soit mort, en théorie on s'en fout un peu c'est précisément l'intérêt d'un mode raid 1. Ceci étant dit il est mort, il vaut mieux le changer avant que son homologe, lacha aussi sinon c'est plus délicat, le raid 1 même chez OVH n'autorise que la mort d'un disque dur.

Allez on change un disque dur.

 

ha non avant un petit plantage suplémentaire :

L'intervention sur ns366084.ovh.net est terminée.

Cette opération a été achevée le 2010-07-08 15:24:33

Voici les détails de cette opération :
Réparation de la configuration logicielle
Date 2010-07-08 15:13:34, jonathan C a fait Réparation de
la configuration logicielle:
serveur sur ping quelques instant sur DD puis reboot en
boucle
idem sur kernel bzImage
passage en rescue
erreur "i/o" sur le disque dur SDD
un ticket va etre ouvert afin de corriger le probleme
rescue ok
ping ok
ssh open

bon là je passe quelques messages sans intérêt puis on change le disque dur

 

impossible de synchroniser les disques dur en raid 1 chez OVH hybrid 2010 (problème gpt)

 

L'intervention sur ns366084.ovh.net est terminée.

Cette opération a été achevée le 2010-07-08 16:07:37

Voici les détails de cette opération :
Remplacer un disque du RAID
Date 2010-07-08 15:58:45, jonathan C a fait Remplacer un
disque du RAID:
Intervention programmée:
remplacement du disque défaillant SDD
check bios -> 4 DD detectes
netboot en rescue
rescue ok
ping ok
ssh open

On est en mode rescue, c'est bien, on s'en doutait cette fois ci en même temps.

Là easy il fut resynchroniser les disques dur.

on a la doc, tout va bien...

ha non la documentation concernant la synchronisation des disques dur en raid 1 chez ovh sur un hybrid 2010 ne fonctionne pas. La documentation n'est pas à jour.

les commandes sont donc innéficaces puisqu' inadaptées.

Bref re coup de fil au services technique de chez OVH à 1,35 euros + ...

c'est trop compliqué à nous expliqué, c'est très technique (houlà, c'est pas bon ça), on s'en occupe. ha !

 

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-09 14:05:03

pendant ce temps là notre serveur dédié de chez OVH continue de planté, ça ne surprend personne !

 

Bonjour, Je me permet de revenir vers vous au sujet du problème de partition gpt
....
Votre problèmatique étant particulière, j'ai pensé vous le faire gracieusement.

C'est gentil ça, ça fait trois jour qu'on galère comme des romains avec un serveur dédié hybrid 2010 de chez OVH et il m'offre l'intervention, sur un problème qui ne relève pas de notre domaine de compétence, sur un disque dur qui ne devrait pas poser de problème puisqu'on est en raid, avec des fonctions qui ne sont pas documentées pour que nous puissions resynchroniser nos disques durs... enfin si c'est OVH qui régale, profitons en.

 

Date : 2010-07-09 14:32:50

 nous avons redémarré en mode hd après la fin de la
synchronisation des DD.

alleluia, c'est fini, les disques durs sont synchronisés, on est bien, je vais bien, tout va bien....

 

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-09 15:03:03

Bon à partir de là c'est sur les techniciens de chez OVH vont se sortir les doigts du cul et nous trouver le problème.

Quand on s'appelle OVH, on a une réputation à défendre.

 

Bonjour, 

A la date 2010-07-09 15:03:03, nous avons constaté un
défaut
sur votre serveur et nous avons programmé une intervention
afin de
palier à ce defaut.

Toutefois, à la date 2010-07-09 15:08:03 notre système de
monitoring n'a plus
relevé de défaut sur votre serveur dédié ns366084.ovh.net

ha oui là c'est nous qui sommes passé en mode rescue, on avait anticipé, mais du coup, il ne se passe plus rien.

n'espérez pas une intervention dans ces conditions, ça ping, le ssh est open alors tout va bien. So demerden zi zich !

 

Le serveur reboote en boucle

 

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-09 19:03:02

 

Notre système de monitoring vient de détecter un défaut sur
votre
serveur ns366084.ovh.net. Le défaut a été constaté à la
date 2010-07-09 19:34:03

 

Suite à ces interuptions continues, il est temps que nous investiguions de notre coté, puisqu'OVH, s'en fout comme de sa première chemise. Dans la pub, le sauteur à la perche est à poil, mais là si le client n'est pas administrateur un tantinet confirmé c'est lui qui se retrouve à poil dans l'indifférence générale.

 

Notre diagnostique, le CPU chauffe, ce qui provoque les reboot en boucle

Bonjour,

suite aux différents problèmes rencontrés sur la
machine depuis maintenant une semaine, les différentes
interventions de votre part ont été sans succès, nous
avons revu l'ensemble des programmes qui tournent sur
cette machine (qui tournaient avant très bien sur une
machine moins puissante).

Nous avons donc effectué aujourd'hui 15/07/2010
différents tests sur le serveur et il semblerait que le
système de refroidissement du CPU ne fonctionne pas, à
chaque petite montée en charge le serveur reboot
automatiquement (et si un traitement un peu lourd est
programmé au démarrage, une base de données un peu
lourde à charger, etc... c'est le reboot en boucle !!! ).
Le plus gros traitement fait monter la charge globale CPU
à 14% (ce qui est faible) et fait monter la température
des différents core du CPU à + de 80°C (ce qui est
beaucoup trop pour une si petite charge)... un stress test
à confirmé le diagnostic puisque au lancement de
celui-ci le serveur a rebooté moins d'une seconde après!

Le système de mesure des températures indique aussi
d'une part que les ventilateurs ne fonctionne pas du tout
et que des mesures de tensions à différents endroits du
serveur sont en dehors des bornes (d'où dégradation du
matériel et surement cause de la perte d'un des disques
durs changé la semaine dernière).

Il semblerait donc que l'ALIMENTATION DU SERVEUR et le
SYSTEME DE REFROIDISSEMENT du serveur soient à changer.

Merci de faire le nécéssaire pour réparer tout cela au
plus vite. Pour information , ce serveur a moins de 3 mois
(quasi-neuf) et il est au coeur de notre activité
commerciale et professionnelle.

Cordialement,

 

Date : 2010-07-15 17:23:42

Bonjour,

Je viens de lancer une intervention programmée sur votre
serveur
pour vérifier le système de refroidissement et remplacer
l'alimentation.

Cordialement,

A partir de là on peut dire que les technicien de chez OVH se foutent royalement de leur clients, accrochez vous les amis, c'est parti

L'intervention sur ns366084.ovh.net est terminée.

Cette opération a été achevée le 2010-07-15 18:32:06

Voici les détails de cette opération :
Remplacement de l alimentation
Date 2010-07-15 17:46:26, goncalo M a fait Remplacement de
l alimentation:
Le client a programmé une intervention pour change
l'alimentation et pour verifier la temperature.
Changement de l'alimentation.
Ajout de pate thermique
Temperature controlle a 40°C environ.
La machine a redemarre sur son disque dur, mais apres il
affiche une ecran noir et redemarre automatiquement.
Reboot hard effectue, mais le erreur continue.
Changement du netboot par Bzimage 2.6.
La machine a redemarre en BZImage 2.6, mais le erreur
continue.
Reboot hard effectue.
Changement du netboot par rescue pro.
La machine a redemarre en mode rescue pro.
Ping OK.
Services OK.
Veuillez verifier la configuration de votre reseau.

Marrant non ?

sauf que nous la température avec nos faibles moyen on la controle à 60°C sur une machine qui tourne à vide et qu'accéssoirement avoir un serveur dédié qui tourne en mode rescue pro chez OVH, on s'en tape un peu.

 

Bref, le serveur plante désormais dès qu'il passe 80°C c'est à dire dès qu'il travaille un peu.

Nous avons donc un serveur dédié hybrid 2010 chez ovh que nous ne pouvons utilisé qu'a 5 ou 6% de CPU, au délà, ça plante, et OVH s'en tape royalement.

 

Allez un petit test en live

utilisation CPU : 5%

température du procésseur (moyenne des 8 core) : 54°C

voilà 2 minutes plus tard le serveur est tombé

coretemp-isa-0000
Adapter: ISA adapter
Core 0:      +67.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0001
Adapter: ISA adapter
Core 1:      +73.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0002
Adapter: ISA adapter
Core 2:      +68.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0003
Adapter: ISA adapter
Core 3:      +75.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0004
Adapter: ISA adapter
Core 4:      +67.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0005
Adapter: ISA adapter
Core 5:      +73.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0006
Adapter: ISA adapter
Core 6:      +68.0°C  (high = +80.0°C, crit = +100.0°C)

coretemp-isa-0007
Adapter: ISA adapter
Core 7:      +75.0°C  (high = +80.0°C, crit = +100.0°C)

 

Le problème semble pourtant simple non ?

le CPU chauffe

 

La réponse d'OVH ? il n'y en a pas !

 

Je suis le maître de mon destin,Je suis le capitaine de mon âme.
Posté par : Ranius le 16 Jul 2010, 02:27

J'ai lu ce post jusqu'au bout et à la fin, je sais pas si c'est du à l'heure tardive, je croyais que je faisais un cauchemard. forum_bourse_45

Dans le genre gougnafier ils sont pas mal les kikis !

Posté par : joe coe le 16 Jul 2010, 03:02

Citation : Ranius

J'ai lu ce post jusqu'au bout et à la fin, je sais pas si c'est du à l'heure tardive, je croyais que je faisais un cauchemard. forum_bourse_45

Dans le genre gougnafier ils sont pas mal les kikis !

pas mal oui

sachant que là y'a pas tout sinon à cette heure tardive on finit par s'endormir...

quelques SOS lancés ici et là avec appel aux responsables...

 

3 heures du mat,

j'ai des frissons,

je claques des dents,

je monte le ton

Seul sur le pont 
Dans mes draps bleus froissés 
C'est l'insomnie, 
Sommeil cassé. 
Je perds la tête, 
Mes cigarettes sont toutes fumées 
dans le cendrier 
C'est plein de Kleenex et de bouteilles vides, 
J'suis tout seul, tout seul, tout seul. 
Pendant qu'Roubaix se désespère (non je déconne)
J'ai d'quoi m'remplir un dernier verre. 
Clac ! fait le serveur en tombant sur le lino. 
J'm'coupe la main en ramassant les morceaux. 

 

 

Je suis le maître de mon destin,Je suis le capitaine de mon âme.
Posté par : Skywalk3r le 16 Jul 2010, 09:07

Extrait des CGV de chez OVH :

ARTICLE 5 :

Niveau 1 - Assistance : OVH s'engage à informer le Client du déroulement de sa commande. OVHs'engage à vérifier le bon fonctionnement des caractéristiques du Service. OVH s'engage à remédier aux dysfonctionnements relevant de sa responsabilité exclusive.

Ce qui n'est pas dis c'est qu'OVH s'engage aussi a faire en sorte d'ignorer son client quant aux dysfonctionnements remarqués par celui-ci et que de toute façon il va bien prendre son temps pour "remédieraux dysfonctionnements relevant de sa responsabilité exclusive"!!!

Ce qu'il y a de magique, c'est qu'ailleurs, c'est pire!!!

L'infogérance c'est 8 fois plus cher et les serveurs qu'on vous propose sont moins puissants que nos PC familiaux...

La solution pour être peinard c'est d'avoir les serveurs chez soi... Google et Microsoft peuvent le faire, pourquoi pas Daily-Bourse !!! forum_bourse_56

An Apple a day keep the shrink away !!!
Posté par : edurosfr le 17 Jul 2010, 08:22

Joe,

 

Ce problème peut s'apparenter à un pb mémoire (reboot aléatoire après un temps variable d'utilisation).

 

Est-il possible de faire un test avec memtest ou changer les barrettes ?

 

Cordialement,

 

Manu

Posté par : joe coe le 17 Jul 2010, 10:51

les disques durs ont été changés

l'alim a été changée

la carte mère a été changée

 

là on change la ram et de nouveau l'alim

 

le problème clairement, nettement, indiscutablement identifié c'est le CPU qui chauffe dès qu'il travaille à plus de 15 ou 20%

 

on verra, intervention en cours

 

Je suis le maître de mon destin,Je suis le capitaine de mon âme.
Posté par : Skywalk3r le 18 Jul 2010, 15:57

Chez OVH, on ne change pas les serveurs de manière standard...

on préfère vous changer l'alim, la carte mère, la ram, les disques durs, le boitier, le système de refroidissement, le cable d'alimentation, les cablages internes puis surement le CPU bientôt puisque c'est lui qui déraille... mais jamais on vous changera le serveur... JAMAIS !!! foi d'OVH 

 

An Apple a day keep the shrink away !!!
bourse