grave probleme RAID 10 ne s'assemble plus après maj
Le
Xavier Brochard

Bonjour à tous
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me dire
que le système ne démarrait pas. Le prompt proposait de sauter le montage de
cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell), mais
qui semble juste "cosmétique" d'après ce que j'ai pêché sur le net
- plein de Buffer I/O error on device dm-1, logical block 12206064
- encore plus de EXT4-fs error (device dm-1): ext4_read_inode_bitmap: Cannot
read inode bitmap - block_group = 320, inode_bitmap = 10485776
Ce qui est bizarre parce que les partitions ne sont pas montées (sauf / qui
est sur carte ssd hors raid).
Toutes les partitions Raid 10 sont marquées "inactive" dans /proc/mdstat
Le superblock de l'une d'elle n'existe plus (selon mdadm -Av)
Je suis un peu embêté, je n'ai jamais eu ça, et on me met la pression pour
que ça remarche vite
J'ai 2 soucis:
je ne comprend pas ce qui a pu se passer
et je ne comprend pas exactement la situation, ce qui m'empêche de faire ce
qu'il faut:
- Pourquoi "inactive"? je n'ai jamais vu ça avant ou je n'y a jamais prêté
attention. La doc du Raid Linux étant ce qu'elle est, je ne trouve pas
l'info.
- Me faut-il recréer le superblock manquant sur la partition ou bien
réassembler le raid en dégradé avec une partition fautive pour qu'elle soit
recréée?
Et pour comprendre:
- les disques sont neufs, il n'y a eu aucune alerte, je doute que ce soit un
problème physique (d'ailleurs les outils de diagnostic smart, pour ce qu'ils
valent (cf papiers de Google en 2008) n'indiquent rien.
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu dessus?
Merci pour vos lumières
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/ilqfji$3mm$1@dough.gmane.org
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me dire
que le système ne démarrait pas. Le prompt proposait de sauter le montage de
cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell), mais
qui semble juste "cosmétique" d'après ce que j'ai pêché sur le net
- plein de Buffer I/O error on device dm-1, logical block 12206064
- encore plus de EXT4-fs error (device dm-1): ext4_read_inode_bitmap: Cannot
read inode bitmap - block_group = 320, inode_bitmap = 10485776
Ce qui est bizarre parce que les partitions ne sont pas montées (sauf / qui
est sur carte ssd hors raid).
Toutes les partitions Raid 10 sont marquées "inactive" dans /proc/mdstat
Le superblock de l'une d'elle n'existe plus (selon mdadm -Av)
Je suis un peu embêté, je n'ai jamais eu ça, et on me met la pression pour
que ça remarche vite
J'ai 2 soucis:
je ne comprend pas ce qui a pu se passer
et je ne comprend pas exactement la situation, ce qui m'empêche de faire ce
qu'il faut:
- Pourquoi "inactive"? je n'ai jamais vu ça avant ou je n'y a jamais prêté
attention. La doc du Raid Linux étant ce qu'elle est, je ne trouve pas
l'info.
- Me faut-il recréer le superblock manquant sur la partition ou bien
réassembler le raid en dégradé avec une partition fautive pour qu'elle soit
recréée?
Et pour comprendre:
- les disques sont neufs, il n'y a eu aucune alerte, je doute que ce soit un
problème physique (d'ailleurs les outils de diagnostic smart, pour ce qu'ils
valent (cf papiers de Google en 2008) n'indiquent rien.
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu dessus?
Merci pour vos lumières
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/ilqfji$3mm$1@dough.gmane.org
[...]
Ceci est mutuellement exclusif: soit il s'agit de Raid matériel
(mpt2sas) soit il s'agit de raid logiciel (mdadm)
--
Daniel
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
en principe non, mpt2sas gère la carte qui est mise en controleur de disques
ou alors?...
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqgun$bpa$
J'ai aussi des serveurs Dell en raid1 logiciel: uniquement mdadm, pas de
mpt2sas. J'ai parcontre utilisé ce module sur des serveurs IBM par ex
qui avaient eux du raid matériel.
Dans les Dell, dans le Bios, je désactive le Raid matériel et me
retrouve avec deux disques. Je me demande d'ailleurs comment vous avez
fait pour mdadm, si le raid matériel est activé l'OS ne devrait voir
qu'un seul disque.
--
Daniel
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
C'est bien du raid logiciel, je me suis mal exprimé:
la carte sert de controleur sata3 pour les disques. Je pensais que mpt2sas
gerait aussi la carte dans ce cas.
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqhp3$gao$
Quel kernel? Lenny ou Squeeze?
[...]
Si on remonte les partitions à la main? Ou assemble avec l'option scan?
mdadm --examine --scan est un départ
[...]
--
Daniel
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
je complète, il y a un truc que je n'avais pas remarqué
mdadm --examine /dev/sd[cdefg]1 montre 2 disques inversés
pour /dev/sdc1 j'ai:
this 1 8 49 1 active sync /dev/sdd1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
2 2 8 65 2 active sync /dev/sde1
3 3 8 81 3 active sync /dev/sdf1
4 4 8 97 4 spare /dev/sdg1
et pour /dev/sdd1 j'ai:
this 0 8 33 0 active sync /dev/sdc1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
2 2 8 65 2 active sync /dev/sde1
3 3 8 81 3 active sync /dev/sdf1
4 4 8 97 4 spare /dev/sdg1
Les numéros de disque, de majeur, de mineur et de périph raid correspondent
à la liste des périphériques donné par mdadm.
et info oubliée, mdadm --examine indique la même liste de périphériques pour
tous les disques sauf pour /dev/sde1 qui donne la liste:
this 2 8 65 2 active sync /dev/sde1
0 0 0 0 0 removed
1 1 0 0 1 faulty removed
2 2 8 65 2 active sync /dev/sde1
3 3 0 0 3 faulty removed
(et rien pour le 5e disque)
Mais je suppose que c'est à cause du superblock disparu sur /dev/sde1
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqjon$th3$
2.6.32-29
désolé c'est de l'ubuntu je n'avais pas vu
(qu'est-ce qui m'a pris de mettre ubuntu là-dessus?!)
ça ne marche pas, fsck partout. J'ai joué avec la partition de /tmp pour
voir, et malré toutes les réparations, c'est monté read-only, et plein de
choses manquent
j'ai déjà essayé, tu penses! ça ne fait rien
après avoir rebooter sur system-rescue-cd, j'ai tenté d'aller plus loin, et
après quelques manips (surtout pour recréer mdadm.conf sur le live cd), si
j'assemble j'obtiens une kyrielle de device or resources busy, no
recogniseable superblock, etc.
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqk84$115$
Ca ne change rien. Et Squeeze est livrée avec le même noyau.
[...]
En dehors d'un GROS bug dans le kernel, cela ne peut pas venir de la
carte contrôleur? N'oubliez pas que le Raid des PERC de base sont du
raid ... logiciel!
A part cela, plus trop d'idée ...
--
Daniel
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
J'ai pensé exactement les mêmes choses, d'où mon appel à l'aide!
Redémarrer sur une version précédente du kernel ne change rien, mais ça peut
tout à fait venir de dégats occasionné sur le raid par un kernel fautif.
J'ai testé la carte contrôleur avec un utilitaire Dell, mais pour ce que ça
vaut...
c'est pour ça que la carte n'est pas utilisée en raid, mais en simple
contrôleur sata.
bah merci quand même
ça m'a éclairci qq idées
xavier
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqmgc$f8d$