Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Metrologie d'un serveur Windows via Nagios

1 réponse
Avatar
Thierry Leurent
Bonjour,

Voil=E0, encore une fois, j'ai besoin de votre expertise.=20
Mettons les choses en place, pour un projet sp=E9cifique, nous avons un cer=
tain=20
nombre de machines se trouvant dans 2 localisations diff=E9rentes.

La premi=E8re localisation, chez nous, contient la production tandis que la=
=20
seconde est un site DRP/D=E9veloppement situ=E9 chez un prestataire ext=E9r=
ieur. Ces=20
2 sites sont reli=E9s par 2 fibres optiques qui nous sont r=E9serv=E9es (ju=
squ'=E0 quel=20
point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de=
=20
production et arrive dans un de nos rack du site DRP. Une est destin=E9e =
=E0 la=20
synchronisation des SAN tandis que l'autre sert pour le reste du traffic.

Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers=20
serveurs.=20
C'est racks sont identiques 2 =E0 2. Nous avons des Linux et des Windows 20=
03.

Le probl=E8me est le suivant :
R=E9gul=E8rement, les 2 serveurs Windows du centre DRP se plantent.=20
Le ph=E9nom=E8ne est le suivant :=20
=2D Le serveur re r=E9pond plus aux solicitaitons r=E9seau (ping, remote co=
ntrol,=20
=2E...).
=2D Sur la console physique, nous voyons un pop-up indiquant que le syst=E8=
me n'a=20
pas pu sauvegarder un fichier =E0 cause d'un probl=E8me r=E9seau ou hardwar=
e. On peut=20
presser sur OK. Apr=E8s une dizaine de ces messages semblables o=F9 seul le=
nom de=20
fichier change, nous arrivons au loggin.=20
=2D Lorsque nous voulons nous logger, nous avons un message indiquant que l=
e=20
syst=E8me ne dispose plus d'assez de ressources pour cette op=E9ration.=20
=2D La seule solution est de faire un power off/ power on et l=E0 tout repa=
rt sans=20
probl=E8me.

Selon la machine et le moment, la pr=E9riode d'uptime a dur=E9 entre 14 jou=
rs et 3=20
mois.

Les constatations

Les points communs entre les 2 machines :
=2D Elles tournent sous windows 2003.
=2D Elles ont des cartres r=E9seaux broadcom GigaEthernet du m=EAme mod=E8l=
e.

Les diff=E9rences :
=2D Une machine est de marque Fuji. Une machine est de marque Dell.
=2D Une machine est un node server Networker. Une machine est un DC.

Les choses =E9tonnantes :
=2D Des machines identiques sur le m=EAme site mais tournant sous Linux ne=
=20
plantent jamais.
=2D Des machines identiques sur l'autre site ne plantent jamais.

Conclusion!?
Je n'ai jamais vu ce probl=E8me ailleurs, je ne vois rien dans les logs.
La machine Fuji =E0 vu sont hardware chang=E9 2 fois sans aucun changement.

Actuellement, je me demande si il n'y a pas une interaction entre des paque=
ts=20
IP qui seraient le d=E9clencheur et le driver broadcom. Ce driver r=E9agira=
it mal=20
=E0 certains paquets, il remplirait la m=E9moire ou une zone m=E9moire soit=
en=20
accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
Ce qui empecherait d'autres =E9l=E9m=E9nts syst=E8me de fonctionner parce q=
u'il=20
n'aurait plus de place pour les files r=E9seaux ou le buffer pour l'acc=E8s=
disques.
C'est un th=E9orie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.

J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j=
'ai=20
configur=E9 Nagios pour faire dela m=E9trologie et j'y ai ajout=E9 PNP4Nagi=
os pour=20
faire de joli graphiques.
Pour l'instant, ces magnifiques "courbes" me donnent les informations de ba=
se=20
comme la charge CPU ou l'occupation m=E9moire.
Cela ne m'aide pas vraiment pour cerner la cause de mon probl=E8me. Je cher=
che=20
des solutions =E9prouv=E9es pour monitorer les diff=E9rentes parties de la =
m=E9moire=20
(Kernel, Buffer, ...), le paging file ou l'occupation m=E9moire de certains=
=20
process.

Demande

Mon syst=E8me peut int=E9rroger le serveur Windows via :
=2D Un script sur le serveur Windows (d=E9clench=E9 par l'agent Nagios).
=2D Une requ=EAte SNMP.
=2D Un query WMI.

Je n'ai pas trouv=E9 de requ=EAtes SNMP qui me convienne.
J'ai regard=E9 du c=F4t=E9 de WMI mais j'ai du mal =E0 interpr=EAter les do=
nn=E9es que ces=20
requ=EAtes me retournent, je n'arrive pas =E0 lier les r=E9sultats avec les=
valeurs=20
retourn=E9es par d'autres applications comme le taskmanager.
Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le=20
pourcentage utilis=E9, je me retrouve avec un entier de grande taille. Comm=
ent=20
interpr=E9ter ce nombre pour le transformer en quelque chose de valable.=20

Si vous avez d=E9j=E0 eu l'occasion :
=2D De monitorer de mani=E8re fine un serveur Windows.
=2D Vous avez d=E9j=E0 eu ce genre de plantage.
=2D Vous connaissez bien WMI et/ou SNMP.

Je serais heureux de partager vos connaissances.
=20
Merci.

Thierry

=20

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/201008252038.42087.thierry.leurent@asgardian.be

1 réponse

Avatar
David Dumortier
Bonjour,

Tu peux regarder du coté de NSClient++ qui te permettra différents
check depuis tes hôtes windows.
Je t'invite à te diriger vers des sites spécialisés
(monitoring-fr.org par exemple).

Le Wed Aug 25 2010