2018-06-14 - General GPFS Access Problem

Print
Published on Thursday, 14 June 2018

2018-06-14 - General GPFS Access Problem

(Update 3:00 PM) Guillimin Back Online - After some hours of investigation on the Infiniband network, we have resolved the general GPFS access problem. Unfortunately, we had to cancel all previously active jobs in order to restart GPFS on all nodes. We apologize for the inconvenience.

(8:45 AM) Since yesterday afternoon, a new issue has arised somewhere on the storage system : long waiters. We are now investigating the root cause of this new issue, but we had to stop job scheduling and close all access. We apologize for the inconvenience.


2018-06-14 - Problème généralisé d'accès à GPFS

(Mise-à-jour 15h) Guillimin de retour en service - Après quelques heures d'analyses et de tests sur le réseau Infiniband, nous avons résolu le problème généralisé d'accès à GPFS. Malheureusement, nous avons dû annuler toutes les tâches qui étaient précédemment actives avant de redémarrer GPFS sur tous les noeuds. Nous sommes désolés pour les inconvénients.

(8h45) Depuis hier après-midi, un nouveau problème est apparu à quelque part dans le système de stockage : des "long waiters". Nous étudions en ce moment la cause à l'origine de ce nouveau problème, mais nous avons dû arrêter l'ordonnanceur de tâches et fermer tous les accès. Nous sommes désolés pour les inconvénients.

2018-06-07 - Guillimin Back Online

Print
Published on Thursday, 07 June 2018

2018-06-07 - Guillimin Back Online

(Update June 11, 11:00 AM) We have cancelled the scheduled reservation for the whole system on Tuesday June 12. Jobs of up to 14 days long can now run on Guillimin.

(12:00 PM) We have reopened all access to login nodes, storage and compute nodes. We have well tested the cluster, but in case it suddenly becomes unstable, we have set a reservation for the whole system for Tuesday June 12 at 8:00 AM. Therefore, only short jobs that can complete before June 12 at 8:00 AM are eligible to run. Next week, if the system remains stable, we will remove the reservation and allow longer jobs (up to 14 days long).

Thank you for your patience. If you encounter any issue, please let us know: This email address is being protected from spambots. You need JavaScript enabled to view it.


2018-06-07 - Guillimin de retour en service

(Mise-à-jour 11 juin, 11h) Nous avons annulé la réservation de tout le système qui était prévue pour ce mardi 12 juin. Des tâches d'une durée maximale de 14 jours pourront maintenant être lancées sur Guillimin.

(12h00) Nous avons réouvert les accès aux noeuds de connexion, au stockage et aux noeuds de calcul. Nous avons bien testé la grappe de calcul, mais en cas d'instabilité soudaine, nous avons configuré une réservation de tout le système pour mardi le 12 juin à 8h. Par conséquent, seules les courtes tâches pouvant se terminer avant le 12 juin à 8h sont éligibles à être lancées. La semaine prochaine, si le système reste stable, nous allons annuler la réservation et permettre des tâches plus longues (maximum 14 jours).

Merci pour votre patience. Si vous rencontrez le moindre problème, veuillez nous écrire: This email address is being protected from spambots. You need JavaScript enabled to view it.

2018-03-14 - Jobs walltime is now limited to 14 days

Print
Published on Thursday, 15 March 2018

2018-03-14 - Jobs walltime is now limited to 14 days

Please note that, from now on, Guillimin jobs walltime is limited to a maximum of 14 days.


2018-03-14 - Les tâches sont désormais limitées à 14 jours d'exécution

Veuillez noter que, à partir de maintenant, les tâches sur Guillimin sont limitées à un maximum de 14 jours d'exécution.

Guillimin Operational Status on Twitter

Print
Published on Wednesday, 12 June 2013

Please follow our Twitter feed for the latest status updates or click here for detailed updates:

Guillimin CPU Load

Print
Published on Wednesday, 12 June 2013

See also : Detailed Load Graphs