2018-07-30 - Access to compute nodes back to normal

Print
Published on Monday, 30 July 2018

2018-07-30 - Access to compute nodes back to normal

(Update 10:00 AM) We have removed the global reservation for Wednesday. Jobs up to 14 days long can now run on compute nodes.


2018-07-30 - Accès aux noeuds de calcul de retour à la normale

(Mise-à-jour 10h00) Nous avons enlevé la réservation globale pour ce mercredi. Les tâches d'une durée maximale de 14 jours peuvent maintenant s'exécuter sur les noeuds de calcul.

2018-07-27 - Maintenance Completed - Storage issue is back

Print
Published on Friday, 27 July 2018

2018-07-27 - Maintenance Completed - Storage issue is back

(Update July 28, 1:00 PM) We have resumed job scheduling, but the main problem is still not fixed. Therefore, we will keep the global reservation for Wednesday.

(Update 3:30 PM) The problematic storage module has frozen again. We have paused job scheduling to reduce the load on the file system.

(1:00 PM) We have resumed job scheduling, but only for jobs that can complete by Wednesday August 1st at 12:00 PM. If the storage system remains stable, we will remove the global reservation and allow longer jobs.


2018-07-27 - Maintenance complétée - Problème de stockage de retour

(Mise-à-jour 28 juillet, 13h) Nous avons relancé l'ordonnanceur de tâches, mais le problème principal n'est pas encore réglé. Par conséquent, nous allons garder la réservation globale pour mercredi.

(Mise-à-jour 15h30) Le module de stockage problématique a encore figé. Nous avons arrêté l'ordonnancement des tâches afin de réduire la charge sur le système de fichiers.

(13h) Nous avons relancé l'ordonnanceur de tâches, mais seulement pour des tâches pouvant se terminer d'ici le mercredi 1er août à 12h. Si le système de stockage reste stable, nous allons annuler la réservation globale et permettre à de plus longues tâches de s'exécuter.

2018-07-25 - Temporary Access to Compute Nodes

Print
Published on Wednesday, 25 July 2018

2018-07-25 - Temporary Access to Compute Nodes

(Update July 27, 11:00 AM) At 11:00 AM today, there will be a maintenance on the storage system. Users may see some slowness when using the file system, until 12:00 PM.

(Update July 26, 2:00 PM) The maintenance could not be done today. Therefore, we have reopened the access to compute nodes until Friday July 27 at 12:00 PM. Longer jobs that cannot end by that time will stay in queue.

(Update at 5:00 PM) This Thursday or this Friday, we will do some maintenance on the storage system. The exact time is to be determined. Until then, we have reopened the access to compute nodes until Thursday July 26 at 12:00 PM. Longer jobs that cannot end by that time will stay in queue.


2018-07-25 - Accès temporaire aux noeuds de calcul

(Mise-à-jour 27 juillet, 11h) À 11h aujourd'hui, il y aura une maintenance sur le système de stockage. Les utilisateurs risquent de ressentir quelques lenteurs lorsqu'ils accéderont au système de fichiers, et ce, jusqu'à 12h.

(Mise-à-jour 26 juillet, 14h) La maintenance n'a pas pu être faite aujourd'hui. Par conséquent, nous avons réouvert l'accès aux noeuds de calcul jusqu'à vendredi le 27 juillet à 12h. Les longues tâches ne pouvant pas se terminer à cette échéance resteront en file d'attente.

(Mise-à-jour à 17h) Ce jeudi ou ce vendredi, nous allons faire une maintenance sur le système de stockage. Le moment exact est à déterminer. D'ici là, nous avons réouvert l'accès aux noeuds de calcul jusqu'à jeudi le 26 juillet à 12h. Les longues tâches ne pouvant pas se terminer à cette échéance resteront en file d'attente.

2018-07-19 - General GPFS Access Problem

Print
Published on Thursday, 19 July 2018

2018-07-19 - General GPFS Access Problem

(Update 2018-07-21, 9:00 PM) We have opened access to login nodes only, jobs can be submitted but will not start this weekend. Please note: our hardware issue is not fully repaired yet, and we might close the access if needed.

(Update 2018-07-20, 5:00 PM) We are still working with the storage support teams. Unfortunately, we may not be able to resolve the problem before Monday July 23. Please note that all the data is safe, but it is just not accessible through one storage module, which causes this general GPFS issue.

(Update 2018-07-20, 9:20 AM) We have identified which storage module is causing "long waiters". Unfortunately, we had to stop all active jobs in order to unmount GPFS on all compute nodes, which has reduced the load on GPFS. We are now in contact with the storage support team, and we are working on recovering the access to GPFS on all worker nodes as soon as possible. Thank you for your patience and understanding.

On 2018-07-19:

  • We have stopped job scheduling and closed all access
  • We are now investigating the root cause of this new issue

We apologize for the inconvenience.


2018-07-19 -Problème généralisé d'accès à GPFS

(MAJ 2018-07-21, 21h) Nous avons seulement réouvert l'accès aux noeuds de connexion et au stockage. Des tâches peuvent être soumises, mais elles resteront en file d'attente. Veuillez noter: notre problème matériel n'est pas encore complètement réparé, alors on risque de devoir fermer à nouveau les accès, si nécessaire.

(MAJ 2018-07-20, 17h) Nous sommes toujours en train de travailler avec les équipes de soutien technique pour le stockage. Malheureusement, nous ne pourrons probablement pas résoudre le problème avant ce lundi 23 juillet. Veuillez noter que toutes les données sont intactes, mais elles ne sont juste pas accessibles via un module de stockage, ce qui cause le présent problème GPFS généralisé.

(MAJ 2018-07-20, 9h20) Nous avons identifié le module de stockage causant des "long waiters". Malheureusement, nous avons dû arrêter toutes les tâches actives afin de désactiver GPFS sur tous les noeuds de calcul, ce qui a permis de réduire la charge sur GPFS. Nous sommes maintenant en contact avec l'équipe de soutien du stockage et nous travaillons à restaurer l'accès à GPFS sur tous les noeuds de calcul, et ce, le plus tôt possible. Merci pour votre patience et votre compréhension.

Le 2018-07-19:

  • Nous avons arrêté l'ordonnanceur de tâches et fermé tous les accès
  • Nous étudions maintenant la cause à l'origine de ce nouveau problème

Nous sommes désolés pour les inconvénients.

2018-03-14 - Jobs walltime is now limited to 14 days

Print
Published on Thursday, 15 March 2018

2018-03-14 - Jobs walltime is now limited to 14 days

Please note that, from now on, Guillimin jobs walltime is limited to a maximum of 14 days.


2018-03-14 - Les tâches sont désormais limitées à 14 jours d'exécution

Veuillez noter que, à partir de maintenant, les tâches sur Guillimin sont limitées à un maximum de 14 jours d'exécution.

Guillimin Operational Status on Twitter

Print
Published on Wednesday, 12 June 2013

Please follow our Twitter feed for the latest status updates or click here for detailed updates:

Guillimin CPU Load

Print
Published on Wednesday, 12 June 2013

See also : Detailed Load Graphs