2018-10-26 - All nodes are reserved nodes

Print
Published on Friday, 26 October 2018

2018-10-26 - All nodes are reserved nodes

Until the very end of Guillimin, all nodes are reserved for groups that have contributed to the cluster:

  • Their jobs may have a walltime up to 14 days, but they need to request resources similar to their contributed nodes. For instance, if a group has GPU nodes, a GPU job may request up to 14 days, but jobs submitted to CPU nodes will run only if they are 12 hours long or less.
  • All other users are limited to 12-hour jobs.

2018-10-26 - Tous les noeuds sont des noeuds réservés

D'ici la fin ultime de Guillimin, tous les noeuds de calcul sont réservés pour les groupes ayant contribué à la grappe:

  • Leurs tâches peuvent avoir un walltime allant jusqu'à 14 jours, mais ils devront demander des ressources similaires à leurs noeuds contribués. Par exemple, si un groupe possède des noeuds GPU, une tâche GPU peut demander jusqu'à 14 jours, mais des tâches demandant des noeuds CPU pourront être lancées seulement si elles demandent 12 heures ou moins.
  • Tous les autres utilisateurs sont limités à des tâches de 12 heures ou moins.

2018-10-19 - (Update) Scheduled Downtime on October 16-19, 2018

Print
Published on Friday, 19 October 2018

2018-10-19 - (Update) Scheduled Downtime on October 16-19, 2018

(10:45 PM) Guillimin is back online.

(1:00 PM) We are still working on both Infiniband and Ethernet networks of the reduced version of Guillimin. We hope to bring the cluster online later today, probably in the evening. Thank you for your understanding.


2018-10-19 - (MàJ) Période de maintenance du 16 au 19 octobre 2018

(22h45) Guillimin est en ligne.

(13h00) Nous sommes toujours en train de travailler sur les réseaux Infiniband et Ethernet de la version réduite de Guillimin. Nous espérons remettre la grappe en service plus tard aujourd'hui, probablement ce soir. Merci de votre compréhension.

2018-10-16 - Scheduled Maintenance Period on October 16-19

Print
Published on Thursday, 11 October 2018

Reminder - Scheduled Downtime on October 16-19, 2018

The preparations for the installation of the supercomputer Béluga are advancing fast. Because Béluga is going to be installed in the same data centre as Guillimin, and will occupy the same footprint, we will need to significantly reduce the size and compute capacity of Guillimin. As discussed in our last Lunch Conference, after the reduction only contributed/integrated compute nodes will remain accessible. Contributors will be allowed to submit jobs up to 14 days long, but all other users will be limited to 12 hours or less per job.

Note: all access, including login nodes, compute nodes and storage, will need to be closed during the downtime due to the major maintenance on the Infiniband network.

The schedule is the following:

  • On Tuesday October 2:
    • We have set a reservation for the whole cluster for Tuesday October 16 at 8:00 AM. Until then, only short jobs that can complete before October 16 at 8:00 AM are eligible to run on compute nodes. All other Idle jobs will remain in queue
  • On Tuesday October 16:
    • At 8:00 AM, we will stop remaining active jobs. We will close all access to login nodes, storage and any other service hosted on GPFS and Lustre
  • On Friday October 19:
    • We should have restored all services and access on Guillimin, except for removed compute nodes


If you have any question, please do not hesitate to contact us at: This email address is being protected from spambots. You need JavaScript enabled to view it.

---
The Guillimin Support Team
This email address is being protected from spambots. You need JavaScript enabled to view it.
https://twitter.com/McGillHPC


Rappel - Période de maintenance du 16 au 19 octobre 2018

Les préparatifs pour l’installation du superordinateur Béluga avancent rapidement. Étant donné que Béluga sera installée dans le même centre de données que Guillimin et occupera presque tout l’espace, nous devons réduire significativement la taille et la capacité de calcul de Guillimin. Tel que discuté lors de notre dernier midi-conférence, après la réduction, il n’y aura que des noeuds de calcul contribués/intégrés. Les contributeurs pourront soumettre des tâches d’une durée maximale de 14 jours, mais les autres utilisateurs seront limités à des tâches de 12 heures maximum.

Note: tous les accès, incluant les accès aux noeuds de connexion, aux noeuds de calcul et au stockage, devront être fermés pendant la période de maintenance, car il y aura d’importants travaux sur le réseau Infiniband.

Voici le calendrier prévu pour cette maintenance:

  • Le mardi 2 octobre :
    • Nous avons configuré une réservation pour toute la grappe de calcul pour le mardi 16 octobre à 8h. D’ici là, seules les courtes tâches pouvant se terminer avant le 16 octobre à 8h seront éligibles à être lancées sur les noeuds de calcul. Toutes les autres tâches Idle resteront en file d’attente
  • Le mardi 16 octobre :
    • À 8h, nous allons arrêter les tâches actives restantes. Nous allons fermer tous les accès aux noeuds de connexion, au stockage et à tout autre service hébergé sur GPFS et Lustre
  • Le vendredi 19 octobre :
    • Nous devrions avoir restauré tous les services et les accès sur Guillimin, excepté pour les noeuds de calcul qui auront été enlevés


Si vous avez la moindre question, n’hésitez-pas à nous joindre à : This email address is being protected from spambots. You need JavaScript enabled to view it.

---
L'équipe de soutien de Guillimin
This email address is being protected from spambots. You need JavaScript enabled to view it.
https://twitter.com/McGillHPC

Guillimin Operational Status on Twitter

Print
Published on Wednesday, 12 June 2013

Please follow our Twitter feed for the latest status updates or click here for detailed updates:

Guillimin CPU Load

Print
Published on Wednesday, 12 June 2013

See also : Detailed Load Graphs