Produits et services cluster de calcul chez Linbox FAS
1. Introduction
L'installation d'un cluster de calcul est un projet complexe. Pour que ce projet soit un succès, il faut aussi bien gérer les aspects matériels, que logiciels et service. Dans les aspects matériels nous incluons le fait d'avoir un cluster puissant et évolutif avec une maintenance matérielle efficace. La bonne gestion du logiciel permet d'avoir une bonne distribution, de bons logiciels, correctement configurés et intégrés. Enfin le service signifie que le projet est mené avec une démarche professionnelle, qu'une bonne intégration dans le réseau est faite, qu'une bonne formation est dispensée aux administrateurs comme aux utilisateurs et qu'une fois le cluster installé un support et une maintenance de qualité sont disponibles pour le client.Linbox FAS, grâce à son partenariat avec DELL, à ses produits (LRS, LDS, ...) et à la traditionnelle qualité de son service sous linux (support de logiciels libres pour le Technocentre de Guyancourt de Renault depuis 7 ans, travail avec des centres de recherche, des ministères, ...) réunit l'ensemble des qualités nécessaires pour réussir ces projets. C'est pour cette raison que nous avons créé une cellule dédiée.
Cette cellule assure la gestion de projet, l'installation, le support et la formation autour des clusters de calcul sur base DELL.
Nous allons détailler dans la suite de ce document les différents aspects de cette offre.
2. Matériel
Linbox FAS est le partenaire officiel de Dell Professionnal Services pour les clusters de calcul en France. Ce partenariat nous permet de faire des offres globales englobant le matériel, le logiciel et le service, en permettant à l'acquéreur d'avoir un interlocuteur unique (ou Dell ou Linbox FAS), un coût extrèmement compétitif, et les garantie de qualité et de pérennité du numéro 1 mondial.Les projets que nous avons mené jusqu'ici, nous ont permis de renforcer la confiance mutuelle que nous avons.
3. Logiciel
Nous avons choisi d'avoir un noeud maître serveur fournissant le système à tous les noeuds esclaves qui font un boot diskless. Les noeuds esclaves disposent d'un disque dur pour le swap et pour le stockage des données. Ceci permet d'avoir les caractéristiques suivantes :- Déploiement immédiat des noeuds,
- Déploiement applicatif centralisé et unique pour les noeuds de calcul,
- Grande facilité de maintenance des noeuds de calcul.
3.1. La Linbox HPCC Management Suite
Fort de cette expérience, Linbox a développé la Linbox HPCC Management Suite. LHMS se présente comme un ensemble intégré de logiciels dédié à l'optimisation des performances des clusters de calcul. LHMS s'appuie sur plusieurs composants principaux qui ont pour objectif d'apporter une réponse éprouvée et standardisée, quel que soit le besoin :- le LRS (Linbox Rescue Server),
- le LDS (Linbox Directory Server) (+ d'informations ici),
- Torque ou un autre ordonnanceur de tâches,
- LAM/MPI,
- Ganglia pour la surveillance des noeuds,
- un ensemble de compilateurs optimisés ou issus du Portland Group ou d'Intel,
- une distibution Linux.
3.2. Le LRS
L'ensemble des informations concernant le LRS se trouve sur la zone du site dédié. Cependant, un module supplémentaire a été ajouté : le module IPMI. Ce module permet de gérer le démarrage, l'arrêt électrique et le reset physique des noeuds de calcul, depuis l'interface intégrée du LRS.Les modules fournis dans le LRS sont les suivants :
- contrôle du boot des noeuds (permet de choisir entre plusieurs boot diskless, ou un boot sur disque dur),
- inventaire logiciel et matériel,
- module de contrôle centralisé permettant l'exécution et le contrôle de programme sur plusieurs noeuds avec une interface web,
- module IPMI.
3.3. Le LDS (Linbox Directory Server)
La gestion des utilisateurs est une fonction centrale dans un réseau et dans un cluster de calcul. Les différents noeuds doivent être capables de s'authentifier en un point unique. C'est la fonction offerte par un serveur d'annuaire tel le serveur open source OpenLDAP. Il n'existe malheureusement pas d'interface graphique ergonomique permettant la gestion du contenu d'un serveur LDAP. Les interfaces existantes pré-supposent une connaissance détaillée de la structure, du fonctionnement interne, et des connexions avec les différents services.Linbox a décidé de prendre ces différents problèmes à bras le corps et de créer un outil permettant :
- la gestion graphique simple des utilisateurs et des groupes,
- la gestion fine des droits pour chaque module et chaque utilisateur (qui peut éditer quel champ, page par page, module par module),
- une gestion des synchronisations avec des annuaires (en particulier avec Active Directory) ou des bases de données,
- une gestion des actions systèmes (création de répertoires, ajout dans une base de données, ...).
Les fonctions de ce système sont :
- interface graphique web agréable et ergonomique. Afin de ne pas tomber dans les travers habituels des informaticiens concernant les interfaces web, la conception graphique des différentes pages a été confiée à un graphiste avant l'écriture de quelque ligne de code que ce soit.
- fonction complète d'un PDC NT4 windows pour la gestion des utilisateurs et des ordinateurs d'un domaine,
- module de gestion de samba (gestion des utilisateurs, des groupes et des partages),
- synchronisation des utilisateurs et des mots de passe avec un serveur Active Directory.
D'autres modules existent mais qui ne sont pas installés sur un cluster de calcul (gestion des impressions, gestion d'un proxy web, gestion des utilisateurs pour OpenXchange, ...). L'architecture modulaire permettant l'ajout simple et rapide de nouveaux modules.
Le LDS est la première interface graphique pour LDAP utilisant de manière massive l'ajax afin d'améliorer son ergonomie.
3.4. Ordonnanceur de tâches
Les clusters de calcul sont toujours accompagnés d'un ordonnanceur d'exécutions. Ce logiciel permet de contrôler le lancement de suite de calculs de manière centralisée, il est utile d'avoir un tel outil pour bien gérer les priorités d'exécution entre les tâches. Nous proposons pour ce travail le logiciel PBS Pro d'Altair ou Torque/MAUI (libre).Nous fournissons une version packagée de Torque/Maui fonctionnelle et efficace. Cette version est accompagnée d'une documentation utilisateur en français ainsi que d'une documentation administrateur. Nous assurons support et formation sur ces outils.
3.5. Ganglia
Ganglia est un logiciel idéal pour la surveillance d'un cluster de calcul. Il permet de voir rapidement l'évolution du cluster de calcul, puis d'examiner de manière plus détaillée le fonctionnement d'un noeud à un moment donné. Tout cela de manière simple et graphique.De nombreux paramêtres sont enregistrés pour tous les noeuds : la charge CPU, la mémoire utilisée, les températures, les débits réseaux, les débits sur les disques, l'utilisation du swap, ... .
3.6. Distribution Linux
Linbox FAS peut fournir le cluster de calcul sous RedHat, Debian, Centos ou Suse selon le besoin du client.3.7. Documentation
Chaque cluster de calcul est livré avec :- l'ensemble des supports de réinstallation,
- un ensemble de cdroms bootables permettant de garantir la réinstallation du noeud maître à l'identique (logiciel, système, configuration),
- les manuels des différents logiciels commerciaux installés,
- un manuel utilisateur,
- un manuel administrateur,
- un cahier de maintenance indiquant les différentes modalités du support et des garanties (numéros de téléphone, références à rappeler, interlocuteurs, procédures).
4. Service
4.1. Gestion du projet
Linbox FAS assure l'installation et l'intégration du cluster dans votre réseau. Il assure aussi l'intégration des applications dans le cluster que ces applications soient commerciales ou soient des développements internes.Une méthodologie stricte de gestion de projet est mise en place. Chaque projet débute donc par une réunion de lancement. Un dossier de spécifications est fourni au client qui le valide. Suivant l'importance du projet, une ou plusieurs réunions de suivi sont organisées (périodicité une fois toutes les 3 semaines). Linbox FAS fourni les compte-rendus des réunions. Après l'installation, un cahier de fiches de test permet la bonne validation du cluster de calcul. Ce cahier de fichers de test est élaboré avec le client final à partir du dossier de spécifications afin de pouvoir vérifier le bon fonctionnement du cluster dans l'environnement du client.
Les documents suivants sont fournis pendant le projet :
- CR de réunion de lancement,
- planning du projet,
- dossier de spécifications,
- cahier de fiches de test,
- compte-rendu des réunions de suivi.
4.2. Formation
Une formation utilisateur et une formation administrateur peuvent être dispensées par Linbox FAS qui est un organisme de formation agréé.4.3. Organisation de la maintenance et du support
- Connexion SSH pour la maintenance
- Suivi régulier, mises à jour de logiciel, mise à niveau de la plateforme complète
- Mise en place du système de suivi des incidents de Linbox/FAS
Après comparaison entre les différents systèmes et même l'écriture d'un programme propre, Linbox/FAS a finalement adopté le logiciel RT (Request Tracker).
Il permet aussi aux clients de Linbox/FAS d'avoir un suivi régulier de la charge et des incidents rencontrés pour les systèmes maintenus par Linbox/FAS.
Le support fait se réparti entre le support par mail, téléphonique ou, plus rarement, sur place. Afin d'avoir une mesure fiable du temps passé pour chaque appel, nous utilisons les statistiques du pabx ip de Linbox/FAS :
Au-delà des aspects techniques, le métier originel de Linbox/FAS est le support. Nous assurons par exemple le support logiciels libres pour le Technocentre de Guyancourt de Renault depuis 1999. Ce contrat a été renouvellé constamment depuis, grâce à la qualité du support que nous assurons. Nos points forts :
- une prise en compte rapide des demandes,
- un personnel particulièrement qualifié et enthousiaste,
- un travail mixte pour tous les ingénieurs sur le support et le développement d'applications et de solutions garantissant une connaissance pointue et pratique des problèmes rencontrés.



