Réunion  ChemFlow du 12 avril 2016

Présents : Virginie Rossard, Jean-Michel Roger, Christophe Caron (INRA,  IngeNum qui apporte une aide dans des projets structurants informatique au niveau national), Jean-Claude Boulet, Fabien Gogé, Eric Latrille

Ordre du jour
- présentation des participants
- présentation du spectromètre infrarouge (JMR)
- le projet  CheMOOS (JCB)
- la structure INRA-CLOUD (CC)
- l'outil informatique  ChemFlow (FG et VR)
-  ChemFlow en production (EL)
- Questions

- présentation de la spectrométrie infrarouge (JMR)
80 labos à l'INRA qui ont un spectro
100 à 500 échantillons pour faire un étalonnage
FOS est le microsoft du spectro. Ils ont beaucoup d'étalonnages et arrivent à obtenir 10000 échantillons par échantillons.
Science analytique avec des particularités

- le projet  CheMOOS (JCB)
Sélection de l'outil au printemps 2015 après plusieurs essais de différents outils ( OpenAlea, Knime).
Le maitre mot a été worflow.

EIC = Equipe Informatique Commune car les personnes dépendent des SDAR.

 ChemFlow sur le serveur de l'EIC pour valider les exercices du MOOC et pour la sortie béta du mooc de chimiométrie.

- la structure INRA-CLOUD (CC)
Ingénierie Numérique en Recherche UAR 1413. E-infrastructure / Opérations structurantes
Multi-département porté par MIA Gandon (50%) et Raynal (50%). Recruté en janvier à l'INRA car avant CNRS à Roscoff.
CC reste localiser à Rennes à 100% et le seul. Responsable de l'infrastructure :
  • composante infrastructure
  • distribué/centralisé et interopérable
  • accès des communautés scientifiques
Incubateur Objet Numérique :
  • faire émerger des solutions
  • fédérer des communautés : ce qui a bien marché c'est autour de Galaxy
  • mettre en places des actions rapides
  • basculer vers les opérateurs pour production de ces solutions

Les objets numériques sont de véritables plateformes qui fédèrent autour d'un outil. Après un projet, l'étape suivante est de fédérer une infrastructure pérenne.

GT Galaxy : IFB
Il nous faut réfléchir au dépôt de nos travaux sur le Toolshed--Main

Autre moteur de worflow utilisé dans Phenom : safflower. Avoir un ensemble de clusters.
Christophe a une activité de 25% de son temps pour l'IFP pour mettre en place une infrastructure distribuée.
IFB, France Genomique ( ToolShed),  ProFi proteomique,  MetaboHub

Le modèle est d'avoir un serveur en ligne qui est un seul point d'entrée : modèle  SaaS en frontal.

end-user = utilisateur final = biologiste

Architecture pour des accès simultanés : thread avec les web handler (test avec 8/10 web-handlers pour 40 utilisateurs simultanés).

INRA-CLOUD
DSI a acheté 200 000 euros d'équipements (fin de l'année 2015) pour un démonstrateur pour un use case bioinfo.
Techno :  OpenStack
Complémentaire avec l'IFB.
Les machines du Cloud INRA sont à Bruyère le Chatel sur un site du CEA. Mais il y a beaucoup de retard er nous ne pourrons pas compter sur cette infrastructure

Plan B :  GenoToul
L'environnement SAAS : facile pour la maintenance donc la mise à jour.
Frontal : 1 VM pour n user. 8 cœurs potentiels 100 à 200 comptes. 16Go RAM.
Expérience CC : 2 To de données utilisées par les utilisateurs sur 2 ans de production d'une application de métabolomique.
Donc ça ne vaut pas le coup de mettre en place des scripts de purge.

BDD de Galaxy postgresql : 156 tables : stockage des métadonnées : historique des worklow, utilisateurs. Pas les données ni les codes (wrappers) !

Notre use case était non bioinfo.

- l'outil informatique  ChemFlow (FG et VR)
L'accès par htaccess est une bonne solution.
Nous pourrions faire deux groupes : un pour le Mooc et un pour le PRO.
Mettre en place de nos fonctions dans un  ToolShed d'intégration (IFB, par exemple) nous simplifierait l'installation sur les différences instances Galaxy.
Il nous faut réfléchir à avoir deux instances de Galaxy : une pour le Mooc et une autre pour le PRO.
Christophe pense que nous ne devrions pas avoir trop de soucis pour la mise à l'échelle et la montée en charge du nombre d'utilisateurs.

-  ChemFlow sur serveur (EL)
Plusieurs solutions :
  • IFB
  • INRA-CLOUD
  • Genotoul : déjà présenté par CC. Il nous aiderait à l'intégrer sur le cluster.  CentOS. Frontal 8 cœurs voir 12. Calcul est dispatché sur la grille de calcul qui utilise 4000 cœurs. [mai et septembre 2016]
  • France Grille : certification LBE. 48 cœurs. Avertissement de sécurité. Académique. [Septembre 2016]
  • EIC/UIC [Avril 2016]
  • CINES
  • OVH
  • VM sans restriction pour les endroits où il y a peu de débit internet. Mais problème de diffusion, de protéger nos outils  ChemFlow.

Conclusion de CC : parmi vos faiblesses voici ceux sur lesquels il faut travailler de façon prioritaire :
  • chemin
  •  ToolShed
  • Figer les versions des logiciels

Suite de la réunion : questions
Christophe pourrait suivre le bêta-test car il a le projet de monter un Mooc sur la métabolomique.
Procédures de tests : Planemo ou Conda. Christophe propose que l’IFB fasse un webinar sur les bonnes pratiques d'intégration et les tests.
Graphiques interactifs : Virginie et Fabien vont rencontrer Gwendoline Andres mercredi 14h au CIRAD (site Agropolis).
CC crée un compte pour nous de dépôt de  ToolShed. Nous l'utiliserons pour déposer à un seul endroit nos fonctions. A terme, nous l'utiliserons pour les installations des machines en embarquant R, Octave, ... directement
dans les fonctions.

Procédure d'installation automatisée : soit faire un script qui exécute toutes les commandes d'installation, soit ANSIBLE. Mais, si on utilise le Toolshed, il restera peu de choses à faire.