En savoir plus

Notre utilisation de cookies

« Cookies » désigne un ensemble d’informations déposées dans le terminal de l’utilisateur lorsque celui-ci navigue sur un site web. Il s’agit d’un fichier contenant notamment un identifiant sous forme de numéro, le nom du serveur qui l’a déposé et éventuellement une date d’expiration. Grâce aux cookies, des informations sur votre visite, notamment votre langue de prédilection et d'autres paramètres, sont enregistrées sur le site web. Cela peut faciliter votre visite suivante sur ce site et renforcer l'utilité de ce dernier pour vous.

Afin d’améliorer votre expérience, nous utilisons des cookies pour conserver certaines informations de connexion et fournir une navigation sûre, collecter des statistiques en vue d’optimiser les fonctionnalités du site. Afin de voir précisément tous les cookies que nous utilisons, nous vous invitons à télécharger « Ghostery », une extension gratuite pour navigateurs permettant de les détecter et, dans certains cas, de les bloquer.

Ghostery est disponible gratuitement à cette adresse : https://www.ghostery.com/fr/products/

Vous pouvez également consulter le site de la CNIL afin d’apprendre à paramétrer votre navigateur pour contrôler les dépôts de cookies sur votre terminal.

S’agissant des cookies publicitaires déposés par des tiers, vous pouvez également vous connecter au site http://www.youronlinechoices.com/fr/controler-ses-cookies/, proposé par les professionnels de la publicité digitale regroupés au sein de l’association européenne EDAA (European Digital Advertising Alliance). Vous pourrez ainsi refuser ou accepter les cookies utilisés par les adhérents de l'EDAA.

Il est par ailleurs possible de s’opposer à certains cookies tiers directement auprès des éditeurs :

Catégorie de cookie

Moyens de désactivation

Cookies analytiques et de performance

Realytics
Google Analytics
Spoteffects
Optimizely

Cookies de ciblage ou publicitaires

DoubleClick
Mediarithmics

Les différents types de cookies pouvant être utilisés sur nos sites internet sont les suivants :

Cookies obligatoires

Cookies fonctionnels

Cookies sociaux et publicitaires

Ces cookies sont nécessaires au bon fonctionnement du site, ils ne peuvent pas être désactivés. Ils nous sont utiles pour vous fournir une connexion sécuritaire et assurer la disponibilité a minima de notre site internet.

Ces cookies nous permettent d’analyser l’utilisation du site afin de pouvoir en mesurer et en améliorer la performance. Ils nous permettent par exemple de conserver vos informations de connexion et d’afficher de façon plus cohérente les différents modules de notre site.

Ces cookies sont utilisés par des agences de publicité (par exemple Google) et par des réseaux sociaux (par exemple LinkedIn et Facebook) et autorisent notamment le partage des pages sur les réseaux sociaux, la publication de commentaires, la diffusion (sur notre site ou non) de publicités adaptées à vos centres d’intérêt.

Sur nos CMS EZPublish, il s’agit des cookies sessions CAS et PHP et du cookie New Relic pour le monitoring (IP, délais de réponse).

Ces cookies sont supprimés à la fin de la session (déconnexion ou fermeture du navigateur)

Sur nos CMS EZPublish, il s’agit du cookie XiTi pour la mesure d’audience. La société AT Internet est notre sous-traitant et conserve les informations (IP, date et heure de connexion, durée de connexion, pages consultées) 6 mois.

Sur nos CMS EZPublish, il n’y a pas de cookie de ce type.

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de l’INRA par email à cil-dpo@inra.fr ou par courrier à :

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2018

Menu Logo Principal chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo_agropolis,fondation chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo, muse, montpellier chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo, cirad

ChemHouse

ChemFlow-Tutoriel

L'outil ChemFlow est basé sur une plateforme de fouille de donnée nommée Galaxy (https://wiki.galaxyproject.org). C'est une application web dédiée à la chimiométrie.

Accessibilité

Lien d'accès

Pour obtenir gratuitement un compte sur le logiciel Chemflow, écrivez à chemflow@chemproject.org avec comme sujet du message: "Chemflow - demande d'accès". De préférence, utilisez votre adresse professionnelle et mettez dans le corps un petit message personnalisé.
Remarque : d'autres serveurs pourront être ouverts par la suite. Retrouvez toutes les informations et actualités de ChemFlow sur le site www.chemproject.org, rubrique ChemFlow.
Attention : pour retrouver vos données il faudra toujours vous connecter sur le même serveur (celui sur lequel vous avez créé votre compte).

Navigateurs

Nous vous conseillons le navigateur Google-Chrome même s'il fonctionne aussi sur Mozilla-Firefox ou Internet-Explorer. A part pour votre enregistrement de compte chemflow, utilisez votre navigateur par défaut. L'utilisation de ChemFlow sous d'autres navigateurs n'a pas été testée en détails, nous ne pouvons garantir son bon fonctionnement.
Si votre navigateur affiche un avertissement comme quoi le certificat de sécurité de ce site Web présente un problème ou n'est pas valide, cliquez sur avancée et accepter la connexion ou poursuivre sur ce site.

Aide

Toute la documentation de l'outil est en anglais. Si vous souhaitez la traduire, utilisez le navigateur Chrome, dans la barre de menu de l'outil ChemFlow (Galaxy), cliquez droit et choisir Traduire en français. De manière générale, si vous avez besoin d'aide sur l'utilisation de ChemFlow, n'hésitez pas à poser vos questions à l'adresse chemflow@chemproject.org.

Connexion

S'il s'agit de votre première connexion

Rendez-vous au menu User puis Register. Saisissez votre adresse mail, votre mot de passe (qui sera crypté), confirmez votre mot de passe, votre nom public (nom d'utilisateur). Ce dernier doit être composé d'au moins 3 caractères et ne peut contenir que des lettres minuscules, des chiffres et le caractère « - ». Si possible votre initiale de votre prénom suivi en attaché à votre nom de famille.
Un mail de confirmation vous est envoyé, n'oubliez pas de cliquer sur le lien pour confirmer votre inscription. Si cela ne fonctionne pas transférer ce mail à chemflow@chemproject.org.

Si vous vous êtes déjà créé et validé un compte

Veuillez saisir votre nom public ou votre mail puis votre mot de passe depuis le menu User puis Login.
Remarques :
- Assurez-vous d'utiliser une adresse e-mail valide. A de rares occasions, nous aurons besoin de contacter certains utilisateurs.
- En raison des quotas de données et de l'emploi bienveillant, la création d'un seul compte par utilisateur est autorisée.
- Merci de respecter la charte utilisateur de ChemFlow.

Découverte de l'environnement

Son interface se présente de la manière suivante :

  • le panneau à gauche est un menu avec des liens vers des outils/fonctions chimiométrique, rangés par catégories
  • celui de droite, un historique contenant les données importées ou générées par les outils
  • et au centre, un affichage de l'interface de l'outil sélectionné ou des données de l'historique différents formats de données peuvent être importés : csv, mat, rdata, via une URL.

Les données

Chargement de données

  • 1. Menu Shared data puis data librairies et choisissez la librairie Formation
  • 2. Sélectionnez les fichiers (fromage.csv, Xnir_mais.csv) et importez les dans votre historique en cochant les cases correspondantes.
  • 3. Cliquez sur to history, choisissez l'historique « unnamed history » puis cliquer sur Import.
  • 4. Retourner sur la page d'accueil en cliquant soit sur le logo Galaxy/ChemFlow en haut à gauche soit sur le menu Analyse Data.

Description des données

Le fichier fromage.csv contient des analyses chimiques journalières (pH, humidité, matières grasses, protéines et calcium) réalisées pendant 15 jours sur un fromage. Le fichier Xnir_mais.csv contient 80 spectres proche infrarouge (700 longueurs d'onde, de 1100 à 2498 nm) d'échantillons de mais.

Actions sur les données

Les données du fichier fromage.csv se présentent sous la forme suivante :
- un nombre indiquant dans quel ordre (ou quelle étape) cet ensemble de données a été créé
- le nom du jeu de données
- Cliquez sur le bouton de vue (icône œil, view) pour afficher le contenu du jeu de données au format brut dans le navigateur
- Cliquez sur le bouton d'édition (icône crayon, edit) pour modifier les propriétés du jeu de données
- Cliquez sur le bouton supprimer (icône croix, delete) pour supprimer l'ensemble des données de l'historique.
- Cliquez sur X deleted en dessous du nom de votre historique pour faire réapparaître les fichiers effacés. Rendez-vous au fichier supprimé et annuler sa suppression Undelete it.
- Cliquez sur le nom du jeu de données et la vue s'élargit pour montrer plus de détails :

  • Visualisez les informations du jeu de données : le nombre de lignes (en tête comprise) puis le format (format possible : tabular, rdata, mat, pdf, html)
  • Cliquez sur l'icône de la disquette pour enregistrer les données sur votre PC et visualisez-le avec un tableur ou un éditeur de texte.
  • Cliquez sur le symbole i : la description de la fonction qui a permis d'obtenir la donnée
  • le signe du recyclage ou le symbole relancer : permet de ré-exécuter la fonction avec les mêmes paramètres
  • le logo d'un histogramme permet de créer un graphique avec les données sorties. Les graphiques proposés ne sont pas forcément bien adaptés à la chimiométrie. C'est pourquoi nous avons développé des outils graphiques spécifiques à notre application dans la section Plot dans la liste des outils (colonne de gauche).

Affichage des données

- Cliquez sur l'œil pour afficher les 2 jeux de données.
- Activez le mode scratchbook en cliquant en haut à droite sur l'icône quadrillée. Ce mode là est très utile lorsque vous êtes sur le navigateur Firefox.
- Cliquez sur l'œil pour afficher les 2 jeux de données. Combien y a-t-il d'échantillons et variables dans le fichier Xnir_mais.csv ?

Structure des données

Les données dans ChemFlow doivent avoir une structure comme celles ci-dessus. La première ligne doit contenir des noms relatifs aux colonnes (noms de variables) et la première colonne doit contenir des noms relatifs aux lignes (noms d'échantillons).

Exécution d'un outil

- Exécutez l'outil Statistics/Mean avec le fichier fromage.csv :

  • Dataset ? fromage.csv
  • select all columns of the dataset ? yes
  • compute the mean by a column factor ? no

Le panneau History montre l'état de vos données. Plusieurs «états» existent :

  • couleur grise : en attente d'exécution
  • couleur jaune : exécution en cours
  • couleur verte : travail terminé état ok
  • couleur rouge :travail terminé état erreur
  • couleur bleu : travail interrompu

- Visualisez la sortie de cet outil mean on fromage.csv.

Les graphiques

A partir du jeu de données fromage.csv.

Histogramme

Créer un histogramme de la variable pH
Utiliser tools/plot/histogram et renseigner les options suivantes :

  • Dataset ? fromage.csv
  • Column for x axis ? c3:pH
  • Plot Title ? Histogram of pH
  • Bin Width ? 1
  • use a column of a dataset as bar color ? no

Refaire un boxplot de la variable pH en utilisant une largeur de barre de 0,1. Utiliser le bouton "recylclage" sous le fichier créé précédemment et changer l'option suivante : ? Bin Width ? 0.1

Boxplot

A tester avec le même jeu de données.

Scatter plot

Créer un scatter plot matrix des variables : pH, humidité, matières grasses, protéines et calcium
Utiliser tools/plot/Scatter plot matrix et renseigner les options suivantes :

  • Dataset ? fromage.csv
  • Column for x axis ? c3:pH c4:humidite c5:mat_grasse c6:proteine c7:calcium
  • Plot Title ? Correlation plot

Créer un scatter plot de la variable pH en fonction du numéro de jour d'analyse
Utiliser tools/plot/scatter plot et renseigner les options suivantes :

  • Plot Title ? pH=f(jour)
  • label for x axis ? jour
  • label for y axis ? pH
  • series/plot type ? Line and points
  • series/plot type/Dataset ? fromage.csv
  • series/plot type/column for x axis ? c2 : jour_prod
  • series/plot type/column for y axis ? c3 : pH

Créer un scatter plot de la variable pH en fonction de la concentration en calcium
Utiliser tools/plot/scatter plot et renseigner les options suivantes :

  • Plot Title ? pH=f(calcium)
  • label for x axis ? calcium
  • label for y axis ? pH
  • series/plot type ? Points
  • series/plot type/x-Dataset ? fromage.csv
  • series/plot type/column for x axis ? c7 : calcium
  • series/plot type/y-Dataset ? fromage .csv

- series/plot type/column for y axis ? c2 : pH
Créer un scatter plot de la variable humidité en fonction du label d'échantillon
Utiliser tools/plot/scatter plot et renseigner les options suivantes :

  • Plot Title ? humidite=f(echantillon)
  • label for x axis ? echantillon
  • label for y axis ? humidite
  • series/plot type ? Lines and Points
  • series/plot type/Dataset ? fromage.csv
  • series/plot type/column for x axis ? c1 :
  • series/plot type/column for y axis ? c4 : humidite
  • series/plot type/ use first column as sample label ? yes

Spectra plot

A partir du jeu de données Xnir_mais.csv. Visualiser les spectres sous forme d'un graphique, utiliser tools/plot/spectra plot et renseigner les options suivantes :

  • Plot Title ? Spectra Plot de Mais
  • label for x axis ? longueur d onde
  • label for y axis ? Absorbance
  • spectra/Dataset ? Xnir_mais.csv

Les historiques

Tous les utilisateurs ont un History actuel, qui peut être considéré comme un espace ou répertoire de travail. Le panneau History affiche les ensembles de données de sortie dans l'ordre dans lequel ils ont été créés du plus récent (en haut) au plus ancien (en bas).
History peut aussi stocker des informations en dehors des ensembles de données qu'il contient. Cet historique peut être nommé / renommé, étiqueté, et annoté.

Renommer et créer un historique

1. Renommer son panneau History de droite. L'historique actuel est nommé ''Unnamed history'' par défaut :

  1. Cliquez sur le nom existant. Un champ de saisie de texte apparaît avec le nom actuel.
  2. Entrez un nouveau nom : « formation »
  3. Appuyez sur la touche Entrée de votre clavier pour enregistrer le nouveau nom. Le champ de saisie disparaît et le nouveau nom s'affiche.
  4. Pour annuler cette action, appuyez sur Esc ou cliquez en dehors du champ de saisie.

2. Créer un nouvel historique et renommer le «transfert donnees»

  1. Cliquez sur l'icône en forme de roue en haut à droite de la page d'accueil.
  2. Cliquez sur Create New History

Partage de données entre historiques

Partager les données de l'historique « formation » vers l'historique «transfert donnees».

  • 1. Cliquez sur l'icône en forme de roue en haut à droite de la page d'accueil.
  • 2. Cliquez sur Copy Datasets
  • 3. Sélectionnez l'historique « formation » qui contient les données que vous voulez transférer.
  • 3. Sélectionnez les données Xnir_mais.csv de cet historique que vous voulez transférer.
  • 4. Sélectionnez l'historique « transfert donnees » dans lequel vous voulez transférer ces données.
  • 5. Cliquez sur copy History Items
  • 6. Rafraîchissez votre historique en cliquant sur le lien présenté en haut en vert : N datasets copied to 1 history: transfert donnees.

Organiser ses historiques

Solution 1
  • 1. Cliquez sur l'icône en forme de roue en haut à droite de la page d'accueil.
  • 2. Cliquez sur Saved Histories (Ici, on peut supprimer définitivement son historique).
Solution 2

Pour gérer ses historiques, cliquez sur l'icône en forme de livre en haut à droite de la page d'accueil. Vous devriez voir tous les (non supprimés) historiques que vous avez créés.
Pour les options de visualisation, cliquez sur l'icône avec pour afficher par exemple les fichiers supprimés.
Pour supprimer ou copier un historique cliquez sur la flèche accolée à cet historique.
Pour activer un historique dans la page de travail de ChemFlow cliquez sur le bouton Switch to bouton en haut de cet historique, puis cliquez sur Done tout en haut à gauche pour revenir à la page d'analyse des données.

Taille des historiques

ChemFlow stocke les données de votre historique dans des fichiers. La taille totale est affichée sous le nom de l'historique. Si vous atteignez le quota (par défaut vous avez le droit à 10 Go), vous empêchez d'enregistrer de nouvelles données donc de faire fonctionner les outils. Il vous faut alors supprimer certains jeux de données. Vous pouvez enregistrer aussi vos données sur votre ordinateur à l'aide de l'icône disquette quand vous cliquez sur la donnée de votre historique.

Partager et Récupérer des données de l'historique (DEMO)

Cette fonctionnalité vous servira à partager un historique avec un ou plusieurs utilisateurs
  • 1. Cliquez sur l'icône en forme de roue en haut à droite de la page d'accueil.
  • 2. Cliquez sur Share or Publish.

Pour le partager avec tous les utilisateurs :

  • Cliquez sur Makes the history accessible via link

Pour le partager avec un ou plusieurs utilisateur(s) :

  • Cliquez sur Share with a user
  • Entrez les adresses mail des utilisateurs

Pour le partager avec tous les utilisateurs de chemflow :

  • Cliquez sur Makes the history accessible and Publish : cela permet de publier l'historique dans la section Published Histories de Galaxy, où il est répertorié et consultable.
Cette fonctionnalité vous servira à récupérer un historique partagé avec tous les utilisateurs

Menu Shared Data puis Published Histories et choisissez l'historique que vous voulez visualiser puis importer si vous le souhaitez.
Visualisez les données que vous voulez voir grâce à l'icône en forme d'œil : la donnée sera ouverte dans un nouvel onglet.
Pour importer cet historique, cliquer sur le bouton import history puis choisissez le nom de cette historique ou laisser le titre par défaut.
Retourner sur la page d'accueil en cliquant soit sur le logo Galaxy/ChemFlow en haut à gauche soit sur le menu Analyse Data.
Cette fonctionnalité vous servira à récupérer des données partagées

Exporter/enregistrer votre historique de chemflow sur votre PC

L'historique peut être exporté à partir de l’icône de la "roue dentée" - "export history to file" puis cliquer droit sur ce lien "Ouvrir dans un nouvel onglet" pour l'enregistrer sur votre PC. Ensuite cliquer avec un logiciel de décompression comme 7zip puis cliquer sur la donnée ".dat", puis le répertoire "datasets" et enfin extract dans votre répertoire souhaité.

Cette fonctionnalité vous servira à récupérer un historique qu'un utilisateur à partager avec vous

Cliquez sur l'icône en forme de roue en haut à droite de la page d'accueil.
Cliquez sur Histories Shared with me

Importation de VOS données

Le format de fichiers d'entrée attendu dans ChemFlow est de la forme ci-dessous, la première ligne doit contenir des noms relatifs aux colonnes (noms de variables) et la première colonne doit contenir des noms relatifs aux lignes (noms d'échantillons) :

  • fichier texte lisible par un tableur ou éditeur de fichier texte; par exemple le format csv (séparateur virgule,point virgule,tabulation,...)
  • nom de lignes et colonnes obligatoires et uniques
  • nom de ligne (noms d'échantillons) : pas d'écriture scientifique, ni caractères spéciaux (par exemple °)
  • pas de répétitions de label d'échantillons
  • pas de valeurs manquantes
  • pas de tabulation dans les noms
  • point comme séparateur décimal

Utiliser l'outil Import Data/Upload File :

  • Choose local file, Type
    • l'extension du fichier n'est pas importante ce qui est important c'est de savoir quel séparateur on a utilisé.
    • Si vous avez utilisé des séparateurs tabulation, on choisit type «tabular» si autre type de séparateur, on choisit type «csv».
  • Start and Close

Pour vérifier la bonne importation, visualiser le format de votre fichier et ainsi que son contenu en mode scratchbook.
Si vous avez importé avec type «csv» ,il faut utiliser l'outil «convert format data/Convert delimiters to TAB» pour convertir les séparateurs en séparateur tabulation (format tabular) en lui précisant quel type de séparateur vous avez utilisez dans votre fichier dans le paramètre "Convert all". Dans le cas où vous avez importé des données en précisant type «csv» mais que votre fichier contient des séparateurs «tabulation». Il faut également utiliser l'outil «convert format data/Convert delimiters to TAB» et sélectionnez «whitespace». Attention, si la 1ere ligne*1ere colonne est vide, mettre l'option «Strip leading and trailing whitespaces» à «no».
2 fichiers attendus dans ChemFlow :

  • 1 fichier csv spectre
  • 1 fichier csv avec les propriétés

Si vous avez des répétitions, les identificateurs de spectre (= nom de ligne) doivent etre quand meme uniques. Dans ce cas, vous pouvez, par exemple rajouter le nom de la répétition à la suite du nom d'échantillon (ex: nom d'échantillon: A021a; si on a 2 répétitions, on les nommera A021a-1 et A021a-2).
Vous pouvez également moyenner vos spectres, pour cela vous devez avoir 2 fichiers :

  • un fichier avec le nom des échantillons unique et son spectre
  • et un fichier de facteur avec le nom du groupe ou le nom de l'échantillon (pas forcément unique)

Puis les insérer dans la fonction "Mean" des outils Statistics.
Quant aux échantillons de propriétés, il faudra les dupliquer, avec les mêmes valeurs, afin de respecter le même nombre de lignes que dans le tableau des spectres.
Traiter les données d'un projet :
gestion de l'historique : créer un historique pour chaque but
les workflows : créer des workflows depuis votre historique et partagez le.

Automatiser des tâches, faire du code, workflow

Plusieurs façons pour créer un code, ce que l'on appellera dans chemflow, un workflow :

  • transformer votre historique en workflow, depuis ChemFlow, cliquer sur la roue dentée depuis le cadre history en haut à droite et cliquer sur extract workflow.
  • créer un worflow à zéro à l'aide de l' éditeur de workflow : Menu Workflow - Bouton Create New workflow

Aides supplémentaires :

ACP et PLS

L'ACP est une méthode statistique exploratoire non supervisée (1 tableau) pour :

  • explorer et décrire des données
  • nettoyer les données (outliers, points extrêmes)
  • identifier des groupes d'individus
  • déterminer et quantifier les liens
  • étape préalable avant une autre analyse.

Sur quel type de données ?

  • données quantitatives continues ou discrètes
  • sur un tableau de dimension variable
  • données bruitées
  • possible sur quelques NA (données manquantes en faible quantité)
  • forte corrélation entre variables

La PLS, Partial Least Squares / Projection on to Latent Structures, régression est une méthode statistique supervisée pour prédire des informations quantitatives, prédire l'état (une valeur biologique) à partir du couple spectres-mesures. Elle permet de modéliser simultanée de la variabilité X et Y et aussi de maximiser la corrélation entre les variables latentes.

Description du jeu de données

Les données ont été produites par l'Université d'Aix-Marseille, équipe de Nathalie Dupuy. Des analyses proche infrarouge ont été réalisées sur 187 huiles d'olives. Elles comprennent :

  • un jeu de 187 spectres comprenant 612 longueurs d'onde, 1000 a 2222 nm : pir.csv ;
  • un jeu de données de référence contenant des concentrations de différents acides gras et un codage de ces 187 échantillons selon 6 origines géographiques : 1=Aix en Provence, 2=Haute Provence, 3=Nice, 4=Nîmes, 5=Nyons, 6=Vallée des Baux de Provence : ags.csv.

Chargement des données

Dans ChemFlow, créez l'historique ACP-PLS depuis le cadre history en haut à droite. Depuis le répertoire chemflow/shared data/data libraries/Formation, importer les spectres, pir.csv, ainsi que le valeurs biochimiques ags.csv. Vous pouvez retrouver ces données aussi ici depuis le Menu "ChemData" - "Données".

Visualisation des données : exercice 1

  • Visualiser le nombre de lignes des fichier. Combien il y a t-il d'échantillons ?
  • Visualiser les données sous forme d'un tableau de données. Combien il y a t-il de variables ? Dans ChemFlow cliquez sur l'œil (activer le mode scratchbook si nécessaire).
  • Visualiser les spectres sous forme d'un graphe et télécharger ce graphe. Utiliser tools/plot/Spectra plot, et renseigner : dataset -> pir.csv
  • Visualiser les spectres en a ectant une couleur a chaque origine. Utiliser tools/plot/Spectra plot, et renseigner :
    • dataset -> pir.csv
    • use a column of a dataset as spectra color -> yes
    • dataset -> ags.csv
    • column for color -> c17 : origine

Réalisation d'une ACP : exercice 2

  • Appliquer un pré traitement SNV sur vos spectres. Utiliser tools/Pretreatments/SNV, et renseigner : Select X data -> pir.csv
  • Réaliser une ACP sur le jeu de données de calibration avec centrage préalable, sans normalisation.

Utiliser tools/Calibration/Exploration/PCA, et renseigner :

  • Select X data -> xCal(SNV(pir.csv))
  • Centering option -> yes
  • Scaling option -> no
  • Number of PC max -> 20
  • Visualiser les valeurs numériques du pourcentage de variance expliquée en fonction du nombre de composantes principales.
  • Tracer le diagramme de variance expliquée (= éboulis). Qu'observe-t-on ? Utiliser tools/plot/barplot, et renseigner :
    • dataset ! pca explained variance ( %) : xCal(SNV(pir.csv))
    • label for x axis ! numéro de la composante principale
    • label for y axis ! pourcentage de variance
  • Tracer les plans 1-2 et 3-4 de la carte factorielle des individus (score plot). Pour tracer les plans factoriels : Les scores sont dans l'historique : pca scores :xCal(SNV(pir.csv)). il faut utiliser tools/plot/scatter plot et renseigner les options suivantes :
    • label for x axis ! pc 1 | label for y axis ! pc 2 | series/plot type -> points
    • series/plot type/x-dataset -> pca scores :xCal(SNV(pir.csv))
    • series/plot type/column for x axis ! c2 : pc1
    • series/plot type/y-dataset -> pca scores :xCal(SNV(pir.csv))
    • series/plot type/column for y axis -> c3 : pc2
    • series/plot type/use rst column as sample label -> yes
    • series/plot type/use a column of a dataset as point color -> yes
    • series/plot type/use rst column as sample label/dataset -> yCal(ags.csv)
    • series/plot type/use rst column as sample label/column for color -> c17 : origin

Réalisation d'une régression PLS : exercice 3

  • Utilisez la régression PLS pour construire un modèle d'étalonnage à partir du jeu d'étalonnage (xCal(SNV(pir.csv),yCal(ags.csv)). Utiliser tools/Regression/PLSR, et renseigner :
    • Select X data -> xCal(SNV(pir.csv))
    • Select y data -> yCal(ags.csv)
    • Column of y data chosen for the calculation -> c2 :C.16
    • Algorithm choice -> NIPALS
    • cross-validation type -> k-bloc cross-validation
    • Number of blocs for cross-validation -> 4
    • Number of latent variables(LV) -> 20
    • Centering option -> yes
    • compute outliers statistics(T2,Q,yresiduals) -> no
  • Visualisez et tracez les valeurs de RMSEC-RMSECV en fonction du nombre de variables latentes. Il faut utiliser tools/plot/scatter plot et renseigner les options suivantes :
    • label for x axis -> Number LV
    • label for y axis -> RMSEC-RMSECV
    • series/plot type -> Line and Points
    • series/plot type/Dataset -> NIPALS-PLS on (xCal(SNV(pir.csv)) ;yCal(ags.csv)(c2)) :rmsec-secv
    • series/plot type/column for x axis -> c1 :
    • series/plot type/column for y axis -> c2 : rmsec et c3 :rmsecv
    • series/plot type/use column name(s) as legend -> yes
  • Appliquez ensuite ce modele sur le jeu de validation (xVal(SNV(pir.csv),yVal(ags.csv)). Utiliser tools/Regression/Apply a regression model, et renseigner :
    • Select the regression model ! NIPALS-PLS on (xCal(SNV(pir.csv)) ;yCal(ags.csv)(c2)) :mo-del
    • Number of latent variables if PLS or PCR model are used -> 20
    • Select X data -> xVal(SNV(pir.csv))
    • have you reference data of X data -> yes
    • Dataset containing the reference value of X data -> yVal(ags.csv)
    • Column of Dataset chosen for the calculation -> c2 :C.16
  • Visualisez et tracez le RMSEP en fonction du nombre de variables latentes. il faut utiliser tools/plot/scatter plot et renseigner les options suivantes :
    • label for x axis -> Number LV
    • label for y axis -> RMSEP
    • series/plot type -> Line and Points
    • series/plot type/Dataset -> RMSEP of xVal(SNV(pir.csv)) from NIPALS-PLS on (xCal(SNV(pir.csv)) ;yCal(ags.csv)(c2)) :model
    • series/plot type/column for x axis -> c1 :
    • series/plot type/column for y axis -> c2 : rmsep
  • Tracez les valeurs prédites par PLS avec le nombre optimal de variables latentes contre les valeurs observées. Les valeurs prédites sont dans l'historique : ypred of xVal(SNV(pir.csv)) from NIPALS-PLS on (xCal(SNV(pir.csv)) ;yCal(ags.csv)(c2)) :model. il faut utiliser tools/plot/scatter plot et renseigner les options suivantes :
    • label for x axis -> yref
    • label for y axis -> ypred
    • series/plot type -> points
    • series/plot type/x-dataset -> yVal(ags.csv)
    • series/plot type/column for x axis -> c2 : C.16
    • series/plot type/y-dataset -> ypred of xVal(SNV(pir.csv)) from NIPALS-PLS on (xCal(SNV(pir del
    • series/plot type/column for y axis -> cn : LVn-1
    • series/plot type/use first column as sample label -> yes
    • series/plot type/add bissectrice and statistics parameters -> yes

Transformer votre historique en workflow : exercice 4

Dans ChemFlow, cliquer sur la roue dentée depuis le cadre history en haut à droite et cliquer sur extract workflow.

Conclusion

Parallèlement à ce guide nous vous conseillons :
- de suivre les tutoriels vidéo dédié à ChemFlow
- de suivre les « Interactive Tours » de Galaxy pour mieux appréhender le logiciel.
a) Allez sur l'onglet Help puis sur Interactive Tours
b) Choisissez un des deux tutoriels History Introduction ou Galaxy UI. Lancez-le en cliquant dessus et laissez-vous guider.
Bon courage et amusez-vous bien sur ChemFlow !