Know more

Our use of cookies

Cookies are a set of data stored on a user’s device when the user browses a web site. The data is in a file containing an ID number, the name of the server which deposited it and, in some cases, an expiry date. We use cookies to record information about your visit, language of preference, and other parameters on the site in order to optimise your next visit and make the site even more useful to you.

To improve your experience, we use cookies to store certain browsing information and provide secure navigation, and to collect statistics with a view to improve the site’s features. For a complete list of the cookies we use, download “Ghostery”, a free plug-in for browsers which can detect, and, in some cases, block cookies.

Ghostery is available here for free: https://www.ghostery.com/fr/products/

You can also visit the CNIL web site for instructions on how to configure your browser to manage cookie storage on your device.

In the case of third-party advertising cookies, you can also visit the following site: http://www.youronlinechoices.com/fr/controler-ses-cookies/, offered by digital advertising professionals within the European Digital Advertising Alliance (EDAA). From the site, you can deny or accept the cookies used by advertising professionals who are members.

It is also possible to block certain third-party cookies directly via publishers:

Cookie type

Means of blocking

Analytical and performance cookies

Realytics
Google Analytics
Spoteffects
Optimizely

Targeted advertising cookies

DoubleClick
Mediarithmics

The following types of cookies may be used on our websites:

Mandatory cookies

Functional cookies

Social media and advertising cookies

These cookies are needed to ensure the proper functioning of the site and cannot be disabled. They help ensure a secure connection and the basic availability of our website.

These cookies allow us to analyse site use in order to measure and optimise performance. They allow us to store your sign-in information and display the different components of our website in a more coherent way.

These cookies are used by advertising agencies such as Google and by social media sites such as LinkedIn and Facebook. Among other things, they allow pages to be shared on social media, the posting of comments, and the publication (on our site or elsewhere) of ads that reflect your centres of interest.

Our EZPublish content management system (CMS) uses CAS and PHP session cookies and the New Relic cookie for monitoring purposes (IP, response times).

These cookies are deleted at the end of the browsing session (when you log off or close your browser window)

Our EZPublish content management system (CMS) uses the XiTi cookie to measure traffic. Our service provider is AT Internet. This company stores data (IPs, date and time of access, length of the visit and pages viewed) for six months.

Our EZPublish content management system (CMS) does not use this type of cookie.

For more information about the cookies we use, contact INRA’s Data Protection Officer by email at cil-dpo@inra.fr or by post at:

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan CEDEX - France

Dernière mise à jour : Mai 2018

Menu Logo Principal chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo_agropolis,fondation chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo, muse, montpellier chemproject, chemhouse, chemoocs, chemomics, chemflow, chemdata, chemometrics, logo, cirad

ChemProject

ChemData

logo_chemdata

Ce pilier vous propose des données utilisées en chimiométrie :

Dataverse INRAE chemometrics

Nous en avons aussi sur le dataverse INRAE chemometrics.

Les jeux de données ci-dessous sont classés en fonction de leur utilisation dans les grains du mooc.
En bonus, un jeu non utilisé dans les grains du mooc est proposé.

Jeux de données de CheMoocs

Actuellement tous les jeux de données ci-dessous sont publiés sur ChemFlow et sur la plateforme FUN dans nos MOOCs de chimiométrie.

Grains 2 et 6 : Farines de blé

Les données ont été obtenues à l'INRA et mises à disposition par D.Bertrand. Elles consistent en 140 spectres de farines de blé, mesurés entre 400 et 2496 nm par pas de 4 nm. Le fichier des données est donc de dimensions (140 x 525). L'origine tendre ou dure du blé ayant donné chaque farine est donnée par le deuxième caractère du nom de chaque échantillon: un T ou un D respectivement.
Le jeu de données est : x_140farines.tab (0.5MB) , y_140farines.tab (1.8kB) (<!--x_140farines_bis.csv (0.5MB) -->)

Grain 3 : Résultats du décathlon des Jeux Olympiques d'Athènes 2004

La première colonne donne le nom des sportifs, la première ligne celle des épreuves: decathlon_athenes_2004.csv (2.1kB)

Grain 4 : Huiles d'olives (1)

Les données ont été produites par l'Université d'Aix-Marseille, équipe de N.Dupuy. Des analyses proche infrarouge et des analyses chimiques ont été réalisées sur 187 huiles d'olives dont l'origine géographique était connue. Les données se composent de :

  • un jeu de 187 spectres comprenant 2853 longueurs d'onde, 1000 à 2222 nm : pir0.zip
  • un jeu de 187 spectres comprenant 612 longueurs d'onde, 1000 à 2222 nm par pas de 2nm, extraites du jeu précédent : pir.csv (1.0MB) ;
  • un jeu d'analyses de 14 acides gras et du squalène sur les 187 échantillons : ags.csv (15.2kB) ;
  • un jeu d'analyses de 19 triglycérides sur les 187 échantillons : tri.csv (20.2kB) ;
  • un codage disjonctif des 187 échantillons selon les 6 origines géographiques : AP=Aix en Provence, HP=Haute Provence, NI=Nice, NM=Nimes, NY=Nyons, VB=Vallée des Baux de Provence: ori.csv (3.5kB) .

Dans le fichier ags.csv, les principaux acides gras sont: l'acide linolénique C18-3Ï?3, l'acide linoléique C18-2Ï?6, l'acide oléique C18-1Ï?9 et l'acide palmitique, C16-0 correspondant aux colonnes respectives 10, 9, 7 et 1.

Grains 5, 10 et 16 (cours) : Farines de maïs

Les données ont été acquises par l'entreprise Cargill, leur diffusion aimablement autorisée par Mike Blackburn.
Le jeu complet est disponible sur le site de Eigenvector Research Incorporated (août 2016).
Nous avons sélectionné les données utilisées dans le mooc, présentées au format de notre logiciel ChemFlow.
Des spectres ont été acquis sur 80 échantillons de maïs, entre 1100 et 2498 nm par pas de 2 nm, et ce sur trois spectromètres différents notés m5, mp5 et mp6.
Les 80 spectres sont numérotés de 1 à 80, le même ordre est respecté dans les quatre fichiers.
Les données comprennent :

  • les 80 spectres acquis sur le spectromètre m5 : x_m5.csv (0.5MB) ;
  • les 80 spectres acquis sur le spectromètre mp5: x_mp5.csv (0.5MB) ;
  • les 80 spectres acquis sur le spectromètre mp6: x_mp6.csv (0.5MB) ;
  • les valeurs d'humidité, matières grasses, protéines et amidon mesurées pour les 80 échantillons : y.csv (2.3kB) .

Le grain 10 utilise les données du spectromètre m5.
Dans le grain 16 (données du cours PDF ou vidéo), les 9 spectres utilisés pour construire les modèles de transfert d'étalonnage sont les numéros ou lignes: 1 , 5 , 7 , 10 , 12 , 13 , 28 , 33 , 36 .

Grains 4 et 5 : Tavelure sur feuilles de pommier.

Quarante deux spectres proche infrarouge ont été acquis par IRSTEA-Montpellier sur des feuilles de pommier:
- 21 spectres sur des feuilles saines;
- 21 spectres sur des feuilles atteintes de tavelure.
L'objectif est de séparer les feuilles saines des feuilles malades.
Les données sont:

  • un jeu de 42 spectres acquis sur 256 longueurs d'onde balayant l'intervalle 964-2494nm: x_tavelure.csv (0.1MB) ;
  • un jeu de codage des spectres, 1 = feuille saine, 2 = feuille atteinte de tavelure: code_tavelure.csv (0.4kB) .

Grain 7 : Terephthalate

L'objectif est de prédire la densité de polymère de terephthalate en utilisant la spectroscopie.
Les données, produites par Erik Swierenga, sont disponibles depuis le package pls du logiciel R (licence GPL) .
Le fichier initial a été divisé en :

  • un jeu de 21 spectres d'étalonage , 268 variables spectrales : x.csv (42.3kB) ;
  • les valeurs de densité pour les 21 échantillons du jeu d'étalonnage : y.csv (0.2kB) ;
  • un jeu de 7 spectres de test , 268 variables spectrales : xtest.csv (15.5kB) ;
  • les valeurs de densité pour les 7 échantillons du jeu de test : ytest.csv (0.1kB) .

Grain 9 : Huiles d'olive (2)

Le jeu d'huiles d'olive (2) a été extrait du jeu d'huiles d'olives présentés ci-dessus pour le grain 4. Il est composé de 106 spectres d'huiles mesurés entre 1000 et 1240 nm. Les données ont été utilisées pour illustrer le document pdf attaché au grain 9, pas la vidéo du grain 9 qui est basée sur un autre jeu. Elles comprennent:

  • les spectres, une matrice ( 106 x 1000) : x_olive2.csv (0.9MB) ;
  • les teneurs en acide oléique, un vecteur (106 x 1) : y_olive2.csv (1.2kB) .

Grains 12 et 13 : Mayonnaises

L'objectif est de classer des mayonnaises selon l'origine de l'huile qui a été utilisée pour les faire.
Les données sont disponibles depuis le package pls du logiciel R (licence GPL) . Elles comprennent:

  • les spectres de 162 échantillons de mayonnaise acquis entre 1100 et 2500 nm (pas = 4nm) soient 351 variables spectrales : xmayo.csv (0.5MB) .
  • l'origine de l'huile ayant servi à faire la mayonnaise, sous forme d'un fichier conjonctif: classes.csv (1.2kB) .
    • 1 = soja ; 2 = tournesol ; 3 = canola ; 4 = olive ; 5 = maïs ; 6 = pépins de raisin .

Les 21 longueurs d'onde sélectionnées dans le grain 12 sont les variables n° 2, 13, 37, 41, 49, 60, 80, 96, 107, 115, 128, 136, 140, 194, 211, 217, 225, 232, 237, 278 et 303.

Grain 15 : Abricots

Les acquisitions ont été réalisées par l'INRA, UMR408, les résultats sont mis à disposition par Sylvie Bureau. Des spectres proche infrarouge (800-2770nm) et moyen infrarouge (4000-650cm-1) ont été acquis sur les mêmes 750 abricots , pour lesquels 9 analyses de référence ont été réalisées: indice de réfraction exprimé en degré Brix, acidité totale en meq pour 100 g de matière fraiche (MF), glucose, fructose, saccharose et somme des sucres en g pour 100g de MF, acides malique et citrique, somme des acides, en meq pour 100 g de MF. Huit variétés ont été suivies, à trois stades de maturité: très vert, mûr, sur-mûr. Le label des observations est construit comme suit: (1) la variété: Ravilong (A03759), Ravicille (A03844), Blanc (A04034), Badami (A01267), Bergeron (A00660), Goldrich (A02210), Iranien (A02862) et Moniqui (A00500); (2) l'année de mesure (05 ->2005); (3) la date de mesure (ex: 2206=2 juin); (4) le lieu où se situe le verger; (5) le stade de maturité: vv=très vert, ma = mature, sm=sur-mûr; (6) la couleur de l'abricot perçue par l'observateur: R=rouge, O=orange, B=blanc; (7) le numéro de fruit (ex: F001). Les prélèvements se sont échelonnés du stade vert au stade sur-mûr. Seule une variable spectrale sur trois a été conservée dans les spectres PIR et MIR, afin d'alléger les calculs. Les données ont été ordonnées: le même abricot est représenté à la même ligne dans les quatre fichiers suivants qui contiennent :

  • les spectres proche infrarouge, un fichier (750 x 769) : x2_pir05.csv (4.4MB) ;
  • les spectres moyen infrarouge, un fichier (750 x 579) : x2_mir05.csv (3.3MB) ;
  • les analyses de référence, un fichier (750 x 9) : y2.csv (56.3kB) ;
  • un codage disjonctif des variétés, un fichier (750 x 8): code_disj.csv (33.7kB) ;
  • un codage conjonctif des variétés, un fichier (750 x 1): code_conj.csv (23.5kB) .

Grain 18 : Données simulées

Ces données ont été produites à AgroParisTech par Douglas Rutledge. Six signaux différents de 800 variables chacun ont été mixés entre eux avec des coefficients différents, et en ajoutant en plus du bruit Gaussien. Un total de 100 spectres simulés ont été obtenus.
Les données forment une matrice (100 x 800) : donnees_simulees.csv (0.6MB) .

Grain 19 : Beurres et maargarines

Les données ont été obtenues à l'INRA Nantes par Benoit Jaillais. Des spectres moyen infrarouge (MIR), proche infrarouge (PIR) et visible (VIS) ont été acquis sur 21 échantillons de beurres ou margarines. Les données sont :

  • les spectres VIS des 21 échantillons, 400-798 nm (pas=2nm) soient 200 variables spectrales : VIS21.csv (37.9kB) ;
  • les spectres NIR des 21 échantillons, 800-2498 (pas = 2nm) soient 850 variables spectrales : NIR21.csv (0.2MB) ;
  • les spectres MIR des 21 échantillons, 3616-916 cm-1 soient 1401 variables spectrales : MIR21.csv (0.3MB) .

Bonus : Fromages

Les données ont été fournies par Gérard Mazerolles. 60 fromages ont été produits à l'INRA Poligny à raison de 4 fromages par jour pendant 15 jours. Ces fromages sont identifiés ainsi:

  • une lettre: D (analyses avant salage) ou A (analyses après salage + maturation de 30 jours);
  • deux chiffres, de 01 à 15, représentent les 15 jours de production des fromages qui se répartissent en 5 groupes:
    • * jours 01 à 03: pâtes pressées cuites;
    • * jours 04 à 06: pâtes pressées mi-cuites;
    • * jours 07 à 09: pâtes pressées;
    • * jours 10 à 12: pâtes molles;
    • * jours 13 à 15: pâtes molles stabilisées.
  • un chiffre, de 1 à 4, représente le numéro du fromage (4 fromages produits par jour); les 4 fromages faits un même jour l'ont été avec des laits de compositions chimiques différentes;
  • une lettre, a, b ou c représente l'une des trois répétitions des analyses spectrales, chimiques ou rhéologiques.

Au total, nous disposons de 60 fromages x 2 dates (D et A) par 3 répétitions (a, b et c), soient 360 observations. Les données sont les suivantes:

  • la partie du spectre moyen infrarouge centrée sur les matières grasses: MIR_FAT.csv (0.3MB) ; 360 observations, 104 variables de 2998 à 2800 cm-1;
  • la partie du spectre moyen infrarouge centrée sur les protéines: MIR_PROT.csv (0.4MB) ; 360 observations, 112 variables de 1700 à 1486 cm-1;
  • la partie du spectre moyen infrarouge contenant de l'information sur les matières grasses et les protéines: MIR_MIX.csv (1.1MB) ; 360 observations, 304 variables de 1485 à 900 cm-1;
  • le spectre de fluorescence de la vitamine A, excitation 270-350nm, émission 410nm: FLUO_VITA.csv (0.2MB) ; 360 observations, 81 variables;
  • le spectre de fluorescence du tryptophane, excitation 290nm, émission 305 à 400 nm: FLUO_TRYPT.csv (0.6MB) ; 360 observations, 191 variables;
  • la chimie des fromages: pH, humidité, matières grasses, protéines, calcium: CHEMISTRY.csv (12.1kB) ; 360 observations, 5 variables;
  • la rhéologie des fromages: déformabilité, déformation à la rupture, contrainte à la rupture, énergie à la rupture: RHEO.csv (11.3kB) ; 360 observations, 4 variables.

A noter: les analyses qui n'ont pas été faites en triple ont été dupliquées de manière à ce que les nombres de lignes soient les mêmes entre tous les tableaux et qu'un numéro de ligne corresponde au même échantillon dans tous les tableaux.

BONUS : Baies de raisin

Les données ont été acquises à l'UE Pech-Rouge de Gruissan par l'UMR ITAP et l'UMR SPO respectivement par Jean-Michel Roger et Jean-Claude Boulet et mises à disposition. Des spectres UV-visible-proche infrarouge ont été acquis en transmittance sur 250 grains de raisin entre 310 et 1150nm, avec un pas de 3,3nm approximativement, ayant donné 256 longueurs d'onde. Le degré Brix a été mesuré sur chacune de ces 250 baies.
Les données comprennent :

  • fichier des spectres : x_raisin.csv (0.3MB) ;
  • fichier des degrés Brix : y_raisin.csv (2.5kB) .

A noter: les données sur les maïs aussi présentées dans le grain 10 ont été décrites précédemment pour le grain 5.

Retrouvez également nos données d'intérêts et publiable sur dataverse https://data.inra.fr ou DataInBrief.

Conversions de formats de données

Pour pouvoir traiter vos spectres avec des logiciels de chimiométrie, il est nécessaire de les exporter sous un format lisible par ces logiciels.
Par exemple, le format des données utilisé dans ChemFlow est un .csv avec:
- séparateur de champ= tabulation
- séparateur décimal = point
Les données déjà au format .csv mais avec un séparateur de champ autre que la tabulation peuvent être chargées dans ChemFlow, un outil permet la conversion vers la tabulation.
Mais ce n'est pas souvent le cas. A l'origine, les données sont produites par un logiciel propriétaire. Pour devenir lisibles par d'autres logiciels, il faut les exporter dans un format d'échange standard.
Un format standard très courant est JCAMP (extension jdx ou dx) : http://www.jcamp-dx.org.
L'exportation de vos données (spectres) se fait à l'aide du logiciel spécifique à votre appareil :
Appareil = Logiciel
BRUKER = OPUS
BUCHI = NIRCAL
UNITY = Calibration Workshop (Sensologic Gmbh) â?? Ucal
PERTEN = Unscrambler (Grams)
NICOLET = Unscrambler (Grams)
Q-Interline = Grams
FOSS = Winisi

Depuis NIRCAL avec Buchi
  • 1. Ouvrir un nouveau projet
  • 2. Aller chercher les spectres acquis dans la base de données : File -> Database -> Search and Import Spectra
  • 3. Une nouvelle fenêtre s'ouvre vous permettant de sélectionner les spectres suivant certains critères : date, nom d'échantillons, etc.
  • 4. Sélectionner vos spectres puis importer les.
  • 5. Pour exporter vos spectres il est nécessaire d'exporter le projet : File -> Export -> Project (Non) -> nomduprojet.nir à l'emplacement souhaité.
  • 6. Pour exporter les spectres au format JCAMP : File -> Export -> Spectra, cliquer sur Non afin d'exporter tous les spectres du projet courant. -> NomProjet_spectre.jdx.
Depuis Winisi avec FOSS
  • 1. Une fois votre fichier enregistré au format .cal sélectionner le,
  • 2. Choisir l'onglet Files puis Convert dans le logiciel Winisi 4
  • 3. Dans une nouvelle fenêtre, sélectionner le format de sortie : JCAMP
  • 4. Sélectionner dans "Directory Files" le fichier à convertir, il s'introduit alors dans le champ "Input Filename(s)"
  • 5. Cliquer dans "Output directory" pour sélectionner le dossier qui accueillera le fichier converti, ici .jcamp.
  • 6. Puis Cliquer sur "Set Output Directory" (le "directory" associé à jcamp doit être identique à celui de l'ouput directory)
  • 7. Lancer la conversion en cliquant sur le bouton "Begin Conversion"
  • 8. Sans rien inscrire, cliquer su OK 2 fois de suite quand on vous demande l'origine et le propriétaire du fichier JCAMP.
  • 9. Un message vous annonce alors si la conversion a réussi ou non, cliquer sur Ok puis sur le bouton "Exit Program"
  • 10. Pour voir ou manipuler votre fichier JCAMP, vous rendre avec une fenêtre windows (ou Linux) dans le répertoire où vous vouliez l'enregistrez (Output directory).
Depuis TQ avec Thermofisher