Données

Les jeux de données ci-dessous sont classés en fonction de leur utilisation dans les grains du mooc.
En bonus, un jeu non utilisé dans les grains du mooc est proposé.


Grains 2 et 6 : Farines de blé.

Les données ont été obtenues à l'INRA et mises à disposition par D.Bertrand. Elles consistent en 140 spectres de farines de blé, mesurés entre 400 et 2496 nm par pas de 4 nm. Le fichier des données est donc de dimensions (140 x 525). L'origine tendre ou dure du blé ayant donné chaque farine est donnée par le deuxième caractère du nom de chaque échantillon: un T ou un D respectivement.
Le jeu de données est : x_140farines.tab (0.5MB) , y_140farines.tab (1.8kB) (<!--x_140farines_bis.csv (0.5MB) -->)

Grain 3 : Résultats du décathlon des Jeux Olympiques d'Athènes, 2004.

La première colonne donne le nom des sportifs, la première ligne celle des épreuves: decathlon_athenes_2004.csv (2.1kB)


Grain 4 : Huiles d'olives (1).

Les données ont été produites par l'Université d'Aix-Marseille, équipe de N.Dupuy. Des analyses proche infrarouge et des analyses chimiques ont été réalisées sur 187 huiles d'olives dont l'origine géographique était connue. Les données se composent de :
  • un jeu de 187 spectres comprenant 2853 longueurs d'onde, 1000 à 2222 nm : http://web.supagro.inra.fr/partage/bouletjc/pir0.zip
  • un jeu de 187 spectres comprenant 612 longueurs d'onde, 1000 à 2222 nm par pas de 2nm, extraites du jeu précédent : pir.csv (1.0MB) ;
  • un jeu d'analyses de 14 acides gras et du squalène sur les 187 échantillons : ags.csv (15.2kB) ;
  • un jeu d'analyses de 19 triglycérides sur les 187 échantillons : tri.csv (20.2kB) ;
  • un codage disjonctif des 187 échantillons selon les 6 origines géographiques : AP=Aix en Provence, HP=Haute Provence, NI=Nice, NM=Nimes, NY=Nyons, VB=Vallée des Baux de Provence: ori.csv (3.5kB) .
Dans le fichier ags.csv, les principaux acides gras sont: l'acide linolénique C18-3ω3, l'acide linoléique C18-2ω6, l'acide oléique C18-1ω9 et l'acide palmitique, C16-0 correspondant aux colonnes respectives 10, 9, 7 et 1.


Grains 5, 10 et 16 (cours) : Farines de maïs.

Les données ont été acquises par l'entreprise Cargill, leur diffusion aimablement autorisée par Mike Blackburn.
Le jeu complet est disponible sur le site de Eigenvector Research Incorporated (août 2016).
Nous avons sélectionné les données utilisées dans le mooc, présentées au format de notre logiciel ChemFlow.
Des spectres ont été acquis sur 80 échantillons de maïs, entre 1100 et 2498 nm par pas de 2 nm, et ce sur trois spectromètres différents notés m5, mp5 et mp6.
Les 80 spectres sont numérotés de 1 à 80, le même ordre est respecté dans les quatre fichiers.
Les données comprennent :
  • les 80 spectres acquis sur le spectromètre m5 : x_m5.csv (0.5MB) ;
  • les 80 spectres acquis sur le spectromètre mp5: x_mp5.csv (0.5MB) ;
  • les 80 spectres acquis sur le spectromètre mp6: x_mp6.csv (0.5MB) ;
  • les valeurs d'humidité, matières grasses, protéines et amidon mesurées pour les 80 échantillons : y.csv (2.3kB) .

Le grain 10 utilise les données du spectromètre m5.

Dans le grain 16 (données du cours PDF ou vidéo), les 9 spectres utilisés pour construire les modèles de transfert d'étalonnage sont les numéros ou lignes: 1 , 5 , 7 , 10 , 12 , 13 , 28 , 33 , 36 .


Grains 4 et 5 : Tavelure sur feuilles de pommier.

Quarante deux spectres proche infrarouge ont été acquis par IRSTEA-Montpellier sur des feuilles de pommier:
- 21 spectres sur des feuilles saines;
- 21 spectres sur des feuilles atteintes de tavelure.
L'objectif est de séparer les feuilles saines des feuilles malades.

Les données sont:


Grain 7 : Terephthalate.

L'objectif est de prédire la densité de polymère de terephthalate en utilisant la spectroscopie.

Les données, produites par Erik Swierenga, sont disponibles depuis le package pls du logiciel R (licence GPL) .
Le fichier initial a été divisé en :
  • un jeu de 21 spectres d'étalonage , 268 variables spectrales : x.csv (42.3kB) ;
  • les valeurs de densité pour les 21 échantillons du jeu d'étalonnage : y.csv (0.2kB) ;
  • un jeu de 7 spectres de test , 268 variables spectrales : xtest.csv (15.5kB) ;
  • les valeurs de densité pour les 7 échantillons du jeu de test : ytest.csv (0.1kB) .


Grain 9 : Huiles d'olive (2).

Le jeu d'huiles d'olive (2) a été extrait du jeu d'huiles d'olives présentés ci-dessus pour le grain 4. Il est composé de 106 spectres d'huiles mesurés entre 1000 et 1240 nm. Les données ont été utilisées pour illustrer le document pdf attaché au grain 9, pas la vidéo du grain 9 qui est basée sur un autre jeu. Elles comprennent:


Grain 10 : Baies de raisin.

Les données ont été acquises à IRSTEA, UMR ITAP, et mises à disposition par Jean-Michel Roger. Des spectres UV-visible-proche infrarouge ont été acquis en transmittance sur 250 grains de raisin entre 310 et 1150nm, avec un pas de 3,3nm approximativement, ayant donné 256 longueurs d'onde. Le degré Brix a été mesuré sur chacune de ces 250 baies.
Les données comprennent :

A noter: les données sur les maïs aussi présentées dans le grain 10 ont été décrites précédemment pour le grain 5.


Grains 12 et 13 : Mayonnaises.

L'objectif est de classer des mayonnaises selon l'origine de l'huile qui a été utilisée pour les faire.
Les données sont disponibles depuis le package pls du logiciel R (licence GPL) . Elles comprennent:
  • les spectres de 162 échantillons de mayonnaise acquis entre 1100 et 2500 nm (pas = 4nm) soient 351 variables spectrales : xmayo.csv (0.5MB) .
  • l'origine de l'huile ayant servi à faire la mayonnaise, sous forme d'un fichier conjonctif: classes.csv (1.2kB) .
    • 1 = soja ; 2 = tournesol ; 3 = canola ; 4 = olive ; 5 = maïs ; 6 = pépins de raisin .
Les 21 longueurs d'onde sélectionnées dans le grain 12 sont les variables n° 2, 13, 37, 41, 49, 60, 80, 96, 107, 115, 128, 136, 140, 194, 211, 217, 225, 232, 237, 278 et 303.


Grain 15 : Abricots.

Les acquisitions ont été réalisées par l'INRA, UMR408, les résultats sont mis à disposition par Sylvie Bureau. Des spectres proche infrarouge (800-2770nm) et moyen infrarouge (4000-650cm-1) ont été acquis sur les mêmes 750 abricots , pour lesquels 9 analyses de référence ont été réalisées: indice de réfraction exprimé en degré Brix, acidité totale en meq pour 100 g de matière fraiche (MF), glucose, fructose, saccharose et somme des sucres en g pour 100g de MF, acides malique et citrique, somme des acides, en meq pour 100 g de MF. Huit variétés ont été suivies, à trois stades de maturité: très vert, mûr, sur-mûr. Le label des observations est construit comme suit: (1) la variété: Ravilong (A03759), Ravicille (A03844), Blanc (A04034), Badami (A01267), Bergeron (A00660), Goldrich (A02210), Iranien (A02862) et Moniqui (A00500); (2) l'année de mesure (05 ->2005); (3) la date de mesure (ex: 2206=2 juin); (4) le lieu où se situe le verger; (5) le stade de maturité: vv=très vert, ma = mature, sm=sur-mûr; (6) la couleur de l'abricot perçue par l'observateur: R=rouge, O=orange, B=blanc; (7) le numéro de fruit (ex: F001). Les prélèvements se sont échelonnés du stade vert au stade sur-mûr. Seule une variable spectrale sur trois a été conservée dans les spectres PIR et MIR, afin d'alléger les calculs. Les données ont été ordonnées: le même abricot est représenté à la même ligne dans les quatre fichiers suivants qui contiennent :


Grain 18 : Données simulées.

Ces données ont été produites à AgroParisTech par Douglas Rutledge. Six signaux différents de 800 variables chacun ont été mixés entre eux avec des coefficients différents, et en ajoutant en plus du bruit Gaussien. Un total de 100 spectres simulés ont été obtenus.
Les données forment une matrice (100 x 800) : donnees_simulees.csv (0.6MB) .


Grain 19 : Beurres et mayonnaises.

Les données ont été obtenues à l'INRA Nantes par Benoit Jaillais. Des spectres moyen infrarouge (MIR), proche infrarouge (PIR) et visible (VIS) ont été acquis sur 21 échantillons de beurres ou margarines. Les données sont :
  • les spectres VIS des 21 échantillons, 400-798 nm (pas=2nm) soient 200 variables spectrales : VIS21.csv (37.9kB) ;
  • les spectres NIR des 21 échantillons, 800-2498 (pas = 2nm) soient 850 variables spectrales : NIR21.csv (0.2MB) ;
  • les spectres MIR des 21 échantillons, 3616-916 cm-1 soient 1401 variables spectrales : MIR21.csv (0.3MB) .


Bonus : Fromages.

Les données ont été fournies par Gérard Mazerolles. 60 fromages ont été produits à l'INRA Poligny à raison de 4 fromages par jour pendant 15 jours. Ces fromages sont identifiés ainsi:
  • une lettre: D (analyses avant salage) ou A (analyses après salage + maturation de 30 jours);
  • deux chiffres, de 01 à 15, représentent les 15 jours de production des fromages qui se répartissent en 5 groupes:
    • * jours 01 à 03: pâtes pressées cuites;
    • * jours 04 à 06: pâtes pressées mi-cuites;
    • * jours 07 à 09: pâtes pressées;
    • * jours 10 à 12: pâtes molles;
    • * jours 13 à 15: pâtes molles stabilisées.
  • un chiffre, de 1 à 4, représente le numéro du fromage (4 fromages produits par jour); les 4 fromages faits un même jour l'ont été avec des laits de compositions chimiques différentes;
  • une lettre, a, b ou c représente l'une des trois répétitions des analyses spectrales, chimiques ou rhéologiques.
Au total, nous disposons de 60 fromages x 2 dates (D et A) par 3 répétitions (a, b et c), soient 360 observations. Les données sont les suivantes:
  • la partie du spectre moyen infrarouge centrée sur les matières grasses: MIR_FAT.csv (0.3MB) ; 360 observations, 104 variables de 2998 à 2800 cm-1;
  • la partie du spectre moyen infrarouge centrée sur les protéines: MIR_PROT.csv (0.4MB) ; 360 observations, 112 variables de 1700 à 1486 cm-1;
  • la partie du spectre moyen infrarouge contenant de l'information sur les matières grasses et les protéines: MIR_MIX.csv (1.1MB) ; 360 observations, 304 variables de 1485 à 900 cm-1;
  • le spectre de fluorescence de la vitamine A, excitation 270-350nm, émission 410nm: FLUO_VITA.csv (0.2MB) ; 360 observations, 81 variables;
  • le spectre de fluorescence du tryptophane, excitation 290nm, émission 305 à 400 nm: FLUO_TRYPT.csv (0.6MB) ; 360 observations, 191 variables;
  • la chimie des fromages: pH, humidité, matières grasses, protéines, calcium: CHEMISTRY.csv (12.1kB) ; 360 observations, 5 variables;
  • la rhéologie des fromages: déformabilité, déformation à la rupture, contrainte à la rupture, énergie à la rupture: RHEO.csv (11.3kB) ; 360 observations, 4 variables.
A noter: les analyses qui n'ont pas été faites en triple ont été dupliquées de manière à ce que les nombres de lignes soient les mêmes entre tous les tableaux et qu'un numéro de ligne corresponde au même échantillon dans tous les tableaux.