FAQ CheMoocs

Cette Foire aux Questions ou Frequently Asked Questions est là pour répondre aux questions les plus courantes que vous vous posez sur la chimiométrie.
Dans la mesure du possible, les questions/réponses sont regroupées par grains, chaque grain étant un cours de CheMoocs.

Grain 0, 1, 2: Introduction,statistiques simples

Question:
J'ai compris la notion de "dimension d'un espace vectoriel" mais dès qu'on bascule aux spectres je me perds totalement. Notamment sur l'exemple des 1101 variables spectrales qui seraient un vecteur de 1101 dimension. Pourriez-vous m'éclairer davantage.
Réponse:
Lorsque vous définissez votre position avec 2 nombres, vous évoluez dans un espace de dimension 2. Par exemple, 3 pas vers l'Ouest, 2 pas vers le Nord. Ou la latitude et la longitude. Si vous ajoutez un troisième nombre, vous passez en dimension 3. Un vecteur d'un espace de dimension 3 est donc une collection de 3 nombres. Et symétriquement toute collection de 3 nombres est un vecteur d'un espace de dimension 3.
Partant de ce principe, toute collection de 1101 nombres est un vecteur... d'un espace de dimension 1101.

Question:
J'ai du mal à distinguer "dimension d'un espace vectoriel", et "dimension d'un vecteur". Si un vecteur a 3 coordonnées (x,y,z), on a besoin de R3 pour le représenter (= 3 dimensions). Or la définition du cours dit: "La dimension d’un espace vectoriel est le nombre minimum de vecteurs nécessaires pour générer tout l’espace vectoriel", donc la dimension de l'espace généré par ce vecteur est 1? Pouvez-vous m'éclairer?
La formule de la projection orthogonale est loin d’être intuitive ! Sans trop rentrer dans les détail math., pouvez-vous expliciter l'écriture Xp = XP(P'P)-1P' ?
Réponse:
Lorsqu'un spectre est mesuré sur 1000 longueurs d'onde, cela veut dire, mathématiquement, qu'il peut évoluer dans un espace de 1000 dimensions. De la même manière, lorsque vous indiquez les coordonnées GPS d'un point (latitude + longitude + altitude), vous vous situez dans espace de dimension 3 (faisons abstraction de la courbure de la Terre). C'est donc conforme à ce que vous dites : "Si un vecteur a 3 coordonnées (x,y,z), on a besoin de R3 pour le représenter (= 3 dimensions)".
Intéressons nous maintenant à 10 spectres différents, tous mesurés dans un espace de dimension 1000. Si on combine à l'infini ces 10 spectres, on obtient un espace de dimension 10, qui sera un sous espace de l'espace de départ (de dimension 1000). Donc effectivement, la dimension de l'espace généré par un seul vecteur est 1, quelle que soit la dimension de ce vecteur.

Question:
Dans les définitions de la variance et de l'écart-type d'un échantillon, pouvez-vous préciser pourquoi la division de la somme des carrés des écarts se fait par n et non par n-1 ?
Réponse:
Les mots "écart type" et "variance" sont assez ambivalents, car ils désignent à la fois une mesure de dispersion et une propriété d'une loi de probabilité. Les explications ci dessous s'adressent à l'écart type, mais sont aussi valable pour la variance.
Lorsque l'on possède une population de valeurs et que l'on veut en décrire la dispersion, on peut calculer l'écart type de cette population comme la moyenne quadratique des écarts à la moyenne, c'est à dire comme c'est exposé dans le grain, avec 1/n
Lorsqu'il s'agit d'estimer l'écart type de la loi de probabilité qui est "cachée" derrière un échantillon, alors la formule est différente ; il faut diviser par (n-1) pour que la valeur calculée soit un estimateur sans biais de l'écart type de la loi de probabilité.

Grains 3 et 4: ACP

Question: distribution des variables dans une ACP
Est-ce que les variables mesurées prises dans une ACP doivent avoir une distribution normale ou connue ?
Réponse:
L'ACP marche très bien sur des variables ayant une distribution plutôt gaussienne ou normale, et marche encore très bien lorsque la distribution reste à peu près symétrique (par ex.: distribution uniforme, bimodale,...). Les cas où l'ACP semble moins robuste correspondent plutôt à des distributions très asymétriques (par ex.: beaucoup de 0 et ensuite quelques valeurs positives).

Question: Dimension du jeu de données
J'avais appris que pour faire une ACP, il faut plus d'individus (de lignes) que de colonnes (variables), est-ce vrai ?
Réponse:
Non, une ACP peut gérer un tableau de données avec plus de variables que d'individus. Un des objectifs de l'ACP est de réduire la dimensionnalité, c'est-à-dire travailler sur quelques composantes principales seulement, qui sont des nouvelles variables créées, combinaisons linéaires des variables initiales. Dans de nombreuses applications, le nombre de variables initiales est ainsi bien plus important que le nombre d'individus, notamment en métabolomique, par exemple sur des signaux de type spectrométrie de masse ou RMN.

Question: ACP et variables sensorielles
Avant de faire une ACP sur des variables sensorielles (notes de 0 à 10 par exemple), faut-il les normer ? Elles sont de même nature (variables sensorielles) et pourtant ne représentent pas la même chose. Merci de vos conseils.
Réponse:
Ce MOOC est focalisé principalement sur le traitement des données spectroscopiques, notamment les données NIR. Mais tous ces outils peuvent effectivement très bien s'appliquer à d'autres types de données multivariées (spectroscopie Raman, RMN, chromatographie, spectrométrie de masse, paramètres procédés, données sensorielles,...). S'il on a des données sensorielles issues d'évaluation sensorielle descriptive quantitative, c'est-à-dire des notes sur une échelle structurée ou non structurée entre 0 et 10 par ex. pour chaque descripteur sensoriel (variable), on ne parle plus vraiment de chimiométrie mais de sensométrie. Dans ce cas-là, la normalisation en colonne (réduction) des variables va dépendre des données et de l'application. Par exemple, si certains descripteurs correspondent à des notes de défaut (ex.: moisi), ceux-ci présentent une faible variance en général si les défauts sont rares. Normaliser dans ce cas revient à donner autant de poids de départ aux défauts (rares) et aux autres descripteurs, ce qui est un choix individuel à faire suivant l'objectif de l'ACP. Un autre ex. : si un descripteur présente une faible variance car celui-ci n'est pas très discriminant des produits évalués, le fait de normaliser donnera un poids artificiel vraisemblablement non pertinent à ce descripteur. Dernier exemple : si le jury de dégustation n'est pas bien calibré, il se peut que la gamme de notes soit très différente d'un descripteur à l'autre. Dans ce cas, normaliser peut être nécessaire.

Question: loadings
Comment peut-on déterminer les poids factoriels des variables, ou comment peut-on déterminer les termes (p1, p2, p3....) dans la combinaison linéaire t= p1 x1+ p2 x2+p3 x3 ....de façon à expliquer le maximum de variabilité avec cette composante t ?
Réponse:
Dans l'ACP, la matrice X est décomposée sous forme de scores T et de loadings=vecteurs propres P selon l'équation: X=TP' . Une des propriétés de l'ACP est que: P'P=I la matrice identité. Donc en multipliant de chaque coté à droite par P on obtient: T=XP qui correspond à votre équation, mais sous forme de matrices. En pratique, il n'est pas nécessaire de faire ces calculs, les logiciels sortent T et P automatiquement.

Question: étude ACP
Comment effectue-t-on une étude générale par ACP ?
Réponse:
La démarche n'est pas exactement la même selon que les données sont de type spectral, ou pas.
1. préparation des données:
Données non spectrales: : centrer et réduire les variables, car une meilleure ACP est assurée par une distribution normale centrée réduite. C'est la tendance générale, qui ne s'applique pas partout, loin s'en faut. La réduction est très dangereuse pour les variables peu ou pas significatives, dont les valeurs sont souvent à 0 ou proches de 0. C'est le cas en analyse sensorielle, ou en analytique si les valeurs sont au niveau du seuil de détection de la méthode.
Données spectrales: ne pas centrer ni réduire, juste visualiser le spectre brut; s'il contient des déformations, on effectue les prétraitements suivants :
• enlever le bruit : lissage par Savitzsky-Golay;
• enlever les lignes de base : Detrend ou dérivée;
• enlever l’effet multiplicatif : le logarithme ou la normalisation;
2. construction des composantes principales : choix du nombre de composantes principales en se basant sur la maximisation de la variance expliquée;
3. détection des points atypiques dans la représentation des individus dans l’espace des variables « score plot » = carte factorielle des individus;
4. Interprétation de la carte factorielle des individus en regardant :
• si les caractéristiques d’un individu lui sont spécifiques ou si elles sont identiques aux autres individus;
• les individus qui expliquent mieux l’une des composantes principales choisies;
5. Loading = vecteurs propres : on identifie la ou les variables influentes sur le modèle

Question: données manquantes
Comment gérer les données manquantes dans une ACP?
Réponse:
il y a deux solutions: (a) supprimer les lignes et/ou colonnes correspondant aux valeurs manquantes; (b) estimer les valeurs manquantes. Là aussi, il n'y a pas de règle stricte. Avec beaucoup de valeurs manquantes, il devient dangereux de les estimer; s'il y en a peu, c'est jouable; mais à chacun de voir où on place "beaucoup" et "peu" en fonction des données.

Question:
Comment faire si nos données sont un mélange de données quantitatives et qualitatives et spectrales à la fois?
Réponse:
L'ACP ne suffit pas. il faut utiliser une méthode multitableaux, voir les grains 19 et 20 pour commencer.

Question: détection de points atypiques par T² et Q
Les individus à considérer comme possible atypiques dans une ACP sont ceux présentant un fort T² et une forte distance Q au modèle. Comme les 2 critères sont à considérer, ne peut-on pas envisager de n'utiliser qu'une seule valeur, une distance T² augmentée du Q² soit (T²+Q²) , distance quadratique au centre du modèle dans l'espace de départ? Autrement dit, est-il nécessaire de faire une ACP pour détecter les points atypiques, ou un simple calcul de distance de l'individu suspecté à l'individu moyen ne suffirait-il pas ?
Réponse:
Les 2 distances multivariées T^2 et Q sont utiles pour détecter les points atypiques, mais ne détectent pas les mêmes! Les points atypiques en T^2 correspondent à des échantillons atypiques sur des phénomènes connus (modélisés par l'ACP), souvent plus forts ou plus faibles en intensité par rapport à ce phénomène. Les points atypiques en Q correspondent plutôt à des phénomènes jamais rencontrés auparavant, et donc mal modélisés. Ces 2 distances sont donc intéressantes à diagnostiquer de façon séparée. Cependant, il existe effectivement des méthodes pour lesquelles un seul critère, combinaison de T^2 et de Q, est pris en compte. C'est le cas notamment de la méthode de discrimination SIMCA- Soft Independant Modeling of Class Analogies dans certains cas. Il faut néanmoins faire attention, car ces 2 termes sont calculés dans des métriques différentes. Le calcul de T^2 fait intervenir la matrice de variance-covariance, pour calculer une distance de Mahalanobis, mais pas le Q. En ce qui concerne la dernière partie de la question, calculer une distance spectrale directement dans l'espace d'origine, sans passer par l'ACP, peut effectivement être une idée. Les résultats seront différents, et l'information spécifique au T^2 et au Q est perdue.

Question: variance importante sur la première composante principale (CP1)
Dans le cas d'une ACP sur des données spectrales, comment qualifier le résultat si la variance exprimée pour CP1 est supérieure à 95%? Cette ACP est-elle exploitable, (l'ACP nous sert à trouver des tendances de corrélation entre des données spectrales et des propriétés produits)?
2ème question: si le loading associé à CP1 est le spectre moyen de ma base de données, qu'est ce que ça peut signifier? Faut il que je revoie mes prétraitements?
Réponse:
Dans le cas des données spectrales, la variance expliquée par la CP1 d'une ACP est très souvent supérieure à 95% voire de temps en temps supérieure à 99% ! Dans ce cas, le loading associé représente effectivement le spectre moyen (ou son opposé). Ceci s'explique par le fait que la plus grande variabilité dans une base spectrale est souvent dûe non pas à la composition chimique ou biochimique de l'échantillon mais à une information physique (taille de particules,...). Cela s'appelle l'effet de la diffusion de la lumière (light scatering). Je vous renvoie à ce sujet aux grains sur les prétraitements pour plus de détails, et pour savoir comment éliminer au maximum cette information physique qui peut être un artefact si l'on recherche l'information chimique ou biochimique.

Question:
Comment interpréter la courbe de loadings=vecteurs propres?
Réponse:
La courbe des loadings pour une composante de l'ACP représente en fait le poids (contribution) de chaque variable initiale (mesurée) dans la construction de la composante principale considérée. Il faut donc interpréter les loadings dans ce sens, le poids pouvant être positif ou négatif.

Question: QQ plot pour repérer les valeurs atypiques ?
A la place de l'étude des T² et Q, peut-on se servir d'un QQ plot et éliminer les valeurs qui ne se rapprochent pas du quantile théorique ?
Réponse:
Le QQ plot peut être utilisé pour repérer les individus qui s’écartent d’une population suivant une loi normale. On peut l’utiliser pour les Y et aussi sur les scores mais l’hypothèse de normalité n’est pas toujours respectée en pratique, cela limite son utilisation en pratique.
Par exemple les données de carbone organique dans le sol ne suivent généralement pas une distribution normale, mais plutôt log-normale.

Grain 5: Prétraitements-1

Question: correction du bruit multiplicatif?
Ce grain explique comment réduire l'effet du bruit additif , et beaucoup moins les méthodes pour réduire le bruit multiplicatif. La part du bruit ayant un effet additif est elle la plus importante ? Ou est-ce simplement qu'il existe plus de méthodes pour la réduire ?
Réponse:
Effectivement il existe plus de méthodes liées au bruit additif qu'au bruit multiplicatif. Ceci peut être dû au fait que, au laboratoire, on se place dans des conditions évitant les effets multiplicatifs (d'où la forme de la loi de Beer Lambert). Cependant, dans des conditions moins maîtrisées, comme en rétrodiffusion sur des produits pulvérulents, l'effet multiplicatif est inévitable et il est important de l'éliminer.

Question: prétraitement et Detrend
Un Detrend linéaire ou quadratique par un modèle des moindres carrés suppose la normalité des résidus, ce qui n'est pas le cas pour un spectre. Est-ce que cette méthode introduit des artefacts dans le spectre corrigé ? Est-ce qu'une méthode de correction de ligne de base est plus recommandée qu'une autre (ALS, continuum removal, detrend) ?
Réponse:
Il est exact que la régression linéaire opérée par Detrend ne respecte pas les hypothèses de normalité des résidus, car un spectre a une structure non Gaussienne. Cependant, il convient de distinguer deux objectifs qui peuvent être recherchés lors de la correction de la ligne de base :
- retirer un effet additif (de type a x lambda+b) pour faciliter l'étape de modélisation ;
- séparer la ligne de base du spectre, afin d'obtenir un spectre plus "pur" .
Dans le premier cas, il suffit d'opérer une transformation qui annule l'effet de la ligne de base. Dans ce cas, Detrend fait l'affaire et nul besoin de respecter les hypothèses de normalité. En effet, si S0 est le spectre sans ligne de base, et si S = S0 + a x lambba + b est le spectre additionné d'une ligne de base, on vérifie que Detrend(S) ne dépend pas de a et b
Dans le deuxième cas, Detrend ne convient pas, car Detrend(S0 + a x lambda + b) n'est pas égal à S0. Pour retrouver S0, il faut utiliser d'autres techniques d'identification de ligne de base, comme Asymetric Least Squares (ALS) ou Continuum Removal, qui sont deux techniques très utilisées en Remote Sensing, où il est très important de calculer des spectres "purs".

Grain 6: Classifications non supervisées

Question: CHA et calcul des distances
Quelle est la pertinence d'une classification hiérarchique lorsque les variables sont fortement corrélées, comme par exemple des variables spectrales ?
Autre question : est-ce qu'une classification hiérarchique descendante donnerait le mêmes résultats, et y-a-il un intérêt à considérer un arbre descendant plutôt qu'ascendant ?
Réponse:
Une forte corrélation entre variables ne pose pas de problème avec les méthodes de classification non supervisée avec utilisation de la distance euclidienne usuelle.
Dans le cas des variables spectrales, lorsque la première composante principale a une variance très forte, c'est sur cette dimension que se fera essentiellement la création des groupes et des phénomènes plus marginaux pourraient être "oubliés" lors de la segmentation.
Concernant la deuxième question, il existe effectivement des algorithmes descendants pour la classification non supervisée. Ils consistent à diviser l'ensemble des individus en deux groupes puis, successivement, à diviser ces groupes en deux... Il faut noter que ces méthodes ne fournissent pas nécessairement les mêmes arbres que les méthodes ascendantes.
On les utilise en général pour classer des grands nombres d'individus (la classification peut être longue dans ce cas) et/ou dans le cas où c'est la seule partie haute de l'arbre qui intéresse l'analyste. Dans le cas spectral, on pourrait être intéressé par ces techniques pour classer les variables par ex.

Grain 7: Régressions linéaires: simples, multiples, PCR, PLSR

Question: coefficient de corrélation multiple
On nous demande de donner le coefficient de corrélation multiple. On a vu pour la régression simple, qu'on pouvait déduire le R en faisant la racine carré de R^2 et en lui donnant un signe positif ou négatif en fonction de la pente de la droite. En revanche, dans le cas d'une régression linéaire multiple, est-il possible de définir son signe ?
Réponse:
En régression linéaire multiple, le coefficient de corrélation multiple R est la racine carrée de R², donc compris entre 0 et 1. Pour connaître la relation entre une variable explicative et la réponse, on peut regarder le signe de son coefficient dans le modèle, ou les corrélations partielles .

Question: régression multilinéaire : Y vs X ou X vs Y ?
Dans l'exemple sur la régression multilinéaire, on cherche à expliquer la densité de polyéthylène téréphtalate par spectrométrie. Les variables explicatives sont les données spectrales sur lesquelles portent les mesures et donc sujettes à erreurs. La densité Y est par contre mesurée par une méthode de référence, donc avec moins d'erreur. Or la présentation indique que la (les) variable(s) explicative(s) doivent être connues sans erreur, les résidus ne portant que sur Y. N'inversez-vous pas Y et X ?
Réponse:
La théorie de la MLR suppose que seule la réponse Y possède une erreur et que les X sont indépendants et identiquement distribués. Grâce à ces hypothèses, on peut calculer analytiquement l'erreur du modèle et la variance de la pente, qui permet de tester sa nullité. Une pente nulle indiquant qu'il n'y a pas de modèle.
Dans la pratique, notamment en chimiométrie, ces hypothèses ne sont jamais vérifiées. On utilise malgré tout les formules théoriques de la MLR, mais la validation des modèles passe par des tests.

Question: erreur sur X et Y?
Comme nous savons qu'aucune mesure n'est connue sans erreur, que ce soit sur X ou sur Y, existe-t-il des méthodes de régression qui tiennent compte des erreurs sur Y et sur X ?
Réponse:
La régression BLS répond à votre question. La présentation de Marion Berger (Sanofi) et Bernard G. Francq (université de Glasgow) expose son contexte d'utilisation et les fonctions du package R "bivRegBLS" qui permettent de traiter les modèles avec une variance sur X et une variance sur Y.

Question: MLR avec nombre de variables largement supérieur au nombre d'échantillons ?
On nous demande dans l'activité 4 de faire une MLR sur 106 spectres IR. Nous avons donc une matrice de dimensions 106 x 612 (106 échantillons pour des spectres avec 612 longueurs d'onde différentes). Le nombre de variables (les longueurs d'ondes) est donc largement supérieur au nombre d'échantillons. Comment peut on faire une MLR dans ces conditions ?
cf. extrait du pdf du grain 8: "Mais lorsque les variables dans la matrice X sont très corrélées et en plus grand nombre que les individus, il n'est pas possible de résoudre cette équation".
Réponse:
Vous avez parfaitement raison : il est IMPOSSIBLE de faire une MLR avec une matrice de descripteurs 106x612.
Vous êtes en fait victime d'un abus de langage. De nombreux statisticiens et chimiométriciens dénomment MLR une forme "adaptée" de la vraie MLR, qui consiste à "forcer" l'inversion de la matrice X'X. En pratique, cette inversion est remplacée par une pseudo inverse. Cette pseudo inverse réalise une ACP de X et retient les scores correspondant à une valeur propre "non nulle" (supérieure à un certain seuil). Ce n'est donc rien d'autre qu'une PCR sur-ajustée, car prenant autant de variables latentes que possible. ChemFlow utilise ce type de MLR.

Question: nombre d'échantillons pour un modèle?
MLR, PCR, PLS sont des techniques très élégantes. Mais je suis perplexe devant la quantité d'échantillons consommés pour construire un modèle. Par exemple 106 dosages de l'acide oléique en chromatographie phase gazeuse (CPG), pour renseigner la variable expliquée. Puis 106 spectres infrarouges pour ce qui est des variables explicatives. Et si j'ai bien compris, c'est dans le but de doser ensuite l'acide oléique non plus par CPG, mais par spectrométrie infra-rouges sur de nouveaux échantillons. Dans ce cas il doit alors falloir doser énormément de nouveaux échantillons pour rentabiliser la centaine de dosages faits en CPG juste pour construire le modèle... ??
Dans un laboratoire qui utilise ces techniques, finalement quelle est la part entre le nombre d'échantillons effectivement analysés (dosés ou classifiés), et les échantillons utilisés pour l'étalonnage (ou la construction du modèle) ?
Réponse:
Les techniques de régression demandent beaucoup d'échantillons pour l'étalonnage. Elles sont effectivement destinées à des situations où énormément d'échantillons doivent être analysés rapidement.
Le minimum d'observations pour construire le jeu d'étalonnage se situe généralement à plusieurs centaines. Il n'y a pas de maximum, mais certains jeux d'étalonnage atteignent des dizaines de milliers d'observations. Plus il y a d'observations et plus il y a de conditions différentes (année, lieu, spectro, température, humidité, etc) donc plus le modèle donnera des résultats corrects dans des situations différentes. Par observation on entend: un échantillon sur lequel on a fait la mesure de référence et le spectre infrarouge.
La construction du jeu d'étalonnage destiné à construire un modèle demande un certain investissement financier, car la mesure de référence coûte cher, c'est pourquoi certains modèles sont vendus. Mais une fois le modèle construit, il peut être appliqué pour prédire une infinité de nouveaux échantillons sur lesquels on n'a plus besoin de faire la méthode de référence, à l'exception d'un petit nombre d'entre eux utilisés par les procédures qualité pour vérifier régulièrement la qualité des prédictions du modèle.
Donc un bon modèle est toujours très largement rentabilisé.
Par contre il peut arriver que, malgré un grand nombre d'observations, le modèle ne réponde pas à nos attentes, tout simplement parce que le spectre ne contient pas suffisamment d'information sur le paramètre à prédire. C'est le risque.

Question: ypredit contre yobservé, ou l'inverse ?
Il est habituel de tracer ypredit en fonction de yobservé pour s'assurer de la qualité de la prédiction des modèles PLS. Or certains logiciels font plutôt yobservé vs ypredit (en abscisse). J'en conclus qu'on fait Observé vs Prédit parce qu'on a fait l'étalonnage inverse avec PLS (on a inversé les X et les Y par rapport à une régression classique). Quel est votre avis sur la question ?
Réponse:
Voici deux articles en faveur de yobservé = f(ypredit) : 1) T. Fearn, « Which Way Round? A Tale of Two Regressions », NIR News, vol. 9 (3), 1998, pp 6-7 ; 2) G. Pineiro, S. Perelmanb, J. Guerschmanb et J. M. Paruelo, « How to evaluate models: Observed vs. predicted? », Ecological Modelling, vol. 216 (3-4), 2008, pp 316-322 ; 3) plus un (non retrouvé) de Pierre Dardenne qui est du même avis.
Et, à mon avis, la philosophie de "yobservé = f(ypredit)" est de se dire qu'on s'attendrait à avoir, pour des "données liées", une pente de 1 et une ordonnées à l'origine de 0.
Cela pourrait avoir une certaine logique, car, dans le cas du sous-jeu d'étalonnage, on fait des prédictions sur le sous-jeu d'étalonnage qui lui-même a permis d'étalonner le modèle.
On fait la régression linéaire avec "yobservé = f(ypredit)" ET "ypredit = f(observé)", et uniquement la régression "yobservé = f(ypredit)" permet d'atteindre ce but (pente = 1 et ordonnées à l'origine = 0).
Pour l'avoir testé avec des sous-jeux de calibration, les calculs donnent systématiquement des pentes de 1 et des ordonnées à l'origine de 0, avec dans les deux cas des écarts-types très inférieurs à 10^-3. Ce qui signifierait que la régression linéaire est plus que parfaire ... avec des points qui ne sont pas alignés sur la droite (!). Avec des sous-jeux de validation, ce phénomène n'apparaît plus ... sans doutes parce que les deux sous-jeux sont indépendants (sous-jeu de validation n'ayant pas participer à la construction du modèle).
Je suis plutôt favorable à l'utilisation de "ypredit = f(yobservé)" pour les raisons données dans le Grain 7.

Question: méthodes de référence contre méthodes spectroscopiques?
Les méthodes de type SPIR sont étalonnées à partir de résultats de méthodes d’analyse quantitatives de référence. Un objectif principal est de pouvoir remplacer ces méthodes de référence parfois compliquées à mettre en œuvre, par ces méthodes de spectroscopie plus simples et rapides. Est-il possible de comparer l’incertitude de mesure des méthodes de référence avec celle des méthodes spectroscopiques basées sur des modèles de régression type PLS ? De manière plus générale, comment évaluer (et avec quels indicateurs) les méthodes spectroscopiques par rapport aux méthodes de référence ?
Réponse:
Une croyance commune est de considérer que, comme le SPIR est basée sur le labo, l'erreur de prédiction SPIR est supérieure à celle du labo. C'est souvent le cas, mais pas toujours!
Lorsque l'on trace le y prédit pas SPIR (Yh) en fonction du y labo (Yl), on observe des écarts entre prédiction et labo : D=Yh-Yl. De là, on tire des statistiques de qualité du modèle, comme le SEP, qui est l'écart type de D. Or, l'écart type de Yl (c'est à dire l'erreur labo, notée SEL) participe à celui de D. Il faut corriger le SEP de la manière suivante : SEPc^2 = SEP^2 - SEL^2
On peut alors obtenir une erreur SPIR plus faible que l'erreur labo. Cela arrive généralement lorsque la méthode labo est relativement imprécise, et que le jeu d'étalonnage est très important.

Question: PLS-1 contre PLS-2?
Dans de nombreux articles scientifiques, les auteurs utilisent PLSR comme une méthode univariée alors qu'ils ont plusieurs valeurs y à prédire. En d'autres termes, ils utilisent le spectre complet de NIRS pour estimer un seul modèle pour la matière sèche, un autre pour la protéine brute, etc. De plus, chaque modèle est créé en utilisant 4 à 7 variables latentes. N'est-ce pas une mauvaise utilisation du PLSR et une manière de surajuster les modèles?
Réponse:
Vous soulevez un problème très important, qui peut nourrir un débat intéressant. Voic quelques arguments.
Du côté algorithme, il est vrai que la PLS est conçue pour prédire plusieurs réponses, mais depuis sa création les principaux algorithmes se sont spécialisés dans la PLS-1 (une réponse).
Du côté applicatif : Reprenons votre exemple, que je devine issus des céréales. lorsque l'on mesure des grains par SPIR, on peut effectivement chercher à étalonner un modèle pour prédire, à partir du même spectre, la matière sèche et le taux de protéines, c'est à dire deux réponses, Y1 et Y2. Le problème est que ces deux variables sont très certainement corrélées, par "nature".
Du côté stratégique : Le problème se pose alors de savoir si on doit faire une PLS-2 entre les spectres et (Y1,Y2) ou deux PLS-1 entre les spectres et Y1 et les spectres et Y2. En théorie, vous avez raison, la PLS-2 est supérieure à 2 PLS-1, car elle tient compte de la corrélation entre Y1 et Y2. Cependant, les performances constatées sont souvent bien meilleures quand on optimise chaque modèle pour chaque réponse. Par exemple, une réduction de ligne de base peut être nuisible au modèle pour la matière sèche et utile à celui des protéines. De plus, il est possible que l'étalonnage vs Y1 soit en réalité basé sur un étalonnage vs Y2, qui utilise la corrélation naturelle entre les deux variables. Se posent alors des problèmes de robustesse lorsque cette corrélation change, par exemple en changeant d'année de récolte.
L'idéal serait de "casser" la corrélation entre Y1 et Y2 et de faire deux PLS-1. Ceci pourrait peut être s'envisager avec un plan d'expériences.

Question: Comment choisir la méthode la plus adaptée à son problème?
De nombreuses méthodes pour tendre vers un modèle de prédiction efficace: méthodes de régression, sélection de variables, décomposition spectrale etc. Mais comment choisir entre les différentes méthodes, la méthode la plus adaptée à notre problème? Est-ce une question d'habitude, de flair, faut il tester toutes les méthodes, ou bien existe il une démarche à privilégier?
Réponse:
Dans les méthodes que vous citez il y a plusieurs catégories de méthodes qui correspondent à des objectifs différents.
Ainsi, il y a deux catégories majeures : l’exploration des données et l’étalonnage. L’exploration peut être simple, comme l’ACP ou l’ICA, orientée vers la découverte de groupes, comme la classification, la résolution selon des spectres purs et des concentrations (MCR) et donc orienté chimie. L’étalonnage peut lui aussi être orienté vers des classes (discrimination) ou des concentrations (régressions).
Vous voyez, à chaque objectif sa méthode

Grain 11: Bonnes pratiques de modélisation

Question: "apprentissage" et "validation croisée"?
Quelle est la signification de ces 2 mots "Apprentissage" et "Validation Croisée" , ça serait très gentil de votre part si vous consacrez un petit peu de temps pour expliquer ces 2 termes .
Réponse:
La construction d'un modèle de régression (ou de discrimination) consiste à calculer une fonction F qui relie au mieux vos variables prédictives (X) à votre variable à prédire (Y), ce que l'on peut écrire Y = F(X) + R. L'apprentissage consiste à calculer F, étant données deux matrices X et Y. À l'issue de cette opération, on peut qualifier l'ajustement du modèle en évaluant la quantité d'information laissée de côté dans R. Par exemple, pour une régression, le RMSEC est en quelque sorte la norme de R. Lorsque la méthode de modélisation comprend des paramètres, qu'il faut régler, une méthode couramment employée consiste à tester le modèle sur un ensemble de validation pour différentes valeurs de ces paramètres. L'observation de l'erreur de validation, en fonction des valeurs des paramètres, permet de vous guider dans le choix des bonnes valeurs. La validation croisée est un cas particulier de validation, mais qui répond au même principe.

Question: différentes validations croisées?
Quelle est la différence entre la "k-bloc cross-validation " (valeur par défaut dans Chemflow) et la "venitian cross-validation", qui est celle proposée dans les activités ?
Réponse:
La validation croisée consiste à répartir des observations dans plusieurs groupes, disons k groupes. Voyons en quelques unes.
- La méthode à k blocs: pour chacun des k blocs ou groupes, les observations sont tirées au hasard dans le jeu de départ complet. La même observation peut se trouver dans plusieurs groupes, ou dans aucun! Et si vous répétez une validation croisée de ce type, il est normal de ne pas obtenir exactement les mêmes valeurs en validation croisée.
- Les stores Vénitiens: les observations sont prises dans l'ordre du fichier, et affectées successivement au groupe 1, au groupe 2, etc jusqu'au groupe k. La k+1° observation est alors affectée au groupe 1, la k+2° au groupe 2, .. la 2k° au groupe k, la 2k+1° au groupe 1, etc jusqu'à la dernière observation.
- "Le couteau de Jack" ou Jack knife: le nombre total d'observations est divisé par k pour donner le nombre d'observations par classe. Disons qu'on obtient n. Ensuite, les n premières observations sont dans le groupe 1, les n suivantes dans le groupe 2, etc.
il est aussi possible de construire soi-même la composition des groupes. C'est particulièrement utile quand le jeu de données comprend des répétitions, parce qu'il est essentiel que les répétitions faites sur un même échantillon se retrouvent toutes dans le même groupe.

Grains 12 et 13: Discrimination

Question: Validation croisée en PLS-DA
Je me pose la question de la validation croisée en PLS-DA pour le choix du nombre de composantes PLS. Il est indiqué 2 méthodes : PRESS minimum et pourcentage de bien classés. Je serais tenté de prendre le pourcentage de bien classés parce que je ne sais pas si la PRESS - somme des carrés des écarts - a une réelle signification dans le cas d'une variable binaire (0 et 1). Merci pour votre réponse.
Réponse:
Vous avez tout à fait raison. D’une manière générale le meilleur critère à utiliser dans la validation croisée est celui qui est proche de l’objectif de votre modèle. En l’occurrence comme vous voulez faire de la discrimination le mieux est d’observer l’erreur de classification.

Grain 15: Sélection de variables

Question: Covsel et PLSR
J'aimerais savoir si j'ai bien compris la nuance avec  CovSel. On va plutôt utiliser  CovSel lorsque l'on veut prédire une variable avec un minium de variables explicatives et éviter d'en avoir trop, comme par exemple dans le cas où l'on veut développer un capteur et sélectionner les longueurs d'onde les plus intéressantes pour cette prédiction (sans qu'elle soit moins performante) alors que la PLSR sera plus performante que  CovSel et plutôt utilisée pour développer un modèle sur l'ensemble de variables explicatives... J'aimerais avoir plus d'explications sur la méthode  CovSel: comment arrive t-elle à choisir les variables (j'ai compris que cela passait par un calcul de covariance) mais j'ai un peu de mal à comprendre...
Réponse:
Vous avez tout à fait raison sur l'utilisation de  CovSel.
Pour ce qui est du fonctionnement de  CovSel, vous pouvez vous imaginer qu’il s’agit d’une PLSR dont les variables latentes seraient forcées à être de la forme (0000001000000...000) et ainsi réaliser une sélection des variables à chaque pas.
J’ai bien conscience que mon explication ne peut vous aider que si vous avez compris la PLSR...

Grains 17 et 18: Décomposition spectrale, MCR-ALS et ICA

Questions: sur ICA
1. Est-ce qu'ICA est toujours capable d'isoler le bruit du signal, ou le fait d'avoir du bruit en plus du signal dans une composante est la conséquence d'un trop grand nombre de composantes retenues ?
2. Quel est l'algorithme recommandé pour l'ICA ? Quelles sont les toolbox (gratuites) à privilégier sur R ou matlab ?
3. Est-ce qu'ICA peut-être utilisé pour prétraiter les spectres, en particulier pour isoler les effets multiplicatifs et additifs ?
Réponses:
1) Même si effectivement les méthodes ICA ou MCR-ALS permettent d'une certaine manière de limiter le bruit présent dans vos données, ce dernier se propage toujours dans vos composantes même si vous avez bien évalué le rang de votre jeu de données.
2) Il s'agit de l'algorithme Jade codé en Matlab ou Scilab.
3) ICA ou MCR-ALS ne sont pas différentes des autres méthodes d'exploration. Les effets multiplicatifs et additifs sont des variances qui a priori ne vous intéresse pas. Elle doivent donc être corrigées préalablement à l'analyse au risque d'extraire des spectres purs et des concentrations ne représentant pas la réalité analytique de votre système. Concernant l'utilisation d'ICA (ou MCR-ALS) comme prétraitement des effets multiplicatifs et additifs, cela a très peu de chance de fonctionner car il est quasiment impossible d'extraire des composantes pures pour ces effets.

Question: PLS vs ICA ou MCR-ALS?
  • Concernant les méthodes ICA et MCR-ALS, elles me semblent moins utilisées que PLS. Est-ce une raison de complexité de mise en oeuvre ? ou autre ? D'autre part, lorsque les composantes indépendantes ou les spectres purs sont connus, quelle méthode permet de prédire des concentrations à partir des spectres mesurés ?
Réponse:
Concernant votre première question, les objectifs analytiques visés ne sont pas les mêmes lorsque vous appliquez une regression PLS ou une méthode de résolution (ou unmixing) comme ICA ou MCR-ALS. Dans le cadre d'une régression en spectroscopie, vous souhaitez prédire la concentration d'un produit d"intérêt à partir d'un spectre. Il est alors évident que vous devez avoir à disposition pour chaque échantillon une paire spectre / concentration afin de procéder à la phase d'étalonnage. Pour les méthodes de résolution, vous n'avez à votre disposition que les données spectrales. Votre objectif est avant tout ici d'explorer sans a priori votre jeu de données spectrales même si le résultat final s'exprime sous la forme de spectres 'purs' et des concentrations associées pour chaque échantillon.
Concernant votre deuxième question, même si vous avez à votre disposition des spectres purs connus l'expérience montre qu'il n'est pas opportun de les utiliser car bien souvent le spectre du composé pur d’intérêt au sein des mélanges étudiés ne correspond pas à celui que vous avez acquis directement sur celui-ci (problème d'interaction moléculaires, variations de le ligne de base / reformation du spectre liés aux phénomènes physiques...).
Dans le cadre des régressions au tout début de la chimiométrie, des spectres de composés purs ont été utilisés dans les méthodes de type CLS /ILS mais nous avons vite observé des problèmes liés aux problèmes énoncés précédemment.

Grains 19 et 20: Multitableaux/multiblocs/multiway

Question: exemples d'utilisations multiblocs
Pourriez vous donner un exemple concret d'utilisation des méthodes multiblocs sur des tableaux où les variables (colonnes) sont identiques, et les individus (lignes) sont repartis en plusieurs tableaux ?
Réponse:
D’abord, nous sommes en situation multiblocs dès que nous sommes en présence de plus d’un tableau de données. Ainsi, toutes les données acquises dans un objectif de discriminer deux ou plusieurs groupes d’échantillons sur un même ensemble de variables sont considérées comme des données multiblocs. De ce fait, les exemples concrets ne manquent pas. Cette classe particulière de données multiblocs est aussi abondante que l’abondance des situations visant la discrimination de deux ou plusieurs groupes d’échantillons. Ensuite, toute méthode visant à analyser des données multiblocs est considérée comme une méthode multiblocs. Ainsi, de ce point de vue, toutes les méthodes de discrimination sont des méthodes multiblocs. La question principale en présence de cette classe particulière de données multiblocs est liée à l’objectif d’analyse, c'est-à-dire, qu’est ce que l’on souhaite mettre en évidence par le recours à une méthode plutôt qu’une autre ?
On peut vouloir discriminer les groupes et ceci peut se faire par le choix d’une méthode de discrimination. Bien que l’on peut adopter une approche non supervisée, il me semble pertinent pour répondre à cette objectif de choisir systématiquement une méthode supervisée car l’objectif l’impose et la méthode supervisée est conçus pour mettre en évidence la part de variabilité qui exprime le mieux cette différence entre groupes. Discriminer différents groupes d’échantillons n’est pas le seul objectif lorsque l’on dispose d’un ensemble de tableaux où les variables (colonnes) sont identiques, et les individus (lignes) sont repartis en plusieurs groupes. A titre d’exemple, on peut vouloir comprendre comment l’information à l’échelle des variables est structurée d’un groupe à un autre ? Autrement dit, comment les corrélations entre les variables s’organisent d’un groupe à un autre ? Le recours à une méthode multiblocs, par exemple ACOM, s’avère pertinent pour répondre à cet objectif.