Analyse en composantes principales
L’analyse en composantes principales (PCA) est une procédure statistique de calibrage qui utilise une transformation orthogonale pour convertir un ensemble d'observations des variables éventuellement corrélées (entités dont chacune prend valeurs numériques diverses) en un ensemble de valeurs de variables non corrélées de façon linéaire appelées principale composants.
Cette transformation est définie de manière à ce que la première composante principale présente la variance la plus grande possible (c'est-à-dire qu'elle représente le plus possible la variabilité dans les données), et que chaque composante suivante présente à son tour la variance la plus élevée possible sous la contrainte qu'il soit orthogonal aux composants précédents. Les vecteurs résultants (chacun étant une combinaison linéaire des variables et contenant n observations) sont un ensemble de base orthogonal non corrélé. L’analyse en composantes principales est sensible à la mise à l'échelle relative des variables d'origine.
L’analyse en composantes principales a été inventé en 1901 par Karl Pearson, comme un analogue au théorème de l'axe principal en mécanique; Il fut ensuite développé indépendamment et nommé par Harold Hotelling dans les années 1930. En fonction du domaine d'application, il est également nommé discret Karhunen-Loève transformer (KLT) en traitement du signal, la Hotelling transformée en multivariée qualit contrôle de y, une bonne décomposition orthogonale (POD) dans la construction mécanique, la décomposition en valeurs singulières (SVD) de X (Golub et Van Loan, 1983), décomposition en valeurs propres (EVD) de X T X en algèbre linéaire, analyse factorielle (pour une discussion des différences entre PCA et analyse factorielle, voir le chapitre 7 de l’Analyse en composantes principales de Jolliffe), Eckart – Young théorème (Harman, 1960), ou fonctions orthogonales empiriques (EO F) en météorologie, décomposition empirique de fonctions propres (Sir ovich, 1987), analyse par composantes empiriques (Lorenz, 1956), modes quasiharmoniques (Brooks et al., 1988), décembre spectral omposition dans le bruit et les vibrations, et l’analyse modale empirique en dynamique des structures.
L’analyse en composantes principales est principalement utilisée comme outil d’analyse exploratoire de données et de création de modèles prédictifs. Il est souvent utilisé pour visualiser la distance génétique et les relations entre les populations. La PCA peut être réalisée par décomposition en valeur propre d'un matrice de covariance (ou de corrélation) de données ou par décomposition en valeurs singulières d'une matrice de données, généralement après une étape de normalisation des données initiales. La normalisation de chaque attribut consiste à calculer la moyenne - en soustrayant chaque valeur de la moyenne mesurée de sa variable afin que sa moyenne empirique (moyenne) soit égale à zéro - et, éventuellement, en normalisant la variance de chaque variable pour la rendre égale à 1;
Les résultats d'une analyse en composantes principales sont généralement discutés en termes de scores de composants, parfois appelés scores de facteur (les valeurs des variables transformées à un point de données particulier) et les charges (poids par laquelle chaque variable d’origine normalisé doit être multiplié à obtenir le score du composant). Si les scores de composant sont normalisés en fonction de la variance unitaire, les chargements doivent contenir la variance des données en eux (et c'est la magnitude des valeurs propres). Si les scores des composants ne sont pas normalisés (ils contiennent donc la variance des données), les chargements doivent être calculés par unité ("normalisés") et ces poids sont appelés vecteurs propres; ce sont les cosinus de la rotation orthogonale des variables en composantes principales ou inverses.
L’analyse en composantes principales est la plus simple des analyses multivariées basées sur les vecteurs propres. Souvent, son fonctionnement peut être considéré comme révélant la structure interne des données de manière à mieux expliquer la variance des données. Si un ensemble de données à variables multiples est visualisé comme un ensemble de coordonnées dans un haut - dim ensional espace de données (1 axe par variable), ’analyse en composantes principales peut fournir à l'utilisateur une image plus faible dimension, une saillie de cet objet lorsqu'il est vu à partir de son point de vue plus informative. Cela se fait en utilisant uniquement les quelques premiers composants principaux, de manière à réduire la dimensionnalité des données transformées.
L’analyse en composantes principales est étroitement liée à l’analyse factorielle. En règle générale, l’analyse des facteurs intègre davantage d’hypothèses spécifiques à un domaine sur la structure sous-jacente et résout les vecteurs propres d’une matrice légèrement différente.
L’analyse en composantes principales est également liée à l’analyse de corrélation canonique (CCA). La CCA définit des systèmes de coordonnées décrivant de manière optimale la covariance croisée entre deux jeux de données, tandis que l’analyse en composantes principales définit un nouveau système de coordonnées orthogonales décrivant de manière optimale la variance dans un seul jeu de données.