Analyse de cluster
L'analyse de cluster ou clustering consiste à grouper un ensemble d’objets de manière à ce que les objets du même groupe (appelé cluster) soient plus similaires entre eux qu’à ceux d'autres groupes (clusters). C’est une élément critique du data mining, et une technique commune pour l’analyse de données statistiques, utilisées dans de nombreux domaines: apprentissage machine, reconnaissance de formes, analyse d'images, recherche d'information, bio-informatique, compression de données, et infographie.
L'analyse de cluster elle-même n'est pas un algorithme spécifique, mais la tâche générale à résoudre. Elle peut être réalisé par différents algorithmes qui diffèrent considérablement dans leur compréhension de ce qui constitue un groupe et de la manière de les identifier efficacement. Les concepts de bases comprennent par exemple, les groupes avec de petites distances entre les membres du cluster, les zones denses de l'espace de données, les intervalles ou les distributions statistiques particulières. Le clustering peut donc être formulé comme un problème d’optimisation multi-objectif .
L'algorithme de classification approprié et les paramètres (y compris les paramètres tels que la fonction de distance à utiliser, un seuil de densité ou le nombre de grappes attendus) dépendent de l'ensemble de données individuel et de l'utilisation prévue des résultats. L'analyse de cluster en tant que telle n'est pas une tâche automatique, mais un processus itératif de découverte de connaissances ou d'optimisation multi-objectifs interactive qui implique des essais et des échecs. Il est souvent nécessaire de modifier les paramètres de prétraitement des données et le modèle jusqu'à ce que le résultat final soit satisfaisant.
Outre le terme clustering, il existe un certain nombre de termes ayant des significations similaires, notamment la classification automatique, la taxonomie numérique, la botryologie (du grec βότρυς "raisin"), l'analyse typologique et la détection de communauté . Les différences subtiles résident souvent dans l’utilisation des résultats: alors que dans l’exploration de données, les groupes résultants sont l’intérêt, dans la classification automatique, le pouvoir discriminant qui en résulte présente un intérêt.
L’analyse des clusters a été élaborée en anthropologie par Driver et Kroeber en 1932 et introduite en psychologie par Joseph Zubin en 1938 et Robert Tryon en 1939 , et elle a été utilisée de manière célèbre par Cattell à partir de 1943.