Data set
Un data set (ou jeu de données ou ensemble de données) est un ensemble de données numérisées (statistiques, textes, images, son, vidéo…). C’est le minerai brutque l’on fournit aux algorithmes de machine learning ou de deep learning pour que ces derniers créent des « modèles », c’est-à-dire des équations statistiques qui permettent à l’algorithme de réaliser des prévisions sur les futures ventes, sur le comportement d’un consommateur, d’identifier le contenu d’une photo, d’une vidéo, de traduire automatiquement un texte ou d’anticiper une panne matériel ou un défaut de paiement d’un débiteur, par exemple.
Techniquement, un data set peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.
En open data, le data set est l'unité permettant de mesurer les informations publiées dans un référentiel public de données ouvertes. Le portail européen Open Data https://data.europa.eu/euodp/fr/data/ regroupe plus d'un demi-million de jeux de données . I n ce champ d’autres définitions ont été proposées , mais actuellement il n'y a pas un fonctionnaire. D'autres problèmes (sources de données en temps réel, ensembles de données non relationnelles, etc.) augmente la difficulté de parvenir à un consensus à ce sujet.