Un data set (ou jeu de données ou ensemble de données) est un ensemble de données numérisées (statistiques, textes, images, son, vidéo…). C’est le minerai brutque l’on fournit aux algorithmes de machine learning ou de deep learning pour que ces derniers créent des « modèles », c’est-à-dire des équations statistiques qui permettent à l’algorithme de réaliser des prévisions sur les futures ventes, sur le comportement d’un consommateur, d’identifier le contenu d’une photo, d’une vidéo, de traduire automatiquement un texte ou d’anticiper une panne matériel ou un défaut de paiement d’un débiteur, par exemple.