Data science
La Data science (science des données) est un synonyme de big data ou de data mining, les trois visant à faire parler les données (la plupart du temps chiffrées) pour en extraire des informations utiles (de la connaissance, en jargon scientifique).
Techniquement, la data science est un domaine multidisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour extraire des connaissances de données structurées et non structurées. La data science est relativement synonyme du data mining et du big data ce qu’il consiste à utiliser des matériels, des systèmes de programmation et des algorithmes puissants pour résoudre les problèmes.
Le terme est devenu populaire à partir de 2012, quand la Harvard Business Review a qualifié le métier d’expert en data science « Le travail le plus sexy du 21e siècle ». En réalité, s’il est peut-êtredevenu le travail le plus sexy que dans les milieux des statisticiens, ce n’est pas le cas dans l’ensemble du monde professionnel non seulement parce qu’il reste abstrait pour la plupart des professionnels, mais aussi parce que la donnée, la fameuse data, ne livre pas toujours autant de secrets qu’on a pu l’espérer à une époque (soit parce qu’elle n’a rien à dire, soit parce qu’elle est de mauvaise qualité, soit en raison d’une mauvaise gestion).
L’expression « Data science » est maintenant souvent utilisée de façon interchangeable avec des concepts antérieurs comme business analytics, business intelligence, predictive modeling et statistiques. Même la suggestion selon laquelle la science des données est sexy paraphrasait Hans Rosling, qui figurait dans un documentaire de la BBC en 2011 avec la citation suivante: "Les statistiques sont maintenant le sujet le plus sexy du monde " . Nate Silver a qualifié la science des données de "sexe" pour désigner les statistiques. Dans de nombreux cas, les approches et solutions pré-existantes au terme « Data science » sont désormais affublées du logo « Data science » pour les rendre plus attractives. Alors que de nombreux cursus universitaires sont désormais sanctionnés par un diplôme de Data Scientist, il n’existe pas de consensus sur une définition exacte ou sur le contenu des programme.
La data science est aussi un concept visant à unifier les statistiques, l'analyse des données, l'apprentissage automatique et les méthodes associées afin de « comprendre et analyser des phénomènes réels » avec des données. Il utilise des techniques et des théories issues de nombreux domaines dans le contexte des mathématiques, de la statistique, de l’informatique et des sciences de l’information. Le lauréat du prix Turing, Jim Gray, a imaginé la data science comme un "quatrième paradigme" de la science (empirique, théorique, algorithmique et désormais pilotée par les données) et a affirmé que "tout ce qui a trait à la science est en train de changer en raison de l’impact des technologies de l’information" et du déluge de données auquel on assiste depuis le début des années 2010