Big data
Le Big data (encore appelé données massives ou méga données) désigne techniquement des données si volumineuses qu’elle dépasse les capacités d’analyser humaine ou des logiciels d’analyse de données classique.
Dans la réalité, on parle de Big Data dès lors que l’on est confronté des données volumineuses qu’elles puissent être analysées par des logiciels classiques ou des logiciels adaptés spécifiquement au big data.
Le phénomène (ou la mode) du big data trouve sa source dans la conjonction de deux trois phénomènes : les progrès dans la capacité de stockage, le développement des points de générations de données (ordinateurs, sites web, smartphone, applications, objets connectés) et des réseaux informatiques de collectes (internet au premier rang desquels).
Si, en théorie, le big data regorge de puissance et le traitement des données de richesses, le chemin qui mène vers l’extraction de la valeur supposées des gros volumes de données reste encore largement hypothétique. Le big data est donc encore largement un chantier de recherche.
Parmi les pistes explorées, les algorithmes d’intelligence artificielle, figurent au premier rang.
C’est pourquoi la data, les données sont souvent citées en même temps que l’intelligence artificielle.
Et, ce, d’autant plus que les progrès récents de l’intelligence artificielle reposent sur des algorithmes de traitement statistiques (machine learning, deep learning).
Cependant, si les deux disciplines possèdent des zones de recoupement important, elles sont distinctes : d’une part, la data ou le big data peuvent être analysées, exploitées avec des approches scientifiques qui sortent du champs de l’intelligence artificielle. D’autre part, l’intelligence artificielle s’appuie sur de nombreuses techniques qui ne reposent pas sur l’existence de données, le cas échéant, massives (big data).
D’un point de vue sociétal et commercial, les liens entre le big data et l’intelligence artificielle peuvent être décrits d’autres manières : les éditeurs de logiciels constatant que les premiers logiciels dédiés à l’analyse des données « Big data » ne parvenaient que rarement à en extraire la substantifique moëlle, ont assuré la promotion de nouvelles technologies dites « d’intelligence artificielle » (s’appuyant sur le machine learning) afin de maintenir l’intérêt pour le big data. Les directions informatiques, qui avaient parfois, quelque peu survendu le potentiel « big data » à leur direction, ont vendus alors promis que l’intelligence artificielle permettrait enfin d’extraire des pépites du big data. Les cabinets de conseils, évangélisateurs high tech, média, mais aussi certains mouvement politiques issus de Californie comme les transhumanistes ont soutenu ce regain d’intérêt pour l’intelligence artificielle, concept nettement plus vendeur et compréhensibles que le nébuleux concepts du big data. Enfin, les directions informatiques y ont également vu un mouvement de reprendre la main sur le sujet hautement politiques des données, que les directions marketing commençait à se réapproprier notamment grâce à l’émergence de données Hadoop (un système de base de données permettant de fractionner pour les traiter plus rapidement les bases de donnée volumineuses).
Description technique du Big data
L’explosion quantitative (et souvent redondante) de la donnée numérique contraint à de nouvelles manières de voir et analyser le monde. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data sont énormes et en partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information diffusée par les médias, de connaissance et d'évaluation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques, mais aussi en termes de génomique ou métagénomique, pour la médecine (compréhension du fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »), l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité. La multiplicité de ces applications laisse d'ailleurs déjà poindre un véritable écosystème économique impliquant, d'ores et déjà, les plus gros joueurs du secteur des technologies de l'information.
Les défis du Big Data incluent la capture de données, la stockage de données, l'analyse de données, la recherche, le partage, le transfert, la visualisation, l’interrogation, la mise à jour, la confidentialité des informations et la source de données.
Les données massives étaient à l'origine associées à trois concepts clés: volume, variété et vélocité. Lorsque nous traitons des données volumineuses, nous ne pouvons pas échantillonner, mais simplement observer et suivre ce qui se passe. Par conséquent, le big data inclue souvent des données avec des tailles qui dépassent la capacité de traditionnelle de traitement logiciel.
L’usage courant du terme Big data tend à se référer à l'utilisation de l’analyse prédictive, l’analyse comportementale des utilisateurs , ou d’autres méthodes d'analyse de données avancées qui extraient la valeur des données, et finalemet indépendamment de la taille particulière de jeu de données. L'analyse des ensembles de données peut permettre de trouver de nouvelles corrélations pour détecter les tendances commerciales, prévenir les maladies, combattre le crime, etc..
Les scientifiques, des chefs d'entreprise, les professionnels de la médecine, de la publicité et du marketing, les gouvernements rencontrent tous régulièrement des difficultés à gérer de grandes ensembles de données dans les domaines tels de la recherche sur Internet, la FinTech, l’informatique urbaine et l’informatique de gestion, la météorologie, la génomique, ainsi que les simulations de physique complexes, la biologie et la recherche environnementale.
Les ensembles de données se développent rapidement, en partie parce qu'ils sont plus facilement collectés par l’écosystème de l’internet des objets tels que les appareils mobiles, les antenne (télédétection), les logs des logiciels,les caméras, les micros, les terminaux RFID, les réseaux de capteurs sans fil. La capacité technologique mondiale de stockage d'informations par habitant double tous les 40 mois depuis les années 1980. Depuis 2012, chaque jour, 2,5 exaoctets (2,5 milliards de milliards) de données sont générés. Sur la base d'une étude d’IDC, le volume de données global est passé de 4,4 zettaoctets à 44 zettaoctets entre 2013 et 2020. D'ici 2025, IDC prévoit qu'il y aura 163 zettaoctets de données.
Les systèmes de gestion de bases de données relationnelles utilisés pour visualiser les données ont souvent des difficultés à gérer les données importantes. Le travail peut exiger des traitements logiciels « massivement parallèles fonctionnant sur des dizaines, des centaines, voire des milliers de serveurs ». Ce que l’on qualifie de "big data" varie en fonction des capacités des utilisateurs et de leurs outils, et des capacités en expansion font du big data une cible mouvante. "Pour certaines entreprises, le fait de devoir gérer des centaines de giga-octets de données pour la première fois peut inciter à reconsidérer les options de gestion des données. Pour d'autres, des dizaines, voire des centaines de téraoctets sont nécessaires avant que la taille des données ne devienne un facteur important."