A quoi servent les data dans l'intelligence artificielle ?
En 2017, on nous répétait "Sans Data, pas d'IA". La data était le pétrole du 21ieme siècle. Aujourd'hui, on entend que la data n'a plus de valeur. Que s'est-il passé ?
Un ami français basé à SF m'a interpellé vendredi: "Machin dit publiquement que la data n'a plus de valeur. Il est complètement hors sol ?".
???
Reprenons au début: c'est quoi la data ?
Ce sont les données numérisées:
- textes (sites web, documents des entreprises, livres...)
- images (sites web, réseaux sociaux, smartphones, images privées...)
- audio
- vidéo (Youtube, chaînes de TV, films, WebTV, réseaux sociaux...)
- données chiffrées (stats des entreprises, stats publiques, comptes de particuliers...)
- autres (signaux captés les objets connectés, par ex)
Le volume de data a explosé avec la digitalisation dans les années 2000.
Mais, on ne savait pas quoi en faire.
En 2010, le Big data a promis d'exploiter ces données.
Les données ont majoritairement refusé de se faire exploiter par le Big Data.
En 2013, le Machine Learning (ML) et le Deep Learning, des technos d'IA ont convaincu certaines données de se laisser exploiter.
Cela a permis de réaliser des progrès importants en matière de:
- prévision (ventes, logistique, comportement utilisateurs, scoring de crédit...)
- traduction automatique, retranscription de videos, audio,
- exploitation des données des capteurs (caméras connectées, lidars des véhicules "autonomes", enceintes connectées...)
- optimisation des campagnes digitales (Google, Meta Ads...)
- accélération de certaines tâches de R&D
- détection de comportements "anormaux" (fraude bancaire, crédit social chinois...)
- cybersécurité
- ...
C'est à partir de là que certaines data sont devenues importantes pour l'IA.
Mais, la vieille IA, l'IA symbolique, qui repose sur la modélisation des processus cognitifs humains et non sur la data, continuait d'exister car elle était plus performante que le ML et le DL, sur certaines tâches.
Ensuite, l'IA générative (IAG), grâce aux GPUs et aux travaux de R&D de Google, a pu digérer des centaines de millions de data textes, images, audio et vidéos.
Cela a donné ChatGPT et Midjourney, par ex.
Pourquoi les data n'auraient plus de valeur ?
- le coût de la data -image, texte ou vidéo- produite par l'IAG s'est écroulée,
- les modèles d'IA peuvent s'entraîner sur des data synthétiques produites par l'IA et ont moins besoin de data réelles,
- le volume de data disponible continue de progresser,
Mais, la data continue à avoir de la valeur:
- Pour toute l'IA qui n'est pas de l'IAG, le besoin de données n'a pas changé,
- La valeur de vos données personnelles de consommateur n'a pas changé.
- Pour personnaliser une application reposant sur un LLM, vous avez besoin des données privées de votre entreprise,
- Les outils d'IAG ont besoin d'acheter des images et des textes pour combler leurs faiblesses ou s'améliorer,
- Peut-être qu'un jour, pour améliorer l'IAG, on vous paiera pour accéder à vos rapports ou images !