Sources de données de ChatGPT et GPT 3
ChatGPT a été entrainé sur une liste de source de données publiques et privées qui affichent au total des centaines de millions de documents
ChatGPT a été entrainé, officiellement, à partir de différentes bases de données (en ce qui concerne les versions qui s'appuie sur GPT3 et GPT3.5.
Pour la version 4 de GPT, OpenIA a beaucoup moins communiqué.
L'entrainement consiste, en fournissant de très grandes quantités de textes à GTP (la technologie, le large model language derrière ChatGPT) à ce qu'un logiciel d'entrainement de modèles, transforme ces textes en relations entre des mots, des concepts, des personnes, des lieux, des oeuvres artistiques.... et qu'il "acquiert", donc, une certaine manière, des connaissances, à sa manière d'algorithme. Ces relations sont des connexions nommées "neurones" que l'on mesure avec le terme de paramètres. GTP3.5 qui faisait tourner ChatGPT lors de son lancement en novembre 2022 affichait 175 milliards de paramètres. On a beaucoup moins de précisions sur GPT4.
Les données d'entraînement sont, officiellement, issues de plusieurs bases de données qui sont listés ci dessous. Attention, il est possible qu'OpenAI ait utilisé d'autres bases de données.
Les bases de données sources
Common Crawl (60% des données)
Common crawl est le nom d'une ONG qui crawle comme Google, le web et l'archive, en partie, depuis 2011 (comme le fait archive.org). Des robots (appelés Crawlers) comme les robots de Google ou de Bing, cliquent sur les nouveaux liens qu'ils trouvent sur internet, copie le contenu des pages qui se trouvent derrière les liens et rebondissent sur d'autres sites web s'ils trouvent de nouveaux liens.
Il est important de noter qu'aucune société ou aucune organisation n'a la capacité à "crawler" 100% des pages publiées sur internet. Même Google n'y parvient pas. Common Crawl, qui dispose de moyens infiniment inférieurs à ceux de Google, encore moins.
En avril 2023, la taille de cette base était de 400TB et contenait 3,15 milliards de pages, issu de 43 millions de sites (il existe environ 200 millions de sites actifs dans le monde). Cela correspond, en réalité, à une toute petite partie du web.
La base de données créé par l'association Common Crawl se nomme également "Common Crawl". Elle utilisé par nombre de chercheurs pour réaliser tous types de travaux de recherche, mai aussi pour entrainer des large language models (comme GPT, par exemple). Cette base contient des contenus protégés par le copyright, mais est utilisable aux USA sous réserve d'un "usage équitable".
En avril 2023, la base contenait des pages en 40 langues:
- 46 % des documents de la base Common Crawl étaient en anglais,
- les autres langues les plus représentées (russe, allemand, chinois, japonais, français et espagnol) contribuaient, chacune, à moins de 6% des données.
Les contenus relatifs aux brevets sont sur-représentés dans cette base.
Les données inclus des données de sites de media de tout type, mais remontent au mieux à septembre 2021. Il ne s'agit, donc, pas d'actualités fraîches.
OpenAI, l'éditeur de ChatGPT utilise cette base Common Crawl, mais pas dans son intégralité.
Il est probable que cette base de données soit filtrée afin d'en exclure les sources d'informations les moins fiables.
Les contenus présentant de thèses qui ne correspondent pas au conscensus sur un sujet, sont, probablement aussi écartés, par différents mécanismes techniques et non pris en compte, pour l'entraiment de GPT.
Des données supplémentaires de plus grande qualité auraient également été ajoutées à la base Common Crawl.
WebText2 (22% des données)
WebText2 contient le texte de pages web issues de tous les liens Reddit sortants des articles affichant plus de 3 karmas/votes/likes.
Ce contenu se verrait attribuer 5 fois plus de poids que le contenu ordinaire de la base "Commoncrawl"
Books 1 (8% des données)
Corpus du texte de livres "accessibles sur internet".
Ce contenu se verrait attribuer 20% plus de poids que le contenu ordinaire de la base "Commoncrawl"
On lit énormément de choses sur cette base (qui serait composées d'extraits d'ouvrages, qui ne semblent pas vérifiées. Attention à ce que vous lirez sur ce sujet.
Books 2 (8% des données)
Corpus du texte de livres "accessibles sur internet".
Ce contenu se verrait attribuer 20% plus de poids que le contenu ordinaire de la base "Commoncrawl".
Même remarque que pour Books 1.
Wikipedia (3% à 5% des données)
Les pages Wikipédia en anglais font également partie du corpus de formation.
Leur poids seraient 5 fois plus importants que les données de Commoncrawl.
Données issus d'un système de modération par des opérateurs
Données issues de la modération (détection d'erreurs, propos offensants...)
Des opérateurs humains (notamment basés au Kenya) ont été utilisés pour vérifier la fiabilité des réponses fournies par ChatGPT ou le censurer lorsqu'il "tenait" de propos violents, racistes, incitant à la haine... Les principes guidant le travail de ces modérateurs sont "Helpful, Trustful, Careful", qui sont vraissemblablement détaillés dans un guide qui leur explique la façon d'évaluer la qualité de chaque type de réponse.
Données issues de l'intégration de concepts idéologiques propres à OpenAI
Mais, les expériences de l'auteur de cet article (Raphaël Richard), ont aussi démontré que des opérateurs humains forçaient ChatGPT à répondre d'une certaine façon à ces questions sensibles, par exemple, sur des sujets de société en vogue tels que la discrimination raciale ou des genres. On peut détecter ces cas car ChatGPT utilise des tournures de phrases spécifiques qu'il n'utilise pas dans des réponses "spontannées".
Données issues des utilisateurs
Chaque semaine, le modèle de language GPT, sur lequel ChatGPT s'appuie est ré-entrainé, probablement et sans que l'on en ait la preuve définitive, sur base des données personnelles des utilisateurs.
Mais, là encore, il faut faire preuve de prudence:
- S'agit-il du texte que n'importe quel utilisateur rentre ?
- S'agit-il du texte que certains utilisateurs perçus comme "digne de confiance" rentrent ?
- S'agit-il simplement de données issus de leur utilisation de ChatGPT: tel que le nombre de fois où ils reformulent leur requête ?
- S'agit-il simplement des textes des prompts à priori les plus denses (par exemple, lorsque vous demandez à GTP de résumé un long texte qui deviendrait alors une source, par définition fiable puisque rentrée par un humain ?
- S'agit-il des réponses "copiées-collées" qui, par définition, semblent présenter un intérêt aux utilisateurs ?
- S'agit-il de calculs permettant de mesurer, de façon avancée, le niveau de satisfaction d'humains sur des couples prompts/réponses, qui seraient utilisés comme de nouveaux jeux de fine tuning pour affiner le modèle ?
- S'agit-il de codes "innovants" que des développeurs chevronnés demandent à GTP de vérifier ? (puisque GPT est utilisé par les développeurs pour générer du code, vérifier les failles de sécurité sur leur propre code ou encore en améliorant les performances techniques).