Formation à GPT3 et ChatGPT
Musclez le contenu + SEO
Intelligence artificielle générative

Leak: les chatbots de Google sont dépassés par OpenAI et l'Open Source

Un document qui a fuité confirme que Google ne parvient pas à remonter la pente face à OpenAI et doute de sa capacité à lutter contre les chatbots opensource

Voici la traduction du document qui a fuité de chez Google dans son intégralité.

24pm s'est contenté d'adapter la traduction le cas échéant en ajoutant des commentaires entre [] facilitant la compréhension.

Dans le texte, "nous" se réfère aux équipes de Google.

Ce document ne reflète ni l'opinion de 24pm Acamedy, ni la position officielle de Google, mais uniquement l'avis d'un employé de Google.

Nous n'avons pas d'avantage

Et OpenAI non plus

Nous avons beaucoup regardé par-dessus nos épaules en direction d'OpenAI. Qui franchira la prochaine étape ? Quel sera le prochain mouvement ?

Mais la vérité désagréable est que nous ne sommes pas en position de gagner cette course aux armements, et OpenAI non plus. Pendant que nous nous chamaillions, une troisième faction a tranquillement mangé notre déjeuner.

Je parle, bien sûr, de l'open source. En clair, ils nous dépassent. Des choses que nous considérons comme des "problèmes ouverts majeurs" ont été résolues et sont entre les mains des gens aujourd'hui. Pour n'en citer que quelques-uns :

    Les LLM sur un téléphone : Les gens exécutent des modèles de fondation sur un Pixel 6 à 5 tokens / sec.

    IA personnelle évolutive : vous pouvez créer une IA personnalisée sur votre ordinateur portable en une soirée.

    Publication de modèle "responsables" : Cette question n'est pas "résolue" mais plutôt "évitée". Il existe des sites web entiers remplis de modèles de génération d'images artistiques sans aucune restriction [lisez bien "modèles de génération" concurrents de Midjourney et non simple annuaires d'images générées par l'IA] , et la publication à foison de modèles de génération de texte n'est pas loin derrière

    Multimodalité : L'actuel ScienceQA SOTA multimodal a été entraîné en une heure.

Si nos modèles conservent un léger avantage en termes de qualité, l'écart se réduit étonnamment vite. Les modèles Open Source sont plus rapides, plus personnalisables, plus respectueux des données personnelles et de la confidentialité et plus performants. Ils font des choses [ie, créent des concurrents de GPT] avec 100 $ et 13 milliards de paramètres que nous avons du mal à faire avec 10 millions de dollars et 540 milliards de paramètres. Et ils le font en quelques semaines, pas en quelques mois. Cela a de profondes implications pour nous :

    Nous n'avons pas de recette secrète. Notre meilleur espoir est d'apprendre et de collaborer avec ce que d'autres font en dehors de Google. Nous devrions donner la priorité aux intégrations avec des systèmes tiers.

    Les gens ne paieront pas pour un modèle captifs lorsque des alternatives Open source et à l'utilisation non contraintes sont comparables en termes de qualité. Nous devrions nous demander où se situe réellement notre valeur ajoutée.

    Les modèles géants (NDLR: Bard, par ex) nous ralentissent. Sur le long terme, les meilleurs modèles sont ceux qui peuvent être modifiés rapidement. Nous devrions faire en sorte que les petites variantes soient plus qu'une réflexion après coup, maintenant que nous savons ce qui est possible dans le régime des paramètres <20B.

Ce qui s'est passé

Au début du mois de mars, la communauté open source a mis la main sur son premier modèle de fondation [ie, un concurrent de GPT3 ou GPT4] réellement capable, car le modèle LLaMA de Meta a fuité et a été mise à disposition du grand public. Il n'avait pas d'instruction ou de couche conversationnelle et pas de RLHF. Néanmoins, la communauté a immédiatement compris l'importance de ce qui lui avait été donné.

Un formidable élan d'innovation s'en est suivi, avec seulement quelques jours d'intervalle entre les développements majeurs (voir la chronologie pour le détail complet). Nous voici, à peine un mois plus tard, avec des variations de ce modèle relatives au finetuning des instructions, la quantification, l'amélioration de la qualité, les évaluations humaines, la multimodalité, la RLHF, (amélioration des performances des chatbots grâce aux retours des utilisateurs] etc. etc. qui, pour la plupart, s'appuient les unes sur les autres.

Le plus important est qu'ils ont résolu le problème de la mise à l'échelle de manière à ce que tout le monde puisse travailler sur ces modèles. Un grand nombre de nouvelles idées proviennent de personnes ordinaires. La barrière à l'entrée au niveau de la formation et de l'expérimentation est passée de la production totale d'un grand organisme de recherche à une personne, une soirée et un ordinateur portable puissant.

Pourquoi nous aurions pu le voir venir

À bien des égards, cela ne devrait surprendre personne. La renaissance actuelle des LLM open source suit de près la renaissance de la génération d'images. Les similitudes n'ont pas échappé à la communauté, beaucoup appelant cela le "moment stable diffusion" pour les LLM. [StableAI est la première société à avoir publié, Stable Difffusion, un modèle Open source de génération d'image aussi puissant que Midjourney. Le "moment Stablediffusion" pour les LLM correspondrait, donc, au moment où un LLM Open source conversationnel aussi puissant que ChatGPT serait disponible].

Dans les deux cas, la participation du grand public a été rendue possible par l'apparition de mécanismes de finetuning beaucoup moins coûteux, appelés "adaptation de rang inférieur", ou LoRA (Low Rank Adaptation) combiné à une percée technique sur l'échelle [permettant l'entraînement de ces modèles sur des machines grand public] (diffusion latente pour la synthèse d'images, Chinchilla pour les LLM). Dans les deux cas, [la démocratisation de] l'accès à un modèle de qualité suffisante a déclenché une avalanche d'idées et d'itérations de la part d'individus et d'institutions du monde entier. Dans les deux cas, cela a rapidement dépassé [les innovations que pouvaient produire] les grands acteurs.

Ces contributions ont été déterminantes dans le domaine de la génération d'images, plaçant Stable Diffusion sur une voie différente de celle de Dall-E. L'existence d'un modèle ouvert a conduit à des intégrations de produits, à des places de marché, à des interfaces utilisateur et à des innovations qui n'ont pas eu lieu pour Dall-E.

L'effet fut sensible : une domination rapide en termes d'impact culturel par rapport à la solution OpenAI [Dall-E], qui devenait de moins en moins pertinente. Il reste à voir si la même chose se produira pour les LLM, mais les grands éléments structurels sont les mêmes.

Ce que nous avons manqué [nous, Google]

Les innovations à l'origine des récents succès de l'open source résolvent directement des problèmes auxquels nous sommes toujours confrontés. En accordant plus d'attention à leurs travaux, nous pourrions éviter de réinventer la roue.

LoRA est une technique incroyablement puissante à laquelle nous devrions probablement prêter plus d'attention

LoRA consiste à représenter les mises à jour de modèles sous forme de factorisations de faible rang, ce qui réduit la taille des matrices de mise à jour d'un facteur pouvant aller jusqu'à plusieurs milliers. Cela permet d'affiner le modèle à une fraction du coût et du temps. La possibilité de personnaliser un modèle linguistique en quelques heures sur du matériel grand public est très importante, en particulier pour les aspirations qui impliquent l'incorporation de connaissances nouvelles et diverses en temps quasi réel. Le fait que cette technologie existe est sous-exploité au sein de Google, même si elle a un impact direct sur certains de nos projets les plus ambitieux.

Le réentraînement des modèles à partir de zéro est la voie la plus difficile à suivre

L'efficacité de la technologie LoRA tient en partie au fait que, comme d'autres formes de fine tuning, elle est superposable [empilable/stackable]. Des améliorations telles que l'optimisation du jeu d'instructions [qui permet au modèle de répondre aux questions posées]peuvent être appliquées, puis utilisées comme base pour ajouter des contributions telles que le dialogue, la raison ou l'utilisation d'outils. Bien que les optimisations individuelles soient de faible rang [impact marginal sur les performances], leur somme ne l'est pas, permettant aux mises à jour à pleine capacité du modèle de s'accumuler au fil du temps.

Cela signifie qu'au fur et à mesure que de nouveaux et meilleurs jeu de données et de tâches deviennent disponibles, le modèle peut être mis à jour à peu de frais, sans jamais avoir à payer le coût d'une exécution complète [un réentrainement complet de l'ensemble du modèle].

Au contraire, l'entraînement de modèles géants à partir de zéro [annule] non seulement le préapprentissage, mais aussi toutes les améliorations itératives qui ont été apportées. Dans le monde de l'open source, il ne faut pas longtemps pour que ces améliorations dominent [reprennent de l'avance] ce qui rend une nouvel entraîenement complet du modèle extrêmement coûteuse.

Nous devrions réfléchir à la question de savoir si chaque nouvelle application ou idée nécessite réellement un nouveau modèle. Si nous disposons réellement d'améliorations architecturales majeures qui empêchent la réutilisation directe des poids des modèles, nous devrions alors investir dans des formes plus agressives de distillation qui nous permettent de conserver autant que possible les capacités de la génération précédente.

Les grands modèles ne sont pas plus performants à long terme si nous pouvons itérer plus rapidement sur les petits modèles

Les mises à jour [des LLM reposant sur] LoRA sont très peu coûteuses à produire (environ 100 $ [pour la puissance de calcul machine mobilisée@]) pour les tailles de modèles les plus courantes. Cela signifie que presque toute personne ayant une idée peut en générer une et la distribuer. Le temps de formation classique est d'une journée [ce qui est court]. À ce rythme, il ne faudra pas longtemps pour que l'effet cumulatif de tous ces opérations de fine tuning permette de surmonter un désavantage de [la petite] taille de départ [des modèles]. En effet, [si l'on raisonne en terme de temps] d'ingénieurs [à mobiliser], le rythme d'amélioration de ces modèles dépasse largement ce que nous pouvons faire avec nos plus grandes variantes de LLM, et les meilleurs affichent déjà des performances proches  ChatGPT [en terme de performance]. Le fait de se concentrer sur la maintenance de certains des plus grands modèles de la planète est un désavantage pour nous.

La qualité des données est plus importante mieux que le volume de données

Bon nombre de ces projets [Open Source] gagnent du temps en s'entraînant à partir de jeux de données réduits et très spécifiques. Cela suggère qu'il existe une certaine flexibilité dans les lois de scaling des données [pour la mise au point de LLM performants]. L'existence de ces jeux de données découle de la théorie du "Data Doesn't Do What You Think" (Les données ne font pas ce que vous pensez), et ils deviennent rapidement la méthode standard d'entraînement [des LLM]en dehors de Google. Ces jeux de données sont construits à l'aide de méthodes synthétiques (par exemple, en filtrant les meilleures réponses d'un modèle existant) et en récupérant des données d'autres projets, ce qui n'est ni l'une ni l'autre des méthodes dominantes chez Google [qui semble créér manuellement les jeux de données de façon artisanale]. Heureusement, ces jeux de données de haute qualité sont libres d'accès et peuvent donc être utilisés gratuitement  [Ie, par Google, dans le cas d'espèce].

Concurrencer directement l'Open Source est un pari perdant

Ces progrès récents ont des conséquences directes et immédiates sur notre stratégie commerciale. Qui paierait pour un produit Google avec des restrictions d'utilisation s'il existe une alternative gratuite et de haute qualité sans ces restrictions ?

Et nous ne devons pas nous attendre à pouvoir rattraper notre retard. Ce n'est pas pour rien que l'internet moderne fonctionne avec des logiciels libres. L'open source présente des avantages considérables que nous ne pouvons pas reproduire.

Nous avons plus besoin d'eux qu'ils n'ont besoin de nous

Il a toujours été difficile de garder notre technologie secrète. Les chercheurs de Google partent régulièrement pour d'autres entreprises, et nous pouvons donc supposer qu'ils savent tout ce que nous savons, et qu'ils continueront à le savoir aussi longtemps que le pipeline sera ouvert [ie, aussi longtemps que les chercheurs de Google démissionneront pour aller ailleurs].

Mais il est encore plus difficile de conserver un avantage concurrentiel dans le domaine de la technologie maintenant que la recherche de pointe sur les LLMs est accessible [à tous]. Les instituts de recherche du monde entier s'appuient sur les travaux des uns et des autres, explorant l'espace des solutions d'une manière qui dépasse de loin nos propres capacités [de recherche]. Nous pouvons essayer de garder nos secrets alors que l'innovation extérieure dilue leur valeur, ou nous pouvons essayer d'apprendre les uns des autres.

Les individus ne sont pas limités par les licences dans la même manière que les entreprises

Une grande partie de cette innovation se produit sur la base des poids du modèle [LLAMA] élaboré par Meta. Même si cela changera inévitablement au fur et à mesure que les modèles réellement ouverts s'améliorent, le fait est qu'ils n'ont pas besoin d'attendre [le modèle LLAMA n'est pas vraiment  Open Source:  Open Source pour des travaux de recherche, mais pas pour une utilisation commerciale par une entreprise]. La protection juridique dans "l'utilisation personnelle" et l'impossibilité de poursuivre les individus en justice signifient que les individus ont, dans les faits, accès à ces technologies pendant qu'elles sont chaudes. [Lorsqu'elles viennent de sortir].

Être votre propre client signifie que vous comprenez le cas d'utilisation

En parcourant les modèles créés dans le domaine de la génération d'images, on constate une explosion de la créativité, des générateurs d'animé aux outils de création de paysages en HDR [technique de rendu photo réaliste]. Ces modèles sont utilisés et créés par des personnes hyper spécialiste d'un type d'images très spécifique, ce qui leur confère une profondeur de connaissance et une empathie que nous ne pouvons espérer égaler. [Il faut comprendre que comme les technologies de génération d'image sont de plus en plus accessibles en open source et relativement faciles d'utilisation, des spécialistes de la photographie/du graphisme peuvent créer des modèles très performants dans leur spécialité, qu'ils maîtrisent parfaitement].

S'approprier l'écosystème : Laisser l'Open Source travailler pour nous

Paradoxalement, le seul grand gagnant dans tout cela est Meta [Facebook]. Parce que le modèle qui a leaké était le leur, ils ont effectivement recueilli la valeur [de ce que peut produire] la planète entière de travail gratuitement. Étant donné que la plupart des innovations open source [début 2023] sont construites sur la base de l'architecture [des models LLAMA], rien ne les empêche de les incorporer directement dans leurs produits.

On ne saurait trop insister sur la valeur de la possession de l'écosystème [pour Meta]. Google lui-même a utilisé avec succès ce paradigme dans ses offres open source, comme Chrome et Android. En étant propriétaire de la plateforme où se produit l'innovation, Google s'affirme comme un leader d'opinion et comme un créateur d'orientation, gagnant ainsi la capacité de façonner le récit d'idées qui le dépassent.

Plus étroitement nous contrôlons nos modèles, plus nous rendons attrayantes les alternatives Open Source. Google et OpenAI se sont tous deux tournés vers des modèles de publication défensifs [modèles propriétaires non open source] qui leur permettent de garder un contrôle étroit sur l'utilisation de leurs modèles. Mais ce contrôle est une fiction. Toute personne cherchant à utiliser les LLM à des fins non approuvées [ie, autre que celles prévues par les CGU d'OpenAI ou de Google] peut simplement [au conraire] choisir parmi les modèles Open Source disponibles.

Google devrait s'imposer comme un leader dans la communauté des logiciels libres, en prenant les devants et en coopérant aux échanges communautaires plutôt qu'en l'ignorant. Cela implique probablement de prendre des mesures inconfortables, comme la publication des poids des modèles pour les petites variantes d'ULM {ie, révéler des secrets industriels]. Cela implique nécessairement de renoncer à un certain contrôle sur nos modèles. Mais ce compromis est inévitable. Nous ne pouvons pas espérer à la fois stimuler l'innovation et la contrôler.

Épilogue : Qu'en est-il d'OpenAI ?

Toutes ces discussions sur l'open source peuvent sembler injustes étant donné la politique de fermeture actuelle d'OpenAI. Pourquoi devons-nous partager, s'ils ne le font pas ? Mais le fait est que nous partageons déjà tout avec eux sous la forme d'un flux constant de chercheurs seniors débauchés. Tant que nous n'aurons pas endigué cette vague, le secret n'aura aucune raison d'être.

Et en fin de compte, l'OpenAI n'a pas d'importance. Elle commet les mêmes erreurs que nous dans sa position par rapport à l'open source, et sa capacité à conserver une longueur d'avance est nécessairement remise en question. Les alternatives open source peuvent les éclipser et finiront par le faire, à moins qu'ils ne changent de position. À cet égard, au moins, nous pouvons faire le premier pas.

La chronologie

24 février 2023 - Lancement de LLaMA

Meta lance LLaMA, en publiant le code, mais pas les poids. À ce stade, LLaMA ne possède pas de couche conversationnelle [pour se transformer en Chatbot]. Comme beaucoup de modèles actuels, il s'agit d'un modèle relativement petit (disponible avec des paramètres de 7B, 13B, 33B et 65B) qui a été entraîné pendant une période relativement longue, et qui est donc assez performant par rapport à sa taille.

3 mars 2023 - L'inévitable se produit

En l'espace d'une semaine, LLaMA fuite et accessible au public. L'impact sur la communauté ne peut être surestimé. Les licences existantes empêchent son utilisation à des fins commerciales, mais soudain, tout le monde peut expérimenter. À partir de ce moment, les innovations se succèdent à un rythme effréné.

12 mars 2023 - Modèles de langue sur un grille-pain

Un peu plus d'une semaine plus tard, Artem Andreenko fait fonctionner le modèle sur un Raspberry Pi. À ce stade, le modèle fonctionne trop lentement pour être pratique, car les poids doivent être transférés dans la mémoire et en sortir. Néanmoins, cela prépare le terrain pour un assaut d'efforts de minification.

13 mars 2023 - Mise au point sur un ordinateur portable

Le lendemain, Stanford publie Alpaca, qui ajoute le fine tuning d'instructions à LLaMA [le transformant en LLM conversationnel, Chatbot]. Plus important que les poids réels, cependant, était le repo alpaca-lora d'Eric Wang, qui utilisait un fine tuning de rang inférieur pour effectuer l'entraînement du modèle "en quelques heures sur une seule RTX 4090" [une "petite" carte graphique accessibles aux PMEs].

Soudain, n'importe qui pouvait affiner le modèle pour faire n'importe quoi, ce qui a donné le coup d'envoi d'une course au moins disant pour entrainer des modèles pour des budgets toujours plus faibles. Les articles décrivent fièrement leur dépense totale de quelques centaines de dollars. De plus, les mises à jour de bas niveau peuvent être distribuées facilement et séparément des poids originaux, ce qui les rend indépendantes de la licence originale de Meta. Tout le monde peut les partager et les appliquer.

18 mars 2023 - Maintenant c'est rapide

Georgi Gerganov utilise la quantification à 4 bits pour faire fonctionner LLaMA sur le CPU d'un MacBook. C'est la première solution "sans GPU" qui est assez rapide pour être pratique.

19 mars 2023 - Un modèle 13B atteint la "parité" avec Bard

Le lendemain, une collaboration inter-universitaire publie Vicuna, et utilise GPT-4-powered eval pour fournir des comparaisons qualitatives des résultats du modèle. Bien que la méthode d'évaluation soit suspecte [discutable], le modèle est matériellement meilleur que les variantes précédentes. Coût de l'entrainement du modèle : 300 dollars.

Ils ont notamment pu utiliser les données de ChatGPT en contournant les restrictions de son API - ils ont simplement échantillonné des exemples de dialogues ChatGPT "impressionnants" affichés sur des sites tels que ShareGPT [OpenAI interdit d'utilisateurs ChatGPT de générer des milliers de questions/réponses exemples indispensables pour entraîner des chatbots concurrents, mais l'utilisation des réponses obtenues par des milliers d'utilisateurs de ChatGPT et partagées avec la communauté sur ShareGPT n'est pas interdit].

25 mars 2023 - Choisissez votre propre modèle

Nomic crée GPT4All, qui est à la fois un modèle et, plus important encore, un écosystème. Pour la première fois, nous voyons des modèles (y compris Vicuna) rassemblés en un seul endroit. Coût de la formation : 100 $.

28 mars 2023 - Open Source GPT-3

Cerebras (à ne pas confondre avec notre propre Cerebra) entraîne l'architecture GPT-3 en utilisant le calendrier de calcul optimal impliqué par Chinchilla, et la mise à l'échelle optimale impliquée par la μ-paramétrage. Ce modèle surpasse largement les clones GPT-3 existants et représente la première utilisation confirmée de la μ-paramétrisation  "dans la nature". Ces modèles sont formés à partir de zéro, ce qui signifie que la communauté n'est plus dépendante de LLaMA.

28 mars 2023 - Formation multimodale en une heure

En utilisant une nouvelle technique de fine tuning efficace des paramètres (PEFT), LLaMA-Adapter introduit le réglage des instructions et la multimodalité en une heure de formation. De manière impressionnante, ils y parviennent avec seulement 1,2 million de paramètres pouvant être appris. Le modèle atteint un nouveau SOTA sur le ScienceQA multimodal.

3 avril 2023 - Les vrais humains ne peuvent pas faire la différence entre un modèle ouvert 13B et ChatGPT

Berkeley lance Koala, un modèle de dialogue formé entièrement à partir de données librement disponibles.

L'étape cruciale consiste à mesurer les préférences humaines réelles entre leur modèle et ChatGPT. Bien que ChatGPT conserve un léger avantage, plus de 50 % des utilisateurs préfèrent Koala ou n'ont pas de préférence. Coût de la formation : 100 $.

15 avril 2023 - Open Source RLHF au niveau de ChatGPT

Open Assistant lance un modèle et, plus important encore, un ensemble de données pour l'alignement via RLHF [Correction d'un modèle en fonction des retours utilisateurs]. Leur modèle est proche (48.3% vs. 51.7%) de ChatGPT en termes de préférence humaine. En plus de LLaMA, ils montrent que cet ensemble de données peut être appliqué à Pythia-12B [un autre LLM Open Source], donnant aux gens la possibilité d'utiliser un stack entièrement Open Source pour exécuter le modèle. De plus, comme le jeu de données est accessible au public, RLHF passe de l'irréalisable [pour le quidam] au bon marché et à la facilité pour les pionniers qui souhaitent tester de petits projets.

 

Contenus liés

Search