Votre 1er cours d'intelligence artificielle GRATUIT
Marketing

Génération automatique de textes scientifiques avec Galactica

Galactica, l’intelligence artificielle générative spécialisée dans les sujets techniques.

Galactica est un générateur de texte automatique créé par Facebook, capable de rédiger:

  • des définitions techniques,
  • des articles encyclopédiques de type Wikipedia,
  • des cours d’introduction à un sujet technique
  • des revues de littérature (lit review), un sorte d’état de l’art des publications scientifiques sur un sujet
  • des réponses à des FAQ techniques
  • des versions simplifiés d’une fonction informatique simple

Il peut par ailleurs, trouver des articles scientifiques de références en relation avec certaines problématiques scientifiques que lui pose l’utilisateur (une équation mathématique ou une fonction informatique précise, par exemple.

Les points forts

  • Les prompts sont simplissimes
  • C’est un outil qui génère moins de textes hors sujets que des outils généralistes comme GPT-3
  • Je crois que l’on peut écrire un livre entier (en une journée ?) sur un sujet que l’on comprend globalement, mais dont on n’est pas spécialiste.

Les points faibles / limites

  • Comme tous les algo d’intelligence artificielle générative, Galactica traduit le conscensus mou de la communauté (en jargon, il est « Frequency-biased ») 
  • Il ne rédige apparemment qu’en anglais. Mais on peut réinjecter sa production dans Google Translate ou Deepl et obtenir des textes correct, attendu que ces deux outils adorent le style structuré et scientifique.
  • Il ne sait rédiger que des textes sur des sujets techniques/scientifiques soit généraux, soit très pointus, mais à condition qu’ils soient bien documentés dans la littérature scientifique.
  • Le texte généré peut-être totalement faux (pas trop souvent).

Tests de génération de texte

Lors de mes tests, il a produit des textes honnêtes sur des sujets techniques grand public tels que

Managing a machine leaning project (Gestion d’un projet d’intelligence artificielle reposant sur le Machine learning)

J’ai mis en ligne un lien vers l’article généré ici, en version anglaise et vers sa traduction en français après passage dans Deepl.

Il a produit des textes avec des contre sens sur des termes techniques trop pointus/peu traités par la (véritable) littérature scientifiques : header bidding, retail media.

Voici ce que cela donne

Header bidding

Le texte est mauvais.

Header bidding (or header bidding) is a style of online bidding used in online English auctions where bidders are encouraged to bid early. It is an alternative to traditional English auctions and a hybrid of English and Dutch auctions.

In header bidding, the user enters a bid (the header), which is then displayed as a header bar. The user may then place a bid (the body) that must be at least equal to the header. When the body is placed, the header is automatically updated to the body, and the user is then able to see the progress of their own bid, as well as that of all other bidders. If the user places a bid that is less than the previous header, the previous header is automatically raised to the new bid.

A bidder may raise the header in two ways. The first is by placing a bid equal to or greater than the previous header. The second is by pressing the header button, which is usually found below the bidding box. This will automatically raise the header to the next highest bid. If the user is unable to raise the header, they may close their account and return at a later time.

Auction houses may employ header bidding to help keep the auction moving and reduce the number of uninformed bidders.

Retail Media

Le texte est mauvais.

Retail media is a term used to describe the media space of the retail trade industry, such as newspapers, magazines, books, and other media. It is used to refer to media that is aimed at consumers of the retail industry, as well as media that the retail industry produces itself. The term is most commonly used in the United States, but it is also used in other English-speaking countries.

Retail media is used to provide information about the retail industry to consumers, and to sell retail products and services.

Si vous le testez, voici quatre conseils

  1. Utilisez-le avec Google Chrome
  2. Inspirez vous des prompts du bas de la page d’accueil
  3. Soyez patient
  4. Cliquez sur « Generate more » pour avoir la suite du texte (cette fonction est beaucoup plus efficace que sur GPT-3 / Copy.ai, par exemple).

A propos du fonctionnement de Galactica

L'une des limites du fonctionnement de Galactica est "Frequency Bias", officiellement présenté sur le site Galactic.

"Language Models are Frequency-Biased. Galactica is good for generating content about well-cited concepts, but does less well for less-cited concepts and ideas".

Du point de vue théorique, ces modèles s'entrainent à partir d'exemples. 50 millions d'exemples (textes scientifiques/techniques) dans le cas de Galactica, de mémoire. Plus une thèse apparait et réapparait au sein de ces exemples, plus elle est 'convaincante' pour l'algorithme et a de chances d'être intégrée par le modèle. A l'inverse, une thèse "disruptive" d'un chercheur de pointe qui n'apparait que dans une publication, non seulement, aurait probablement du mal à être "comprise" par la machine, mais, en outre, comme statistiquement, elle n'a pas de poids et que le fondement du machine learning, c'est la statistique, elle a toutes les chances d'être ignorée du model, selon moi. A l'inverse, si cette thèse disruptive est très largement reprise, elle influencera probablement plus le model puisque "compréhensible" car traitée et retraitée, mais statistiquement importante.

Dans la pratique, les prompts qui concernent des sujets largement traités dans la littérature scientifique (le machine learning, par ex), renvoient de bons résultats sur Galactica, qui a trouvé suffisamment d'exemples dans la dite littérature scientifique pour "comprendre" ce qu'est le machine learning. Dans ce cas, Galactica en bon model bien éduqué, génère le texte qui a statistiquement a le plus de chances d'être juste. Il va donc composer un texte à partir des concepts qui sont le plus souvent cités dans les exemples sur lesquels il s'est entraîné. C'est un peu différent du concept de "moyenne" : le modèle ne ferait pas la moyenne entre plusieurs concepts, mais choisi le concept le plus populaire. Galactica ne te citera pas une évidence, pour le machine learning (ML), comme le fait l'IA symbolique est beaucoup plus efficace que le ML dans certains cas (parce que la littérature. scientifique  ne s'intéresse pas assez à cette idée). Au delà de cela, si tu lances un prompt sur le "header bidding" (une technique de pricing de la pub digitale), concept largement traité sur le web, Galactica échoue, parce que le concept n'est pas traité dans les 50 millions de docs scientifiques sur lesquels il a été entraîné.

Il faut donc non seulement qu'il y ait conscensus, mais conscensus sur la base d'exemples (le "data set" d'entraînement) qui permettent d'entraîner le model.

EXCLUSIF

35 Formations
Intelligence Artificielle
Marketing Digital
Ecommerce
Forfait illimité: à partir de 166€/mois

Accès 100 collaborateurs

Découvrir

Organisme de formation

 OF N°11756628075 - 17 rue etex, Paris

Recevez des exclus !

Search