Retrieval Augmented Generation

  • Optimiser un Chatbot/LLM avec le fine tuning ou le RAG

    Voici la méthode officielle d'OpenAI d'optimisation d'un LLM avec le fine-tuning, la RAG et le prompt engineering.

  • Outils pour créer des systèmes RAG (Retrieval Augmented Generation)

    Voici 12 des meilleurs outils logiciels de RAG, Retrieval Augmentation Generation.

  • Mistral-Finetune, le SDK de Mistral pour le Finetuning de LLM

    Mistral lance un SDK et des services de fine-tuning pour ses modèles. Mais, au fait, c'est quoi le fine-tuning, c'est la même chose que le RAG et cela permet de personnaliser des LLMs pour qu'ils répondent avec nos connaissances ?

    Qu'a annoncé Mistral ?
    Mistral lance "Mistral-Finetune", un soft qui permet de fine-tuner ses modèles Open Source sur des stations de travail, serveurs ou noeuds de data center (donc, sur toutes les machines où l'on peut imaginer finetuner des LLMs).

    Mistral-Finetune semble optimisé (pour être concret, il permet de ré-entrainer le plus petit de ses modèles (Mistral 7B) avec un jeu de dialogues Ultrachat -1,4 millions de dialogues- sur un petit gros serveur équipé d'une "simple" carte Nvidia H100 en seulement 30 minutes. Cela peut suffire pour fine-tuné un modèle pour spécialiser un modèle sur un domaine très précis.

    Si le besoin est plus important, Mistral-Finetune peut aussi être utiliser pour finetuner les modèles OpenSource plus costauds de Mistral (comme Mixtral 8X7B) et il peut alors tourner sur des serveurs plus solides équipés de plusieurs GPUs.

    Mistral-Finetune est également disponible sous forme de services en ligne pour fine-tuner les modèles disponibles sous forme d'API (mais seulement pour Mistral7B et Mistral small). Visiblement pour les modèles plus importants comme Mistral Large disponibles via l'API, il faudra attendre.

    Fin du passage pour les experts 😊

    Qu'est-ce que le fine-tuning ?

    Pour simplifier, le fine-tuning est l'une des techniques qui permet de d'adapter un LLM afin qu'il réponde comme les collaborateurs auraient pu le faire.

    Mais, le fine-tuning fonctionne, d'une façon totalement différente de la RAG.

    Dans la RAG, lorsqu'un internaute envoie son prompt, le système récupère d'abord des données d'une base de connaissance interne que l'on transmet ensuite à un LLM existant que l'on a pas modifier.

    Dans le fine-tuning, on ré-entraine un LLM existant en lui injectant de nouvelles données. On crée, donc, un nouveau modèle.

    Avantage
    On injecte les nouvelles données au coeur du modèle et on peut, donc, normalement, non seulement optimiser les réponses mais aussi les temps de réponses.

    Inconvénients

    C'est difficile: on peut totalement dérégler le LLM. Dans le cas extrêmes, le LLMs peut même désapprendre à parler !

    C'est coûteux: car il faut, pour ré-entrainer le modèle, il faut de grosses machines, qu'il faut faire travailler des heures (des jours ?) durant.

    Les mises à jour des connaissances sont moins fréquentes car il faut repasser par tout le process de ré-entrainement pour injecter les nouvelles connaissances.

  • Comment fonctionne le Retrieval Augmented Generation (RAG) ?

    Le Retrieval Augmented Generation (RAG) est une technique qui combine les capacités de génération de texte des modèles de langage de grande taille (LLM) avec des techniques de récupération d'information, afin de mieux maîtriser le contenu des réponses produites par un LLM.

Contenus liés

Search