Liste des Large Language Models de Mistral

: Raphaël Richard, 24pm Academy; 28 février 2024, 06:14

La société française Mistral, connue pour ses modèles Open Source, a publié, depuis son lancement, de nombreux Large Language Models. En voici la liste.

Mistral 7B

Nom du modèle Mistral 7B

Développeur / Organisation Mistral AI

Date de lancement 27 septembre 2023

Licence

Open Source sans restriction, permettant une utilisation sans restrictions, y compris localement ou sur n'importe quel cloud (AWS, GCP, Azure).

Cas d'usage

Applications d'entreprise restreinte à un domaine étroit
Applications nécessitant un grand niveau de protection des données personnalité et/ou de confidentialité
Entreprise souhaitant accéder et personnaliser les poids du modèle

Accès

Téléchargement sur le site d'OpenAI
Disponible chez un grand nombre de cloud
Accessible via La plateforme

Coût

Téléchargement du modèle gratuit
Cloud providers: tarification à l'usage différente suivant les services de cloud
Sur La Plateforme: Input 0,20€ / million de tokens Output 0,20€ / million de tokens

Points forts

Open Source avec accès aux poids du modèle
Mistral 7B peut être fine-tuné pour des tâches spécifiques en utilisant des ensembles de données d'instruction disponibles publiquement
Bonnes capacités de généralisation et peut être adapté pour respecter des directives spécifiques lorsqu'il est utilisé dans des applications

Architecture et caractéristiques techniques

Langue: Anglais
Fenêtre de contexte: 8000 tokens
Mistral 7B est un modèle de 7,3 milliards de paramètres qui excelle dans les tâches de code, de raisonnement et de tâches en anglais.
Il utilise "l'attention par fenêtre glissantez (Sliding Window Attention - SWA) et "l'attention regroupée par requêtes" (Grouped-query Attention - GQA) pour une inférence plus rapide et la gestion de longues séquences à moindre coût.
Le modèle a démontré des performances supérieures à celles de Llama 2 13B sur tous les benchmarks et est comparable à Llama 1 34B dans de nombreux benchmarks.
Mistral 7B a également montré une adaptabilité remarquable, étant efficace dans une gamme d'applications allant des chatbots à la génération de contenu et à la complétion de code.

Performances et benchmarks

Mistral 7B surpasse les modèles Llama en termes de raisonnement, de mathématiques, et de génération de code.
Il est évalué sur des benchmarks tels que MMLU, HellaSwag, et d'autres, montrant une performance équivalente à un modèle Llama 2 plus de trois fois sa taille en termes de raisonnement et de compréhension.

Mise en place et déploiement

Le modèle peut être exécuté en utilisant Docker ou déployé directement avec vLLM sur des hôtes compatibles avec GPU et Cuda 11.8.
Les utilisateurs peuvent télécharger Mistral 7B et le déployer selon leurs besoins.

Innovations architecturales

L'attention par fenêtre glissante et l'attention regroupée par requêtes sont des innovations clés, permettant des coûts de calcul linéaires et une réponse rapide pour les applications en temps réel.

Personnalisation et fine-tuning

Pour des détails plus techniques et des guides sur la mise en place, le déploiement et l'utilisation de Mistral 7B, vous pouvez consulter les documents fournis par Mistral AI et les ressources disponibles sur des plateformes comme Hugging Face

Mixtral 8x7B

Nom du modèle Mixtral 8x7B (Mixtral-8x7B-v0.1)

Développeur / Organisation Mistral AI

Licence

Open Source, sous licence Apache 2.0, permettant une utilisation sans restrictions.

Cas d'usage

Applications d'entreprise restreinte à un domaine étroit
Applications nécessitant un grand niveau de protection des données personnalité et/ou de confidentialité
Entreprise souhaitant accéder et personnaliser les poids du modèle

Accès

Téléchargement à partir le site d'OpenAI ou sur Hugging Face
Potentiellement disponible chez certains acteurs du Cloud
Accessible via La plateforme

Coût

Téléchargement du modèle gratuit
Cloud providers: tarification à l'usage différente suivant les services de cloud
Sur La Plateforme: Input 0,65€ / million de tokens Output 0,65€ / million de tokens

Points forts

Mixtral 8x7B atteindrait les performances de taille intermédiaire avec un modèle relativement petit et en consommant peu d'énergie
Open Source avec accès aux poids du modèle

Cas d'usage

Applications d'entreprise restreinte à un domaine plus ou moins étroit
Applications nécessitant un grand niveau de protection des données personnalité et/ou de confidentialité
Application nécessitant de meilleures performances que Mistral 7B.

Architecture et caractéristiques techniques

Langues Anglais, français, italien, allemand, espagnol et assez fort en code
Fenêtre de contexte: 32 000 tokens
Mixtral 8x7B est un modèle de type Sparse Mixture of Experts (SMoE).
Il comporte 46,7 milliards de paramètres, offrant une performance de haut niveau tout en maintenant l'efficacité du calcul.
Il est basé sur une architecture de décodeur, avec 8 experts par couche MLP.
Malgré sa grande taille, les besoins en calcul sont comparables à ceux d'un modèle de 14 milliards de paramètres en raison de son routage intelligent des tokens (chaque token des états cachés est acheminé deux fois, top 2 routing).
Intègre la Sliding Window Attention et Grouped Query Attention pour une inférence rapide et une gestion efficace de la mémoire cache.
Utilise un tokenizer Byte-fallback BPE, garantissant qu'aucun caractère n'est mappé à des tokens inconnus.

Performances et benchmarks

Surpasse le modèle Llama 2 70B dans la plupart des évaluations benchmark.
Affiche des inférences six fois plus rapides par rapport aux modèles concurrents.
Comparable ou supérieur à GPT-3.5 sur la plupart des benchmarks standards.

Adaptabilité et versatilité

Mixtral 8x7B est adaptable à une large gamme d'applications allant de la génération de texte à des tâches spécifiques d'instruction.
Le modèle est pré-entraîné et ne possède pas de mécanismes de modération intégrés, mais peut être personnalisé pour différentes utilisations.

Mise en place et déploiement

Supporte la réduction de la précision (jusqu'à 4 bits) pour une utilisation avec des exigences mémoire réduites.
Compatible avec les serveurs vLLM pour le déploiement ainsi que la bibliothèque Transformers de Hugging Face.

Innovations

Mixture of Expert (MOE) permettant un traitement efficace et une allocation intelligente des ressources de calcul.
Routage top-2 pour une distribution efficace des tâches entre les experts.
Prise en charge de l'attention par fenêtre glissante et de l'attention groupée pour des inférences rapides et une gestion optimisée de la mémoire.

Pour plus de détails, vous pouvez consulter le blog de lancement de Mixtral et la documentation sur Hugging Face.

Mistral Small

Nom du modèle Mistral Small

Date de publication Février 2024

Développeur / Organisation Mistral AI

Licence

Propriétaire

Accès

La Plateforme
Potentiellement disponible chez des Clouds providers à l'avenir

Cas d'usage

Il est particulièrement adapté pour les tâches nécessitant des réponses rapides et des calculs moins intensifs, offrant ainsi un équilibre entre performance et coût.
Applications mobiles, chatbots, et systèmes embarqués où l'espace et la vitesse de traitement sont limités.
Services en ligne nécessitant une réponse rapide et des interactions en temps réel

Points forts

Mistral Small est conçu comme une solution optimisée pour les charges de travail à faible latence et à moindre coût.
Officiellement, bien que plus petit en taille, Mistral Small conserve des performances élevées, surpassant d'autres modèles tels que le Mixtral 8x7B dans certains domaines.
Ce modèle bénéficie des mêmes innovations que Mistral Large, notamment l'activation RAG (Retrieval-Augmented Generation) et l'appel de fonctions

Coût

Cloud providers: tarification à l'usage différente suivant les services de cloud qui le distribue
Sur La Plateforme: Input 1,85€ / million de tokens Output 5,50€ / million de tokens

Architecture et caractéristiques techniques

Langues Anglais, français, italien, allemand, espagnol et assez fort en code
Fenêtre de contexte: 32 000 tokens
Mistral Small a été optimisé pour surpasser les modèles de taille similaire en termes de rapidité tout en maintenant une précision élevée.
Mistral AI propose des endpoints (points de terminaison) à poids ouvert

Innovations et fonctionnalités

Prise en charge de l'appel de fonctions et du formatage en JSON pour faciliter l'intégration et l'interaction avec d'autres services et bases de données.
Optimisé pour la génération de réponses courtes et précises, ce qui le rend idéal pour les applications nécessitant des réponses instantanées.

Pour plus d'informations et pour accéder à Mistral Small, veuillez consulter la page officielle de Mistral AI où vous trouverez des détails supplémentaires sur ce modèle et comment l'utiliser efficacement dans vos projets

Mistral Large

Nom du modèle Mistral Large

Date de publication 26 février 2024

Développeur / Organisation Mistral AI

Licence

Propriétaire

Accès

La Plateforme de Mistral AI
Azure, partenaire distributeur exclusif

Cas d'usage

Applications et chatbots exigeants de fortes capacités de raisonnement,
Services en ligne nécessitant une réponse rapide et des interactions en temps réel

Points forts

C'est le modèle le plus puissant de Mistral qui dépassent en performance les autres
Il est particulièrement adapté à la méthode de personnalisation, dénommé RAG (Retrieval Augmented Generation
Coût inférieur aux modèles équivalents chez OpenAI

Coût

Via la version Azure: tarification extrêmement difficile à trouver et à comprendre comme tous les services de clouds de type Azure, Google Cloud ou AWS
Sur La Plateforme: Input 7,30€ / million de tokens Output 22,00€ / million de tokens

Architecture et caractéristiques techniques

Langues Anglais, français, italien, allemand, espagnol et assez fort en code (et apparement des "dizaines d'autres langues" si l'on s'en fie à l'Azure AI Studio
Fenêtre de contexte: 32 000 tokens
Mistral Large est le modèle phare de Mistral AI, doté de capacités de raisonnement de haut niveau.
Le modèle est conçu pour des tâches de raisonnement multilingue complexes, notamment la compréhension, la transformation de texte (résumé, synthèse, extraction...), la génération de texte et la génération de code.
De nouvelles fonctionnalités comme l'appel de fonctions et le formatage en JSON ont été introduites, permettant des interactions plus complexes et naturelles avec les modèles.
Mistral Large a obtenu de bons score sur des benchmarks connus (bon sens, de raisonnement et de connaissances, codage, mathématiques), se classant derrière GPT-4.
Il est optimisé pour suivre les instructions précises, ce qui permet aux développeurs de définir leurs propres politiques de modération.
Capable d'appeler des fonctions, facilitant ainsi le développement d'applications

Pour plus d'informations, consultez les liens suivants Mistral AI et Optimize IAS.

Mistral Medium

Nom du modèle : Mistral Medium

Date de publication : février 2024

Développeur / Organisation : Mistral AI

Licence

Propriétaire

Accès

La Plateforme de Mistral AI

Cas d'usage

Applications nécessitant une capacité de traitement intermédiaire entre Mistral Small et Mistral Large

Points forts

Il est à peine plus cher que Mistral Small alors qu'il affiche des performances relativement proche de celle de Mistral Large
Il est adapté à la méthode de personnalisation, dénommé RAG (Retrieval Augmented Generation
Coût inférieur aux modèles équivalents chez OpenAI

Coût

Sur La Plateforme: Input 2,50€ / million de tokens Output 7,50€ / million de tokens

Architecture et caractéristiques techniques

Langue : anglais, le français, l'italien, l'allemand, l'espagnol et divers language de programation.
Mistral Medium est un prototype fermé, uniquement disponible via l'API Mistral.
Il est noté 8.6 sur MT-Bench et est classé en performance au-dessus de Claude et en dessous de GPT-4 sur le benchmark LMSys ELO Arena.
Les détails précis sur le nombre de paramètres et l'architecture du modèle Mistral Medium ne sont pas publiés publiquement.

Performances et benchmarks

Dans le domaine de la connaissance générale, du sens commun et du raisonnement, Mistral Medium a montré d'excellents résultats sur des benchmarks communs, surpassant d'autres modèles dans certains domaines.
En codage, le modèle a également montré des performances compétitives.
Mistral Medium a démontré une capacité multilingue forte, surpassant d'autres modèles dans des benchmarks en français, allemand, espagnol et italien.

Informations supplémentaires

Mistral AI a été cofondée en avril 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix, avec des fonds de démarrage significatifs et une valorisation impressionnante dès ses débuts.
En décembre 2023, la société a annoncé une levée de fonds de 385 millions d'euros, soulignant son ambition et sa croissance rapide dans le domaine de l'intelligence artificielle.
Mistral Medium, bien qu'étant un prototype, représente une partie importante de l'offre de produits de Mistral AI, montrant l'engagement de l'entreprise à pousser les frontières de l'IA.

Pour plus d'informations sur Mistral Medium et autres modèles de Mistral AI, vous pouvez consulter les liens suivants : Wikipedia de Mistral AI et Documentation de Mistral AI.

Mistral Next

Nom du modèle : Mistral Medium

Date de publication : février 2024

Développeur / Organisation : Mistral AI

Licence

Propriétaire

Accès

Ce modèle est proposé comme option sur "le Chat"

Coût

Non disponible

Architecture et caractéristiques techniques

Non disponible

Performances et benchmarks

Non disponible.
En revanche, d'après nos tests de la version Chatbot, elles sont proches de celle de Mistral Large.

: Raphaël Richard, 24pm Academy; 28 février 2024, 06:14

Liste des Large Language Models de Mistral

Mistral 7B

Licence

Accès

Coût

Points forts

Architecture et caractéristiques techniques

Performances et benchmarks

Mise en place et déploiement

Innovations architecturales

Personnalisation et fine-tuning

​​Mixtral 8x7B​​​

Licence

Cas d'usage

Accès

Coût

Points forts

Cas d'usage

Architecture et caractéristiques techniques

Performances et benchmarks

Adaptabilité et versatilité

Mise en place et déploiement

Innovations

Mistral Small

Licence

Accès

Cas d'usage

Points forts

Coût

Architecture et caractéristiques techniques

Innovations et fonctionnalités

Mistral Large

Licence

Accès

Cas d'usage

Points forts

Coût

Architecture et caractéristiques techniques

Mistral Medium

Licence

Accès

Cas d'usage

Points forts

Coût

Architecture et caractéristiques techniques

Performances et benchmarks

Informations supplémentaires

Mistral Next

Licence

Accès

Coût

Architecture et caractéristiques techniques

Performances et benchmarks

EXCLUSIF

Nouveau !

Recevez des exclus !

A lire absolument

Ressources

Contenus liés

connexion

Formation Intelligence Artificielle

Formations Marketing Digital

Ressources gratuites

Search

Mixtral 8x7B