Votre 1er cours d'intelligence artificielle GRATUIT
Formation à GPT3 et ChatGPT
Musclez le contenu + SEO
Automated Machine Learning / No code

Databricks Dolly, LLM concurrent OpenSource de chatGPT

Un nouveau LLM Open Source, Dolly créé par la société Databricks vient rejoindre le rang des solutions permettant de créer des applications comme on le ferait avec GPT.

Le LLM Open Source Dolly a été créé par la société Databricks, une entreprise qui a été fondée en 2013 par les créateurs originaux d'Apache Spark, un framework de traitement big data en open-source, et a son siège à San Francisco. Databricks fournit des services et software aux spécialistes de la Data pour les aider dans leurs projets. Son produit phare s'appelle Databricks Unified Analytics Platform, qui est composé d'un espace de travail collaboratif pour l'exploration et la visualisation des données, des outils pour le traitement de données, et des bibliothèques de Machine Learning pour la construction et le déploiement de modèles.

Caractéristiques techniques

Le LLM Dolly s'appuie sur le modèle du groupe EleutherAI Pythia12B, lui-même utilisant GPT-Neox. Il repose sur 12 milliards de paramètres.

Pythia12B a été entraîné sur un jeu de données issus de "The Pile" (toujours créé par le collectif EleutherAI, créé en 2020, en réaction à l'abandon de la transformation d'OpenAI en société commerciale). The Pile est une base de données composée de données crawlées sur le web (comparable à Common Crawl) et dont la qualité est variable. Voici les 22 bases de données qui se cachent, en réalité, derrière "The Pile".

Finetuning et renforcement du modèle Pythia12B de base avec un jeu d'instruction annoncé comme étant de haute qualité, de 15 000 couples de questions/réponses en anglais, entièrement inventés par les employés de la société Databricks.

Le code de Dolly

Code de Dolly sur Hugging Face

Data set de fine tuning (Databricks-Doll-15k) sur Github

Post présentant le modèle Dolly

Matériel nécessaire

Non connu

Performances

Databricks précise que la version dolly-v2-12b a difficultés à gérer un certain nombre de problèmes: questions syntaxiquement complexes, problèmes de programmation, opérations mathématiques,  erreurs factuelles, dates et des heures, réponses à des questions ouvertes, hallucinations, énumération de listes d'une longueur spécifique, mimétisme stylistique, sens de l'humour, etc. Dolly-v2-12b ne possède pas certaines capacités, telles que l'écriture de lettres bien formatées, présentes dans le modèle original.

Licence

Modèle complete fine-tuné Open Source pour usage de recherche et commercial

Dataset Databricks-Dolly-15k: Open Source Creative Commons Attribution-ShareAlike 3.0 Unported License.

 

Search