Le LLM d'Apple, DCLM-7B, est Opensouce, écologique, économique et mobile
Apple vient de publier un petit LLM Open Source, DCLM-7B. Potentiellement, une bonne nouvelle pour les données personnelles, pour la souveraineté et l'écologie.
Depuis un an, la recherche sur les petits LLM, concurrent des grands modèles tels qu'OpenAI, a démontré qu'un petit LLM (qui a besoin de moins d'énergie et de puissance de calcul) pouvait être aussi efficace qu'un grand LLM sur certaines tâches.
J'y voyais des perspectives très intéressantes
1. Fonctionnement en offline et indépendant des US
Fonctionnant, en local, sur un petit ordinateur ou un smartphone, plus besoin de se connecter aux serveurs américains.
2. Confidentialité des recherches
Les entreprises n'auraient plus le soucis de savoir ce qu'elles peuvent demander au LLM ou pas.
3. Données personnelles
Les données personelles seraient protégées.
4. Moins besoin d'énergie
Vous en comprenez les incidences.
5. Economie
Pas besoin de payer d'abonnement ou des tokens.
Sur le papier, cela fonctionnait, mais dans la pratique, ce n'était pas ça.
L'annonce d'Apple me redonne de l'espoir parce que:
- cela montrerait que bien que leur petit LLM maison n'est pas suffisament performant (sinon, il n'aurait pas signé avec OpenAI), Apple mise sur une techno plus lights que les grands LLMs d'OpenAI
- en plus, c'est du vrai Open Source: les développeurs et chercheurs ont accès à tout (les poids -cad les paramètres du LLM-, le logiciel d'entraînement et même les données d'entraînement) et peuvent tout en faire (notamment, un usage commercial).
Caractéristiques techniques
- 6,9 milliards de paramètres.
- Entraîné sur un ensemble de données de 2,5 mille milliards de tokens (peut-être un milliard de pages) principalement en anglais
- Fenêtre contextuelle de 2048 tokens (beaucoup moins que ChatGPT)
Les usages potentiels
Chatbot spécialisé: combiné à du RAG, on peut imaginer créer un chatbot sur votre smartphone ou sur votre ordinateur qui répondent avec vos données à vous, sans avoir besoin de les transmettre à un serveur commercial.
Aide à la réponse d'email sur base de vos
Chatbot d'entreprise ayant besoin de confidentialité: compte-rendu d'une réunion confidentielle avec un client, par ex.
Ce qui ne serait pas possible
Analyse ou résumé de longs documents (car fenêtre de contexte trop petite)
Longs échanges (pour la même raison)
Rédaction de dossiers de synthèses s'appuyant sur des données web (comme Perplexity ou SearchGPT)
Notons que ce LLM made in Apple, le DCLM-7B, est concurrent des petits modèles d'autres modèles, en partie, open source, comme Mistral-7B-v0.3 et Llama 3 8B.
Limites de DCLM-7B
Il a été entraîné majoritairement sur des données en anglais (mais les chercheurs peuvent le ré-entrainer avec des données françaises et... un gros budget).
Les potentiels usages sur smartphones évoqués ci dessus, concernent les futurs smartphones, plus puissants et optimisés pour l'IA génératives (mon iphone 12 mini ne pourrait le faire tourner).