Lucie, LLM 100% français et Open Source: modèle, poids, code, données d'entrainement

Au Paris Open Source AI summit 2025, j'ai découvert une nouvelle pépite française: Lucie, un LLM réellement Open Source, qui est une démonstration de ce que l'IA OpenSource française peut produire.
Lucie est un LLM que les entreprises ou universitaires peuvent télécharger et utiliser pour développer des applications comme des chatbots, notamment si elles requierent confidentialité et revêtent un caractère critique.
Pourquoi Lucie est un événement
Lucie est un modèle 100% français, 100% Open Source développé grâce à la communauté OpenLLM France, forte de 900 membres et portée par la société française LINAGORA (cherchez bien, il n'y a pas tant de modèles qui cochent toutes ces cases).
Elle ne véhicule ni les valeurs des US, ni celles de la Chine (cf la hype autour de Deepseek).
Vous pouvez utiliser Lucie pour n'importe quel usage et la ré-entrainer à votre guise car la licence le permet, mais surtout que tout le reste le permet:
- Vous avez accés à tout le code et toutes les données qui ont permis de l'entraîner.
- Avec 7 milliards de paramètres, Lucie peut tourner sur de machines presque "normales" et consomme beaucoup moins que les grands LLMs open source.
- Ses données d'entraînement sont issues uniquement des sources "propres" (libres de droits et de haute qualité): 32% français, 33% anglais, 20% d'autres langues et 15% de code
- sa fenêtre de contexte de 32 000 tokens permet de traiter les données d'un RAG.
Entraînée sur Jean Zay, le supercalculateur accessible gratuitement aux projets de recherche, via le GENCI (Grand Equipement National de Calcul Intensif).
Comment accéder au LLM Lucie ?
Version chatbot sur lucie.chat, durant les 30 prochains jours.
Modèle, code d'entraînement, données, doc complète de Lucie sur Hugging Face
Pourquoi l'intelligence artificielle Open Source est essentielle ?
En dehors des milieux universitaires, l'Open Source n'a pas forcément l'image qu'il mérite et c'est dommage car....
... aujourd'hui, 9 entreprises de la tech sur 10 utilisent des logiciels Open Source, de Microsoft à OVH en passant par Amazon.
Sans l'Open Source, les services internet que vous utilisez et surtout ceux qui reposent sur l'IA n'existeraient pas, car ils tournent sur des serveurs Apache, linux, etc... et ont probablement été entrainés avec des logiciels ou données Open source comme Pytorch, Scikit Learn, Tensorflow, Keras, Theano, OpenCV, Pandas, H2o .ai, MXnet, NLTK, OpenCV, common crawl ou common voice.
Mais, l'Open source a été malmené depuis la révolution de l'IA générative
Un LLM Open Source est, ainsi, rarement 100% Open Source:
- sa licence peut interdire ou fortement limiter son usage commercial
- souvent, seul le modèle est téléchargeable et il n'est pas possible de re-entrainer
- les données, le code et les process utilisés pour l'entraîner ne sont pas fournis. Impossible, donc, de comprendre de quoi il est fait. hashtag#conformité hashtag#AIAct
- il faut, souvent, une machine hors de prix pour le faire tourner ou le ré-entraîner.
Pour toutes ces raisons, Lucie est une étape importante.