Deepseek

La vérité sur Deepseek: modèles, coût, censure, Liang Wenfeng, capital et actionnaires

La start-up chinoise DeepSeek a créé une onde de choc qui a largement dépassé le microcosme de l'IA, puisqu'elle a provoqué un mini krach sur les valeurs technologiques américaines le 27 janvier. Mais qui est vraiment Deepseek ?

Avec le lancement de son 4eme LLM, Deepseek R1,  la start-up du même nom, fondée en 2023, s'est miraculeusement imposée comme un concurrent de taille des géants américains de l'IA tels qu'OpenAI, Anthropic, Google et Meta.

Mais, attention, il y a l'histoire officielle service sur un plateau par les media et la véritable histoire un peu plus difficile à comprendre.

L'histoire officielle de Deepseek

DeepSeek aurait fait une entrée fracassante sur le marché en devenant l'application gratuite numéro la plus téléchargée sur l'App Store d'Apple, dépassant ChatGPT en nombre de téléchargements.

Cette prouesse a pris la Silicon Valley et le monde par surprise, quelques jours juste après l'investiture de Donald Trump.

Officiellement, des performances impressionnantes à moindre coût

Le modèle R1 de DeepSeek se distingue par ses performances présentées comme égales à celle de o1, le meilleur modèle d'OpenAI.

Ce qui serait particulièrement remarquable, ce serait que DeepSeek aurait réussi à développer un modèle aussi performant pour un coût au moins dix fois inférieur à celui de ses concurrents américains.

Deepseek:un miracle ou un coup de génie ?

Le succès de DeepSeek repose, officiellement, sur plusieurs facteurs clés

La start-up aurait su attirer les meilleurs talents en proposant des salaires très attractifs (pour la Chine).

Contrairement à d'autres entreprises, DeepSeek miserait sur les jeunes ingénieurs fraîchement sortis des universités chinoises.

DeepSeek aurait développé une architecture de réseau de neurones optimisée et de nouveaux algorithmes d'apprentissage, permettant une efficacité accrue.

Le marché de l'IA en émoi après l'arrivée de Deepseek

L'émergence de DeepSeek a eu des répercussions importantes sur le marché :

Les actions de géants comme Nvidia et ASML ont chuté de 3% à 16% en une seule journée,, effaçant près de 1000 milliards de dollars de valeur, ce qui n'était jamais arrivée dans l'histoire de la bourse américaine.

DeepSeek permettrait de rendre l'IA accessible à un plus grand nombre d'acteurs, remettant en question le monopole des géants américains.

Le succès de Deepseek ne fait pas l'unanimité

L'émergence d'un acteur chinois aussi puissant pourrait exacerber les tensions technologiques entre la Chine et les États-Unis.

Le phénomène DeepSeek marquerait un tournant dans l'industrie de l'IA, remettant en question la domination des géants américains et ouvrant la voie à une nouvelle ère d'innovation et de compétition internationale.

Les 3 modèles de Deepseek

DeepSeek V3

Modèle de langage généraliste pour diverses tâches comme le codage, la traduction et la rédaction.

671 milliards de paramètres

Architecture mixture-of-experts (MoE) activant seulement 37 milliards de paramètres par token

Prédiction multi-tokens (MTP) pour une génération rapide (jusqu'à 60 tokens/seconde)

Load balancing sans perte pour optimiser l'utilisation des experts

Utilisation de la précision mixte FP8 pour réduire la consommation mémoire

DeepSeek R1

Modèle spécialisé dans le raisonnement, l'inférence logique et la résolution de problèmes mathématiques.

Système d'auto-vérification des faits pour une fiabilité accrue

Versions disponibles de 1,5 à 70 milliards de paramètres

Coût : Environ 2% du coût d'utilisation du modèle O1 d'OpenAI

Janus-Pro

Modèle multimodal texte-image pour la génération et l'analyse d'images.

Versions de 1B à 7B paramètres4

Architecture autoregressive surpassant les architectures unifiées traditionnelles4

Approche de séparation du traitement visuel pour des images plus stables et détaillées7

Limité à une résolution de 384x384 pixels pour les modèles plus petits4

L'histoire cachée de Deepseek

Plus c'est gros, plus ça passe.

Et si l'histoire cousue de fil blanc de Deepseek que je viens de vous présenter, était un conte ? Des performances au financement, en passant par in potentiel pillage des modèles d'OpenAI....

Si je vous annonce que mon équipe a créé Neod-AI 400B, un LLM aussi puissant que GPT4o, avec seulement 50 Nvidia Digits, les super calculateurs à $3000 l'unité de Nvidia que cela ne nous a coûté que 50 x $3000 = $150 000, soit 30 fois moins que le coût d'entraînement de Deepseek, vous me croyez ?

Non ?

Pourtant, vous avez bien cru que Deepseek V3 avait coûté 400 fois moins à entraîner que GPT4o.... et cela ne vous a pas tant fait tiqué que cela ?

Je pense que toute l'histoire est trop belle pour être vraie.

Cela ne signifie que tout soit faux: les modèles de Deepseek tiennent la route.

Mais, cela mérite que l'on enquête.

Voici quelques éléments.

Deepseek V3 n'aurait coûté que $5,5 millions, mais cela n'inclut que la location des machines qui ont permis d'entraîner le modèle.

Et le salaire des ingénieurs ?

L'élaboration de l'architecture ?

Les travaux de recherche ?

Le coût de Deepseek V1 de déc 2023 ?

Le coût de Deepseek V2 de mai 2024 ?

Le loyer des locaux ?

Mais, surtout, à côté de Deepseek V3, il existe 2 autres modèles.

Deepseek R1, concurrent de o1 chez OpenAI.

Coût inconnu.

Janus-Pro, générateur d'images, entraîné sur 72 millions d'images, peut-être libre de droit... 😉 (un sujet pour Sylvie Fodor).

Coût inconnu.

Les performances

Deepseek V3 que je teste depuis un mois n'est pas à la hauteur de GPT4o. Mistral Large 2 fait mieux.

Deepseek V3, contrairement à GPT4o, ne génère des images, ne peut communiquer ou répondre par la voix.

La société Deepseek

Siège

Hangzhou, qui abrite 700 start-ups (dont des concurrents de Doctissimo, de Tesla et de Ouicar).

Capital

Inconnu.

Levées de fonds

Inconnues en dehors d'un tour de seed de $1,4 million en 2023.

Fondateur

Liang Wenfeng, 40 ans, qui a aussi créé en 2013, la société d'investissements Jacobi et en 2015, le fonds spéculatif High Flyers qui gérerait $8 milliards dans laquelle il a développé des algorithmes d'IA pour le trading.

Actionnaires

L'autre actionnaire de Deepseek est le fond High Flyers, que Wenfeng contrôle à 99%.

Or, High flyers a acheté, en 2020, 1000 GPU Nvidia A100, pour $28 millions) et, en 2021, 10 000 autres A100 pour créer un 2ème supercalculateur (coût estimé: $138 millions).

On est, donc, loin des $5,5 millions annoncés qui correspondent peut-être, en fait, au tarif de refacturation entre les 2 sociétés soeurs... ?

Liens avec le gouvernement chinois

Récents, mais importants.

Accusations d'OpenAI

OpenAI vient d'accuser Deepseek d'enfreindre ses droits de PI pour avoir distillé ses modèles o1 et GPT4o, cad d'avoir aspiré, via l'API, la crème des connaissance de ces modèles, pour les copier.

Et si Deepseek n'était qu'un plagiat distillé d'OpenAI et d'autres modèles ?

PS : OpenAI est accusé de plagiat par des centaines d'ayants droit. 😜

Comment fonctionne la technique de distillation qu'aurait utilisé Deepseek selon OpenAI.

Voici comment DeepSeek R1 aurait pu être entraîné en utilisant la technique de distillation via l'API d'OpenAI :

Etape 1: Génération massive de données.

DeepSeek aurait pu utiliser l'API d'OpenAI pour générer un grand volume de paires question-réponse de haute qualité, en interrogeant intensivement les modèles GPT-4 et o1.

Etape 2: Création d'un dataset d'entraînement

Ces paires question-réponse auraient été compilées pour former un vaste dataset d'entraînement, contenant potentiellement des centaines de milliers d'exemples.

Etape 3: Entraînement du modèle apprenant

DeepSeek aurait utilisé ce dataset pour entraîner son propre modèle (DeepSeek R1) à imiter les réponses des modèles d'OpenAI.

Etape 4:: Optimisation par apprentissage par renforcement

DeepSeek aurait ensuite appliqué des techniques d'apprentissage par renforcement pour affiner les performances du modèle, comme décrit dans leur documentation technique.

Etape 5: Itérations et ajustements

Le processus aurait été répété et ajusté jusqu'à ce que DeepSeek R1 atteigne des performances comparables à celles des modèles d'OpenAI.

Cette approche aurait permis à DeepSeek de développer rapidement un modèle performant à moindre coût, en s'appuyant sur l'expertise déjà acquise par les modèles d'OpenAI.

Evidemment, cette pratique soulève des questions éthiques et légales, car elle pourrait violer les conditions d'utilisation d'OpenAI.

La technologie officielle de Deepseek: reinforcement learning et distillation

Il n'est pas prouvé que Deepseek ait entraîné ses modèles en s'appuyant sur la technique de la distillation.

En revanche, voici la communication officielle de Deepseek concernant sa technologie.

Architecture optimisée

DeepSeek utilise une architecture de réseau de neurones optimisée, réduisant la complexité et les besoins en calculs1. Au lieu d'un modèle monolithique, l'entreprise a opté pour une approche où des sous-réseaux spécialisés sont activés en fonction de la tâche, réduisant ainsi la consommation énergétique et accélérant les calculs.

 Le modèle est segmenté en 256 réseaux spécialisés, ce qui permet une meilleure performance tout en utilisant moins de ressources.

DeepSeek a développé de nouveaux algorithmes d'apprentissage permettant un entraînement plus rapide et efficace sur de grands volumes de données. Ces algorithmes utilisent des techniques d'apprentissage par renforcement (Reinforcement learning) pour améliorer les capacités de raisonnement sans s'appuyer fortement sur un affinage supervisé traditionnel.

Les modèles sont entraînés sur des clusters GPU/TPU optimisés avec des bibliothèques propriétaires (DeepSpeed-Inference) pour une parallélisation extrême. Cette optimisation permet à DeepSeek d'utiliser seulement 2000 puces Nvidia, contre 16 000 pour certains concurrents comme ChatGPT.

DeepSeek utilise des techniques avancées de compression des modèles, facilitant leur déploiement1. Ces techniques incluent le "pruning" et la "quantization", permettant de maintenir des performances élevées même avec des modèles compacts (par exemple, 7 milliards de paramètres).

L'utilisation de l'Architecture Mixture-of-Experts (MoE), combinée à la technologie propriétaire DeepSeekMoE, permet d'optimiser l'utilisation des ressources neuronales en activant uniquement un sous-ensemble spécifique de neurones pour chaque entrée.

 Le système de censure de Deepseek

Deepseek est doté d'un système de censure.

Comment fonctionne-t-il techniquement ?

Est-il parfait ?

Quels sont les sujets sensibles ?

Que risquent les utilisateurs ?

Est-il différent des systèmes occidentaux ?

Je ne crois pas à la version officielle de l'histoire Deepseek dont on ne sait quasiment rien (ni son coût réel, ni qui se cache derrière, ni ses performances..)

Du coup, je pense qu'il est intéressant d'enquêter...

Je me suis efforcé de reconstituer le dispositif de censure de Deepseek.

N'hésitez pas à compléter.

L'administration du cyberespace chinois (CAC) impose aux sociétés qui créent des LLMs de subir, avant leur lancement public, une "inspection de sécurité" permettant de s'assurer qu'ils "préservent les valeurs socialistes fondamentales" et qu'ils n'alimentent pas la "subversion" du régime.

Le système technique fonctionne à plusieurs niveaux.

Filtrage des données d'entraînement

Les experts qui développent les LLMs doivent constituer une base de sujets/mots susceptibles de déranger le régime.

Cette base permet d'exclure une partie des données d'entraînement. Mais, certains contenus non conformes parviennent à échapper à ce système, qui doit être complété.

Blocage "statique" de questions

Lorsque les sujets "interdits" sont saisis au sein de questions, les chatbots peuvent refuser de répondre.

Ainsi, lors de questions "malvenues" sur Xi Jinping, mais aussi sur Winnie l'ourson, son surnom, Deepseek peut génèrer une réponse du type:

"Je suis désolé, je ne peux pas répondre à cette question. Je suis un assistant IA conçu pour fournir des réponses utiles et inoffensives."

Lorsque je lui ai demandé la date du massacre de Tian'anmen, il a répondu: "Sorry, that's beyond my current scope. Let’s talk about something else."

Mais, là encore, il y a des trous dans la raquette.

Je lui ai posé une question neutre sur les Ouighours

Il m'a répondu avec des éléments de langage officles (lutte contre le terrorisme), mais a aussi évoqué les "conditions inhumaines de détention" dans le camps de "ré-éducation" et un "système de surveillance de masse".

Ce dispositif est, donc, complété par un système dynamique.

Mécanismes d'interruption

Parfois, le chatbot commence à rédiger une réponse sur un sujet sensible, mais un mécanisme de détection s'active et interrompt la génération. Cela a été observé, sur la question du travail forcé des Ouighours au Xinjiang. DeepSeek a commencé à rédiger une réponse mentionnant ces "camps de rééducation", mais après quelques secondes, tout le texte s'est effacé et l'utilisateur a été invité à "parler d'autre chose".

Bannissement

Le chatbot Ernie a banni des utilisateurs parce qu'ils posaient des questions gênantes sur Xi Jinping. Pas (encore) de retours similaires pour Deepseek, mais possibilité que ce soit le cas.

En outre, je suppute, sans toutefois que les utilisateurs posant trop de questions, peuvent être fichés car la loi chinoise permet aux autorités d’accéder aux données personnelles, sans avoir à le motiver.

Contenus liés

Search