Industrialisation et déploiement de l'intelligence artificielle

Les problèmes de déploiement d'applications d'IA générative

Savez-vous que de nombreuses entreprises qui ont développé des applications d'IA générative qui fonctionnent, se heurtent à un défi technique majeur: le DEPLOIEMENT. Qu'est-ce que le déploiement ? Pourquoi est-ce fondamental ?

De nombreux projets d'IA générative échouent parce que :

- des évangélistes ou consultants IA ont promis tout et n'importe quoi à propos de l'IA générative et que certains cas d'usage présentés en fanfare il y a 2 ans, sont des pétards mouilles

- l'utilisation des LLMs pour des applications internes requiert souvent la maîtrise du prompt engineering, du Retrieval Augmented Generation et parfois, du fine-tuning, mais ces compétences sont plus rares qu'on le pense.

- les attentes des donneurs d'ordre sont irréalistes ou insuffisamment financées

Mais, lorsque l'équipe IA ou le prestataire est parvenu à créer un POC qui fonctionne réellement, dans la vraie vie et que l'on souhaite que tous les collaborateurs de l'entreprise en bénéficient, se pose le problème du déploiement, c'est à dire la mise en production à grande échelle.

Voici les défis qu'il faut relever pour réussir son déploiement.

1. Mobiliser la puissance de calcul nécessaire

L'utilisation (l'inférence) des modèles d'IA générative nécessitent une puissance de calcul conséquente (le nombre de puces GPU ou TPU à mobiliser).

Le stockage des modèles souvent volumineux requiert des capacités importantes.

L'infrastructure doit pouvoir s'adapter à des charges variables et à une croissance potentielle de l'utilisation

2. Réduire le temps de réponse (latence)

Nous avons tous fait l'expérience des ralentissements de ChatGPT, lorsqu'il y a trop d'utilisateurs. On a le même sujet dans le cadre des applications d'IA générative développées en interne, réduire le temps de réponse d'applications très gourmandes en ressources.

3. Intégration et compatibilité

Lorsque l'application d'IA a besoin de communiquer avec les autres briques du système d'information de l'entreprise et rapidement si possible.

Cela passe par la création d'APIs internes robustes et bien documentées

4. Sécuriser et protection des données

5. Monitorer l'application et assurer sa maintenance

Il faut mettre en place des systèmes de monitoring en temps réel pour détecter les anomalies et tout simplement mesurer l'efficacité de l'application, puis gérer les mises à jour du modèle et le versioning.

6. Gérer la mémoire et les ressources mobilisées

L'utilisation des API d'IA de Google, OpenAI, Minstral ou d'Anthropic ou l'hébergement des applications d'IA on premise (en interne) revient rapidement chère lorsque l'application tourne à plein régime.

Il faut, donc, mobiliser le niveau de ressources requis pour les performances attendues, mais pas plus. Pas si facile.

--
Je suis Raphaël Richard de 24pm Academy et décode tous les jours l'IA: hacks, outils, technos, prospectives, méthodes et prompts.

Search