Votre 1er cours d'intelligence artificielle GRATUIT
Applications de l'intelligence artificielle par métier

Une entreprise entièrement gérée par des agents intelligents

Une entreprise peut-elle être gérée à 100% par les "Agents AI" ? Carnegie Mellon a créé une entreprise fictive pour déterminer si les agents étaient murs pour cela et comparer les LLMs sur leur performances.

Des chercheurs de l’Université Carnegie Mellon ont récemment mené une expérience pour tester si les agents IA reposant sur les LLMs que vous connaissez pouvaient gérer avec succès une entreprise réelle.

Et pour déterminer les LLMs les plus performants pour la création d'agents utiles au quotidien (voir tableau).

Pour ce projet, "The Agent Company", on a développé une équipe d'agents devant réaliser les tâches dont avait besoin cette entreprise d'édition de logiciels pour fonctionner.

Précision

Ce sont des agents reposant sur l'IA générative uniquement et non d'autres technos d'IA utilisées pour la création d'agents intelligents. Ils reposent, donc, sur les LLMs de Google, d'OpenAI, d'Anthropic, de Meta et d'Amazon.

TheAgentCompany était donc, une TPE, qui fonctionne grâce à une équipe d'agents assurant les fonctions :
- d'ingénieur logiciels,
- de chef de projet,
- d'analystes financiers,
- de responsables RH,
- de CTO.

Les agents évoluaient dans un environnement proche du réel, qui exige qu'ils interagissent avec:
- des sites internes (comme Github)
- un système de collaboration similaire à Slack,
- des manuels internes
- des services simulant des interactions réalistes avec des "collègues"

Les agents devaient accomplir des tâches courantes dans une entreprise d'édition de logiciel :
- naviguer dans des systèmes de fichiers,
- analyser des bases de données,
- rédiger des évaluations de performance,
- collaborer avec des « collègues ».

Résultats

Le meilleur des agents, reposant sur Claude 3.5 (Anthropic), a réussi seulement, en moyenne, 24% des tâches qui lui étaient confiées (en passant par 30 étapes en moyenne ce qui induit des coûts élevés de $6/tâche).

Gemini 2 Flash ou ChatGPT n'aurait réussit que 9% à 11% des tâches confiées.

Qwen ou Amazon Nova, beaucoup moins.

De façon surprenante, cles agents échouent, parfois, sur des tâches simples comme fermer des fenêtres, trouver le bon collègue à qui transmettre l'information ou effectuer un suivi sur une tâche inachevée).

Les agents IA ont été surpris en flagrant délit de confusion, ont pris des raccourcis non pertinents et même, parfois, déformé la réalité pour atteindre leurs objectifs (ex: un agent, incapable de trouver une personne précise dans le système de chat, a décidé de créer un nouvel utilisateur avec le nom souhaité !)

Les agents ont rencontré le plus de difficultés sur les tâches administratives et financières (pourtant souvent citées dans les cas d'usage idéaux de l'IA générative), probablement à cause d’un manque de données d’entraînement publiques pour ces processus, alors qu’ils s’en sortaient un peu mieux sur les tâches de développement logiciel (probablement parce ques les LLMs sont entraînés des montagnes de code).

EXCLUSIF

35 Formations
Intelligence Artificielle
Marketing Digital
Ecommerce
Forfait illimité: à partir de 166€/mois

Accès 100 collaborateurs

Découvrir

Organisme de formation

 OF N°11756628075 - 17 rue etex, Paris

Recevez des exclus !

Search