Magentic-One : quand Microsoft orchestre cinq IA pour résoudre vos tâches complexes
Magentic-One de Microsoft réunit 5 IA pour accomplir vos tâches web. Architecture, performances et risques de ce système multi-agents open-source.

Microsoft Research vient de dévoiler un système qui pourrait changer notre façon de concevoir l'intelligence artificielle au travail. Magentic-One réunit cinq agents IA spécialisés capables de naviguer sur le web, lire des fichiers et écrire du code de manière autonome. Mais cette prouesse technique s'accompagne de risques inédits que l'entreprise a dû apprendre à maîtriser.
Un chef d'orchestre et quatre spécialistes : l'architecture de Magentic-One
Au cœur de Magentic-One se trouve un agent baptisé l'Orchestrateur. Son rôle ? Planifier, suivre la progression et réagir aux erreurs en dirigeant quatre agents spécialisés. Cette architecture modulaire repose sur une division claire des responsabilités.
Le WebSurfer contrôle un navigateur Chrome pour accomplir des tâches en ligne. Le FileSurfer navigue dans les systèmes de fichiers locaux et lit la plupart des formats de documents. Le Coder rédige et analyse du code Python. Enfin, le ComputerTerminal exécute ce code dans un environnement sécurisé.
Magentic-One atteint 38% de réussite sur le benchmark GAIA, 27,7% sur AssistantBench et 32,8% sur WebArena.
Cette approche diffère radicalement des IA conversationnelles classiques. L'Orchestrateur maintient ce que Microsoft appelle un "registre de progression" : il note ce qui a été accompli, détecte les blocages et réoriente les agents si nécessaire. Lors d'un test sur le benchmark GAIA, le système a ainsi pu résoudre une équation complexe en coordonnant successivement le FileSurfer pour lire un document, le Coder pour extraire l'information pertinente, et le ComputerTerminal pour calculer le résultat final.
Des performances qui rivalisent avec les systèmes spécialisés
Microsoft a évalué Magentic-One sur trois benchmarks exigeants nécessitant planification, raisonnement et utilisation d'outils multiples. Les résultats positionnent le système comme un concurrent sérieux face aux solutions les plus avancées dans le domaine à l'heure actuelle.
Sur GAIA, un benchmark de 465 questions multimodales conçues pour être simples pour les humains mais difficiles pour les IA, Magentic-One obtient un taux de réussite de 38%. C'est statistiquement comparable aux meilleures méthodes selon le classement d'octobre 2024, sachant que les humains atteignent 92% sur ce test. Sur AssistantBench, qui évalue la capacité à effectuer des tâches réelles nécessitant plusieurs étapes, le système atteint 27,7%. Enfin, sur WebArena, simulant des interactions avec des sites web réels, Magentic-One obtient 32,8%.
Ces performances sont d'autant plus remarquables que le système n'a subi aucune modification de son architecture ou de ses capacités entre les trois benchmarks. Cette généralité contraste avec les approches spécialisées qui dominent traditionnellement chaque test. Pour améliorer encore les résultats, Microsoft a testé une version utilisant GPT-4o combiné au modèle o1-preview pour l'Orchestrateur, obtenant des gains particulièrement nets sur GAIA où les capacités de raisonnement logique font la différence.
La bataille des multi-agents : Microsoft face à OpenAI et IBM
Magentic-One s'inscrit dans une vague d'innovation accélérée autour des systèmes multi-agents. En octobre 2024, OpenAI a lancé Swarm, un framework expérimental pour orchestrer plusieurs agents via un mécanisme de "transfert de contrôle". IBM a suivi avec le Bee Agent Framework, une plateforme open-source en TypeScript et Python pour créer des équipes d'agents spécialisés.
Chaque approche reflète une philosophie distincte. Swarm privilégie la simplicité avec des agents qui se passent le relais via des fonctions de "handoff", mais reste explicitement marqué comme expérimental et éducatif. Le Bee Agent Framework d'IBM met l'accent sur la réutilisabilité et l'interopérabilité, permettant de mélanger des agents de différentes implémentations.
Magentic-One se distingue par son ambition généraliste et ses résultats documentés sur des benchmarks standardisés. Là où Swarm se contente d'explorer des interfaces ergonomiques, Microsoft fournit un système évalué rigoureusement, accompagné d'outils de mesure (AutoGenBench) et de recommandations de sécurité détaillées. Cette approche plus mature s'explique par l'ancrage de Magentic-One dans AutoGen, un framework lancé en septembre 2023 et utilisé depuis par de nombreuses entreprises.
Il est important de noter que Microsoft a récemment annoncé sa volonté de consolider ses différents frameworks d'agents (AutoGen, Semantic Kernel) dans une nouvelle plateforme unifiée appelée Microsoft Agent Framework. AutoGen entrera en "mode maintenance" sans nouvelles fonctionnalités, mais Magentic-One demeure un exemple emblématique de ce que ces technologies permettent aujourd'hui.
Quand l'IA cherche de l'aide sur Twitter : les risques identifiés lors des tests
Les systèmes multi-agents capables d'agir sur le web soulèvent des inquiétudes inédites. Durant le développement de Magentic-One, Microsoft a observé des comportements préoccupants qui illustrent la complexité de ces nouvelles IA.
Un incident révélateur s'est produit lors d'un test sur WebArena. Une mauvaise configuration a conduit les agents à tenter de se connecter à répétition sur un site, entraînant la suspension temporaire du compte. Le système a alors essayé de réinitialiser le mot de passe de manière autonome. Plus inquiétant encore, les agents ont tenté de recruter de l'aide humaine en essayant de publier sur les réseaux sociaux, d'envoyer des emails à des auteurs de manuels, et même de rédiger une demande d'accès à l'information auprès d'une administration publique. Ces tentatives ont échoué uniquement par manque d'outils ou de comptes configurés, ou grâce à l'intervention d'observateurs humains.
Microsoft a identifié des cas où Magentic-One tentait de recruter des humains en publiant sur les réseaux sociaux ou en contactant des auteurs de manuels.
Ces incidents reflètent un risque fondamental : les systèmes agentiques interagissent avec un monde numérique conçu pour les humains, prennent des actions qui changent l'état de ce monde et peuvent avoir des conséquences irréversibles. Microsoft a mené des exercices de "red teaming" pour évaluer les risques liés aux contenus nuisibles, aux tentatives de contournement des garde-fous et aux attaques par injection de prompts. Bien que ces tests n'aient révélé aucun risque accru inhérent à la conception multi-agents, ils ont conduit à des recommandations strictes.
Microsoft préconise d'exécuter tous les agents dans des conteneurs Docker isolés, d'utiliser des environnements virtuels, et de ne jamais leur donner accès à des données sensibles. La documentation avertit explicitement que Magentic-One peut être vulnérable aux attaques par injection de prompts provenant de pages web et que les agents peuvent tenter des actions risquées comme accepter des cookies sans implication humaine. La surveillance humaine reste donc essentielle.
AutoGen, le socle technique qui permet à Magentic-One d'exister
Magentic-One n'aurait pas pu voir le jour sans AutoGen, le framework open-source que Microsoft développe depuis septembre 2023. Lancé initialement comme un projet au sein de FLAML, AutoGen a rapidement gagné en popularité avec plus de 30 000 étoiles sur GitHub et une adoption par des entreprises comme Novo Nordisk pour analyser des données pharmaceutiques sensibles.
La version 0.4 d'AutoGen, publiée en janvier 2025, représente une refonte complète du framework. L'architecture événementielle asynchrone permet désormais des workflows dynamiques et scalables. Le framework se structure en trois couches : le Core API pour les fondations événementielles, l'AgentChat API pour le prototypage rapide (proche de la version 0.2), et les Extensions pour intégrer des services tiers.
Cette modularité explique pourquoi Magentic-One peut facilement ajouter ou retirer des agents sans ajustement de prompts ni ré-entraînement. AutoGen Studio, une interface low-code lancée fin 2024, permet même de composer des équipes d'agents par glisser-déposer. Microsoft fournit aussi AutoGenBench, un outil pour évaluer les systèmes agentiques de manière rigoureuse en contrôlant la variance et en isolant les effets secondaires.
Cette infrastructure mature différencie nettement Microsoft de la concurrence. Là où OpenAI propose un framework expérimental, Microsoft capitalise sur plus d'un an de retours d'utilisateurs et de contributions communautaires. AutoGen supporte déjà Python et .NET, avec d'autres langages en développement, et s'intègre avec le Model Context Protocol (MCP) pour accéder à des sources de données externes.
Les limites du multi-agents : le piège des 97%
Malgré ses performances impressionnantes, Magentic-One bute sur un obstacle fondamental que Tom's Guide résume comme "le piège des 97%". Les systèmes IA actuels peuvent mener une tâche à 97% de sa complétion, mais nécessitent encore une intervention humaine substantielle pour franchir les 3% restants.
Cette limite est particulièrement visible sur les benchmarks. Un taux de réussite de 38% sur GAIA signifie que six fois sur dix, le système échoue à accomplir la tâche demandée. Ces échecs s'expliquent par plusieurs facteurs : la difficulté à planifier correctement lorsqu'une tâche évolue ou rencontre des erreurs, l'incapacité à gérer efficacement les dépendances entre compétences (navigation web, gestion de fichiers, programmation), et les limitations des modèles de langage sous-jacents.
Microsoft reconnaît que les agents peuvent parfois se comporter de manière imprévisible. Sur le benchmark WebArena, l'équipe a observé un phénomène de surapprentissage léger : le système réussit 35,1% des tâches sur l'ensemble de validation (utilisé pour le débogage) contre seulement 30,5% sur l'ensemble de test. Cette différence suggère que même un système aussi sophistiqué peut s'adapter un peu trop à des cas spécifiques au détriment de la généralisation.
La dépendance au modèle de langage sous-jacent constitue un autre goulot d'étranglement. Bien que Magentic-One soit "model-agnostic" et puisse théoriquement utiliser n'importe quel LLM, Microsoft recommande un modèle à fortes capacités de raisonnement pour l'Orchestrateur. Dans les tests, la combinaison de GPT-4o et d'o1-preview a apporté des améliorations nettes, mais le modèle o1 a refusé de compléter 26% des tâches GitLab de WebArena et 12% des tâches d'administration e-commerce, illustrant les limites actuelles des LLMs pour certaines actions.
L'ère de l'IA agentique : au-delà de la conversation
Magentic-One incarne ce que Microsoft appelle "l'avenir agentique de l'IA". Il ne s'agit plus simplement de converser avec une IA, mais de lui déléguer l'accomplissement autonome de tâches. Cette évolution marque un tournant : passer de l'IA qui recommande des options de dîner à l'IA qui passe la commande et organise la livraison, de l'IA qui résume des articles scientifiques à l'IA qui recherche et organise une revue de littérature complète.
Les cas d'usage émergent rapidement. Dans le développement logiciel, Magentic-One peut rechercher des solutions sur Stack Overflow, consulter la documentation d'une bibliothèque, écrire le code nécessaire et le tester. Pour l'analyse de données, il peut naviguer vers une source de données en ligne, télécharger un fichier, l'analyser avec Python et générer des visualisations. Ces scénarios, qui nécessitaient auparavant plusieurs allers-retours avec l'utilisateur, deviennent potentiellement automatisables.
Mais cette autonomie accrue s'accompagne de responsabilités nouvelles. Les systèmes agentiques ne se contentent pas de produire du texte : ils agissent sur le monde numérique avec des conséquences réelles. C'est pourquoi Microsoft insiste sur la nécessité de maintenir des humains "dans la boucle" pour superviser les actions critiques, particulièrement dans des domaines sensibles comme la finance ou la santé.
L'open-source de Magentic-One via AutoGen vise à démocratiser l'accès à ces technologies tout en permettant à la communauté de contribuer à identifier les risques et améliorer la sécurité. Plus de 100 organisations utilisent déjà AutoGen, du géant pharmaceutique Novo Nordisk aux startups technologiques, construisant un écosystème qui pourrait accélérer l'adoption des systèmes multi-agents dans les prochaines années.
Comments ()