Amazon Nova Act : l'agent IA qui prend les commandes de votre navigateur

Amazon franchit une étape majeure dans le domaine de l'intelligence artificielle avec le lancement de Nova Act, un modèle capable de prendre le contrôle d'un navigateur web pour effectuer des tâches de manière autonome. Cette nouvelle technologie, dévoilée le 31 mars 2025, représente le premier produit issu des laboratoires d'intelligence artificielle générale (IAG) d'Amazon à San Francisco et s'inscrit dans la course aux agents IA autonomes qui transforment notre rapport au web.
Une IA qui agit plutôt que de simplement répondre
Nova Act se distingue des assistants virtuels classiques par sa capacité à agir concrètement sur le web plutôt que de simplement répondre à des questions. Ce modèle peut naviguer sur internet, effectuer des recherches, remplir des formulaires ou réaliser des achats en ligne. Contrairement aux chatbots traditionnels, il manipule directement l'interface utilisateur d'un navigateur, comme le ferait un humain.
L'innovation majeure réside dans la précision et la fiabilité de cet agent. Nova Act est conçu pour comprendre et interagir avec des éléments qui posent souvent problème aux autres systèmes d'IA, comme les menus déroulants, les sélecteurs de date ou les boîtes de dialogue contextuelles. Selon Amazon, cette IA obtient un score impressionnant de 94% sur le benchmark ScreenSpot Web Text, surpassant les performances de concurrents comme OpenAI (88%) et Anthropic (90%).
Le modèle accepte des instructions détaillées en langage naturel, permettant par exemple de spécifier des préférences précises lors d'un achat en ligne, comme refuser une assurance optionnelle. Cette flexibilité en fait un outil particulièrement adaptable aux besoins spécifiques des utilisateurs.
Les origines d'un projet ambitieux
Nova Act est né au sein du laboratoire d'intelligence artificielle générale d'Amazon à San Francisco, dirigé par David Luan et Pieter Abbeel, deux figures de proue dans le domaine. Luan, ancien vice-président d'OpenAI et directeur de recherche chez Google, a rejoint Amazon l'année dernière avec plusieurs collaborateurs d'Adept, une startup spécialisée dans l'automatisation des flux de travail en entreprise.
Ce développement s'inscrit dans une stratégie plus large d'Amazon pour rattraper son retard dans l'IA générative. Fin 2024, l'entreprise avait déjà lancé sa famille de modèles Nova, comprenant différentes versions adaptées à des besoins variés (Nova Micro, Lite, Pro, Premier) ainsi que des générateurs d'images et de vidéos (Nova Canvas et Nova Reel).
Nova Act marque une évolution significative dans cette gamme de produits, en ajoutant une dimension d'action concrète aux capacités conversationnelles et créatives des modèles précédents. Il s'agit aussi d'une réponse directe à OpenAI et son produit "Operator" ainsi qu'à Anthropic et son "Computer Use".
Comment fonctionne Nova Act et quels sont ses bénéfices
Le fonctionnement de Nova Act repose sur sa capacité à interpréter des instructions en langage naturel et à les traduire en actions précises dans un navigateur web. Pour les développeurs, Amazon a créé le Nova Act SDK, un kit de développement accessible via le site nova.amazon.com.
Ce SDK permet de programmer des agents personnalisés en combinant trois approches complémentaires :
- Des instructions en langage naturel facilement compréhensibles
- Des scripts Python pour la logique et le contrôle
- L'automatisation via Playwright pour manipuler directement le navigateur
L'un des avantages majeurs de cette approche hybride est sa flexibilité. Les développeurs peuvent décomposer des tâches complexes en étapes simples et fiables, ajouter des vérifications à des moments critiques, ou même exécuter plusieurs workflows en parallèle pour gagner du temps.
La vidéo de démonstration publiée par Amazon illustre parfaitement cette puissance : on y voit Nova Act rechercher des appartements sur Zumper, puis utiliser Google Maps pour calculer le temps de trajet à vélo jusqu'à la gare la plus proche pour chaque logement trouvé.
Pour les entreprises, les bénéfices sont multiples : automatisation de tâches répétitives, gain de productivité, réduction des erreurs humaines. Pour les particuliers, cette technologie promet de simplifier des actions quotidiennes comme les réservations en ligne ou les achats récurrents.
Des cas d'usage concrets et des perspectives d'avenir
Parmi les applications pratiques envisagées pour Nova Act, Amazon cite la possibilité de commander automatiquement des repas en ligne, réserver des restaurants ou soumettre des demandes de congés dans des systèmes internes. L'intégration prévue dans la prochaine version d'Alexa, baptisée Alexa+, permettra également d'étendre ces capacités à l'assistant vocal d'Amazon.
Le SDK offre des perspectives intéressantes pour les développeurs. Un exemple détaillé présenté par Amazon montre comment créer un agent qui recherche des appartements à louer selon des critères spécifiques, puis calcule automatiquement le temps de trajet à vélo jusqu'à la gare la plus proche pour chaque option, le tout exécuté en parallèle pour gagner du temps.
Cette technologie reste néanmoins à ses débuts. Actuellement disponible uniquement en "research preview" pour les développeurs aux États-Unis, Nova Act n'en est qu'à sa première étape. Amazon présente cette innovation comme un pas vers l'intelligence artificielle générale (AGI), avec l'ambition de développer des agents capables de réaliser des tâches beaucoup plus complexes à l'avenir.
David Luan exprime clairement cette vision : "Nous pensons vraiment que les agents sont la dernière pièce manquante sur le chemin vers l'intelligence générale". L'objectif à long terme serait de concevoir des systèmes capables d'organiser un mariage complet ou de gérer des tâches informatiques complexes de manière autonome.
Une course technologique qui s'accélère
Le lancement de Nova Act confirme l'intensification de la compétition dans le domaine des agents IA autonomes. Amazon rejoint ainsi OpenAI et Anthropic dans cette course, mais avec un avantage potentiel : l'écosystème Alexa, qui pourrait offrir à ses agents une diffusion massive auprès du grand public.
Pour les utilisateurs comme pour les développeurs, cette concurrence accrue promet d'accélérer l'innovation et d'améliorer rapidement les capacités de ces technologies. La question reste de savoir comment ces agents évolueront face aux défis éthiques et de sécurité qu'ils soulèvent inévitablement.
Comments ()