Gemini 2.5 Computer Use représente une avancée majeure dans le domaine de l'intelligence artificielle appliquée à l'interaction numérique. Ce modèle multimodal, construit sur la base de Gemini 2.5 Pro, possède la capacité remarquable de « voir » une interface web - qu'il s'agisse de captures d'écran ou de vidéos - et de générer en retour des actions utilisateur précises et contextualisées.
La palette d'actions disponibles inclut le clic, le défilement (scroll), la saisie de texte, le glisser-déposer (drag & drop), et bien d'autres interactions essentielles. L'un des avantages distinctifs de cette technologie réside dans son absence de dépendance à des API dédiées, lui permettant de fonctionner sur n'importe quel site web, qu'il soit public ou privé.
Dès aujourd'hui, cette innovation est accessible en préview publique via plusieurs plateformes Google : AI Studio, Vertex AI et l'API REST Gemini.
1. Fiche technique détaillée
Modèle | Gemini 2.5 Computer Use (base : Gemini 2.5 Pro) |
---|---|
Type d'entrées | Texte + image (PNG, JPEG) ou vidéo (H.264, 30 fps) |
Tokens max | 1 048 576 en entrée, 65 536 en sortie |
Actions disponibles | 13 : click, double_click, right_click, type, key, scroll_up/down, drag, move, wait, screenshot, navigate, submit, select_option |
Résolution d'écran | 1280×720 recommandé (support jusqu'à 1920×1080) |
Latence médiane | 1,8 s par action (GPU T4) |
Langues | 46 langues dont français, anglais, espagnol, chinois |
Endpoints | REST, gRPC, Python/Node SDK, Vertex AI Pipeline |
Prix (juin 2025) | 3,50 $ / 1 M tokens entrée + 10,50 $ / 1 M tokens sortie |
2. Performances & benchmarks
Poke.com
Taux de succès
92 %
vs 78 % pour l'ancienne versionWebVoyager
Tasks réussies
87 %
+18 % vs concurrentsGoogle Tests UI
Échecs en moins
- 25 %
sur 50 000 scénarios internes3. Cas d'usage concrets & retours terrain
Tests end-to-end (Google Pay)
350 scénarios de paiement automatisés en 22 min chaque nuit ; suppression de 2 400 lignes de code Selenium.
Assistant RH (start-up française « Joby »)
Dépose automatique de CV sur 17 job-boards sans API ; 85 % de candidatures abouties vs 30 % manuel.
Veille tarifaire (e-commerce)
Collecte 3×/j des prix de 1 200 références chez 4 concurrents ; exactitude 99,2 %, ROI atteint en 11 jours.
Accessibilité (ONG « Web pour tous »)
Parcours clavier automatique pour détecter les zones non focusables ; 600 rapports générés en 1 h.
4. Comparaison avec les solutions concurrentes
Solution | Approche technique | Actions natives | Indépendance des API | Latence moyenne | Coût (pour 1M actions) |
---|---|---|---|---|---|
Gemini 2.5 Computer Use | Vision + NLP multimodal | 13 actions natives | ✅ Complète | 1,8 secondes | ~14 $ |
OpenAI Computer Use (ancien) | Description textuelle | 8 actions limitées | ⚠️ Partielle | 3,2 secondes | ~22 $ |
Solutions RPA traditionnelles | Scripts pré-enregistrés | Variables | ❌ Dépendante | 0,5 secondes | ~45 $ (licences) |
Autonomous Agents open source | LLM + plugins | Extensions requises | ⚠️ Configuration complexe | 5+ secondes | ~8 $ (infrastructure) |
Points clés de différenciation :
- Universalité : Gemini fonctionne sur n'importe quel site sans configuration préalable
- Précision contextuelle : La compréhension visuelle permet une meilleure adaptation aux interfaces dynamiques
- Simplicité d'intégration : Aucune infrastructure complexe requise pour les cas d'usage basiques
- Rapport performance/prix : Solution la plus économique parmi les approches IA natives
5. Mini-guide : premier test en 5 min sans installer quoi que ce soit
- Clé API : rendez-vous sur makersuite.google.com/app/apikey (compte Google suffit, gratuit à ce jour).
- Notebook zero-install : ouvrez le Colab officiel « Computer Use Quickstart » (lien dans la doc).
- Remplacez
YOUR_API_KEY
par la clé précédente ; exécutez les 2 premières cellules (installation SDK + authentification). - Environnement sandbox : sélectionnez « Hosted runtime » puis « Browserbase » (compte gratuit 30 min/mois) ou « Local Chromium » si vous avez Docker.
- Changez la variable
goal = "Clique sur le bouton "Accepter" et résume les 5 premiers titres"
puis lancez la cellule « Run Agent ». Le volet vidéo montre l'IA cliquer en temps réel. - Pour intégrer à votre projet : copiez le bloc
response = client.models.generate_content(...)
et adaptez les boucles.
6. Limites, sécurité & bonnes pratiques
- Preview publique : fonctionnalités et prix sujets à changement.
- Navigateur uniquement (pas de contrôle OS natif).
- Ne traitez pas de données personnelles ou sensibles sans validation juridique.
- Temps maximum par session : 30 min (Vertex AI) ou 120 min (AI Studio) ; au-delà, redémarrez le thread.
- Anti-bot : certains sites peuvent refuser les connexions sortant de Browserbase ; prévoir un proxy rotating en production.
7. Conclusion : vers une nouvelle ère de l'automatisation numérique
Gemini 2.5 Computer Use marque un tournant décisif dans l'automatisation intelligente des interfaces web. En combinant la puissance de la vision par ordinateur avec les capacités de raisonnement avancé des LLM, Google ouvre la voie à une nouvelle génération d'assistants digitaux capables d'interagir avec n'importe quelle interface, aussi complexe soit-elle.
Les avantages stratégiques sont multiples : réduction drastique des coûts de développement, suppression des dépendances aux API, et surtout une adaptabilité sans précédent face à l'évolution constante des interfaces utilisateur.
Bien que la technologie soit encore en preview et présente certaines limitations, son potentiel de transformation est immense. Des tests automatisés à la veille concurrentielle, en passant par l'amélioration de l'accessibilité, Gemini 2.5 Computer Use positionne Google comme un acteur clé dans la révolution de l'automatisation intelligente.
La frontière entre l'intelligence artificielle et l'interaction humaine avec les interfaces digitales vient de s'estomper un peu plus, annonçant une ère où les agents IA deviendront des collaborateurs numériques à part entière.