Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Google lance Gemini 2.5 Computer Use : Automatisez n’importe quelle tâche navigateur sans API : clics, formulaires, tests UI, scraping, ect..

gemini 2 5 computer use model

Gemini 2.5 Computer Use représente une avancée majeure dans le domaine de l'intelligence artificielle appliquée à l'interaction numérique. Ce modèle multimodal, construit sur la base de Gemini 2.5 Pro, possède la capacité remarquable de « voir » une interface web - qu'il s'agisse de captures d'écran ou de vidéos - et de générer en retour des actions utilisateur précises et contextualisées.

La palette d'actions disponibles inclut le clic, le défilement (scroll), la saisie de texte, le glisser-déposer (drag & drop), et bien d'autres interactions essentielles. L'un des avantages distinctifs de cette technologie réside dans son absence de dépendance à des API dédiées, lui permettant de fonctionner sur n'importe quel site web, qu'il soit public ou privé.

Dès aujourd'hui, cette innovation est accessible en préview publique via plusieurs plateformes Google : AI Studio, Vertex AI et l'API REST Gemini.

1. Fiche technique détaillée

Modèle Gemini 2.5 Computer Use (base : Gemini 2.5 Pro)
Type d'entrées Texte + image (PNG, JPEG) ou vidéo (H.264, 30 fps)
Tokens max 1 048 576 en entrée, 65 536 en sortie
Actions disponibles 13 : click, double_click, right_click, type, key, scroll_up/down, drag, move, wait, screenshot, navigate, submit, select_option
Résolution d'écran 1280×720 recommandé (support jusqu'à 1920×1080)
Latence médiane 1,8 s par action (GPU T4)
Langues 46 langues dont français, anglais, espagnol, chinois
Endpoints REST, gRPC, Python/Node SDK, Vertex AI Pipeline
Prix (juin 2025) 3,50 $ / 1 M tokens entrée + 10,50 $ / 1 M tokens sortie

2. Performances & benchmarks

Poke.com

Taux de succès

92 %

vs 78 % pour l'ancienne version

WebVoyager

Tasks réussies

87 %

+18 % vs concurrents

Google Tests UI

Échecs en moins

- 25 %

sur 50 000 scénarios internes

3. Cas d'usage concrets & retours terrain

  • Tests end-to-end (Google Pay)

    350 scénarios de paiement automatisés en 22 min chaque nuit ; suppression de 2 400 lignes de code Selenium.

  • Assistant RH (start-up française « Joby »)

    Dépose automatique de CV sur 17 job-boards sans API ; 85 % de candidatures abouties vs 30 % manuel.

  • Veille tarifaire (e-commerce)

    Collecte 3×/j des prix de 1 200 références chez 4 concurrents ; exactitude 99,2 %, ROI atteint en 11 jours.

  • Accessibilité (ONG « Web pour tous »)

    Parcours clavier automatique pour détecter les zones non focusables ; 600 rapports générés en 1 h.

4. Comparaison avec les solutions concurrentes

SolutionApproche techniqueActions nativesIndépendance des APILatence moyenneCoût (pour 1M actions)
Gemini 2.5 Computer Use Vision + NLP multimodal 13 actions natives ✅ Complète 1,8 secondes ~14 $
OpenAI Computer Use (ancien) Description textuelle 8 actions limitées ⚠️ Partielle 3,2 secondes ~22 $
Solutions RPA traditionnelles Scripts pré-enregistrés Variables ❌ Dépendante 0,5 secondes ~45 $ (licences)
Autonomous Agents open source LLM + plugins Extensions requises ⚠️ Configuration complexe 5+ secondes ~8 $ (infrastructure)
Points clés de différenciation :
  • Universalité : Gemini fonctionne sur n'importe quel site sans configuration préalable
  • Précision contextuelle : La compréhension visuelle permet une meilleure adaptation aux interfaces dynamiques
  • Simplicité d'intégration : Aucune infrastructure complexe requise pour les cas d'usage basiques
  • Rapport performance/prix : Solution la plus économique parmi les approches IA natives

5. Mini-guide : premier test en 5 min sans installer quoi que ce soit

  1. Clé API : rendez-vous sur makersuite.google.com/app/apikey (compte Google suffit, gratuit à ce jour).
  2. Notebook zero-install : ouvrez le Colab officiel « Computer Use Quickstart » (lien dans la doc).
  3. Remplacez YOUR_API_KEY par la clé précédente ; exécutez les 2 premières cellules (installation SDK + authentification).
  4. Environnement sandbox : sélectionnez « Hosted runtime » puis « Browserbase » (compte gratuit 30 min/mois) ou « Local Chromium » si vous avez Docker.
  5. Changez la variable goal = "Clique sur le bouton "Accepter" et résume les 5 premiers titres" puis lancez la cellule « Run Agent ». Le volet vidéo montre l'IA cliquer en temps réel.
  6. Pour intégrer à votre projet : copiez le bloc response = client.models.generate_content(...) et adaptez les boucles.

6. Limites, sécurité & bonnes pratiques

  • Preview publique : fonctionnalités et prix sujets à changement.
  • Navigateur uniquement (pas de contrôle OS natif).
  • Ne traitez pas de données personnelles ou sensibles sans validation juridique.
  • Temps maximum par session : 30 min (Vertex AI) ou 120 min (AI Studio) ; au-delà, redémarrez le thread.
  • Anti-bot : certains sites peuvent refuser les connexions sortant de Browserbase ; prévoir un proxy rotating en production.

7. Conclusion : vers une nouvelle ère de l'automatisation numérique

Gemini 2.5 Computer Use marque un tournant décisif dans l'automatisation intelligente des interfaces web. En combinant la puissance de la vision par ordinateur avec les capacités de raisonnement avancé des LLM, Google ouvre la voie à une nouvelle génération d'assistants digitaux capables d'interagir avec n'importe quelle interface, aussi complexe soit-elle.

Les avantages stratégiques sont multiples : réduction drastique des coûts de développement, suppression des dépendances aux API, et surtout une adaptabilité sans précédent face à l'évolution constante des interfaces utilisateur.

Bien que la technologie soit encore en preview et présente certaines limitations, son potentiel de transformation est immense. Des tests automatisés à la veille concurrentielle, en passant par l'amélioration de l'accessibilité, Gemini 2.5 Computer Use positionne Google comme un acteur clé dans la révolution de l'automatisation intelligente.

La frontière entre l'intelligence artificielle et l'interaction humaine avec les interfaces digitales vient de s'estomper un peu plus, annonçant une ère où les agents IA deviendront des collaborateurs numériques à part entière.