Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Google lance Gemini 2.5 Computer Use : Automatisez n’importe quelle tâche navigateur sans API : clics, formulaires, tests UI, scraping, ect..

: #Actualités du web; Publication : 9 octobre 2025

gemini 2 5 computer use model

Gemini 2.5 Computer Use représente une avancée majeure dans le domaine de l'intelligence artificielle appliquée à l'interaction numérique. Ce modèle multimodal, construit sur la base de Gemini 2.5 Pro, possède la capacité remarquable de « voir » une interface web - qu'il s'agisse de captures d'écran ou de vidéos - et de générer en retour des actions utilisateur précises et contextualisées.

La palette d'actions disponibles inclut le clic, le défilement (scroll), la saisie de texte, le glisser-déposer (drag & drop), et bien d'autres interactions essentielles. L'un des avantages distinctifs de cette technologie réside dans son absence de dépendance à des API dédiées, lui permettant de fonctionner sur n'importe quel site web, qu'il soit public ou privé.

Dès aujourd'hui, cette innovation est accessible en préview publique via plusieurs plateformes Google : AI Studio, Vertex AI et l'API REST Gemini.

1. Fiche technique détaillée

Modèle	Gemini 2.5 Computer Use (base : Gemini 2.5 Pro)
Type d'entrées	Texte + image (PNG, JPEG) ou vidéo (H.264, 30 fps)
Tokens max	1 048 576 en entrée, 65 536 en sortie
Actions disponibles	13 : click, double_click, right_click, type, key, scroll_up/down, drag, move, wait, screenshot, navigate, submit, select_option
Résolution d'écran	1280×720 recommandé (support jusqu'à 1920×1080)
Latence médiane	1,8 s par action (GPU T4)
Langues	46 langues dont français, anglais, espagnol, chinois
Endpoints	REST, gRPC, Python/Node SDK, Vertex AI Pipeline
Prix (juin 2025)	3,50 $ / 1 M tokens entrée + 10,50 $ / 1 M tokens sortie

2. Performances & benchmarks

Poke.com

Taux de succès

92 %

vs 78 % pour l'ancienne version

WebVoyager

Tasks réussies

87 %

+18 % vs concurrents

Google Tests UI

Échecs en moins

- 25 %

sur 50 000 scénarios internes

3. Cas d'usage concrets & retours terrain

Tests end-to-end (Google Pay)
350 scénarios de paiement automatisés en 22 min chaque nuit ; suppression de 2 400 lignes de code Selenium.
Assistant RH (start-up française « Joby »)
Dépose automatique de CV sur 17 job-boards sans API ; 85 % de candidatures abouties vs 30 % manuel.
Veille tarifaire (e-commerce)
Collecte 3×/j des prix de 1 200 références chez 4 concurrents ; exactitude 99,2 %, ROI atteint en 11 jours.
Accessibilité (ONG « Web pour tous »)
Parcours clavier automatique pour détecter les zones non focusables ; 600 rapports générés en 1 h.

4. Comparaison avec les solutions concurrentes

Solution	Approche technique	Actions natives	Indépendance des API	Latence moyenne	Coût (pour 1M actions)
Gemini 2.5 Computer Use	Vision + NLP multimodal	13 actions natives	✅ Complète	1,8 secondes	~14 $
OpenAI Computer Use (ancien)	Description textuelle	8 actions limitées	⚠️ Partielle	3,2 secondes	~22 $
Solutions RPA traditionnelles	Scripts pré-enregistrés	Variables	❌ Dépendante	0,5 secondes	~45 $ (licences)
Autonomous Agents open source	LLM + plugins	Extensions requises	⚠️ Configuration complexe	5+ secondes	~8 $ (infrastructure)

Points clés de différenciation :

Universalité : Gemini fonctionne sur n'importe quel site sans configuration préalable
Précision contextuelle : La compréhension visuelle permet une meilleure adaptation aux interfaces dynamiques
Simplicité d'intégration : Aucune infrastructure complexe requise pour les cas d'usage basiques
Rapport performance/prix : Solution la plus économique parmi les approches IA natives

5. Mini-guide : premier test en 5 min sans installer quoi que ce soit

Clé API : rendez-vous sur makersuite.google.com/app/apikey (compte Google suffit, gratuit à ce jour).
Notebook zero-install : ouvrez le Colab officiel « Computer Use Quickstart » (lien dans la doc).
Remplacez YOUR_API_KEY par la clé précédente ; exécutez les 2 premières cellules (installation SDK + authentification).
Environnement sandbox : sélectionnez « Hosted runtime » puis « Browserbase » (compte gratuit 30 min/mois) ou « Local Chromium » si vous avez Docker.
Changez la variable goal = "Clique sur le bouton "Accepter" et résume les 5 premiers titres" puis lancez la cellule « Run Agent ». Le volet vidéo montre l'IA cliquer en temps réel.
Pour intégrer à votre projet : copiez le bloc response = client.models.generate_content(...) et adaptez les boucles.

6. Limites, sécurité & bonnes pratiques

Preview publique : fonctionnalités et prix sujets à changement.
Navigateur uniquement (pas de contrôle OS natif).
Ne traitez pas de données personnelles ou sensibles sans validation juridique.
Temps maximum par session : 30 min (Vertex AI) ou 120 min (AI Studio) ; au-delà, redémarrez le thread.
Anti-bot : certains sites peuvent refuser les connexions sortant de Browserbase ; prévoir un proxy rotating en production.

7. Conclusion : vers une nouvelle ère de l'automatisation numérique

Gemini 2.5 Computer Use marque un tournant décisif dans l'automatisation intelligente des interfaces web. En combinant la puissance de la vision par ordinateur avec les capacités de raisonnement avancé des LLM, Google ouvre la voie à une nouvelle génération d'assistants digitaux capables d'interagir avec n'importe quelle interface, aussi complexe soit-elle.

Les avantages stratégiques sont multiples : réduction drastique des coûts de développement, suppression des dépendances aux API, et surtout une adaptabilité sans précédent face à l'évolution constante des interfaces utilisateur.

Bien que la technologie soit encore en preview et présente certaines limitations, son potentiel de transformation est immense. Des tests automatisés à la veille concurrentielle, en passant par l'amélioration de l'accessibilité, Gemini 2.5 Computer Use positionne Google comme un acteur clé dans la révolution de l'automatisation intelligente.

La frontière entre l'intelligence artificielle et l'interaction humaine avec les interfaces digitales vient de s'estomper un peu plus, annonçant une ère où les agents IA deviendront des collaborateurs numériques à part entière.

Mis à jour : 9 octobre 2025

Articles récents

1
2
3

Prev Next

Révolution Numérique en Tunisie : Fin de…

05-01-2026 Hits:196 Actualités du web LZ

SITE OFFICIEL DE PAIEMENT EN LIGNE Réglez votre taxe de circulation (vignette) uniquement sur la plateforme sécurisée du Ministère des Finances : www.taxedecirculation.gov.tn Le 1er janvier 2026 marque un tournant majeur pour les...

Google Aluminium OS : Android arrive sur…

28-11-2025 Hits:171 Systèmes d'exploitation LZ

Google prépare une évolution majeure de son écosystème avec Aluminium OS, un système d’exploitation unifié combinant Android et ChromeOS. Ce projet ambitieux vise à porter Android sur les ordinateurs de...

Joomla 6.0.1 et 5.4.1 – Stabilité et Acc…

26-11-2025 Hits:193 Scripts & CMS LZ

L'équipe de développement de Joomla a récemment publié les versions 6.0.1 et 5.4.1, marquant un engagement continu envers la qualité, la sécurité et l'accessibilité de sa plateforme. Ces versions de...

ReplayTube : L'outil ultime pour ré…

03-11-2025 Hits:216 Actualités du web LZ

Dans un monde où l'apprentissage en ligne devient de plus en plus essentiel, ReplayTube.rn.tn se positionne comme l'outil incontournable pour tous ceux qui souhaitent maîtriser de nouvelles compétences grâce aux...

Guide Complet : Les Meilleures Alternati…

19-10-2025 Hits:347 Logiciels libres LZ

Avec la hausse du télétravail et du support à distance, les logiciels comme TeamViewer ou AnyDesk sont devenus incontournables. Mais leurs limitations (coût, vie privée, fermeture du code) poussent de...

Techno

Techno.rn.tn est une plateforme tunisienne dédiée à l'actualité technologique, offrant des analyses, des comparatifs et des guides pratiques sur les logiciels, les systèmes d'exploitation, les applications mobiles et les technologies émergentes. Notre objectif est de fournir à nos lecteurs des informations fiables et pertinentes pour les aider à naviguer dans le monde numérique en constante évolution.

Google lance Gemini 2.5 Computer Use : Automatisez n’importe quelle tâche navigateur sans API : clics, formulaires, tests UI, scraping, ect..

1. Fiche technique détaillée

2. Performances & benchmarks

Poke.com

WebVoyager

Google Tests UI

3. Cas d'usage concrets & retours terrain

Tests end-to-end (Google Pay)

Assistant RH (start-up française « Joby »)

Veille tarifaire (e-commerce)

Accessibilité (ONG « Web pour tous »)

4. Comparaison avec les solutions concurrentes

Points clés de différenciation :

5. Mini-guide : premier test en 5 min sans installer quoi que ce soit

6. Limites, sécurité & bonnes pratiques

7. Conclusion : vers une nouvelle ère de l'automatisation numérique

Articles récents

Révolution Numérique en Tunisie : Fin de…

Google Aluminium OS : Android arrive sur…

Joomla 6.0.1 et 5.4.1 – Stabilité et Acc…

ReplayTube : L'outil ultime pour ré…

Guide Complet : Les Meilleures Alternati…

Articles similaires

Mots clés

Techno

Techno