Google lance un aperçu de son modèle Gemini 2.5 Computer Use, nom de code Projet Mariner, permettant aux agents d'IA d'interagir avec des interfaces utilisateur graphiques, spécifiquement les navigateurs et les sites web. Ce modèle spécialisé analyse les requêtes des utilisateurs, les captures d'écran et l'historique des actions pour effectuer des tâches telles que cliquer, taper, rechercher et faire défiler. Il boucle entre l'analyse et l'exécution jusqu'à ce qu'une tâche soit terminée. Des démonstrations montrent des performances impressionnantes dans le contrôle des interfaces utilisateur web et mobiles, surpassant les concurrents en qualité et en latence de contrôle des navigateurs. Les développeurs peuvent accéder à cette IA via l'API Gemini dans Google AI Studio et Vertex AI.
Prepared by Jonathan Pierce and reviewed by editorial team.
Comments