Google está lanzando una vista previa de su modelo de Uso de Computadoras Gemini 2.5, con nombre en código Project Mariner, que permite a los agentes de IA interactuar con interfaces gráficas de usuario, específicamente navegadores y sitios web. Este modelo especializado analiza las solicitudes del usuario, las capturas de pantalla y el historial de acciones para realizar tareas como hacer clic, escribir, buscar y desplazarse. Cicla a través del análisis y la ejecución hasta que una tarea se completa. Las demostraciones muestran un rendimiento impresionante en el control de interfaces web y móviles, superando a los competidores en la calidad y latencia del control del navegador. Los desarrolladores pueden acceder a esta IA a través de la API de Gemini en Google AI Studio y Vertex AI.
Prepared by Jonathan Pierce and reviewed by editorial team.
Comments