谷歌正在发布其代号为“Mariner项目”的Gemini 2.5计算机使用模型的预览版,该模型使AI代理能够与图形用户界面交互,特别是浏览器和网站。这个专用模型分析用户请求、截图和操作历史,以执行点击、输入、搜索和滚动等任务。它会循环进行分析和执行,直到任务完成。演示表明其在Web和移动UI控制方面表现出色,在浏览器控制质量和延迟方面优于竞争对手。开发人员可以通过Google AI Studio和Vertex AI中的Gemini API访问此AI。
Prepared by Jonathan Pierce and reviewed by editorial team.
Comments