A:AUI-Gym是由牛津大学、新加坡国立大学和微软联合开发的AI界面设计测试平台。它包含52个不同类型的应用程序和1560个测试任务,专门用于让AI学习如何设计和优化用户界面。这个平台就像一个AI专用的"装修训练场",让编程AI和操作AI能够合作改 ...
长期以来,人工智能Agent(智能体)的活动范围,似乎一直局限于代码和API的数字世界。它们能理解语言、生成内容、调用接口,但始终无法像人类一样,直观地与我们每天都在使用的图形用户界面(GUI)进行交互。然而,谷歌DeepMind近期发布的Gemini 2.5 Computer Use ...
谷歌 DeepMind 今日凌晨正式发布了基于 Gemini 2.5的 Computer Use模型,引发了业界对 CUA (Computer-Using Agent)领域的广泛关注。 继 OpenAI 之后,谷歌的入局无疑为这一领域注入了新的活力,预示着 AI 直接操控浏览器、与用户进行更自然交互的时代正在加速到来。 Gemini 2.5 ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
IT之家10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
编者按:近年来,大模型在多模态交互中的应用不断深入,使得人机交互中的“理解能力”面临新的挑战。特别是在 Compute Use Agent 的发展背景下,如何准确理解用户的自然语言指令并将其映射到复杂 GUI 界面中的相应元素(即 “GUI Grounding” 任务)成为关键。
本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅。通讯作者为刘东瑞和邵婧,上海 AI Lab 安全团队,研究方向为 AI 安全可信。 从 Anthropic 的 Claude 3.5 Sonnet 自带 Computer-Use 功能 ...
「Agent/智能体」可说是当今 AI 领域最炙手可热的话题。今天凌晨,OpenAI 发布了一系列可让开发者通过 API 构建智能体的新工具,其中最大的看点便是 Responses API,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而 ...
我在今年1月初写了2025年的AI Agent发展十三大趋势,其中两个趋势是多Agent系统开始流行和GUI Agent产品得到更多应用,没想到来得这么快。 推荐阅读: 智能体商用元年开启,2025年AI Agent行业发展十三大趋势 最近几天,集多Agent架构、computer use、GUI智能体 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果