能自主操控手机与电脑的新一代智能体系统诞生了。
通义实验室最新推出的Mobile-Agent-v3智能体框架,在移动端与桌面端多个核心评测榜单中均获得开源领域最佳表现。
该系统不仅具备交互界面问答、描述定位等基础能力,更能通过单一指令独立完成复杂任务,并可在多智能体架构中灵活扮演不同角色。
**功能演示示例** – PC+Web场景示例:于Edge浏览器内查询阿里巴巴当前股价,并于WPS新建表格文档,在首列录入公司名称、次列填入对应股价数值 – PC独立操作:创建空白演示文稿后,在首张幻灯片以艺术字形式插入”阿里巴巴”文本 – 移动端场景: 1. 在小红书应用按收藏量排序搜索济南旅游攻略并保存首条笔记 2. 通过携程应用获取济南大明湖风景区详细信息(含地址票价等) 当前图形界面自动化领域面临两大挑战:专用模型虽功能固化但缺乏泛化能力;
通用模型虽能遵循指令却执行效率低下。
此次通义团队创新性提出图形交互基础模型(Foundational Agent)解决方案——GUI-Owl模型同时具备扎实的基础技能与强大的推理泛化能力,在AndroidWorld、OSWorld等10个主流GUI评测榜单均取得开源最优成绩。
**核心技术架构** 1. **跨平台云环境构建** 依托阿里云搭建覆盖Android/Ubuntu/macOS/Windows系统的云端基础设施集群 采用PyAutoGUI/ADB工具实现模型指令到系统操作的技术映射 2. **自我进化式数据生产** 设计”Self-Evolving GUI Trajectory Production”自动化数据生产线: – 高质量任务生成模块持续产出多样化指令 – 模型在云端沙箱环境执行任务并采集轨迹数据 – 轨迹筛选模块通过IoU匹配度过滤无效数据 – 自动化指导生成模块提炼成功案例的关键步骤提示 **多维度训练策略** – **视觉接地训练** 1. UI元素定位: – 整合UI-Vision/GUI-R1等开源数据集 – 基于无障碍树(A11y Tree)合成界面元素描述 – 使用SAM分割模型处理PC端密集界面元素 – 过滤IoU
评论列表 (0条):
加载更多评论 Loading...