如何训练一个原生 Computer Use 模型
Computer Use 模型的技术全景
2025 年,AI 领域出现了一个重要的范式转移:让大模型直接操控计算机界面。从 OpenAI 的 CUA(Computer-Using Agent)到 Anthropic 的 Claude Computer Use,从字节跳动的 UI-TARS 到微软的 OmniParser,各大厂商和研究机构纷纷押注这个方向。这不是简单的"截图 + OCR + 操作脚本"的工程拼凑,而是一个涉及视觉感知、语言理解、动作规划与强化学习的端到端训练问题。
要理解"原生 Computer Use 模型"的含义,首先需要区分两种技术架构:
端到端 vs 模块化:两条路线之争
| 架构范式 | 代表系统 | 核心思路 | 优势 | 劣势 |
|---|---|---|---|---|
| 模块化组合 | OmniParser + GPT-4o | 屏幕解析工具 + 通用 LLM | 复用现有能力,部署灵活 | 组件间信息丢失,延迟高,错误累积 |
| 端到端原生 | UI-TARS、CUA、Gelato | 视觉语言模型直接输出操作 | 端到端优化,响应快,泛化好 | 训练数据需求大,训练成本高 |
模块化方案以微软的 OmniParser 为代表:先用专门的图标检测模型和 Caption 模型将屏幕解析为结构化的 UI 元素列表,然后将这些元素以文本形式传给 GPT-4o 等通用 LLM 进行推理。这种方式的优势在于可以复用最强大的通用 LLM 的推理能力,OmniParser 在 ScreenSpot-Pro 上达到 39.5% 的准确率,证明了屏幕解析工具的价值。但其瓶颈也很明显——组件间信息传递存在不可避免的损失,整体延迟受限于多组件串行调用,且无法针对 GUI 操作场景进行端到端优化。
端到端原生方案是本文关注的重点。这类模型将视觉理解、语言推理和动作预测统一在一个模型中:输入一张屏幕截图和一条自然语言指令,直接输出要执行的操作(点击坐标、输入文本、滚动方向等)。代表系统包括字节跳动的 UI-TARS(基于 Qwen2.5-VL,开源)、OpenAI 的 CUA(基于 GPT-4o + 强化学习)、以及 Gelato-30B-A3B(mlfoundations 开源,ScreenSpot-Pro 达到 63.88%)。端到端方案的核心优势是信息不经过中间编码-解码的损耗,模型可以学习到截图和操作之间的隐式映射关系。
核心技术栈拆解
一个 Computer Use 模型需要同时具备三项基本能力,三者缺一不可:
1. GUI Grounding(视觉定位)
视觉定位是将自然语言描述映射到屏幕精确坐标的能力。例如,给定指令"点击搜索框",模型需要在截图中精确定位搜索框的位置并输出对应的 (x, y) 坐标。
这看起来简单,但实际挑战巨大:屏幕上的 UI 元素密集且尺度差异极大(从一个 16×16 的图标到占满半屏的输入框),文本渲染方式各异(中英混排、图标文字、艺术字体),且不同操作系统、不同应用的 UI 风格千差万别。ScreenSpot-Pro 基准专门测试这种细粒度定位能力,截至 2026 年初,最强的开源模型 Gelato-30B-A3B 在该基准上达到 63.88%,而 UI-TARS-72B 为 45.6%,说明这仍然是一个开放问题。
2. Action Prediction(动作预测)
动作预测是在给定当前屏幕状态和任务目标的情况下,决定下一步该执行什么操作。常见操作空间包括:
- 点击(Click):包括左键单击、双击、右键点击
- 输入(Type/Keystroke):文本输入和快捷键操作
- 滚动(Scroll):上下左右滚动
- 拖拽(Drag):鼠标拖拽操作
- 等待(Wait):页面加载中需要等待
- 完成(Finish):任务已完成,停止操作
动作空间的设计直接影响训练复杂度。过于细碎的动作空间会增加学习难度,过于粗糙则无法表达精细操作。UI-TARS 采用了相对简洁的动作空间设计,将操作分为 click(x, y, action_type)、type(text)、scroll(direction, amount)、key(modifier, key) 等原子操作。
3. Task Planning(任务规划)
任务规划是多步交互中的核心能力。很多 GUI 任务需要 5-30 步操作才能完成,模型需要在每一步都根据当前屏幕状态做出正确的决策,并保持对整体任务目标的追踪。
一个典型的例子是"在电商网站搜索并购买一件商品":打开浏览器 → 导航到网站 → 点击搜索框 → 输入商品名 → 点击搜索 → 浏览结果 → 选择商品 → 选择规格 → 加入购物车 → 进入结算 → 填写地址 → 确认支付。这个过程中的每一步都依赖于前一步的结果,模型需要具备长程推理和错误恢复能力。
数据工程:训练数据从哪来
数据是训练 Computer Use 模型的第一道门槛,也是决定模型上限的关键因素。训练数据主要来自四个渠道:
公开数据集
| 数据集 | 来源 | 规模 | 特点 |
|---|---|---|---|
| ShowUI | Microsoft | 366K | Web UI 视觉定位 |
| AutoGUI | 学术界 | 50K+ | 自动化生成的 GUI 交互轨迹 |
| OS-Atlas | 学术界 | 1.3M | 跨平台 GUI 数据(Web + Desktop + Mobile) |
| UGround | 学术界 | 700K+ | 通用视觉定位数据 |
| SeeClick | 学术界 | 200K+ | 高质量点击定位数据 |
| PixMo | 学术界 | 多样化 | 多任务视觉指令数据 |
| Click-100k | mlfoundations | 100K+ | 精选的高质量点击数据,整合 8+ 来源 |
Gelato 项目在构建 Click-100k 数据集时展示了一种高效的数据工程方法:从 8 个以上的公开数据源中进行多维度筛选和清洗,最终筛选出 10 万条高质量点击定位数据。这表明在 Computer Use 领域,数据质量远比数据数量重要。
合成数据
合成数据是当前最主流的训练数据生成方式,主要包括:
- DOM 树提取:从 Web 页面中提取 DOM 树结构,生成元素位置标注和交互指令。这是 WebArena 等 Web 环境数据的主要来源。
- 逆向工程桌面应用:通过 Accessibility Tree(无障碍树)获取桌面应用的 UI 结构,结合截图生成训练对。
- 模板化生成:基于预定义的 UI 布局模板,自动生成多样化的屏幕截图和对应的操作指令。
人工标注
人工标注成本高昂但质量最高。主要标注类型包括:
- 操作轨迹标注:标注人员按照指令在真实环境中操作,记录每一步的截图、操作和坐标
- 元素定位标注:对屏幕截图中的 UI 元素进行精细的边界框标注
- 任务完成度评估:对模型生成的操作序列进行正确性判定
UI-Venus(蚂蚁集团)在实践中采用了一种 RFT(Rejection Sampling Fine-Tuning) 方法:先用模型生成大量操作轨迹,再通过规则过滤和人工审核筛选出高质量轨迹。数据清洗环节至关重要——他们在数据处理流程中引入了多层过滤机制,包括格式检查、坐标有效性验证、任务完成度评估等,显著提升了 SFT 数据的质量。
数据质量管控流水线
无论数据来源如何,都需要一套系统的数据质量管控流程:
Gelato 的数据策展方法进一步引入了难度分级:使用 OmniParser 对每个样本进行 UI 复杂度评分,然后按照难度分层采样,确保训练集中简单、中等、困难样本的比例合理。此外,他们还引入了对齐过滤——用训练中的模型检查每条数据的可学习性,丢弃那些模型完全无法理解的样本。
阶段一:监督微调(SFT)打基础
基座模型选择
当前主流的基座模型选择集中在视觉语言模型(VLM)上:
| 模型 | 参数量 | 视觉编码器 | 特点 | 适用场景 |
|---|---|---|---|---|
| Qwen2.5-VL-3B | 3B | ViT + MLP | 轻量,适合端侧部署 | 资源受限的快速验证 |
| Qwen2.5-VL-7B | 7B | ViT + MLP | 平衡性能与效率 | 开源训练首选 |
| Qwen2.5-VL-72B | 72B | ViT + MLP | 最强开源 VLM | 追求极致性能 |
| InternVL3 | 多尺寸 | InternViT | 国产开源,中文友好 | 中文场景优化 |
| Llama 系列视觉模型 | 多尺寸 | ViT | Meta 生态 | 英文场景 |
UI-TARS 全系列基于 Qwen2.5-VL 构建,提供 3B/7B/72B 三个尺寸。这个选择是有道理的——Qwen2.5-VL 在视觉定位、文档理解和多图推理上表现优异,且支持动态分辨率输入,这对处理不同尺寸的屏幕截图至关重要。
SFT 数据格式
Computer Use 模型的 SFT 数据通常采用如下格式:
坐标采用归一化表示(0-1 范围),这样可以适配不同分辨率的屏幕。动作以 JSON 格式输出,包含 action 类型、坐标和推理过程(chain-of-thought)。
训练配置
SFT 阶段的典型训练配置如下:
对于 7B 模型,推荐使用 LoRA 微调(秩 128),可以将显存需求从 80GB 降至约 24GB,同时保持 95%+ 的全参微调效果。对于 72B 模型,通常需要在多机多卡集群上进行全参微调或使用 QLoRA(4-bit 量化 + LoRA)。
SFT 能教会模型什么
经过 SFT 训练后,模型能够掌握:
- 基础视觉感知:识别 UI 元素(按钮、文本框、图标、菜单等)
- 坐标预测:根据自然语言描述定位屏幕元素
- 动作词汇:理解并输出标准的操作指令
- 简单推理:基于 chain-of-thought 进行单步决策
但 SFT 有明显的局限性:模型缺乏错误恢复能力(操作失败后不知道如何回退),泛化能力弱(训练数据中没见过的 UI 风格表现差),多步推理能力有限(超过 5 步的任务成功率显著下降)。这正是引入强化学习的根本原因。
阶段二:强化学习(RL)提升推理能力
为什么 RL 是关键瓶颈
SFT 本质上是模仿学习——模型学习的是"看到这个界面,执行这个操作"的模式匹配。但真实的 Computer Use 场景充满不确定性:页面加载失败、弹出意外对话框、网络延迟导致界面变化。模型需要学会从错误中恢复、在不确定性中做决策、权衡操作的短期收益和长期目标——这些都是强化学习擅长的领域。
OpenAI 在 CUA 系统中明确指出:SFT 建立基础感知能力,RL 则负责推理、错误纠正和环境适应。这种两阶段策略使得 CUA 在 OSWorld 上达到 38.1%、WebArena 58.1%、WebVoyager 87% 的成绩。
GRPO:GUI 场景的强化学习利器
GRPO(Group Relative Policy Optimization)是当前 Computer Use 模型训练中最流行的 RL 算法,被 Gelato、SE-GUI 等多个项目采用。GRPO 的核心思想是:对同一个指令生成一组候选动作,通过组内比较来估计优势函数,避免了训练一个独立的价值网络。
以下是 GRPO 在 GUI Grounding 任务中的奖励函数实现:
奖励设计:三个层次
Computer Use 模型的 RL 奖励设计通常包含三个层次:
位置奖励(Dense Point Reward):衡量预测坐标与真实坐标的距离。SE-GUI 提出的密集点奖励机制是这一方向的代表——不仅对最终点击位置进行奖励,还对操作轨迹中的每个中间状态进行评估。
任务完成奖励:判断任务是否最终完成。这需要一个可验证的环境(如 OSWorld 的虚拟机环境或 WebArena 的网页环境),通过检查任务目标是否达成来给出 0/1 奖励。
轨迹奖励:对整个操作序列进行评估。Gui-Cursor(ICML 2026)提出了一种创新的交互式方法——将光标移动视为一种搜索行为,通过多步轨迹奖励来训练模型的探索策略。
SE-GUI 的自进化强化学习
SE-GUI 的核心创新在于**自进化(Self-Evolutionary)**策略:
- 先用 SFT 训练一个基础模型
- 在推理时收集模型的注意力图(Attention Map)
- 分析注意力图发现模型的感知盲区
- 针对盲区生成更多训练样本
- 用新的 RL 训练数据重新训练模型
- 重复以上过程
这种方法使得一个仅 7B 参数的模型在 ScreenSpot-Pro 上超越了 UI-TARS-72B 达 24.2 个百分点,证明了数据质量和训练策略的重要性远超模型规模。
OpenAI CUA 的 RL 方法
OpenAI 的 CUA 系统虽然没有公开完整细节,但从其 Operator System Card 中可以推断其 RL 训练的核心设计:
- 环境设计:在受控的虚拟机环境中运行,支持浏览器、文件管理器、代码编辑器等真实应用
- 奖励信号:结合任务完成度(自动检测)和人类反馈(关键步骤的人工评审)
- 安全约束:在 RL 训练中显式引入安全约束,确保模型不会学习到危险操作
- ** Curriculum Learning**:从简单任务(单步操作)逐步增加到复杂任务(多应用协作)
阶段三:安全对齐与部署
Computer Use 模型的安全问题比普通 LLM 更为严峻——因为它不仅输出文本,还能在真实环境中执行操作。一个被误导的 Computer Use 模型可能会删除文件、发送不当消息、进行未授权的交易。
拒绝训练
模型需要学会拒绝可能造成伤害的任务。OpenAI Operator 在 System Card 中报告,其拒绝率达到 97%(在有害任务上)。拒绝训练的关键在于:
- 构建高质量的有害指令-拒绝响应对
- 覆盖多种伤害类型:数据泄露、系统破坏、社会工程、隐私侵犯等
- 平衡拒绝率和有用性——过度拒绝会严重损害用户体验
Human-in-the-Loop 设计
对于敏感操作(如发送邮件、删除文件、金融交易),模型应主动请求人类确认:
沙箱执行环境
所有 Computer Use 操作都应在隔离的沙箱环境中执行:
- 虚拟机隔离:使用 Docker 容器或轻量虚拟机隔离操作环境
- 权限最小化:限制网络访问、文件系统访问范围
- 操作审计:记录所有操作序列,支持事后审计和回溯
- 自动恢复:操作失败后能自动恢复到初始状态
Anthropic Claude Computer Use 自 2024 年 10 月发布 beta 版以来,始终强调安全设计:所有操作在用户指定的沙箱环境中执行,敏感操作需要用户明确授权。
评测基准与方法
核心基准对比
| 基准 | 评测维度 | OpenAI CUA | UI-TARS-72B | Gelato-30B-A3B | SE-GUI-7B | OmniParser |
|---|---|---|---|---|---|---|
| ScreenSpot-Pro | 细粒度 GUI 定位 | — | 45.6% | 63.88% | 69.8% | 39.5% |
| OSWorld | 完整计算机任务 | 38.1% | 22.5% | — | — | — |
| WebArena | Web 浏览任务 | 58.1% | 29.2% | — | — | — |
| WebVoyager | Web 导航任务 | 87.0% | 73.5% | — | — | — |
注:数据截至 2026 年初,不同基准的评测条件可能略有差异。
各基准详解
ScreenSpot / ScreenSpot-Pro:专注测试 GUI 元素定位能力。ScreenSpot 包含桌面、Web 和移动端的截图,要求模型输出目标元素的精确坐标。ScreenSpot-Pro 是其进阶版本,包含更密集、更精细的 UI 元素,对模型的空间分辨率要求更高。
OSWorld:最全面的 Computer Use 评测基准,提供真实的 Ubuntu 虚拟机环境,任务涵盖文件管理、系统配置、应用操作等多个领域。任务以自然语言描述,需要 5-30 步操作才能完成。
WebArena:专注 Web 浏览任务,提供四个真实网站的克隆环境(电商、论坛、代码托管、地图),测试模型的信息检索、表单填写、跨页面导航等能力。
WebVoyager:测试模型在真实 Web 环境中的导航能力,任务更加多样化,包括信息搜索、内容创建、多站点协作等。
从零训练一个 Computer Use 模型的实操指南
完整训练流程
硬件需求估算
| 模型规模 | SFT 阶段 | RL 阶段 | 推理部署 |
|---|---|---|---|
| 3B | 1× A100-80G (LoRA) | 2× A100-80G | 1× A10-24G |
| 7B | 2× A100-80G (LoRA) / 4× (全参) | 4× A100-80G | 1× A100-40G |
| 72B | 8× A100-80G (全参) | 16× A100-80G | 4× A100-80G |
开源工具链
| 工具 | 用途 | 地址 |
|---|---|---|
| UI-TARS | 端到端训练框架,含完整 SFT + RL 代码 | github.com/bytedance/UI-TARS |
| Gelato | 开源 grounding 模型,含 GRPO 训练代码 | mlfoundations |
| OmniParser | 屏幕解析工具,用于数据预处理和质量过滤 | github.com/microsoft/OmniParser |
| OpenCompass | 多模态评测框架,含 GUI 基准评测支持 | github.com/open-compass |
| OSWorld | Computer Use RL 训练和评测环境 | github.com/stanford-oval/osworld |
预估成本与时间线
以训练一个 7B 参数的 Computer Use 模型为例:
| 阶段 | 数据规模 | 训练时间 | GPU 成本(按 A100 $2/h 计) |
|---|---|---|---|
| 数据准备 | 200K-500K 样本 | 2-4 周 | $2,000-5,000(数据生成+过滤) |
| SFT | 300K 样本 × 3 epochs | 2-3 天 | $300-500 |
| RL | 10K 环境交互 × 500 步 | 1-2 周 | $3,000-6,000 |
| 安全对齐 | 5K-10K 样本 | 1-2 天 | $100-200 |
| 总计 | — | 4-7 周 | $5,400-11,700 |
这个成本量级对于大多数有 ML 基础的团队来说是可接受的,远低于从头预训练一个 VLM(通常需要 $100K+ 的算力投入)。
关键结论与趋势判断
技术趋势
RL 重要性超过 SFT:SE-GUI 用 7B 模型超越 72B 模型的事实证明,强化学习和数据质量的重要性已经远超模型规模。未来 Computer Use 领域的竞争将更多集中在 RL 算法创新和训练环境构建上。
端到端模型正在超越模块化方案:虽然 OmniParser 等模块化工具在特定场景下仍然有用,但端到端模型在复杂任务上的表现已经明显优于组合方案。
开源生态快速追赶:UI-TARS、Gelato、SE-GUI 等开源项目使得中小团队也能训练出有竞争力的 Computer Use 模型。OpenAI 在该领域的领先优势正在被快速缩小。
评测基准驱动进步:OSWorld、ScreenSpot-Pro 等基准为社区提供了明确的优化方向和公平比较的平台,是推动该领域快速进步的关键基础设施。
给实践者的建议
- 从 7B 模型开始:7B 是成本和性能的最佳平衡点,足以验证技术路线
- 数据质量优先于数据规模:参考 Gelato 的 Click-100k 策略,精心筛选 10 万条高质量数据远胜于粗暴收集百万条低质量数据
- 尽早引入 RL:SFT 到一定程度后应立即开始 RL 训练,避免在 SFT 阶段过度投入
- 构建可靠的评测环境:RL 需要可交互的环境支持,建议从 Web 环境(更容易搭建)开始
延伸阅读
核心论文
| 论文 | 机构 | 关键贡献 |
|---|---|---|
| UI-TARS | ByteDance | 端到端 GUI Agent,SFT + RL 全流程 |
| UI-TARS v1.5 | ByteDance | 跨平台支持,数据配比优化 |
| SE-GUI | 学术界 | 自进化 RL,7B 超越 72B |
| Gelato | mlfoundations | 高精度 grounding 模型,GRPO 训练 |
| Gui-Cursor | ICML 2026 | 交互式光标移动,多步 RL |
| UI-Venus | 蚂蚁集团 | RFT 方法,数据清洗策略 |
| OmniParser | Microsoft | 屏幕解析工具,icon 检测 + caption |
| OpenAI Operator SC | OpenAI | CUA 系统卡,SFT + RL 管线细节 |
| SeeClick | 学术界 | 高质量点击定位数据 |
| OS-Atlas | 学术界 | 跨平台 GUI 数据集 |
开源项目
- UI-TARS:
github.com/bytedance/UI-TARS— 完整的端到端训练框架 - OmniParser:
github.com/microsoft/OmniParser— 屏幕解析工具 - OSWorld:
github.com/stanford-oval/osworld— Computer Use 评测和训练环境 - WebArena:
github.com/web-arena-x/webarena— Web 浏览评测环境 - ScreenSpot:GUI 定位评测基准
评测排行榜
- OSWorld Leaderboard:
osworld.org— 完整计算机任务完成率排行 - ScreenSpot Leaderboard:GUI 定位准确率排行
- WebArena Leaderboard:Web 任务完成率排行
总结:训练一个原生 Computer Use 模型是一项系统工程,涵盖数据工程、监督微调、强化学习和安全对齐四个核心阶段。2025-2026 年的技术进展表明,RL 和数据质量正在取代模型规模成为性能提升的关键驱动力。对于有志于进入这个领域的 ML 工程师,好消息是开源生态已经足够成熟——借助 UI-TARS 的训练框架、OmniParser 的数据工具和 OSWorld 的评测环境,一个具备基本 ML 工程能力的团队可以在 4-7 周内、花费万美元级别的成本,训练出一个有竞争力的 Computer Use 模型。