郑州手机网站推广外包,一般做网站多少钱,网页网站设计与制作,wordpress网页无法运作Training for Computer Use 核心事件#xff1a;多家科技公司推出能操控计算机的智能体#xff0c;字节跳动和清华大学团队引入UI - TARS模型#xff0c;展示了训练模型实现计算机操控能力的新成果。 UI - TARS模型 基本信息#xff1a;是视觉 - 语言模型Qwen2 - VL的微调版…Training for Computer Use 核心事件多家科技公司推出能操控计算机的智能体字节跳动和清华大学团队引入UI - TARS模型展示了训练模型实现计算机操控能力的新成果。 UI - TARS模型 基本信息是视觉 - 语言模型Qwen2 - VL的微调版本能基于推理决定在桌面和移动应用中的操作模型权重遵循Apache 2.0许可可免费下载使用。 训练过程 添加思维链在训练集中通过提示未指明的视觉 - 语言模型结合先前信息解释当前操作来添加思维链。因解释可能不佳故对同一截图生成多个思维链与操作选正确的用于训练。 微调训练让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作进行微调。 虚拟运行与筛选在虚拟机中运行UI - TARS生成大量数据用规则过滤错误内容自动打分并人工审核对剩余数据微调重复生成、筛选和微调。 错误修正与再训练人工标注修正错误的思维链和操作示例用于模型再训练使其避免或修复错误。 偏好优化用直接偏好优化DPO让模型倾向生成修正后的正确示例。 推理运行推理时UI - TARS根据截图、指令和潜在操作生成思维链与操作执行操作后接收新截图循环生成新思维链与操作综合考虑所有信息。
新闻背景2022年初Adept宣扬计算机操控能力OmniParser Aguvis跟进推出应用。2024年10月Anthropic宣布Claude 3.5 Sonnet具备此能力引发热潮OpenAI也推出Operator涉足该领域。 实验结果在11项基准测试中UI - TARS表现出色在OSWorld测试中完成任务的成功率高于Claude 3.5 Sonnet、GPT - 4o搭配Aguvis框架以及Aguvis原生模型。 重要意义训练模型做出正确操作可保证其良好表现训练其修正错误能让它应对现实中的意外问题。 未来展望计算机操作可在虚拟机模拟能自动生成大量训练数据有望推动大语言模型在计算机操控能力上快速发展。