微软近日宣布,视觉Agent解析框架OmniParser已发布最新版本V2。这一新版本具有将大型语言模型如OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)以及Anthropic(Sonnet)等,转化为“计算机使用智能体”(Computer Use Agent)的能力。
与前一版本相比,OmniParser V2在检测更微小、可交互的元素时展现出了更高的精度和更快的推理速度。这一显著提升得益于V2采用了更大规模的交互元素检测数据集和图标功能描述数据进行训练。通过这些训练,OmniParser V2能够更好地理解和识别计算机界面中的各种元素,从而为用户提供更加智能、便捷的操作体验。
此外,OmniParser V2还通过缩小图标描述模型的输入图像尺寸,进一步降低了推理延迟。据微软透露,与前代版本相比,V2的推理延迟降低了60%,这意味着用户可以更加迅速地获得系统的响应和反馈。
微软OmniParser V2的发布,标志着大型语言模型在计算机使用智能体领域的应用取得了重要进展。
全部0条评论
快来发表一下你的评论吧 !