近日,微软官网宣布了一项重要更新。微软发布了其视觉Agent解析框架OmniParser的最新版本V2。这一新版本具备将包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在内的大模型,转化为“计算机使用智能体”(Computer Use Agent)的能力。
与前代版本相比,OmniParser V2在多个方面实现了显著提升。在检测更微小、可交互的元素时,V2展现了更高的精度和更快的推理速度。这一提升得益于V2采用了更大规模的交互元素检测数据集和图标功能描述数据进行训练。
此外,OmniParser V2还通过缩小图标描述模型的输入图像尺寸,进一步优化了推理性能。据微软官方数据,与前代版本相比,V2的推理延迟降低了60%。这一改进使得OmniParser V2在处理复杂视觉任务时更加高效,为用户提供了更加流畅、实时的交互体验。
此次OmniParser V2的发布,不仅展示了微软在人工智能领域的持续创新,也为大模型在计算机智能体领域的应用开辟了新的道路。
全部0条评论
快来发表一下你的评论吧 !