微软发布PhI-3-Vision模型，提升视觉AI效率

微云疏影 2024-05-28 1162

描述

　　5 月 28 日，微软在 Build 2024 大会上推出了最新的 Phi-3 系列成员——Phi-3-vision。这一工具主打视觉应用，能有效处理图片文字信息，且在移动设备上也能运行自如。

　　Phi-3-vision 是一种小型多模式语言模型（SLM），主要适用于本地人工智能场景。其模型参数高达 42 亿，上下文序列包含 128k 个符号，可满足各种视觉推理和其他任务需求。

　　Microsoft 通过一篇新发表的论文［PDF］展示了 Phi-3-vision 的强大实力。与其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比，Phi-3-vision 毫不逊色。

　　此外，Microsoft 还对 Phi-3-vision 进行了多项测试，并将其与其他竞品模型进行了比较，包括字节跳动的 Llama3-Llava-Next（8B）、微软研究院与威斯康星大学、哥伦比亚大学联合开发的 LlaVA-1.6（7B）以及阿里巴巴通义千问 QWEN-VL-Chat 模型等。结果表明，Phi-3-vision 在多个项目中的表现均十分出色。

打开APP阅读更多精彩内容