微软发布PhI-3-Vision模型,提升视觉AI效率

描述

  5 月 28 日,微软在 Build 2024 大会上推出了最新的 Phi-3 系列成员——Phi-3-vision。这一工具主打视觉应用,能有效处理图片文字信息,且在移动设备上也能运行自如。

  Phi-3-vision 是一种小型多模式语言模型(SLM),主要适用于本地人工智能场景。其模型参数高达 42 亿,上下文序列包含 128k 个符号,可满足各种视觉推理和其他任务需求。

  Microsoft 通过一篇新发表的论文[PDF]展示了 Phi-3-vision 的强大实力。与其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不逊色。

  此外,Microsoft 还对 Phi-3-vision 进行了多项测试,并将其与其他竞品模型进行了比较,包括字节跳动的 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合开发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等。结果表明,Phi-3-vision 在多个项目中的表现均十分出色。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分