上海AI实验室发布新一代书生·视觉大模型

描述

  近期,上海人工智能实验室联手多所知名高校及科技公司,共同开发出全新的基础版本书生·视觉大模型——InternVL。该模型搭载了高达60亿的视觉编码器参数(InternVL-6B),创新性引入对比-生成融合的渐进式对齐技术,有效实现了互联网规模下视觉大模型与语言大模型的精准匹配。

  InternVL-6B不仅能高效处理复杂图像中细腻的视觉元素,实现图像到文本的转换功能,而且能够自动解析和理解复杂网页内容,包括解决其中可能存在的数学问题。

  此外,自成立以来,上海AI实验室在视觉大模型领域持续推陈出新。2021年,实验室推出了首款具有广泛适用性的巨型视觉模型书生1.0,凭借其单个基本模型便可覆盖分类、目标检测、语义分割、深度估计四大部分;2022年,又发布了升级版视觉大模型InternImage,创新采用动态稀疏卷积作为主要操作手段,开创了非Transformer结构的巨型模型设计新思路,这使得它在包含12种视觉任务在内的多个领域表现优异。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分