上海AI实验室发布新一代书生·视觉大模型

微云疏影 2024-01-30 1370

描述

　　近期，上海人工智能实验室联手多所知名高校及科技公司，共同开发出全新的基础版本书生·视觉大模型——InternVL。该模型搭载了高达60亿的视觉编码器参数（InternVL-6B），创新性引入对比-生成融合的渐进式对齐技术，有效实现了互联网规模下视觉大模型与语言大模型的精准匹配。

　　InternVL-6B不仅能高效处理复杂图像中细腻的视觉元素，实现图像到文本的转换功能，而且能够自动解析和理解复杂网页内容，包括解决其中可能存在的数学问题。

　　此外，自成立以来，上海AI实验室在视觉大模型领域持续推陈出新。2021年，实验室推出了首款具有广泛适用性的巨型视觉模型书生1.0，凭借其单个基本模型便可覆盖分类、目标检测、语义分割、深度估计四大部分;2022年，又发布了升级版视觉大模型InternImage，创新采用动态稀疏卷积作为主要操作手段，开创了非Transformer结构的巨型模型设计新思路，这使得它在包含12种视觉任务在内的多个领域表现优异。

打开APP阅读更多精彩内容