格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单

描述

洞察AI变革,见证智能未来

2025中国技术力量年度榜单

AI开源明星项目TOP10

LLaVA-OneVision-1.5多模态大模型

灵感实验室联合LLaVA社区发布的多模态大模型LLaVA-OneVision-1.5,实现了训练数据、代码和模型权重的全链路开源,在多项公开多模态基准上表现优于同等规模的Qwen2.5-VL。

在创新性上,技术团队对“视觉编码器+投影层+大语言模型”的LLaVA架构进行模块升级:视觉编码器从CLIP替换为格灵深瞳自研Glint-ViT v1.5(RICE),大语言模型从Qwen2替换为Qwen3。

在训练数据方面,团队推出完整开放的85M预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛22M指令数据集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——构建一个50万的词表,利用图像特征与词表特征碰撞,并控制每个词碰到的图片数,制作出一个不同于随机采样的概念均衡训练集。

除了数据集以外,LLaVA-OneVision-1.5 技术报告、代码、模型也已开源:

LLaVA-OneVision-1.5

技术报告:

https://arxiv.org/abs/2509.23661

代码:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分