格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单

格灵深瞳 2026-01-05 761

描述

洞察AI变革，见证智能未来

2025中国技术力量年度榜单

AI开源明星项目TOP10

LLaVA-OneVision-1.5多模态大模型

灵感实验室联合LLaVA社区发布的多模态大模型LLaVA-OneVision-1.5，实现了训练数据、代码和模型权重的全链路开源，在多项公开多模态基准上表现优于同等规模的Qwen2.5-VL。

在创新性上，技术团队对“视觉编码器+投影层+大语言模型”的LLaVA架构进行模块升级：视觉编码器从CLIP替换为格灵深瞳自研Glint-ViT v1.5(RICE)，大语言模型从Qwen2替换为Qwen3。

在训练数据方面，团队推出完整开放的85M预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛22M指令数据集(LLaVA-OV-1.5-Instruct-22M)，并且做到“概念均衡”——构建一个50万的词表，利用图像特征与词表特征碰撞，并控制每个词碰到的图片数，制作出一个不同于随机采样的概念均衡训练集。

除了数据集以外，LLaVA-OneVision-1.5 技术报告、代码、模型也已开源：

LLaVA-OneVision-1.5

技术报告：

https://arxiv.org/abs/2509.23661

代码：

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型：

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo：

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集：

Pretrain Data：https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data：https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

打开APP阅读更多精彩内容