微信大模型扩容并开源，推出首个中英双语文生图模型，参数规模达15亿

微云疏影 2024-05-14 896

　　腾讯于5月14日宣布将混元文生图大模型升级并公之于众，已发布至Hugging Face以及Github之上，包括模型权重、推理代码、模型算法等全方位数据，均向企业与个人开发者提供免费商业使用权限。

　　升级版混元文生图大模型采取了与Sora相同的DiT架构设计。腾讯强调，这是全球首个中英双语DiT架构。

　　基于Diffusion Transformer的混元DiT是一种文本到图像生成模块，具备中英细粒度理解能力，能与用户进行多轮对话，根据上下文生成并完善图像。

　　此外，它还是业界首个中文原生DiT架构文生图开源模型，支持中英文双语输入及理解，参数规模高达15亿。

　　运行该模型需配备支持CUDA的NVIDIA GPU，单次运行混元DiT所需最低显存为11GB；若要同时运行DialogGen（腾讯推出的文本转图像多模态交互式对话系统）和混元DiT，则至少需32GB显存。腾讯表示，他们已在Linux环境下对NVIDIA的V100和A100 GPU进行过测试。

　　国内首次官方“大模型标准符合性评测”结果出炉，腾讯混元大模型成功入选首批通过评测的国产大模型行列，其他通过评测的大模型还包括阿里通义千问、360智脑和百度文心一言。

打开APP阅读更多精彩内容