电子说
文章:https://lnkd.in/gcwEeKE3
Python 代码:https://lnkd.in/ggEK6KwU
尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式 LLM,它无缝集成了视觉、音频和文本信息。
Macaw-LLM 由三个主要组件组成:用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。
我们新颖的对齐模块将多模态特征无缝地连接到文本特征,简化了从模态模块到认知模块的适应过程。
此外,我们在多轮对话方面构建了一个大规模的多模态指令数据集,包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型,我们希望这可以为多模态 LLM 的未来研究铺平道路,并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。
全部0条评论
快来发表一下你的评论吧 !