Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模

计算机视觉芯片设计 2023-06-19 2420

电子说

1.4w人已加入

文章：https://lnkd.in/gcwEeKE3

Python 代码：https://lnkd.in/ggEK6KwU

尽管指令调整的大型语言模型（LLM）在各种 NLP 任务中表现出卓越的能力，但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中，我们提出了 Macaw-LLM，一种新颖的多模式 LLM，它无缝集成了视觉、音频和文本信息。

Macaw-LLM 由三个主要组件组成：用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。

我们新颖的对齐模块将多模态特征无缝地连接到文本特征，简化了从模态模块到认知模块的适应过程。

此外，我们在多轮对话方面构建了一个大规模的多模态指令数据集，包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型，我们希望这可以为多模态 LLM 的未来研究铺平道路，并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。

打开APP阅读更多精彩内容