TextBind：在开放世界中多轮交织的多模态指令跟随

深度学习自然语言处理 2023-09-19 225

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性，能够应对各种现实世界任务。

然而，它们的性能在很大程度上依赖于高质量的示例数据，通常难以获得。当涉及到多模态指令跟随时，这一挑战进一步加剧。

我们介绍了TextBind，这是一个几乎无需注释的框架，用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。

我们的方法仅需要图像描述对，并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示，以促进未来在多模态指令跟随领域的研究。

TextBind提供了处理和生成任意交织的图像和文本内容的示例，使语言模型能够在开放世界场景中与用户进行自然互动。

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型，以及连接它们的桥接网络，支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

语言模型能够执行各种任务，包括根据一组图像创作引人入胜的故事，比较多个图像中的共同和不同之处，用生动的图像解释概念，生成带有插图的长篇连贯故事等等。最有趣的是，我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]。

打开APP阅读更多精彩内容