中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

CVer 2023-08-31 1692

描述

这篇文章是由中科大和字节跳动合作，在2023年8月23日上传到arXiv上的文章。这篇文章提出UniDoc，一个统一的多模态大模型（LMM）。UniDoc主要聚焦于包含文字的图像的多模态理解任务。相比于以往的多模态大模型，UniDoc具备它们所不具备的文字检测、识别、spotting(端到端OCR)的能力。此外，文章中实验表明，这些能力的学习能够彼此促进。

方法框架

数据集

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态指令微调的方式，统一到一个框架中。具体地，输入一张图像以及一条指令（可以是检测、识别、spotting、语义理解），UniDoc提取图像中的视觉信息和文字信息，结合自然语言指令以及大语言模型的世界知识，做出相应回答。

训练数据采集

数据集

作者团队收集了大量的PPT图像，并提取其中文字实例和对应的bbox。在此基础上构建多任务的指令微调数据集。文章认为，PPT图片中文字具有各种各样的大小、字体、颜色、风格等，且PPT中视觉元素丰富多样，适合用于构建涉及文字图像的多模态任务的训练。以spotting任务为例，其指令如下图所示。其中的 term 表示”imgae“，”photo“等随机名词，以增加指令多样性。

数据集