LLaVA论文解读

Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. arXiv preprint arXiv:2304.08485, 2023.

instruction tuning显著提升了LLM的zero-shot能力，但在多模态领域还没有相关研究，该论文的主要贡献有

创建了多模态的instruction-following数据集
构造了新的多模态大模型LLaVA (Large Language and Vision Assistant)
数据集和模型全部开源

Dataset

虽然多模态数据集在近几年不断涌现，但多模态instruction-following data仍很少

对于已有的image-caption pair $(X_v,X_c)$，创建instruction-following data最简单的方法是：制作一系列用于指示模型生成图像描述的提问$X_q$，然后将原样本扩展为Human:XqXv<STOP>\n Assistant:Xc<STOP>\n

然而这种简单的扩展缺乏多样性和深度推理

论文的做法是利用ChatGPT或GPT-4生成样本，具体的，将图像以Captions或Bounding boxes的形式作为条件输入GPT-4，结合特定的prompt，生成3种类型的instruction-following样本：Conversation、Detailed description和Complex reasoning

LLaVA_dataset

Model

LLaVA模型结构很简单，LM选择LLaMA，vision encoder选择CLIP

视觉特征经过一个投影层为visual token，使其与text token维度相同

LLaVA