BLIP-2论文解读

该论文的motivation是利用冻结的预训练视觉模型和大语言模型进行VLP研究，以提高VLP大模型的效率

由于视觉模型和大语言模型各自只进行了单模态预训练，而冻结它们又使其无法直接互动学习多模态对齐

因此论文提出了一个Q-Former结构充当连接两者的桥梁

Method

如图所示，Q-Former包含image transformer和text transformer两个子模块，两者参数共享，初始化为预训练BERT base

image transformer的输入是一组可学习的query embedding，输出是提取的视觉特征，实验中使用32个768维queries，相应输出记为$Z\in R^{32\times 768}$

text transformer可以同时用作text encoder或text decoder

Q-Former与训练包含两个阶段，第一个阶段的目的是训练Q-Former的表示能力，该阶段Q-Former只连接预训练视觉模型

类似于BLIP，训练目标有三个

Image-Text Contrastive Learning (ITC) ：即正负image-text pair对的对比学习

[CLS] token的text transformer输出$t$视为文本表示，$Z$为视觉表示，由于$Z$包含多个输出embedding，论文的做法是选择与$t$相似度分数最高的一个嵌入作为结果

此外，SA层中query和text不允许互相注意

ITC用于学习image representation和text representation的对齐

Image-grounded Text Generation (ITG)：也即BLIP中的LM，根据给定图像生成文本

该任务SA层中query之间可以相互注意，但不能注意text部分，同时text只能注意query和之前的text

ITG将强制query提取对文本生成有用的视觉信息

Image-Text Matching (ITM)：即image-text pair是否匹配的二分类

该任务SA层中所有query和text可以相互注意

ITM用于使$Z$捕捉到多模态信息

第二个阶段目的是使Q-Former学得生成能力

该阶段在输出query embedding $Z$之后连接一个FC层（使嵌入维度与文本嵌入相同），并将映射后的嵌入添加为LLM输入文本的前缀，这些嵌入的功能是LLM的soft visual prompts

LLM可以是decoder-based或者是encoder-decoder，预训练任务是language modeling

具体来说，对于decoder-based LLM，预训练任务是基于映射的query embedding生成文本

对于encoder-decoder LLM，预训练任务是将映射的query embedding和一部分文本前缀输入encoder，要求decoder生成后续文本

论文实验主要进行了Image Captioning、VQA和Image-Text Retrieval的微调实验以及VQA的zero-shot实验，具体见论文