Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[J]. arXiv preprint arXiv:2301.12597, 2023.

该论文的motivation是利用冻结的预训练视觉模型和大语言模型进行VLP研究,以提高VLP大模型的效率

由于视觉模型和大语言模型各自只进行了单模态预训练,而冻结它们又使其无法直接互动学习多模态对齐

因此论文提出了一个Q-Former结构充当连接两者的桥梁

BLIP2.png

Method

如图所示,Q-Former包含image transformer和text transformer两个子模块,两者参数共享,初始化为预训练BERT base

image transformer的输入是一组可学习的query embedding,输出是提取的视觉特征,实验中使用32个768维queries,相应输出记为$Z\in R^{32\times 768}$

text transformer可以同时用作text encoder或text decoder

Q-Former与训练包含两个阶段,第一个阶段的目的是训练Q-Former的表示能力,该阶段Q-Former只连接预训练视觉模型

类似于BLIP,训练目标有三个

Image-Text Contrastive Learning (ITC) :即正负image-text pair对的对比学习

[CLS] token的text transformer输出$t$视为文本表示,$Z$为视觉表示,由于$Z$包含多个输出embedding,论文的做法是选择与$t$相似度分数最高的一个嵌入作为结果

此外,SA层中query和text不允许互相注意

ITC用于学习image representation和text representation的对齐

Image-grounded Text Generation (ITG):也即BLIP中的LM,根据给定图像生成文本

该任务SA层中query之间可以相互注意,但不能注意text部分,同时text只能注意query和之前的text

ITG将强制query提取对文本生成有用的视觉信息

Image-Text Matching (ITM):即image-text pair是否匹配的二分类

该任务SA层中所有query和text可以相互注意

ITM用于使$Z$捕捉到多模态信息

BLIP2_qformer_1.png

第二个阶段目的是使Q-Former学得生成能力

该阶段在输出query embedding $Z$之后连接一个FC层(使嵌入维度与文本嵌入相同),并将映射后的嵌入添加为LLM输入文本的前缀,这些嵌入的功能是LLM的soft visual prompts

LLM可以是decoder-based或者是encoder-decoder,预训练任务是language modeling

具体来说,对于decoder-based LLM,预训练任务是基于映射的query embedding生成文本

对于encoder-decoder LLM,预训练任务是将映射的query embedding和一部分文本前缀输入encoder,要求decoder生成后续文本

BLIP2_qformer_2.png

论文实验主要进行了Image Captioning、VQA和Image-Text Retrieval的微调实验以及VQA的zero-shot实验,具体见论文