OSCAR论文解读

Li X, Yin X, Li C, et al. Oscar: Object-semantics aligned pre-training for vision-language tasks[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXX 16. Springer International Publishing, 2020: 121-137.

Introduction

先前的VLP模型采用的方法都是将图像区域特征$v={v_1,\cdots,v_K}$和文本嵌入序列$w={w_1,\cdots,w_T}$简单连接起来输入transformer，然后利用self-attention暴力学习图像区域和文本的对齐，这种对齐由于其弱监督性和存在噪声而十分低效

具体来说，这种方法的缺点是 (1) Ambiguity：通过目标检测器得到的图像区域不可避免地存在重叠，导致视觉嵌入的抽取存在模糊性 (2) Lack of grounding：图像中的区域与文本中的单词没有明确的对齐，导致了弱监督性

注意到图像中的明显目标可以被现代目标检测器准确地检测到，而且这些目标往往会出现在配对的文本中，例如在COCO数据集上，图像及其配对文本共享至少1、2、3个对象的百分比分别为49.7%、22.2%和12.9%

因此，该论文的目标是引入在图像中检测到的目标标签作为锚点，以增强监督

Method

OSCAR将数据集中的image-text pair处理为Word-Tag-Image三元组$(w,q,v)$作为输入

其中w是文本的单词嵌入序列，q是从图像中检测到的对象标签的单词嵌入序列，v是图像的区域特征集合

v和q的获取方式如下：使用Faster R-CNN抽取每个区域的视觉语义$(v’,z)$，其中$v’\in R^P$是$P$维区域视觉特征，$z$是$R$维位置向量，之后拼接$v’$和$v$并通过一个线性层映射为$v$，$q$则为检测到的目标tags嵌入序列

OSCAR采用的模型是预训练BERT，Vision-Language预训练任务从两个角度进行设计

Dictionary View：由于检测到的object tags和文本中的word token共享同一个字典，因此它们在同一语义空间，而图像区域特征在另一语义空间

于是第一个loss是Masked Token Loss (MTL)，mask掉$[w,q]$中的部分token，再根据上下文预测这些token

Modality View：从数据集模态上区分，$[q,v]$被视为图像模态，来自同一语义空间，而$w$被视为语言模态

于是第二个loss是Contrastive Loss：以50%的概率替换$q$采样得到负样本，并在[CLS]输出上添加分类层判断输入是否是正确的三元组

oscar

Adapting to V+L Tasks

Image-Text Retrieval：转化为二分类问题，微调时采样若干aligned pair对及其相应unaligned pair，使用CLS token对应的输出进行二分类；推理时根据二分类的输出概率进行排序

Image Captioning：微调时采用Masked Token Loss，只对caption text部分进行mask；对于推理，开始时输入text部分只有一个[MASK] token，输出其预测后替换[Masked]，并追加新的[Masked]，直到预测出[STOP] token

VQA/GQA：此处为抽取式回答，论文视其为多分类问题，对于一个提问，首先按照与人工回答的相似性为候选库中的回答赋予soft target score，然后将问题、图像区域和tags拼接后输入OSCAR，使用CLS token对应的输出进行多分类，使用预测分数与soft target score计算交叉熵

Natural Language Visual Reasoning for Real (NLVR2)：任务是判断一段文本是否是一对图片的正确陈述，论文将两张图象分别与文本拼接形成两次输入，得到两个CLS对应输出，将其拼接后输入二分类器

Experiment

定量实验和消融实验具体可以看论文，这里展示一个比较有意思的结果，如图所示，引入object tags后

同一目标两种模态之间的距离大大缩短，例如zebra
具有相近语义的目标类距离更近了，例如 furniture (chair, couch, bench)

OSCAR_result