IMAGEBIND and PandaGPT简介
IMAGEBINDGirdhar R, El-Nouby A, Liu Z, et al. Imagebind: One embedding space to bind them all[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15180-15190.
先前的多模态对齐研究主要关注单个模态对的对齐,例如 (image, text), (video, audio), (audio, text)等,其嵌入空间局限于训练所用的模态对,例如(video, audio)嵌入不能直接用于text-based任务
学习真正的多模态联合嵌入空间的主要难点是缺少所有模态同时出现的高质量数据集
直觉上,图像可以自然地与许多模态绑定(bind),因此该论文的动机是利用多种image-paired数据,将各种模态嵌入分别与图像嵌入对齐,从而绕开缺少模态对齐数据的限制,学得一个联合嵌入空间
论文利用了已有的大规模image-text pair数据,并收集了4种与im ...
LLaVA论文解读
Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. arXiv preprint arXiv:2304.08485, 2023.
instruction tuning显著提升了LLM的zero-shot能力,但在多模态领域还没有相关研究,该论文的主要贡献有
创建了多模态的instruction-following数据集
构造了新的多模态大模型LLaVA (Large Language and Vision Assistant)
数据集和模型全部开源
Dataset虽然多模态数据集在近几年不断涌现,但多模态instruction-following data仍很少
对于已有的image-caption pair $(X_v,X_c)$,创建instruction-following data最简单的方法是:制作一系列用于指示模型生成图像描述的提问$X_q$,然后将原样本扩展为Human:XqXv<STOP>\n Assistant:Xc<STOP>\n
然而这种简单的扩展缺乏多样性和深度推理
论文的做 ...
Flamingo论文解读
Alayrac J B, Donahue J, Luc P, et al. Flamingo: a visual language model for few-shot learning[J]. Advances in Neural Information Processing Systems, 2022, 35: 23716-23736.
Flamingo模型可以被视为多模态领域的GPT-3 moment,其论文是使用vision-language大模型进行few-shot/zero-shot learning的开创性研究
MethodFlamingo模型整体结构如图3所示
Vision Encoder是冻结的预训练NFNet-F6,预训练任务同CLIP
模型允许图像/视频任意组织在文本中,其中视频按1FPS采样为图像序列
如图5所示,Perceiver Resampler是一个Transformer Encoder,其输入为一个特征图(图像)或加入temporal embedding的特征图序列(视频),以及一组可学习的latent queries(类似于BLIP-2),输出为一组 ...
OSCAR论文解读
Li X, Yin X, Li C, et al. Oscar: Object-semantics aligned pre-training for vision-language tasks[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXX 16. Springer International Publishing, 2020: 121-137.
Introduction先前的VLP模型采用的方法都是将图像区域特征$v={v_1,\cdots,v_K}$和文本嵌入序列$w={w_1,\cdots,w_T}$简单连接起来输入transformer,然后利用self-attention暴力学习图像区域和文本的对齐,这种对齐由于其弱监督性和存在噪声而十分低效
具体来说,这种方法的缺点是 (1) Ambiguity:通过目标检测器得到的图像区域不可避免地存在重叠,导致视觉嵌入的抽取存在模糊性 (2) Lack of gr ...
FlAN系列论文解读
FLANWei J, Bosma M, Zhao V Y, et al. Finetuned language models are zero-shot learners[J]. arXiv preprint arXiv:2109.01652, 2021.
大语言模型(LLM),如GPT-3等,展现了很好的few-shot能力,但在zero-shot上表现并不好
一个可能的原因是,如果没有few-shot示例,模型很难处理与预训练数据格式不相近的prompt
一个直觉观点是NLP任务都可以通过自然语言指令(natural language instructions)描述,论文旨在利用这点提高预训练模型的zero-shot能力
论文提出了instruction tuning,其通过自然语言指令在60多个NLP数据集上微调,得到的模型称为Finetuned Language Net, FLAN
Method论文通过将现有数据集转换为指令格式创建instruction tuning数据集
数据集包括62个文本数据集,按照任务类别分为12个集群
作者对其中每个数据集都人工制作10个不同的用自然 ...
NExT-GPT Any-to-Any Multimodal LLM
Wu S, Fei H, Qu L, et al. NExT-GPT: Any-to-Any Multimodal LLM[J]. arXiv preprint arXiv:2309.05519, 2023.
Introduction目前的多模态大模型 (MM-LLM) 研究大多关注输入端的多模态理解,而忽略了输出端的多模态生成
该论文提出了一种端到端的any-to-any多模态大模型NExT-GPT,旨在处理由文本、图像、视频、音频四种模态构成的任意输入输出
多模态大模型的常用方法是设计adapter将各模态的预训练编码器对齐到文本LLM
NExT-GPT采用的也是这种方法,如图所示,NExT GPT包括三层
首先,利用已有的encoder对各模态输入进行编码,并将单模态表示通过投影层投影到LLM可理解的类语言表示
然后,利用已有的开源LLM进行语义理解和推理,生成输出的text token,以及用于引导decoder生成多模态内容的”modality signal” token
最后,多模态信号和特定指示通过投影后,输入不同模态的decoder生成相应模态的内容
整个模型中只有投影 ...
InstructGPT论文解读
Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
Introduction众所周知,大语言模型(LLM)可以通过prompt执行一系列NLP任务
然而LLM仍经常产生捏造事实、生成biased/toxic text、不遵循用纸指令的行为
这种现象的原因是LLM的训练目标——预测网络文本的下一个token,与“安全有效地遵循用户指令”的目标不同,因此论文称语言建模的目标是未对齐的(misaligned)
为了使LLM实现helpful、honest and harmless的目标,论文对使用RLHF (reinforcement learning from human feedback)微调LLM的方法进行了研究,即使用人类偏好作为奖励信号微调模型
作者们雇佣了一个40人团队进行数据标注 ...
ALBEF论文解读
Li J, Selvaraju R, Gotmare A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in neural information processing systems, 2021, 34: 9694-9705.
Introduction大多数已有的VLP方法(UNITER、OSCAR等)依赖于预训练目标检测器来提取图像区域特征,再设计多模态编码器将图像特征与文本嵌入融合,其预训练任务一般是masked language modeling (MLM)
这样的框架存在几个局限
图像特征与文本嵌入的语义空间不同,使得多模态编码器难以对其交互进行建模
目标检测器的计算消耗大(需要大分辨率图像)、数据注释消耗大(需要大量边界注释)
广泛使用的从网络收集的image-text数据集固有地存在噪声,现有的预训练目标(如MLM)可能过拟合噪声并降低泛化性能
因此该论文提出了新的VLP框架ALign BEfo ...
BLIP-2论文解读
Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[J]. arXiv preprint arXiv:2301.12597, 2023.
该论文的motivation是利用冻结的预训练视觉模型和大语言模型进行VLP研究,以提高VLP大模型的效率
由于视觉模型和大语言模型各自只进行了单模态预训练,而冻结它们又使其无法直接互动学习多模态对齐
因此论文提出了一个Q-Former结构充当连接两者的桥梁
Method如图所示,Q-Former包含image transformer和text transformer两个子模块,两者参数共享,初始化为预训练BERT base
image transformer的输入是一组可学习的query embedding,输出是提取的视觉特征,实验中使用32个768维queries,相应输出记为$Z\in R^{32\times 768}$
tex ...
BLIP论文解读
Li J, Li D, Xiong C, et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//International Conference on Machine Learning. PMLR, 2022: 12888-12900.
Introduction已有的VLP模型存在两方面的局限
Model perspective:encoder-based模型(CLIP、ALBEF等)难以直接迁移到文本生成任务,encoder-decoder模型(VL-T5、SimVLM等)难以适应image-text retrieval任务
Data perspective:已有的SOTA模型都使用收集自网络的大规模数据集训练,其中包含大量噪声
BLIP论文从以上两个角度提出了解决方案
模型角度,提出Multimodal mixture of Encoder-Decoder (MED) 结构,统一unimodal encod ...