Wu S, Fei H, Qu L, et al. NExT-GPT: Any-to-Any Multimodal LLM[J]. arXiv preprint arXiv:2309.05519, 2023.

Introduction

目前的多模态大模型 (MM-LLM) 研究大多关注输入端的多模态理解,而忽略了输出端的多模态生成

该论文提出了一种端到端的any-to-any多模态大模型NExT-GPT,旨在处理由文本、图像、视频、音频四种模态构成的任意输入输出

多模态大模型的常用方法是设计adapter将各模态的预训练编码器对齐到文本LLM

NExT-GPT采用的也是这种方法,如图所示,NExT GPT包括三层

首先,利用已有的encoder对各模态输入进行编码,并将单模态表示通过投影层投影到LLM可理解的类语言表示

然后,利用已有的开源LLM进行语义理解和推理,生成输出的text token,以及用于引导decoder生成多模态内容的”modality signal” token

最后,多模态信号和特定指示通过投影后,输入不同模态的decoder生成相应模态的内容

整个模型中只有投影层需要训练,各个encoder、decoder和LLM都是冻结的

NExT-GPT.png

Architecture

Multimodal Encoding Stage:使用ImageBind,ImageBind是一个统一的跨6个模态的编码器,可以避免组织大量异质模态编码器的困难,encoder之后的映射层使用线性映射层

LLM Understanding and Reasoning Stage:LLM使用Vicunna,输出为文本响应以及各模态的signal token,信号用作decoder是否生成或生成什么多模态内容的指令

Multimodal Generation Stage:多模态信号首先通过transformer-based投影层,然后输入已有的隐条件扩撒模型:图像生成Stable Diffusion、视频生成Zeroscope、音频生成AudioLDM

Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, and Ishan Misra. Imagebind: One embedding space to bind them all. CoRR, abs/2305.05665, 2023.

Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 902023.

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the CVPR, pages 10674–10685, 2022.

Cerspense. Zeroscope: Diffusion-based text-to-video synthesis. 2023. URL https://huggingface. co/cerspense.

Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo P. Mandic, Wenwu Wang, and Mark D. Plumbley. Audioldm: Text-to-audio generation with latent diffusion models. In Proceedings of the ICML, pages 21450–21474, 2023.

Alignment Learning

encoder-side,投影层的目标是将多模态特征与文本特征对齐

论文通过X-caption任务学习encoder-side对齐,即令LLM产生各个输入模态的caption,其中X表示image、audio或video

decoder-side,由于各个模态的扩散模型都仅以文本输入作为条件,导致条件扩散模型不能直接解释LLM输出的模态信号,因此decoder-side投影层的目标是使得LLM输出的模态信号与条件扩散模型对齐

如果对齐过程涉及到整个扩散模型的前/后向传播,显然计算量将会很大

论文提出的训练称为instruction-following alignment,其目标是尽可能令投影层输出的modal signal token representation和扩散模型编码的conditional text representation之间的距离尽可能小

该训练任务只涉及caption文本,不涉及图片、视频等,保证了训练轻量化

NexT-GPT_alignment.png

Instruction Tuning

虽然encoder-side和decoder-side都各自进行了对齐,但整体模型还是缺少根据多模态信息理解用户指令的能力,因此论文进一步使用instruction tuning (IT)解决这个问题

如图所示,论文利用LoRA使LLM中的一小部分参数能够在IT阶段与投影层同时更新

多模态对话样本被输入系统后,LLM需要重建输入的文本内容,并用multimodal signal token表示多模态内容

此外论文还微调了NExT-GPT的decoder-side,即将投影层输出的modal signal token representation和扩散模型编码的conditional text representation对齐

为了完成这样的多模态IT,论文构建了新的MosIT数据集

NExT-GPT_IT.png

Experiment

如图所示是NExT-GPT的any-to-any生成的量化结果,虽然不是全部达到SOTA,但都展现出了很好的性能

NExT-GPT_quantify

下图是复杂any-to-any QA的人类评估,分值范围1~10

NExT-GPT_eva

还有一些生成结果的图可以直接看论文和官网