A Review of Recent Multimodal ERC model
这篇文章简述了21~23年的一些有代表性的Multimodal ERC (Multimodal Emotion Recognition in Conversation) 模型,它们的共同点是都基于GNN (Graph Neural Network)
为方便描述,这里先做一个统一的符号定义
一段对话由$N$个utterance ${u_1,\cdots,u_N}$组成,每个$u_i$包含听觉、视觉、文本三个模态,记为$u_i={u_i^a,u_i^v,u_i^t}$,其中$u_i^a\in R^{d_a},u_i^v\in R^{d_v},u_i^t\in R^{d_t}$分别为已提取的听觉、视觉、文本特征,每个$u_i$对应一个情感标签$y_i$
每段对话包含$M$个speaker ${p1,\cdots,p_M}$,$p{\phi(ui)}$表示$u_i$对应的speaker,$U{\lambda}$(或$U^{(\lambda)}$)表示来自$p_{\lambda}$的utterance集合
MMGCNMMGCN——Multimodal Fused Graph Convolutio ...
DialogueGCN
论文链接:Ghosal D, Majumder N, Poria S, et al. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation[J]. arXiv preprint arXiv:1908.11540, 2019.
DialogueGCN是最早将GNN引入对话处理领域的研究之一
这篇论文关注的具体问题是对话情感识别(ERC, Emotion recognition in conversation)
与孤立文本的情感识别不同,ERC需要捕捉长距离的语境信息,以及其他复杂的上下文依赖,例如不同speaker之间的关系,先前的RNN-based ERC模型很难有效捕捉这些信息
为解决这个问题,DialogueGCN用图结构进行对话建模,并使用GNN进行处理
具体来说,DialogueGCN主要关注两种类型的上下文建模:sequential context 和 speaker-level context
设一段对话包含来自$M$个speaker $p1,\cd ...
Pytorch中的Margin Loss
Margin Loss是一类特殊的loss
当使用CrossEntropy或MSE时,我们希望模型预测一个确定的期望值
而当使用Margin Loss时,我们不关心模型具体的输出值,只关心不同输出之间的相似度
例如人脸识别任务,我们可以用Margin Loss训练一个压缩模型,使得来自同一个人的不同图像输出的表达向量尽可能相似,而来自不同的人的图像则间隔尽可能大,这样识别就可以通过设定距离阈值判断相似/不相似来进行
Margin Loss应用非常广泛,在不同领域有很多不同称呼,例如Ranking Loss、Triplet loss、Contrastive Loss等等
Hinge LossHinge Loss是机器学习中用于训练间隔最大化分类器(例如SVM)的损失函数,其表达式为
l(y)=\max(0, 1-t y)其中$y$为分类器的输出,$t={+1,-1}$为期望的标签
从直观上理解,若$t,y$同号且$|y|\geq1$,说明间隔已足够大,因此 $l(y)=0$若$t,y$同号但$|y|<1$或$t,y$异号,则$l(y)$的值随$y$线性增大
HingeEmbedd ...
HRED for Dialogue System
相关论文:
A Hierarchical Recurrent Encoder-Decoder for Generative Context-Aware Query Suggestion
首次提出HRED,用于Web Query Suggestion
Building End-to-End Dialogue Systems Using Generative Hierarchical Neural Network Models
将HRED引入Dialogue Syetem领域,建立端到端模型
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues
VHRED,使用VAE思想,利用隐变量传递高层次信息,增强生成多样性
Modeling Semantic Relationship in Multi-turn Conversations with Hierarchical Latent Variables
CSRR,与VHRED类似,使用VAE用一个隐变量概括discourse-level ...
DDPM论文浅析
论文链接:Denoising Diffusion Probabilistic Models
这篇论文的贡献主要有两个
证明扩散模型确实有能力生成高质量样本
证明扩散模型的一种特定参数化方法与降噪分数匹配(denoising score matching)等价
一些主要前置知识:
变分推理(Variational Inference)
扩散模型:Deep Unsupervised Learning using Nonequilibrium Thermodynamics
Score Matching:Estimation of Non-Normalized Statistical Models by Score Matching
Score-based Generative Model:Generative Modeling by Estimating Gradients of the Data Distribution
另一篇非常好的参考博客:https://aman.ai/primers/ai/diffusion-models/
Diffusion Model设$\mathbf{x ...
Score Matching论文解读
论文链接:Estimation of Non-Normalized Statistical Models by Score Matching
论文的思路很清晰流畅,这里基本只是翻译了一遍
Introduction在很多情况下,机器学习的概率模型都是以非归一化的形式给出的,即未知的归一化常量难以计算
假设随机变量$x\in R^n$的概率密度函数为$p_x(\cdot)$,且我们有参数化的概率模型$p(\cdot;\theta)$,我们希望通过样本$X$对$\theta$进行参数估计,并使用$p(\cdot;\hat{\theta})$来近似$p_x(\cdot)$
我们关注的问题是,模型只能以给出$p(\cdot;\theta)$的非归一化形式
p(\boldsymbol{\xi} ; \boldsymbol{\theta})=\frac{1}{Z(\boldsymbol{\theta})} q(\boldsymbol{\xi} ; \boldsymbol{\theta})即我们只知道$q$的解析表示,而归一化常数$Z(\theta)$难以通过其积分定义式解析计算,高维情况下甚至数值 ...
VQ-VAE论文解读
论文链接:Neural Discrete Representation Learning
在表示学习(representation learning)中,先前的研究主要关注连续特征
实际上离散表示也与许多模态自然相符,例如语言的离散性就是固有的,语音可以表示为符号序列,图像可以用语言表述
该论文研究了如何将VAE与离散表示结合,称为VQ-VAE (Vector Quantization VAE)
实验中VQ-VAE达到了和连续变量模型相近的压缩效率,并且在图像、音频、视频应用上都展现出了非常好的效果
离散隐变量首先VAE包含如下几个部分:输入数据$x$,随机隐变量$z$,先验分布$p(z)$,由encoder参数化的后验$q(z|x)$,由decoder建模的$p(x|z)$
VQ-VAE中,我们定义隐嵌入空间为$e\in R^{K\times D}$,其中$K$表示离散隐空间大小,即$K$路标签;$D$是每个隐嵌入向量$e_i$的维度,也即有$K$个嵌入向量 $e_i\in R^D,\ i\in 1,2,…,K$
这里为简便考虑设$z$是一个单独的随机变量,对于图像、音频等应用,$z ...
CLIP论文解读
论文链接:Learning Transferable Visual Models From Natural Language Supervision
引言近年来一系列直接利用raw text进行预训练的模型为NLP领域带来了革命性发展
这些预训练模型的成功表明,对于预训练模型来说,利用整个web尺度收集的文本进行聚合监督(aggregate supervision)的效果已经超过了使用众包标注的高质量数据集进行训练的效果
the aggregate supervision accessible to modern pre-training methods within web-scale collections of text surpasses that of high-quality crowd-labeled NLP datasets
然而在CV领域,使用众包标注的数据集(例如ImageNet)进行预训练仍然是标准做法
我们自然会思考,直接使用web收集的大尺度文本集能否为CV带来同样的突破
对于从文本中学习图像表达(image representation)的问题,先前的研 ...
SimCLR论文解读
论文链接:A Simple Framework for Contrastive Learning of Visual Representations
在对视觉表达(visual representation)的无监督学习问题的研究中,基于对比学习的方法逐渐展现出巨大的潜力
该论文为视觉表达学习引入了一个简单的对比学习框架,即SimCLR(a simple framework for contrastive learning of visual representations)
对比学习框架如图所示为SimCLR的基本框架,包括如下几个主要部分
随机数据增强模块:将样本$x$随机转换为$x$的两个相关视图(correlated view),记为$\widetilde{x_i},\widetilde{x_j}$,表示一个正对(positive pair),其中增强操作包括随机裁剪、随机颜色失真(color distortion)、随机高斯模糊,这里color distortion包括了color jittering和color drop
编码器$f(\cdot)$:用于从增强后的样本中抽 ...
ViT——Vision Transformer论文解读
论文地址:An Image is Worth 16X16 Words-Transformers for Image Recognition at Scale
Introduction基于self-attention的Transformer系模型已经逐渐成为NLP领域的首选
其主要方法是在大语料库上进行预训练并在特定任务的小数据集上进行微调
得益于Transformer的高效性和可扩展性,前所未有的大模型训练成为可能,并且仍没有饱和的迹象
在CV领域,一些研究受到Transformer的启发而尝试将self-attention与CNN结合或完全移除CNN,但这些研究使用的特制的attention模式导致其不能有效利用硬件加速器
因此,在大尺度图像识别中,传统的类ResNet模型仍是state of the art
综上所述,这篇论文的目的就是对标准Transformer能否直接应用于图像进行试验,称为Vision Transformer, ViT
具体来说,论文中直接将图片分为多个patch,并将这些patch的embedding序列直接作为ViT输入,也即直接将图像patch当作NLP ...