论文链接:Estimation of Non-Normalized Statistical Models by Score Matching

论文的思路很清晰流畅,这里基本只是翻译了一遍

Introduction

在很多情况下,机器学习的概率模型都是以非归一化的形式给出的,即未知的归一化常量难以计算

假设随机变量$x\in R^n$的概率密度函数为$p_x(\cdot)$,且我们有参数化的概率模型$p(\cdot;\theta)$,我们希望通过样本$X$对$\theta$进行参数估计,并使用$p(\cdot;\hat{\theta})$来近似$p_x(\cdot)$

我们关注的问题是,模型只能以给出$p(\cdot;\theta)$的非归一化形式

即我们只知道$q$的解析表示,而归一化常数$Z(\theta)$难以通过其积分定义式解析计算,高维情况下甚至数值计算也不可行

通常非归一化模型的估计只能使用较慢的MCMC或一些不太精确的近似方法

因此该论文提出了一种称为Score Matching的简单方法对非归一化模型进行估计

Estimation by Score Matching

我们将数据的对数概率密度的梯度(the gradient of the log-density with respect to the data vector)称为Score Function,并记为$\boldsymbol{\psi}(\boldsymbol{\xi} ; \boldsymbol{\theta})$,即

类似的,记$\boldsymbol{\psi}{\mathbf{x}}(\cdot)=\nabla{\boldsymbol{\xi}} \log p_{\mathbf{x}}(\cdot)$表示观测数据$x$的分布的score function

模型的估计通过最小化model score function $\boldsymbol{\psi}(\cdot;\boldsymbol{\theta})$ 和data score function $\boldsymbol{\psi}_X(\cdot;\boldsymbol{\theta})$之间的期望平方距离实现,其中平方距离定义为

由此,参数$\theta$的Score Matching估计由下式给出

此时的Score Matching估计仍然是难以进行的,因为我们需要使用观测样本对data score function $\boldsymbol{\psi}_{\mathbf{x}}$ 进行估计,这是一个比较困难的非参数估计问题,我们引入一个定理来避开这个问题

定理1:假设model score function $\boldsymbol{\psi}(\cdot;\boldsymbol{\theta})$ 可微,且满足一些弱正则条件(见论文脚注),则$J$可表示为

其中常数$C$不依赖于$\theta$,

是model score function的第$i$个元素,且

是其相对于第$i$个变量的偏微分

该定理的证明在论文附录中给出

实际应用中,假设有$T$个随机变量$x$的观测样本,记为$x(1),…,x(T)$,则根据该定理的结果可得$J$的采样版本

根据大数定律,$\tilde{J}(\boldsymbol{\theta})$渐进等价于$J(\boldsymbol{\theta})$

现在我们来考虑Score Matching Emstimator的合理性

如果两个不同的 $\theta$ 值会导出相同的的PDF,则称该模型是退化的,此时显然无法估计$\theta$

我们假设模型不是退化的,且总有$q>0$,则如下定理表明Score Matching Emstimator具有局部一致性

定理2:假设对于某些$\theta^$,$x$的PDF满足$p_x(\cdot)=p(\cdot;\theta^)$,且没有其他参数值可以导出与$p(\cdot;\theta^*)$相同的概率密度函数,且对于所有$\xi,\theta$都有$q(\xi;\theta)>0$,则

该定理的证明在论文附录中给出

推论3:基于前述定理,通过最小化$\tilde{J}$得到的Score Matching估计是一致的,即假设算法能找到全局最小值,且当样本数趋于无穷时,其在概率上收敛于$\theta$的真实值

这个推论得到的一致性假设$\tilde{J}$的全局最小值可以被优化算法找到,但实际中常常可能含有多个局部的极小值,因此Score Matching估计的一致性是局部的

多元高斯密度估计

多元高斯分布的PDF为

其中$M=\Sigma^{-1}$是协方差矩阵的逆,为对称正定矩阵,$x$为$n$维向量,我们有

以及

因此可得

首先对$\mu$进行微分

显然$\mu$为样本均值时该式为0,即

再对$M$进行微分

当且仅当$M$为样本协方差矩阵的逆时该式为0,即

可以发现Score Matching估计的结果与极大似然估计是一致的

后面还有一些其他分布的例子,不一一说明了