参数估计简介

贝叶斯分类器 中我们提到,对于类条件概率$P(x|c)$,可以通过假设其服从某一分布来计算该概率

例如,假设$P(x|c)\sim N(\mu_c,\Sigma_c)$,则只要知道了参数$\mu_c,\Sigma_c$的值,$P(x|c)$的值也就确定了

因此,参数估计的目标就是根据训练样本来尽可能正确的估计已假设的概率分布的参数 $\theta$

注意参数估计是先假设概率密度函数,再根据样本估计参数,与之相对的概念称为非参数估计,非参数估计不对分布函数做任何假设,而是直接根据样本估计各区域概率密度,对非参数估计此处不展开说明

极大似然估计贝叶斯估计是参数估计中两种最常用的方法,他们分别来自频率主义学派贝叶斯学派

频率主义学派认为待估计的参数虽然未知,但却是客观存在的固定值,因此最佳估计值就是使得产生已有样本(训练集)的概率最大的那个值

而贝叶斯学派则认为待估计的参数是符合某种先验概率分布的随机变量,他们先假设参数服从一个已知的先验分布,再根据已有样本计算参数的后验分布来修正假设

极大似然估计

原理

假设已知数据集D,其中每一个样本$x$都是根据已知形式的概率密度函数$p(x|\theta)$独立抽取的,则有

其中$L(\theta)$称为似然函数,参数$\theta$的极大似然估计值,就是使$p(D|\theta)$最大的参数值 $\hat{\theta}=\text{argmax}_{\theta}L(\theta)$

通俗的说,即找到能使数据集$D$中样本出现的概率最大的参数$\hat{\theta}$,这就是极大似然的含义

由于连乘操作可能造成下溢,同时为了方便计算,一般会使用对数似然

显然对数似然仍然具有单调性,并不影响上面的结论

由于数据集D已知,此时 $\ln L(\theta)$ 可以看作 $\theta$ 的函数,我们可以直接利用微积分的知识对其求极值,即

正态分布的极大似然估计

假设数据集D中样本服从一维正态分布$N(\mu,\sigma^2)$,其中$\mu,\sigma^2$未知,此时有概率密度函数

则似然函数为

对$\mu,\sigma^2$分别求极值

对于多维正态分布,不难拓展出如下结果

贝叶斯估计

同样假设数据集D中每一个样本$x$都是根据已知形式的概率密度函数$p(x|\theta)$独立抽取的

假设$\theta$服从一个已知的先验分布$p(\theta)$,我们可以根据贝叶斯公式用数据集$D$估计$\theta$的后验分布

有了$\theta$的后验分布,就可以按如下方式计算类条件概率$p(x|D)$

正态分布的贝叶斯估计

假设数据集D中样本服从一维正态分布$N(\mu,\sigma^2)$,其中$\mu$未知,$\sigma^2$已知,即$p(x|\mu)\sim N(\mu,\sigma^2)$

假设参数$\mu$的先验满足$p(\mu)\sim N(\mu_0,\sigma_0^2)$,其中$\mu_0,\sigma_0^2$均已知,则根据上述公式可得参数$\mu$的后验概率密度

其中

推导结果表明$\mu$的后验仍然服从正态分布,即$p(\mu|D)\sim N(\mu_n,\sigma_n)$

有了$\mu$的后验,可以继续根据上述公式求得类条件概率$p(x|D)$

其中

不难发现$p(x|D)\propto \exp\left(\frac{(x-\mu_n)^2}{2(\sigma^2+\sigma^2_n)}\right)$,即$p(x|D)$仍服从正态分布,有$p(x|D)\sim N(\mu_n,\sigma^2+\sigma_n^2)$

当样本数量无限时,此时极大似然估计与贝叶斯估计的结果是一致的,即有

极大似然估计与贝叶斯估计的比较

对于先验概率能保证问题有解的情况下,极大似然估计和贝叶斯估计在样本趋于无限时效果是一样的

然而实际中样本数量肯定是有限的,这时就需要以一些标准来选择两种方法了

最直观的标准就是计算复杂性,显然贝叶斯估计涉及更多复杂的积分,在这个标准下极大似然就是更好的选择

另一个比较值得关注的标准是对先验知识的信任程度,比如$p(x|\theta)$的形式

极大似然估计得到的结果与假设的$p(x|\theta)$形式是一致的,而贝叶斯估计不一定
因为极大似然时基于样本对假设形式给出最佳解答,而贝叶斯则类似于对许多可行解答的加权平均
因此如果样本信息足够可靠,我们有理由认为贝叶斯估计得到的结果更加准确

考虑这样一种情况,假设样本取样均匀,贝叶斯估计结果$p(\theta|D)$在$\hat{\theta}$附近有波峰但明显不对称
这种不对称显然是分布本身的特性,但极大似然估计却会忽略这一点

然而贝叶斯估计的结果显然还十分依赖于先验$p(\theta)$的选择,且目前并没有一些确定的方法来选择合适的$p(\theta)$

综上所述,贝叶斯估计有更强的理论基础,但实际应用中极大似然由于设计和实现更加简便,所以应用更广泛