再谈极大似然估计求解


首先我们思考这样一个问题:

当我们用最大似然估计进行概率模型参数估计时,为什么基本都是直接求导,一阶导数等于0的点就是我们待求的最优估计?

问到这个地方的时候,可能有一部分人就不知该如何回答了,因为一阶导数为0显然不是函数最大值点的充要条件,但我相信肯定有的答案是:

因为碰到的对数似然函数是一个凹函数形式,这样一阶导数为0的点就与函数最大值点互为充要条件了

这个答案是正确的,但是不够严谨,我相信基本没人会在应用最大似然进行参数估计时首先进行对数似然函数的凸性判定,这篇文章主要就是想通过严谨的数学推导来说明一类概率密度函数的对数似然函数是凹函数,可以直接利用求导等于0这种简单直接的方法寻找最优估计,而若碰到不属于这一类的概率密度函数,则在使用最大似然估计时还是先判断对数似然函数凹凸性为妙,本篇文章按照以下结构组织:

  • 指数分布族
  • 指数族函数举例
  • 对数似然函数凹凸性证明
  • 总结 

    指数分布族

    首先给出指数分布族的定义:

    指数分布族是一类概率分布的总称,这类分布的概率密度函数具有这样的形式:

    式中,$x$是密度函数自变量,$x \in \mathcal{X}$;$\phi(x)$是充分统计量,可以看做是原始变量的一个映射:

    $\theta$是模型参数向量,与充分统计量维度相同,$h(x)$是一个只与$x$有关的统计量,$A(\theta)$为配分函数,通过该函数来保证$p_\theta(x)$满足概率密度函数的定义:

    由此约束条件,我们可以得到$A(\theta)$的解析表达式:

指数分布族函数举例

首先给出结论,按照笔者调研,属于指数分布族的分布有:

  • 正态分布$N(\mu,\sigma^2)$
  • 伯努利分布(两点分布)$B(1,\pi)$
  • 二项分布$B(n,\pi)$
  • 泊松分布$P(\lambda)$
  • 伽马分布$G(\mu,v)$
  • …….

下面就将其中几个分布化成指数分布族的标准形式

伯努利分布

对于伯努利分布,我们有$\mathcal{X} = { 0,1 }$,模型参数为$P(x = 1) = \pi,P(x = -1) = 1 - \pi$,因此我们有:

因此令$\theta = \log \frac{\pi}{1 - \pi}$, 则$P(X = x)$可以写做:

因此对于伯努利分布$h(x) = 1,\phi(x) = x, \theta = log \frac{\pi}{1-\pi}, A(\theta) = log(1 + e^\theta)$

泊松分布

首先给出泊松分布的形式:

下面将其转化成指数分布族标准形式:

因此,对于泊松分布,$h(x) = \frac{1}{x!}, \theta = \log \lambda,\phi(x) = x,A(\theta) = e^\theta$

高斯分布

高斯分布的概率密度函数形式如下:

下面将其转化成指数分布族标准形式:

因此,对于高斯分布:

对数似然函数凹凸性证明

我们关心的是最终对数似然函数的凹凸性,因为最终的对数似然函数是各个样本的概率密度函数取对数后累加的形式,由保凸运算可知,若单个对数概率密度函数的凹凸性可以确定,那么最终对数似然函数的凹凸性也就确定了。对于指数族分布,单个样本的概率密度函数取对数如下:

第一项与$\theta$无关,第二项为$\theta$的线性组合,不影响函数的凹凸性,所以整个函数的凹凸性是由第三项来确定,对于外层函数是对数函数的对数函数$\log f(x)$而言:

由对数函数性质有$f(x) > 0$,因此,若$f(x)$是凹函数,即$f^{‘’}(x) \leq 0$,则可推出$(\log f(x))^{‘’} \leq 0$,即$\log f(x)$为凹函数,若$f(x)$为凸函数则不能有直接的结论,因此我们的重点放在讨论$A(\theta)$的凹凸性上。

下面证明$A(\theta)$为凸函数,从定义出发证明,记$\theta_{\lambda} = \lambda \theta_1 + (1 - \lambda) \theta_2$,其中$\theta_1,\theta_2 \in dom f, \lambda \in [0,1]$,由Hölder不等式,可知:

从凸函数定义可知,$A(\theta)$为凸函数,至此我们便得到了对数似然函数的凹凸性:

总结

从前面列出的指数分布族所包含的分布来看,我们日常所碰到的绝大多数概率分布都属于指数族分布,是可以直接通过求导等于0这种方法来得到参数估计,而对于不属于指数分布族的分布,则是有必要对对数似然函数进行分析,而不能直接通过求导来解最优参数估计值。

参考

本文内容主要参考以下链接:
[1] 为什么极大似然估计求导为 0 就是要求的值呢?
[2] 指数分布族函数


文章作者: 思考猫
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 思考猫 !
评论
 上一篇
近邻法 近邻法
这一部分介绍一下$k$近邻算法,该算法于1968年由Cover和Hart提出,$k$近邻法是一种基本分类与回归方法,本文结构如下: $k$近邻算法 压缩近邻法 $k$近邻实现:$kd$树
2020-08-25
下一篇 
logistic回归与最大熵模型 logistic回归与最大熵模型
在学习李航老师《统计学习》条件随机场章节时,对于学习算法感到有些陌生,后来发现在书中第六章“logistic回归与最大熵模型”有过一些介绍,因此本章节便总结一下相关知识,其中logistic回归模型做简要介绍,重点放在最大熵模型的学习算法上
2020-08-23
  目录