【第二讲最大似然估计】在统计学中,参数估计是一个非常重要的问题。当我们面对一组数据时,往往希望从中推断出其背后的分布规律,或者确定某个模型的参数值。最大似然估计(Maximum Likelihood Estimation, MLE)是其中一种广泛应用的方法,它基于“最可能产生当前观测数据的参数值”这一思想来寻找最优的参数估计。
一、什么是最大似然估计?
最大似然估计的基本思想是:给定一个概率模型和一组观测数据,我们希望通过调整模型中的参数,使得这些数据出现的概率最大化。换句话说,我们希望找到那个最“合理”的参数值,使得在该参数下,我们观察到当前数据的可能性最高。
举个简单的例子,假设我们有一枚硬币,不知道它是公平的还是有偏的。我们通过多次抛掷硬币,记录正面和反面的次数。那么,我们可以用最大似然估计来判断这枚硬币的“正面概率”是多少。
二、最大似然估计的数学表达
设我们有一个随机变量 $ X $,其概率密度函数(或概率质量函数)为 $ f(x|\theta) $,其中 $ \theta $ 是未知的参数。我们从该分布中独立地抽取了 $ n $ 个样本 $ x_1, x_2, \dots, x_n $。
则这组样本的联合概率可以表示为:
$$
L(\theta) = f(x_1, x_2, \dots, x_n | \theta) = \prod_{i=1}^n f(x_i | \theta)
$$
这个函数称为似然函数,它表示在参数 $ \theta $ 下,观察到当前样本的概率。
为了方便计算,通常会对似然函数取自然对数,得到对数似然函数:
$$
\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i | \theta)
$$
然后,我们通过对数似然函数求导,并令导数等于零,解得使似然函数最大的参数值,即为最大似然估计值。
三、最大似然估计的性质
1. 一致性:当样本数量趋于无穷时,最大似然估计会收敛于真实参数值。
2. 渐近正态性:在一定条件下,MLE 的分布可以近似为正态分布。
3. 不变性:如果 $ \hat{\theta} $ 是 $ \theta $ 的最大似然估计,则对于任意可逆函数 $ g(\theta) $,$ g(\hat{\theta}) $ 是 $ g(\theta) $ 的最大似然估计。
四、最大似然估计的应用
最大似然估计广泛应用于各种统计建模中,例如:
- 正态分布的均值和方差估计
- 二项分布中成功概率的估计
- 线性回归模型的参数估计
- 隐马尔可夫模型(HMM)中的参数学习
- 贝叶斯网络的参数估计
在实际应用中,由于似然函数可能复杂,直接求解可能困难,因此常采用数值优化方法(如梯度下降、牛顿法等)来寻找最大似然估计值。
五、总结
最大似然估计是一种基于概率理论的参数估计方法,它通过最大化似然函数来寻找最可能解释观测数据的参数值。虽然它在理论上具有良好的性质,但在实际应用中也需要注意模型的设定是否合理、是否存在多重解等问题。
通过掌握最大似然估计的基本原理和应用方法,可以为我们进行更深入的统计分析和机器学习建模打下坚实的基础。