最尤推定(MLE)の原理と実装:統計モデルにおけるパラメータ推定の核心
本記事は、機械学習や統計モデルにおいて、未知のパラメータを観測データから推定するための基本的な手法である「最尤推定(Maximum Likelihood Estimation, MLE)」について詳細に解説している。MLEとは、「観測されたデータが得られる確率(尤度)を最大にするようなパラメータ値を選ぶ」という原理に基づいている。
まず、統計モデルのパラメータ $ heta$ を推定する際、独立な $n$ 個の観測値 $x_1, ext{...}, x_n$ が与えられた場合、その尤度関数 $L( heta)$ はこれらの確率密度関数の積として定義される。計算上の都合から、通常は対数尤度 $ ext{log} L( heta) = ext{log} ext{L}( heta)$ を用い、これを最大化するパラメータを最尤推定量 $\hat{ heta}_{ ext{MLE}}$ とする。
具体的な例として、正規分布 $N(ar{X}, S^2)$ の場合、対数尤度を$ar{X}$と$S^2$で偏微分しゼロとおくことで、パラメータの最尤推定量が標本平均 $\hat{\mu}_{ ext{MLE}} = \bar{X}$ および $n$ で割った偏差平方和 $\hat{\sigma}^2_{ ext{MLE}}$ であることを導出している。また、ポアソン分布やベルヌーイ分布といった他の離散分布においても、最尤推定量が標本平均や標本割合に一致することが示されている。
さらに、解析解が存在しない複雑な分布(例:ガンマ分布)の場合には、`scipy.optimize.minimize`などの数値最適化手法を用いて対数尤度を最大化する必要がある。MLEの性質として、「一致性」($n o ext{無限大}$で真の値に収束する)や「漸近有効性」(最も分散が小さい)といった重要な特性を持つことが説明されている。
最後に、推定量の性能評価指標としてフィッシャー情報量(Fisher Information)とクラメール・ラオの下限(CRLB)が紹介され、データ数が増えるほど推定精度が向上することが理論的に裏付けられている。また、MLEは事前分布を使用しない点に注目し、ベイズ推定との違いや、MAP推定値がL2正則化として解釈できる関係性も解説されている。
背景
最尤推定(MLE)は、統計学および機械学習における最も基本的なパラメータ推定手法の一つです。観測データからモデルの未知の係数や分散などのパラメータを導出する際に不可欠であり、線形回帰やロジスティック回帰など、多くの実用的なモデルの根幹原理となっています。
重要用語解説
- 最尤推定(MLE): 統計的推論手法の一つ。観測データが得られる確率(尤度)を最大化するパラメータ値を求める方法。機械学習モデルの訓練に広く用いられる。
- 対数尤度(Log-Likelihood): 尤度関数を自然対数をとったもの。積の計算を和の計算に変換し、最適化問題を扱いやすくするために使用される。
- フィッシャー情報量: 統計的推定量の分散の下限を設定する指標。この値が大きいほど、データからパラメータをより正確に推定できることを示す。
今後の影響
MLEは単なる理論的な手法にとどまらず、実務におけるモデル構築の基礎となる。本知識を習得することで、様々な統計モデル(回帰分析、混合分布など)において、なぜそのパラメータ値が最適であるのかという根拠に基づいたデータ解析が可能となり、より信頼性の高い予測や意思決定に貢献する。