*『音声認識システム』p26,28

事像$X_i$の確率 $p_i^{ML}$と$p_i^{TP}$

キーワード

  • 最尤推定 Maximum Likelihood Estimation(ML)
  • 全確率定理 Total Probability Theorem(TP)

複数系列Ok(1<=k<=K)が確率的に与えられており、その観測確率がp(Ok)で与えられている場合、事像Xiの生起回数niで、その期待値は:

但し,$n_i^{(k)}$は事像k番目の系列において、事像Xiの生起回数である。この時、最尤パラメータは

により求めることができる。しかしp(Ok)が既知で、且つ全事像のniが全ての系列に於いて数えられる場合、全確率の定理によって

$p_i$が簡単に求まるのでは?ここで$p_i^{ML}$と$p_i^{TP}$はどんな関連があるのだろう???


$p_i^{ML}\quad vs \quad p_i^{TP}$

A,B,C三種類の系列がある。

  • A 長さ:300, 個数3
150 60 90
150 60 90
150 60 90
  • B 長さ:600,個数9
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
300 240 60
  • C 長さ500, 個数:4
250 100 150
250 100 150
250 100 150
250 100 150

最尤パラメータ推定

  • 平均系列 長さ= 259.375 + 171.25 + 88.125 = 518.7
259.375 171.25 88.125

全確率の定理

  G Y R
p(A) = 3/16 p(G|A) = 150/300 p(Y|A) = 60/300 p(R|A) = 90/300
p(B) = 9/16 p(G|B) = 300/600 p(Y|B) = 240/600 p(R|B) = 60/600
p(C) = 4/16 p(G|C) = 250/500 p(Y|C) = 100/500 p(R|C) = 150/500

$p(G)$
$= p(A) × p(G|A) + p(B) × p(G|B) + p(C) × p(G|C)$
$= 3/16 × 150/300 + 9/16 × 300/600 + 4/16 × 250/500$
$= 0.5$

$p(Y)$
$= p(A) × p(Y|A) + p(B) × p(Y|B) + p(C) × p(Y|C)$
$= 3/16 × 60/300 + 9/16 × 240/600 + 4/16 × 100/500$
$= 0.3125$

$p(R)$
$= p(A) × p(R|A) + p(B) × p(R|B) + p(C) × p(R|C)$
$= 3/16 × 90/300 + 9/16 × 60/600 + 4/16 × 150/500$
$= 0.1875$

比較

全確率の公式で求まるのに、なぜ最尤パラメータ推定なんかをする必要が生じるのだろう?全確率公式が適用せず、最尤パラメータ推定をしなければならない場合は今一思いつかない。

最尤推定は、その名の通り尤度を最大にする事が目的である。しかし、本当に尤度が最大になったのか? 尤度を比べてみる:

$L_{最尤推定}< L_{完全確率}$ 結果として最尤推定が負けた。

どうして??